AI真正的瓶颈不是智能，而是协同

总结过去十八个月企业AI发展的一种有用方式是：那个核心问题悄悄变了。在2024年末，大多数企业问的是*这个模型能做到这件事吗？到2026年中，问题变成了我们的组织能不能安全地把模型能做的事，转化为实际的工作？*这两个问题听起来很像，但其实完全不同。

第一个问题是能力问题，可以靠一份基准测试来回答。第二个问题是组织问题，只能靠一个缓慢的过程来回答：谁拥有产出、谁来审核、出错时谁负责、它如何融入现有工作流、谁能访问相关数据、审计轨迹是什么样的，以及那些工作受到影响的人，实际上是怎么看待它的存在的。企业未能捕获的大部分AI价值，都藏在第二个问题里。未来五年里真正重要的大部分咨询工作，也藏在这里。

这是本系列的第三篇，值得做一次小结。第一篇拆解了咨询业历史上真正出售的东西——分析型劳动力、模糊性转化、机构记忆、高级信誉——并论证了AI正在压缩处于中间的转化层。第二篇论证了那些反应得当的公司，正在把这套打包重新包装为”结果担保”而非”按劳计费”。这一篇要提出一个更深的主张：最好的顾问一直卖的其实是协同，而那个”打包”只是协同的一种分发机制。AI并不会消灭咨询业，它只是剥掉了这层分发包装，从而暴露出一个问题：你究竟一直从事的是协同业务，还是仅仅是产出物业务。

瓶颈已经转移

2026年最有共鸣的一个框架，来自Hebbia的George Sivulka，他在2026年3月的一篇文章中论证了他所说的机构型AI，而非个人型AI。Sivulka的类比是：在1890年代，电力曾承诺带来巨大的生产力提升，但接下来三十年里，已经电气化的工厂产出几乎没有增长。正如他所说：“技术远远更先进了，但组织没有。“今天的AI正处于同样的位置。在合适的条件下，个体知识工作者的生产力会大幅提升。但他们周围的”工厂”——会议、交接、文档库、审批链、部门内部的经验知识——并没有改变。生产力的提升，在每一个交接点上都被泄漏掉了。

Sierra的负责人、OpenAI董事会主席Bret Taylor，用康威定律（Conway’s Law）的形式表达了同样的观点：大公司难以采用AI，是因为”他们部署的是自己的组织架构图”。更值得细想的，是他在2025年11月Stripe的播客Cheeky Pint上补充的一句话：“AI生产力的最小单元是一个流程，而不是一个人。“这一句话重新定义了目前市面上大多数企业AI路线图。如果生产力的单元是流程，那么个体层面的部署——给每个分析师配一个Copilot，给每个律师配一个Harvey——只能捕获可获取价值的一小部分。剩下的部分，存在于流程之间的接缝里，而这正是协同发生的地方。2026年有不少创始人表达过类似观点的变体——Highlight的Sergei Sorokin、Glean的Arvind Jain等——他们的具体论证不完全相同，但都指向同一个观察：智能的供给，已经超出了组织对其进行生产性消化的能力。

在AI与数据咨询项目里，这件事在实践中的样子是：客户启动了一个生成式AI项目，部署了模型，看到个别员工在某些任务上确实变快了，但六个月后却发现，公司整体层面的指标没有变化。周期时长差不多，人员规模差不多，决策耗时也差不多。生产力提升确实存在于某个地方，员工自己也能感觉到，但它没有汇总到利润表上。这就是”协同税”在起作用，也正是MIT NANDA报告那个广为流传的发现所描述的具体现象：大约95%的企业AI项目没有产生可衡量的利润影响。

“95%“这个发现到底意味着什么

95%这个数字被广泛引用，但也被轻微误解了。它不代表95%的AI部署在技术上是失败的，技术本身大体上是有效的。这个数字真正显示的是：95%的部署没有以一种能体现在财务报表上的方式改变业务。这是两个不同的问题，需要不同的解法。

技术层面的失败，一旦发生，可以靠更好的模型、更好的评估体系、更好的数据基础设施、更好的提示词来解决。前沿实验室有充分的动力去修复这些问题，而且大体上会做到。但95%的问题是另一种形状的问题。它关乎的是：当能力落地到一个组织中，而这个组织在运营方式上什么都没改变时，会发生什么。模型被使用了，个人受益了，但组织没有。

大多数经济学家会援引的历史类比是电气化，Sivulka在上述文章中也对此做了详细展开。当工厂把蒸汽机换成电动机时，生产力并没有立刻提升。二十年后，当工厂围绕”电动机不再需要靠近中央动力源”这一新事实重新设计车间布局时，生产力才真正提升。换电机是容易的部分，重新设计车间才是困难的部分。AI目前正处在”换电机”阶段。而”重新设计车间”这件事，大多数企业还没有开始做。

这一点对咨询业很重要，因为”重新设计车间”——运营模式变革、角色重设计、治理、评估体系、变革管理——恰恰是咨询业历来擅长、而软件公司历来不擅长的事。能想清楚这一点的公司，机会很大。而想不清楚的公司面临的风险是：它们会被困在向一个已经明白”部署不是瓶颈”的市场，继续销售AI部署服务。

多智能体系统：一场被简化的争论

一个值得特别指出的技术风潮是多智能体架构：其理念是，复杂的AI工作应该由多个分工明确的智能体协同完成（一个研究智能体、一个写作智能体、一个审核智能体，等等），而不是由一个配备良好工具的单一智能体来完成。这已经成为许多咨询和企业销售方案中的默认架构。但它并不是从业者之间的共识。

这场最初的争论由两个参照点构成。Anthropic在2025年6月的一篇工程博客中报告称，一个以Claude Opus 4为主导、Claude Sonnet 4为子智能体的多智能体系统，在其内部研究评估中比单一的Claude Opus 4智能体高出90.2%。但token成本约为单次对话的15倍（是单一智能体成本的4倍），只有当任务价值足够高时，这笔花费才值得。几天前，Cognition Labs（Devin背后的团队）发表了《不要构建多智能体》（Don’t Build Multi-Agents），观点正好相反：对几乎所有的生产场景而言，一个上下文充分、装备良好的单一智能体，比一个被编排起来的”智能体集群”更可靠、更便宜、也更容易调试。

有意思的转折发生在2026年4月，Cognition自己发表了一篇后续文章《多智能体：到底什么真的有效》（Multi-Agents: What’s Actually Working），软化了此前的立场。Cognition现在写道：“我们已经开始部署在实践中真正有效的多智能体系统”，但仅限于”一类范围更窄的模式：多个智能体为一项任务贡献智能，但写入操作保持单线程”。这是一个有意义的修正。“多智能体读取、单线程写入”和”让智能体们自行协作”是完全不同的架构；它更接近一个受控的审核流水线，而不是一个智能体集群。

把2026年的证据综合起来看，结论不是”多智能体不行”，而是”朴素的多智能体方案昂贵且脆弱；范围界定清晰、写入边界明确的多智能体方案是有效的”。作为最具代表性的开源智能体框架，LangChain已经明显从对多智能体的热情中退出，转向其创始人Harrison Chase所称的”上下文工程”。这种方法的要义，是给单一智能体提供恰当的信息、工具和脚手架，而不是把工作拆分给多个智能体。Bret Taylor也公开表示，他对最初的多智能体构想变得更加怀疑。Lindy的Flo Crivello坦言，公司的第一个版本高估了智能体的自主能力，此后已经围绕”确定性脚手架，真正能强制智能体走完一组确定的步骤”重新构建。风险投资人Tomasz Tunguz在自己掌握的14个生产环境智能体工作流样本中发现，65%的节点现在由非AI代码运行。这是一个来自单一机构的小样本，但方向上颇具启示。

这场争论对咨询业的启示并不浪漫，但很重要。大多数企业AI项目并不需要多智能体编排。它们需要的是一个范围界定清晰的单一智能体，能干净地访问正确的数据，配有审慎的评估机制，对那些不应交给模型决定的部分有确定性的护栏，并在关键节点设有清晰的人工审核点。那些用精美的多智能体架构图来兜售”智能体化AI转型”的公司，大多在销售一种尚未真正像宣传那样运作的架构。而那些真正在做有用的企业AI工作的公司，大多在构建经过精心调校、拥有良好上下文的单一智能体。搞清楚自己买的是哪一种，是2026年CIO们最应该问的问题之一。

AI审查AI：哪里有效，哪里没用

对智能体热情的一个自然延伸，是”AI审查AI”的想法：用一个模型去检查另一个模型的产出，希望借此在不需要人工审核的情况下提升质量。Anthropic于2026年3月9日发布了Claude Code的代码审查功能，正是针对代码做这件事。它公开的一些内部数据异常具体：上线前，Anthropic只有16%的拉取请求（pull request）会收到实质性的审查意见；上线后，这一比例升至54%。在改动超过1000行的大型拉取请求中，现在84%会被发现问题，平均每个PR有7.5个问题。Anthropic的产品负责人估算，每条审查意见平均为公司节省了价值15到25美元的高级工程师时间。这种模式在编程领域有效，是因为代码有廉价的”事实标准”：它要么能运行并通过测试，要么不能，而AI现在已经被证明能够把”第一轮把关”产品化。

但在这个条件之外，这种模式的效果要差得多。对于咨询工作——战略建议、市场分析、客户沟通——几乎不存在廉价的”事实标准”。AI审查者可以检查内部一致性、检索来源是否支持事实性陈述、格式是否合规，以及其他一些表层属性。但它无法判断这份分析是否恰好适合客户的具体情境，无法判断这项建议在董事会上能不能站得住，也无法判断这种表述方式会不会让顾问”丢掉饭碗”。而正如本系列第一篇文章所论证的，这些恰恰是那些把溢价价值集中在一小群高级人士身上的判断。

所以，“AI审查AI”在范围狭窄的领域里是一种有用的技术，但作为对咨询工作整体的描述，是有误导性的。更诚实的版本是：在有”事实标准”的部分，由AI做第一轮审查；在没有的部分，由人来审查。只是这句话，作为幻灯片标题没那么吸引眼球。

把隐性知识编码下来：比看起来更难

企业AI领域一个长期存在的幻想是：可以通过某种机制——微调、评估准则、智能体人设提示词，或其他方式——把一个组织里最资深的从业者的判断力”克隆”到一个系统里，从而得到一个足够接近真人的”数字分身”，把他们的价值规模化复制到整个公司。Sivulka在同一篇文章中，把赋能（enablement）列为机构型AI的第三大支柱：建立能编码高级判断力（即”什么叫做得好”）的评估体系，这本身是一门学科。他更尖锐的观察是：当前面向消费者的AI模型过度倾向于迎合用户，这在组织层面是有毒的。机构型AI必须能挑战假设、揭示风险、坚持标准，“其功能更像审计员，而不是助理”。而这恰恰是优秀公司里资深专家所扮演的角色。能把它编码下来的，不是数据，而是由见过各种”翻车现场”的人，千辛万苦写出来的评估准则。

这里同时存在两个事实。第一个是：这种做法在边界清晰、好坏可以被合理界定的领域里，确实部分有效。由资深专家构建的评估准则，能以低质量训练数据做不到的方式，提高AI产出的下限。LangChain的Harrison Chase提出的Align Evals框架，现在已经是系统性做这件事的一种可行方法论。第二个事实是：一旦这套准则被写出来，资深专家的判断力就已经被部分”提取”出去了。他们不再完全拥有自己曾经赖以获得报酬的那个东西。这是咨询公司内部每一次”让我们把方法论产品化”的讨论中，都存在的一种未解决的张力。

这也是为什么不少做过这类工作的资深人士，最终离开了原公司，去经营一家基于他们自己编码的方法论的产品公司。“写出评估准则的人”这件事，在合伙人制内部和在外部，经济回报是截然不同的。大多数咨询公司还没有公开面对这一点。

对客户而言，更实际的结论是：把高级判断力编码下来，确实是一种真实的杠杆来源，但它是局部的、有损的，并且一旦底层环境发生变化就会过时。针对去年市场状况编写的评估准则，未必适用于今年。花二十年积累的隐性知识，不可能靠六个月的努力被完全编码下来。这个编码项目是值得做的，但要对它能产出什么抱有现实的预期：它是对相关高级人才的有用补充，而不是替代。

咨询业真正的机会

把这些线索综合起来看，未来几年最具防御力的咨询工作，有一个明确的形状。它不是”帮你部署这个模型”。这部分工作正在被模型提供商自己商品化。它是围绕”新电机”重新设计整个工厂的工作——运营模式变革、角色重设计、评估基础设施、治理、变革管理，以及把AI能力小心翼翼地转化为真正不同的组织行为。

这类工作有四个特征。它是长周期的，以季度甚至年为单位，而不是以周为单位。它是政治敏感的，因为它涉及”谁做什么、谁负责”。它是高情境依赖的，依赖于对具体组织的理解，而不只是对技术的理解。它是结果可归因的，因为变革最终会体现在指标里，或者不会。这四个特征恰好是AI最难独自完成、而经验丰富的人类顾问最容易主导的。它们也正是传统管理咨询最初被设计来做的工作，在它逐渐演变为”卖幻灯片”之前一直如此。

因此，“AI正在重塑咨询业”这句话更诚实的版本，并不是”咨询业正在消亡”。而是：咨询业正被给予一次机会，去做它一直宣称自己在做的事——运营模式变革、治理设计、组织行为变革——并且不再需要靠生产一千页幻灯片来作为掩护。这个行业是否会抓住这次机会，仍是一个悬而未决的问题。机会是真实的，瓶颈也是真实的，而那些想清楚如何为”工厂重新设计”提供结果担保、而不是为”电机安装”按工作量收费的公司，将完成这个十年里最有价值的工作。

瓶颈不是智能，而是协同。这是个好消息，因为协同一直就是最优秀的顾问真正在出售的东西。

预测追踪

主张： 到2027年底，最可信的企业AI合作项目，将不再以”部署了多少模型”来衡量，而是以”重新设计了多少流程”来衡量。类似MIT NANDA”95%没有可衡量利润影响”的标志性数字，将跌破70%。

信心水平： 中等。其机制（重新设计工厂，而非安装新电机）已经被普遍理解，供给侧也在形成；障碍在于企业的意愿，以及运营模式变革的速度。

证伪条件： 如果到2028年底，大样本研究仍然显示，产生可衡量利润影响的企业AI项目占比低于10%，那么这篇文章关于”协同是一个在这个时间尺度上可解决的瓶颈”的判断就是错的。