AI真正的瓶颈不是智能,而是协同
企业AI的大部分价值损耗,不是因为模型能力不够,而是因为模型周围的组织没跟上。真正的约束条件是协同,而不是智能。
总结过去十八个月企业AI发展的一种有用方式是:那个核心问题悄悄变了。在2024年末,大多数企业问的是*这个模型能做到这件事吗?到2026年中,问题变成了我们的组织能不能安全地把模型能做的事,转化为实际的工作?*这两个问题听起来很像,但其实完全不同。
第一个问题是能力问题,可以靠一份基准测试来回答。第二个问题是组织问题,只能靠一个缓慢的过程来回答:谁拥有产出、谁来审核、出错时谁负责、它如何融入现有工作流、谁能访问相关数据、审计轨迹是什么样的,以及那些工作受到影响的人,实际上是怎么看待它的存在的。企业未能捕获的大部分AI价值,都藏在第二个问题里。未来五年里真正重要的大部分咨询工作,也藏在这里。
这是本系列的第三篇,值得做一次小结。第一篇拆解了咨询业历史上真正出售的东西——分析型劳动力、模糊性转化、机构记忆、高级信誉——并论证了AI正在压缩处于中间的转化层。第二篇论证了那些反应得当的公司,正在把这套打包重新包装为”结果担保”而非”按劳计费”。这一篇要提出一个更深的主张:最好的顾问一直卖的其实是协同,而那个”打包”只是协同的一种分发机制。AI并不会消灭咨询业,它只是剥掉了这层分发包装,从而暴露出一个问题:你究竟一直从事的是协同业务,还是仅仅是产出物业务。
瓶颈已经转移
2026年最有共鸣的一个框架,来自Hebbia的George Sivulka,他在2026年3月的一篇文章中论证了他所说的机构型AI,而非个人型AI。Sivulka的类比是:在1890年代,电力曾承诺带来巨大的生产力提升,但接下来三十年里,已经电气化的工厂产出几乎没有增长。正如他所说:“技术远远更先进了,但组织没有。“今天的AI正处于同样的位置。在合适的条件下,个体知识工作者的生产力会大幅提升。但他们周围的”工厂”——会议、交接、文档库、审批链、部门内部的经验知识——并没有改变。生产力的提升,在每一个交接点上都被泄漏掉了。
Sierra的负责人、OpenAI董事会主席Bret Taylor,用康威定律(Conway’s Law)的形式表达了同样的观点:大公司难以采用AI,是因为”他们部署的是自己的组织架构图”。更值得细想的,是他在2025年11月Stripe的播客Cheeky Pint上补充的一句话:“AI生产力的最小单元是一个流程,而不是一个人。“这一句话重新定义了目前市面上大多数企业AI路线图。如果生产力的单元是流程,那么个体层面的部署——给每个分析师配一个Copilot,给每个律师配一个Harvey——只能捕获可获取价值的一小部分。剩下的部分,存在于流程之间的接缝里,而这正是协同发生的地方。2026年有不少创始人表达过类似观点的变体——Highlight的Sergei Sorokin、Glean的Arvind Jain等——他们的具体论证不完全相同,但都指向同一个观察:智能的供给,已经超出了组织对其进行生产性消化的能力。
在AI与数据咨询项目里,这件事在实践中的样子是:客户启动了一个生成式AI项目,部署了模型,看到个别员工在某些任务上确实变快了,但六个月后却发现,公司整体层面的指标没有变化。周期时长差不多,人员规模差不多,决策耗时也差不多。生产力提升确实存在于某个地方,员工自己也能感觉到,但它没有汇总到利润表上。这就是”协同税”在起作用,也正是MIT NANDA报告那个广为流传的发现所描述的具体现象:大约95%的企业AI项目没有产生可衡量的利润影响。
“95%“这个发现到底意味着什么
95%这个数字被广泛引用,但也被轻微误解了。它不代表95%的AI部署在技术上是失败的,技术本身大体上是有效的。这个数字真正显示的是:95%的部署没有以一种能体现在财务报表上的方式改变业务。这是两个不同的问题,需要不同的解法。
技术层面的失败,一旦发生,可以靠更好的模型、更好的评估体系、更好的数据基础设施、更好的提示词来解决。前沿实验室有充分的动力去修复这些问题,而且大体上会做到。但95%的问题是另一种形状的问题。它关乎的是:当能力落地到一个组织中,而这个组织在运营方式上什么都没改变时,会发生什么。模型被使用了,个人受益了,但组织没有。
大多数经济学家会援引的历史类比是电气化,Sivulka在上述文章中也对此做了详细展开。当工厂把蒸汽机换成电动机时,生产力并没有立刻提升。二十年后,当工厂围绕”电动机不再需要靠近中央动力源”这一新事实重新设计车间布局时,生产力才真正提升。换电机是容易的部分,重新设计车间才是困难的部分。AI目前正处在”换电机”阶段。而”重新设计车间”这件事,大多数企业还没有开始做。
这一点对咨询业很重要,因为”重新设计车间”——运营模式变革、角色重设计、治理、评估体系、变革管理——恰恰是咨询业历来擅长、而软件公司历来不擅长的事。能想清楚这一点的公司,机会很大。而想不清楚的公司面临的风险是:它们会被困在向一个已经明白”部署不是瓶颈”的市场,继续销售AI部署服务。
多智能体系统:一场被简化的争论
一个值得特别指出的技术风潮是多智能体架构:其理念是,复杂的AI工作应该由多个分工明确的智能体协同完成(一个研究智能体、一个写作智能体、一个审核智能体,等等),而不是由一个配备良好工具的单一智能体来完成。这已经成为许多咨询和企业销售方案中的默认架构。但它并不是从业者之间的共识。
这场最初的争论由两个参照点构成。Anthropic在2025年6月的一篇工程博客中报告称,一个以Claude Opus 4为主导、Claude Sonnet 4为子智能体的多智能体系统,在其内部研究评估中比单一的Claude Opus 4智能体高出90.2%。但token成本约为单次对话的15倍(是单一智能体成本的4倍),只有当任务价值足够高时,这笔花费才值得。几天前,Cognition Labs(Devin背后的团队)发表了《不要构建多智能体》(Don’t Build Multi-Agents),观点正好相反:对几乎所有的生产场景而言,一个上下文充分、装备良好的单一智能体,比一个被编排起来的”智能体集群”更可靠、更便宜、也更容易调试。
有意思的转折发生在2026年4月,Cognition自己发表了一篇后续文章《多智能体:到底什么真的有效》(Multi-Agents: What’s Actually Working),软化了此前的立场。Cognition现在写道:“我们已经开始部署在实践中真正有效的多智能体系统”,但仅限于”一类范围更窄的模式:多个智能体为一项任务贡献智能,但写入操作保持单线程”。这是一个有意义的修正。“多智能体读取、单线程写入”和”让智能体们自行协作”是完全不同的架构;它更接近一个受控的审核流水线,而不是一个智能体集群。
把2026年的证据综合起来看,结论不是”多智能体不行”,而是”朴素的多智能体方案昂贵且脆弱;范围界定清晰、写入边界明确的多智能体方案是有效的”。作为最具代表性的开源智能体框架,LangChain已经明显从对多智能体的热情中退出,转向其创始人Harrison Chase所称的”上下文工程”。这种方法的要义,是给单一智能体提供恰当的信息、工具和脚手架,而不是把工作拆分给多个智能体。Bret Taylor也公开表示,他对最初的多智能体构想变得更加怀疑。Lindy的Flo Crivello坦言,公司的第一个版本高估了智能体的自主能力,此后已经围绕”确定性脚手架,真正能强制智能体走完一组确定的步骤”重新构建。风险投资人Tomasz Tunguz在自己掌握的14个生产环境智能体工作流样本中发现,65%的节点现在由非AI代码运行。这是一个来自单一机构的小样本,但方向上颇具启示。
这场争论对咨询业的启示并不浪漫,但很重要。大多数企业AI项目并不需要多智能体编排。它们需要的是一个范围界定清晰的单一智能体,能干净地访问正确的数据,配有审慎的评估机制,对那些不应交给模型决定的部分有确定性的护栏,并在关键节点设有清晰的人工审核点。那些用精美的多智能体架构图来兜售”智能体化AI转型”的公司,大多在销售一种尚未真正像宣传那样运作的架构。而那些真正在做有用的企业AI工作的公司,大多在构建经过精心调校、拥有良好上下文的单一智能体。搞清楚自己买的是哪一种,是2026年CIO们最应该问的问题之一。
AI审查AI:哪里有效,哪里没用
对智能体热情的一个自然延伸,是”AI审查AI”的想法:用一个模型去检查另一个模型的产出,希望借此在不需要人工审核的情况下提升质量。Anthropic于2026年3月9日发布了Claude Code的代码审查功能,正是针对代码做这件事。它公开的一些内部数据异常具体:上线前,Anthropic只有16%的拉取请求(pull request)会收到实质性的审查意见;上线后,这一比例升至54%。在改动超过1000行的大型拉取请求中,现在84%会被发现问题,平均每个PR有7.5个问题。Anthropic的产品负责人估算,每条审查意见平均为公司节省了价值15到25美元的高级工程师时间。这种模式在编程领域有效,是因为代码有廉价的”事实标准”:它要么能运行并通过测试,要么不能,而AI现在已经被证明能够把”第一轮把关”产品化。
但在这个条件之外,这种模式的效果要差得多。对于咨询工作——战略建议、市场分析、客户沟通——几乎不存在廉价的”事实标准”。AI审查者可以检查内部一致性、检索来源是否支持事实性陈述、格式是否合规,以及其他一些表层属性。但它无法判断这份分析是否恰好适合客户的具体情境,无法判断这项建议在董事会上能不能站得住,也无法判断这种表述方式会不会让顾问”丢掉饭碗”。而正如本系列第一篇文章所论证的,这些恰恰是那些把溢价价值集中在一小群高级人士身上的判断。
所以,“AI审查AI”在范围狭窄的领域里是一种有用的技术,但作为对咨询工作整体的描述,是有误导性的。更诚实的版本是:在有”事实标准”的部分,由AI做第一轮审查;在没有的部分,由人来审查。只是这句话,作为幻灯片标题没那么吸引眼球。
把隐性知识编码下来:比看起来更难
企业AI领域一个长期存在的幻想是:可以通过某种机制——微调、评估准则、智能体人设提示词,或其他方式——把一个组织里最资深的从业者的判断力”克隆”到一个系统里,从而得到一个足够接近真人的”数字分身”,把他们的价值规模化复制到整个公司。Sivulka在同一篇文章中,把赋能(enablement)列为机构型AI的第三大支柱:建立能编码高级判断力(即”什么叫做得好”)的评估体系,这本身是一门学科。他更尖锐的观察是:当前面向消费者的AI模型过度倾向于迎合用户,这在组织层面是有毒的。机构型AI必须能挑战假设、揭示风险、坚持标准,“其功能更像审计员,而不是助理”。而这恰恰是优秀公司里资深专家所扮演的角色。能把它编码下来的,不是数据,而是由见过各种”翻车现场”的人,千辛万苦写出来的评估准则。
这里同时存在两个事实。第一个是:这种做法在边界清晰、好坏可以被合理界定的领域里,确实部分有效。由资深专家构建的评估准则,能以低质量训练数据做不到的方式,提高AI产出的下限。LangChain的Harrison Chase提出的Align Evals框架,现在已经是系统性做这件事的一种可行方法论。第二个事实是:一旦这套准则被写出来,资深专家的判断力就已经被部分”提取”出去了。他们不再完全拥有自己曾经赖以获得报酬的那个东西。这是咨询公司内部每一次”让我们把方法论产品化”的讨论中,都存在的一种未解决的张力。
这也是为什么不少做过这类工作的资深人士,最终离开了原公司,去经营一家基于他们自己编码的方法论的产品公司。“写出评估准则的人”这件事,在合伙人制内部和在外部,经济回报是截然不同的。大多数咨询公司还没有公开面对这一点。
对客户而言,更实际的结论是:把高级判断力编码下来,确实是一种真实的杠杆来源,但它是局部的、有损的,并且一旦底层环境发生变化就会过时。针对去年市场状况编写的评估准则,未必适用于今年。花二十年积累的隐性知识,不可能靠六个月的努力被完全编码下来。这个编码项目是值得做的,但要对它能产出什么抱有现实的预期:它是对相关高级人才的有用补充,而不是替代。
咨询业真正的机会
把这些线索综合起来看,未来几年最具防御力的咨询工作,有一个明确的形状。它不是”帮你部署这个模型”。这部分工作正在被模型提供商自己商品化。它是围绕”新电机”重新设计整个工厂的工作——运营模式变革、角色重设计、评估基础设施、治理、变革管理,以及把AI能力小心翼翼地转化为真正不同的组织行为。
这类工作有四个特征。它是长周期的,以季度甚至年为单位,而不是以周为单位。它是政治敏感的,因为它涉及”谁做什么、谁负责”。它是高情境依赖的,依赖于对具体组织的理解,而不只是对技术的理解。它是结果可归因的,因为变革最终会体现在指标里,或者不会。这四个特征恰好是AI最难独自完成、而经验丰富的人类顾问最容易主导的。它们也正是传统管理咨询最初被设计来做的工作,在它逐渐演变为”卖幻灯片”之前一直如此。
因此,“AI正在重塑咨询业”这句话更诚实的版本,并不是”咨询业正在消亡”。而是:咨询业正被给予一次机会,去做它一直宣称自己在做的事——运营模式变革、治理设计、组织行为变革——并且不再需要靠生产一千页幻灯片来作为掩护。这个行业是否会抓住这次机会,仍是一个悬而未决的问题。机会是真实的,瓶颈也是真实的,而那些想清楚如何为”工厂重新设计”提供结果担保、而不是为”电机安装”按工作量收费的公司,将完成这个十年里最有价值的工作。
瓶颈不是智能,而是协同。这是个好消息,因为协同一直就是最优秀的顾问真正在出售的东西。
预测追踪
主张: 到2027年底,最可信的企业AI合作项目,将不再以”部署了多少模型”来衡量,而是以”重新设计了多少流程”来衡量。类似MIT NANDA”95%没有可衡量利润影响”的标志性数字,将跌破70%。
信心水平: 中等。其机制(重新设计工厂,而非安装新电机)已经被普遍理解,供给侧也在形成;障碍在于企业的意愿,以及运营模式变革的速度。
证伪条件: 如果到2028年底,大样本研究仍然显示,产生可衡量利润影响的企业AI项目占比低于10%,那么这篇文章关于”协同是一个在这个时间尺度上可解决的瓶颈”的判断就是错的。