AI与商业价值之间缺失的关键环节
实话实说。一些企业已经在使用 AI 智能体,但很少有能解释其对业务绩效影响的。
通过第三方平台捕获的 DORA、SPACE 和开发者体验指标等数据,虽然能提供关于交付速度和开发者生活质量的洞察,但仍然难以将其清晰地映射到业务影响上。
除非你直接从事模型开发工作,否则模型指标本身很少能决定 AI 是否在创造企业价值。
技术性能信号与持续的业务成果之间的差距,是负责任地扩展 AI 的一个障碍。
从技术指标到业务价值
像 SWE-Bench Pro 和 Tau2-bench 这样的抽象基准在选择 AI 工具时具有方向性的指导意义,但它们可能与这些工具在企业系统中的实际表现脱节。在受控环境中表现良好的智能体,一旦集成到生产工作流中可能会失败。重要的不是基准分数,而是 AI 系统在现实条件下的实效性、可追溯性和韧性。
近期的数据凸显了找到一种准确衡量这些变量的迫切需求。根据 EY 2025 工作重塑调查,尽管今天 88% 的员工在工作中使用 AI,但只有 5% 的人“以变革性的方式”使用它。
盲目采用 AI 不太可能带来成效。企业应该通过运营指标在他们负责构建和运营的系统中对 AI 进行实验和评估。重点应放在维护系统的全生命周期成本、人类相对于基线花费的平均时间,以及作为总拥有成本 (TCO) 函数的吞吐量上。
可审计性对于追踪决策和满足治理需求至关重要,而人类可读性确保团队现在和将来都能理解和管理系统行为。这些是技术团队在规模化采用 AI 时必须具备的基本条件。
ROI(投资回报率)难题
每个企业都想将 AI 与 ROI 挂钩,但数据很少能对得上。这个问题不仅限于模型遥测。AI 被嵌入到企业系统中,并负责 SDLC(软件开发生命周期)和运营工作流中的特定部分。
因此,其影响的证据必须涵盖系统行为、人工干预和下游业务 KPI。这些信号存在于不同的系统中,并以不同的时间尺度变化,这在 AI 活动和可衡量的业务成果之间造成了差距。这就是为什么大多数组织依赖代理指标或假设,而不是证据。
弥合差距
下一代 AI 编排平台需要通过将技术性能与运营和财务信号相关联来弥合这一差距。当这些系统成熟时,ROI 将从一个抽象目标转变为基于数据的可衡量结果。
这种差距的影响在企业结果中已经显现。WRITER 2025 企业 AI 采用报告发现,没有正式 AI 战略的组织在采用 AI 时的成功率仅为 37%,而将绩效与明确的运营成果挂钩的组织成功率则达到 80%。
数据是明确的。只有当一个组织同时衡量技术和运营信号时,它才能真正获得 AI 价值的全貌。
迈向持续基准测试
企业 AI 的底层基础并非一成不变。数据会发生漂移,工作流会不断演进,合规义务也会扩大。因此,衡量必须成为一个持续的反馈循环,而不是一份年度报告。
同样的原则应适用于整个企业:绩效指标应保持稳定,但它们要么必须独立于不断变化的条件,要么必须随时间明确衡量这些变化。
衡量重要的指标
有意义的 AI 性能衡量不是关于更大的数字或更多的仪表板。而是关于将运营信号与业务实际情况联系起来。
企业领导者必须应对模型性能,同时还要考虑其扩展的智能程度、运营的透明度以及其影响能够被证明的清晰度。
盲目相信基准数字,就像信任汽车制造商的燃油效率数据,却从未亲自驾驶汽车看看它在实际条件下的表现是否真的如此。
只有当这些问题能用真实数据解决时,AI 才能成为企业技术栈中真正可问责的一部分。
领导者面临的真正问题很简单:你是在衡量那些证明 AI 在实践中行之有效的数字,还是仅仅在复述公共基准上的数字?