检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业新一代信息技术人工智能

从模型竞争到Harness竞争:AI Agent正在进入“可控执行”阶段

供稿人:罗雅莹供稿时间:2026-04-26 17:18:25关键词:人工智能,智能体治理,AI,Harness

  2026 年以来,AI Agent 的产业焦点正在从模型能力转向执行能力。真正决定Agent能否落地的,已经不只是大模型本身,而是围绕模型构建的 Harness:负责连接工具、管理上下文、编排任务、设置权限、保留审计记录,并在关键节点引入人类监督。

一、从“能回答”到“能执行”:Agent落地重心转向执行控制

人工智能产业的竞争主线主要围绕大模型展开:模型参数有多大、推理能力有多强、上下文窗口有多长、多模态能力是否完善、代码生成和复杂任务规划能力是否领先但随着AI Agent从“会回答问题”走向“能执行任务”,一个新的问题正在浮现:人们不再只关心AI“能不能做”,而更关心“能不能被放心地做”。

所谓AI Agent,已经不同于传统意义上的聊天机器人。Agent不仅能够理解用户意图、生成文本,还可以调用外部工具、访问文件系统、连接数据库、操作浏览器、执行代码、触发工作流,参与系统中的多步骤业务流程。一旦AI从“内容生成者”变成“任务执行者”,风险边界就发生了根本变化。传统大模型出错,主要表现为回答不准确、内容幻觉或表达偏差;而AI Agent出错,则可能表现为越权访问、误删文件、错误调用接口、错误触发流程、泄露敏感信息,甚至造成业务中断。也就是说,AI Agent的核心挑战,已经从“模型是否足够聪明”转向“模型是否能够被安全、稳定、可审计地使用”。

  在这一背景下,AI Harness正在成为理解智能体落地的一个关键概念。Harness原意是马具、挽具、缰绳或安全带,放在AI语境中,可以译为“智能体执行约束层”。它不是模型本身,也不只是提示词,而是包裹在模型外部的一整套执行治理框架。模型负责理解、推理和生成,Agent负责按照目标采取行动,而Harness负责为智能体配置记忆、工具、文件系统、任务流程和反馈机制,同时设置权限边界、人类审批、运行监测、验收标准和日志审计等。换言之,模型决定AI“能做什么”,Harness决定AI“能否被放心地做”。

二、竞争之转:巨头加速布局Harness,产业逻辑深层转换

  近期国外公司和技术机构的动向,已经显示出这一趋势。OpenAI在2026年发布关于harness engineering的文章时指出,随着Codex等智能体承担越来越多软件生命周期工作,真正困难的问题正在转向如何设计环境、反馈循环和控制系统,以帮助智能体可靠地构建和维护复杂软件;文章还强调,软件工程纪律并没有消失,只是更多体现在工具、抽象和反馈回路等“脚手架”之中。这一判断说明,在智能体时代,工程能力不再只是人写代码的能力,也包括人如何设计智能体工作的环境和边界。

  Google Cloud推出Gemini Enterprise Agent Platform,也体现出类似方向。该平台被定位为用于构建、扩展、治理和优化智能体的综合平台,并将模型选择、Agent构建、集成、DevOps、编排和安全能力整合到统一体系中。从其产品设计看,Agent Runtime、Agent Identity、Agent Registry、Agent Gateway、Agent Observability、Agent Evaluation等能力,已经非常接近“智能体执行约束层”的工程形态:它们不只是让Agent能够运行,更强调Agent如何被识别、被授权、被观测、被评估和被治理。

  微软近期关于AI安全的资料也指向同一趋势。Microsoft提出Zero Trust for AI,强调零信任原则需要扩展到AI全生命周期,包括数据、模型、部署和智能体行为;其中特别指出,随着组织采用自主和半自主AI Agent,过度授权、被操纵或目标偏离的智能体可能带来新的风险,因此需要持续验证身份和行为、执行最小权限,并假设系统可能被攻破。这说明,AI安全正在从过去偏重“内容安全”,扩展到更复杂的“行为安全”和“执行安全”。

1 AI Harness的关键能力构成

Harness能力

主要作用

解决的问题

记忆管理

管理上下文、长期记忆和任务状态

防止长任务中遗忘目标、偏离上下文

工具调用

管理工具、API、数据库和文件系统访问

防止工具滥用和外部系统误操作

任务编排

拆解任务、协调步骤、多智能体协作

提升复杂任务执行稳定性

权限控制

限定访问范围和操作边界

防止越权访问、越权修改和越权调用

人类审批

对高风险动作设置人工确认

防止不可逆操作完全自动执行

日志审计

记录输入、调用、输出和异常过程

支持追踪、复盘、合规和问责

运行监测

监控异常行为、循环调用和任务偏离

提升系统可观测性和安全性

验收标准

设置结果校验和质量门槛

防止“看似完成、实际不可用”

  这种能力构成,正在推动AI竞争逻辑发生变化。过去,模型竞争主要解决的是“AI会不会”的问题;现在,Harness竞争解决的是“AI能不能被安全地用起来”的问题。当多个基础模型都具备较强的理解、生成、规划和代码能力之后,真正的差异化优势可能不再只来自底层模型,而来自模型外部的执行体系。底层模型可以替换,但企业围绕智能体构建的工具生态、权限体系、工作流、审计机制、运行时环境和数据连接能力,往往更接近真实生产系统,也更难被简单复制。

2 模型竞争阶段与Harness竞争阶段对比

维度

模型竞争阶段

Harness竞争阶段

关注重点

模型能力有多强

模型能否安全、稳定、可审计地执行

核心指标

参数规模、推理能力、生成质量、上下文长度

工具接入、权限控制、任务编排、运行监测、审计追踪

典型产品形态

聊天机器人、代码生成器、多模态助手

Agent平台、Agent Gateway、Agent Registry、Agent Runtime

主要风险

回答错误、幻觉、内容不准确

越权执行、工具滥用、数据泄露、流程失控

治理方式

模型对齐、提示词约束、内容审核

身份认证、访问控制、人类审批、日志审计、反馈循环

企业价值

提升单点生产效率

AI纳入真实业务流程和组织管理体系

  三、“工具应用”到“治理体系”:AI需要可控、可审计、可追责  

从科技发展角度看,AI Harness的兴起意味着人工智能正在从“模型智能”走向“系统智能”。过去,一个AI应用往往可以被理解为“模型+应用界面”;而在Agent阶段,它更像是“模型+记忆+工具+权限+工作流+监测+审计”的复杂系统。未来评价一个AI系统,不能只看最终回答是否正确,还要看执行过程是否合理、调用工具是否必要、权限使用是否合规、异常行为是否可中止、最终结果是否可验证。AI评测也会从“结果评测”扩展到“过程评测”,从单一模型分数扩展到任务轨迹、工具路径、成本、稳定性和审计完整性。

  对政府而言,AI Harness的启示在于提醒公共部门:当AI Agent具备执行能力后,需要像真实办事人员一样被授权、被约束、被监督和被审计。政务AI建设的重点,不应只是“部署多少大模型应用”,而应转向“建立怎样的智能体治理体系”,把身份、权限、流程、审批、监测和审计纳入统一框架,在提升政务效率的同时,守住公共安全、数据安全和行政责任边界。

  归根结底,AI Harness 的价值在于揭示了 AI Agent 落地的关键前提。智能体越有能力,越需要边界;越能自主执行,越需要审计;越深入真实系统,越需要治理。模型提供智能,Harness提供秩序。AI Agent正在进入“可控执行”阶段,Harness将成为这一阶段最重要的基础设施之一。未来AI产业的竞争,可能不再只是“谁的模型更聪明”,而是谁能把聪明的模型更好地纳入安全、稳定、可审计、可协作的执行体系。

参考资料

[1] OpenAI. Harness engineering: leveraging Codex in an agent-first world[EB/OL]. (2026-02-11)[2026-04-26]. https://openai.com/index/harness-engineering/.

[2] Google Cloud. Introducing Gemini Enterprise Agent Platform, powering the next wave of agents[EB/OL]. (2026-04-22)[2026-04-26]. https://cloud.google.com/blog/products/ai-machine-learning/introducing-gemini-enterprise-agent-platform.

[3] Microsoft. New tools and guidance: Announcing Zero Trust for AI[EB/OL]. (2026-03-19)[2026-04-26]. https://www.microsoft.com/en-us/security/blog/2026/03/19/new-tools-and-guidance-announcing-zero-trust-for-ai/.

[4] LangChain. Improving deep agents with harness engineering[EB/OL]. (2026-03)[2026-04-26]. https://blog.langchain.com/improving-deep-agents-with-harness-engineering/.

[5] Anthropic. Response to NIST RFI on agentic security[EB/OL]. (2026-03-09)[2026-04-26]. https://www-cdn.anthropic.com/43ec7e770925deabc3f0bc1dbf0133769fd03812.pdf.

[6] Preprints.org. Agent harness for large language model agents: a survey[EB/OL]. (2026-04-07)[2026-04-26]. https://www.preprints.org/manuscript/202604.0428/v1.