黄仁勳在 GTC 2026 提出“推理即经济”的愿景,宣示 AI 从训练时代进入推理时代。但在这个愿景背后,隐藏着一个关键技术命题:LLM 的“硬度”(Hardness),确保模型输出在结构化任务中的确定性与可靠性。本文从结构化输出基准测试、约束解码技术,到企业级 Agent 落地挑战,解析为什么 AI 代理必须从“软”变“硬”。 (前情提要:Harness Engineering 是什么?拆解 AI Agent 真正落地的 7 大工程模组) (背景补充:缺了 Agent Oracle(预言机),AI 经济根本站不稳:现实层将是关键基础建设)
Toggle
黄仁勳在今年的 GTC 2026 大会上抛出了一段让科技圈震动的论述:AI 产业正从“训练时代”跨入“推理时代”,而且这种转变的规模,远比训练时代大得多。
他在主题演讲中反复强调一个概念:电脑不再只是单纯的运算机器,而是“代币制造系统”(Token Manufacturing System)。每一台服务器、每一座数据中心,本质上都是一家制造代币的工厂。但问题来了:这些代币要卖给谁?答案只有一个,AI Agent(AI 代理)。
而这正是整场 GTC 最被低估的一句话背后所隐藏的核心命题:LLM 需要“硬度”(Hardness)。
在 AI 领域,“硬度”这个词并不是指 GPU 的算力,也不是指晶圆制程的纳米数字。它指的是更根本的一件事:LLM 在面对结构化任务时,能否给出确定、可靠、可验证的输出。
传统的 LLM 本质上是“软”的:它们是概率模型,每一次生成都是在概率分布中随机采样。在对话、写作、创意任务中,这并不是问题,甚至是一种优势。但当 LLM 被嵌入到企业系统中,必须执行数据库查询、计算金额、决定交易路径时,“软”就会变成致命缺陷。
想象一个场景:一个 AI Agent 要帮你处理银行转账。它必须准确提取账号、金额、币种,然后调用银行的 API。如果 LLM 在这次请求中把“1000 美元”误解为“1000 欧元”,或者把 JSON 结构中的 amount 字段写成 amoumt,那么结果就不只是“差不多”,而是完全错误。
这就是为什么 AI 产业正在经历一场从“软”到“硬”的范式转移。LLM 的“硬度”,就是它输出结构化、可预测、符合规范结果的能力。
结构化输出(Structured Output)听起来很技术,但概念很简单:你告诉 LLM 输出的格式是什么,它就必须按照这个格式输出,哪怕差一丁点都不允许偏离。
OpenAI 在 2024 年推出的 Structured Output 功能是一个里程碑。它让开发者能够定义严格的 JSON Schema,LLM 的输出会被强制约束在 Schema 框架内,不会多一个字段,不会少一个逗号,不会把数字写成字符串。
但真正的挑战并不在于“能不能做到”,而在于能不能在各种场景下稳定做到。根据 The Agentic Digest 最新发布的结构化输出基准测试,不同模型在面对复杂的嵌套 Schema、长上下文、多语言混合输入时,表现差异巨大。有些模型在简单任务上几乎完美,但遇到超过 50 个字段的嵌套结构就开始丢失数据、重复字段,甚至凭空捏造。
新兴的基准测试,如 Interfaze AI 和 Spec27,正在系统性地衡量这些“硬度”指标:Schema 遵从率、字段完整性、类型正确率、嵌套结构保真度。只有这些数字,才是企业决定能否将 LLM 部署到生产环境的关键。
如果结构化输出是“告诉模型你要什么”,那么约束解码(Constrained Decoding)就是“强迫模型只能给你你要的”。
传统的 LLM 生成是逐 token(token-by-token)进行的:每一个 token 都是在整个词表上的概率分布中采样。约束解码则在这个过程中加入了一个“语法防火墙”:下一个 token 必须符合预先定义的语法规则(例如 JSON Grammar、正则表达式),不符合的直接从候选列表中剔除。
这带来的效果非常戏剧性:100% 的语法正确率。不是 99%,也不是“通常会对”,而是数学上保证的 100%。对于需要调用 API、写入数据库、生成代码的 AI Agent 来说,这种保证是商业化的先决条件。
黄仁勳在 GTC 2026 特别提到一个耐人寻味的观察:Agentic AI 的兴起,让 SQL 和关系型数据库重新变得极度重要。为什么?因为 Agent 需要“地面真理”(Ground Truth):一笔交易的金额、一个账户的余额、一份合约的条款。这些都不是概率问题,而是事实问题。SQL 数据库的 ACID 特性(原子性、一致性、隔离性、持久性),恰恰提供了 LLM 最缺乏的东西:确定性。
回到 GTC 2026,黄仁勳最核心的论述其实是一条经济学命题。
他预测 NVIDIA 的 Blackwell 和 Rubin 晶片在 2027 年前将创造超过 1 兆美元的收入,这个数字背后,是 AI 产业从“一次性训练成本”转向“持续性推理收入”的商业模式重塑。训练一个模型是一次性支出,但让这款模型每天处理数百万次 Agent 请求,是可持续的现金流。
但这个愿景成立的前提是什么?就是 LLM 的“硬度”。如果每一次 Agent 请求都有 5% 的概率出错,那么没有一家银行、没有一家医院、没有一家律师事务所会把关键任务交给 AI。黄仁勳反复强调的“AI 工厂”和“代币制造系统”,本质上就是在为这个前提背书:他相信 AI 产业已经准备好从“软”的实验室阶段跨入“硬”的生产级阶段。
而 NVIDIA 併购 Groq、打造 Full AI Stack 的战略布局,也在佐证这一趋势。Groq 的 LPU(Language Processing Unit)架构专为低延迟推理设计,这并非巧合:当 AI Agent 需要在一秒内完成理解、查询、计算、响应的完整闭环时,每一毫秒的延迟都是成本。
目前的 AI 产业正处在一个尴尬阶段:模型越来越聪明,但越来越不可靠。
GPT-4、Claude、Gemini 在开放式问答、创意写作、编程辅助上的表现令人惊艳,但它们在一个关键指标上进步缓慢:确定性。同一个问题问两次,可能得到两个不同但都“合理”的答案。在对话场景中这是一种能力(多样性),但在 Agent 场景中是一种缺陷(不可重现性)。
这种“软”的本质,来自于 LLM 核心架构的设计取舍。Transformer 的自回归生成本质上是概率性的,而强化学习(RLHF)和偏好优化(DPO)虽然让模型更“听话”,却没有从根本上解决确定性问题。
解决方案来自两个方向:
第一是推理端的约束:如前所述的约束解码和结构化输出,在模型生成时强制执行规则。第二是系统层的验证:让 Agent 在执行动作之前,先进行自我检查、交叉验证,甚至调用外部工具(如 SQL 查询、API 返回值比对)来确认输出的正确性。
黄仁勳在 GTC 上说过一句很多人忽略但极其重要的话:“推理时代的 AI,不再只是生成文字,而是要采取行动。”这句话的精髓就在这里:当 AI 从“说话”进化到“做事”,硬度就不再是可选的加分项,而是生存的必需项。
对企业来说,这个选择的答案非常明确。客服聊天机器人可以用 99% 的准确率运行,偶尔回答错了,大不了客户抱怨几句。但资金转账、合约审查、医疗诊断辅助、自动驾驶路径规划,这些场景的容错率是零。
这正是为什么 2025-2026 年会出现一个新的市场区隔:“硬 Agent” vs “软 Agent”。软 Agent 跑在通用模型上,依靠 prompt 工程和 few-shot 示例来引导行为;硬 Agent 跑在经过结构化训练、搭配约束解码和验证框架的专用模型上,每一个输出行为都经过确定性保证。
而 NVIDIA 的 GTC 2026 策略,正是在为“硬 Agent”时代铺设基础设施。Blackwell Ultra 和 Vera Rubin 晶片的超大规模推理能力、Groq LPU 的超低延迟、CUDA 生态系统的全面覆盖,所有这些,都不是为了让你跟 ChatGPT 聊天更快,而是为了让数百万个 AI Agent 同时在后台精准执行任务。
从“软”到“硬”的转变,不只是技术升级,更是一场信任革命。企业不会把关键任务交给一个“差不多会对”的系统。当 LLM 拥有了硬度——确定性的输出、可验证的行为、结构化的接口——AI Agent 才能真正从简报里的概念,走进生产环境的现实。
而这场革命的第一枪,黄仁勳已经在 GTC 2026 打响了。
3450.32万 热度
125.16万 热度
1819.63万 热度
957.71万 热度
80.05万 热度
黄仁勋 GTC 2026 狂讲「Hardness」? LLM 代理为什么要硬化,一句话揭示 AI 代理落地的关键
黄仁勳在 GTC 2026 提出“推理即经济”的愿景,宣示 AI 从训练时代进入推理时代。但在这个愿景背后,隐藏着一个关键技术命题:LLM 的“硬度”(Hardness),确保模型输出在结构化任务中的确定性与可靠性。本文从结构化输出基准测试、约束解码技术,到企业级 Agent 落地挑战,解析为什么 AI 代理必须从“软”变“硬”。
(前情提要:Harness Engineering 是什么?拆解 AI Agent 真正落地的 7 大工程模组)
(背景补充:缺了 Agent Oracle(预言机),AI 经济根本站不稳:现实层将是关键基础建设)
本文目录
Toggle
黄仁勳在今年的 GTC 2026 大会上抛出了一段让科技圈震动的论述:AI 产业正从“训练时代”跨入“推理时代”,而且这种转变的规模,远比训练时代大得多。
他在主题演讲中反复强调一个概念:电脑不再只是单纯的运算机器,而是“代币制造系统”(Token Manufacturing System)。每一台服务器、每一座数据中心,本质上都是一家制造代币的工厂。但问题来了:这些代币要卖给谁?答案只有一个,AI Agent(AI 代理)。
而这正是整场 GTC 最被低估的一句话背后所隐藏的核心命题:LLM 需要“硬度”(Hardness)。
什么是 LLM 的“硬度”?它不是硬件,而是确定性
在 AI 领域,“硬度”这个词并不是指 GPU 的算力,也不是指晶圆制程的纳米数字。它指的是更根本的一件事:LLM 在面对结构化任务时,能否给出确定、可靠、可验证的输出。
传统的 LLM 本质上是“软”的:它们是概率模型,每一次生成都是在概率分布中随机采样。在对话、写作、创意任务中,这并不是问题,甚至是一种优势。但当 LLM 被嵌入到企业系统中,必须执行数据库查询、计算金额、决定交易路径时,“软”就会变成致命缺陷。
想象一个场景:一个 AI Agent 要帮你处理银行转账。它必须准确提取账号、金额、币种,然后调用银行的 API。如果 LLM 在这次请求中把“1000 美元”误解为“1000 欧元”,或者把 JSON 结构中的 amount 字段写成 amoumt,那么结果就不只是“差不多”,而是完全错误。
这就是为什么 AI 产业正在经历一场从“软”到“硬”的范式转移。LLM 的“硬度”,就是它输出结构化、可预测、符合规范结果的能力。
结构化输出:从“希望它对”到“保证它对”
结构化输出(Structured Output)听起来很技术,但概念很简单:你告诉 LLM 输出的格式是什么,它就必须按照这个格式输出,哪怕差一丁点都不允许偏离。
OpenAI 在 2024 年推出的 Structured Output 功能是一个里程碑。它让开发者能够定义严格的 JSON Schema,LLM 的输出会被强制约束在 Schema 框架内,不会多一个字段,不会少一个逗号,不会把数字写成字符串。
但真正的挑战并不在于“能不能做到”,而在于能不能在各种场景下稳定做到。根据 The Agentic Digest 最新发布的结构化输出基准测试,不同模型在面对复杂的嵌套 Schema、长上下文、多语言混合输入时,表现差异巨大。有些模型在简单任务上几乎完美,但遇到超过 50 个字段的嵌套结构就开始丢失数据、重复字段,甚至凭空捏造。
新兴的基准测试,如 Interfaze AI 和 Spec27,正在系统性地衡量这些“硬度”指标:Schema 遵从率、字段完整性、类型正确率、嵌套结构保真度。只有这些数字,才是企业决定能否将 LLM 部署到生产环境的关键。
约束解码:从概率采样到语法强制
如果结构化输出是“告诉模型你要什么”,那么约束解码(Constrained Decoding)就是“强迫模型只能给你你要的”。
传统的 LLM 生成是逐 token(token-by-token)进行的:每一个 token 都是在整个词表上的概率分布中采样。约束解码则在这个过程中加入了一个“语法防火墙”:下一个 token 必须符合预先定义的语法规则(例如 JSON Grammar、正则表达式),不符合的直接从候选列表中剔除。
这带来的效果非常戏剧性:100% 的语法正确率。不是 99%,也不是“通常会对”,而是数学上保证的 100%。对于需要调用 API、写入数据库、生成代码的 AI Agent 来说,这种保证是商业化的先决条件。
黄仁勳在 GTC 2026 特别提到一个耐人寻味的观察:Agentic AI 的兴起,让 SQL 和关系型数据库重新变得极度重要。为什么?因为 Agent 需要“地面真理”(Ground Truth):一笔交易的金额、一个账户的余额、一份合约的条款。这些都不是概率问题,而是事实问题。SQL 数据库的 ACID 特性(原子性、一致性、隔离性、持久性),恰恰提供了 LLM 最缺乏的东西:确定性。
GTC 2026 的隐藏主线:从训练到推理的经济学
回到 GTC 2026,黄仁勳最核心的论述其实是一条经济学命题。
他预测 NVIDIA 的 Blackwell 和 Rubin 晶片在 2027 年前将创造超过 1 兆美元的收入,这个数字背后,是 AI 产业从“一次性训练成本”转向“持续性推理收入”的商业模式重塑。训练一个模型是一次性支出,但让这款模型每天处理数百万次 Agent 请求,是可持续的现金流。
但这个愿景成立的前提是什么?就是 LLM 的“硬度”。如果每一次 Agent 请求都有 5% 的概率出错,那么没有一家银行、没有一家医院、没有一家律师事务所会把关键任务交给 AI。黄仁勳反复强调的“AI 工厂”和“代币制造系统”,本质上就是在为这个前提背书:他相信 AI 产业已经准备好从“软”的实验室阶段跨入“硬”的生产级阶段。
而 NVIDIA 併购 Groq、打造 Full AI Stack 的战略布局,也在佐证这一趋势。Groq 的 LPU(Language Processing Unit)架构专为低延迟推理设计,这并非巧合:当 AI Agent 需要在一秒内完成理解、查询、计算、响应的完整闭环时,每一毫秒的延迟都是成本。
为什么“硬度”是 AI Agent 落地的真正瓶颈
目前的 AI 产业正处在一个尴尬阶段:模型越来越聪明,但越来越不可靠。
GPT-4、Claude、Gemini 在开放式问答、创意写作、编程辅助上的表现令人惊艳,但它们在一个关键指标上进步缓慢:确定性。同一个问题问两次,可能得到两个不同但都“合理”的答案。在对话场景中这是一种能力(多样性),但在 Agent 场景中是一种缺陷(不可重现性)。
这种“软”的本质,来自于 LLM 核心架构的设计取舍。Transformer 的自回归生成本质上是概率性的,而强化学习(RLHF)和偏好优化(DPO)虽然让模型更“听话”,却没有从根本上解决确定性问题。
解决方案来自两个方向:
第一是推理端的约束:如前所述的约束解码和结构化输出,在模型生成时强制执行规则。第二是系统层的验证:让 Agent 在执行动作之前,先进行自我检查、交叉验证,甚至调用外部工具(如 SQL 查询、API 返回值比对)来确认输出的正确性。
黄仁勳在 GTC 上说过一句很多人忽略但极其重要的话:“推理时代的 AI,不再只是生成文字,而是要采取行动。”这句话的精髓就在这里:当 AI 从“说话”进化到“做事”,硬度就不再是可选的加分项,而是生存的必需项。
企业的抉择:你要一个会聊天的 AI,还是一个会办事的 Agent?
对企业来说,这个选择的答案非常明确。客服聊天机器人可以用 99% 的准确率运行,偶尔回答错了,大不了客户抱怨几句。但资金转账、合约审查、医疗诊断辅助、自动驾驶路径规划,这些场景的容错率是零。
这正是为什么 2025-2026 年会出现一个新的市场区隔:“硬 Agent” vs “软 Agent”。软 Agent 跑在通用模型上,依靠 prompt 工程和 few-shot 示例来引导行为;硬 Agent 跑在经过结构化训练、搭配约束解码和验证框架的专用模型上,每一个输出行为都经过确定性保证。
而 NVIDIA 的 GTC 2026 策略,正是在为“硬 Agent”时代铺设基础设施。Blackwell Ultra 和 Vera Rubin 晶片的超大规模推理能力、Groq LPU 的超低延迟、CUDA 生态系统的全面覆盖,所有这些,都不是为了让你跟 ChatGPT 聊天更快,而是为了让数百万个 AI Agent 同时在后台精准执行任务。
从“软”到“硬”的转变,不只是技术升级,更是一场信任革命。企业不会把关键任务交给一个“差不多会对”的系统。当 LLM 拥有了硬度——确定性的输出、可验证的行为、结构化的接口——AI Agent 才能真正从简报里的概念,走进生产环境的现实。
而这场革命的第一枪,黄仁勳已经在 GTC 2026 打响了。