黄仁勋 GTC 2026 狂讲「Hardness」? LLM Agent 为什么要硬化,一句话道破 AI 代理落地的关键

Роджер Хуанг на GTC 2026 представил видение «рассуждение как экономика», объявив о переходе ИИ из эпохи обучения в эпоху рассуждений. Но за этим видением скрыта ключевая технологическая посылка: «жесткость» (Hardness) LLM, гарантирующая определенность и надежность вывода модели в структурированных задачах. В статье анализируются стандарты структурированного вывода, технологии ограниченного декодирования и вызовы внедрения агентских систем для предприятий, объясняя, почему ИИ-агенты должны перейти от «мягкого» к «жесткому».

(Предыстория: Что такое Harness Engineering? Распаковка 7 основных инженерных модулей для реального внедрения AI-агентов)
(Дополнительный фон: Без Agent Oracle (предсказателя) экономика ИИ неустойчива: реальный слой станет ключевой инфраструктурой)

Содержание статьи

Переключить

  • Что такое «жесткость» LLM? Это не аппаратное обеспечение, а определенность
  • Структурированный вывод: от «хотеть, чтобы было правильно» к «гарантировать правильность»
  • Ограниченное декодирование: от вероятностного сэмплинга к синтаксическому принуждению
  • Скрытая нить GTC 2026: от обучения к экономике рассуждений
  • Почему «жесткость» — настоящая преграда для внедрения AI-агентов
  • Выбор для бизнеса: хотите ли вы чат-бота или агента, который умеет делать дела?

Роджер Хуанг на этом году GTC 2026 произнес речь, потрясшую технологическое сообщество: индустрия ИИ переходит от «эпохи обучения» к «эпохе рассуждений», и масштаб этого перехода гораздо больше, чем в эпоху обучения.

В своем ключевом выступлении он неоднократно подчеркивал концепцию, что компьютеры больше не просто вычислительные машины, а «системы производства токенов» (Token Manufacturing System). Каждый сервер, каждый дата-центр по сути — фабрика по производству токенов. Но возникает вопрос: кому продавать эти токены? Ответ один — AI-агентам (AI Agents).

И именно это — ключевая идея, которая скрыта за самой недооцененной фразой GTC: LLM нуждается в «жесткости» (Hardness).

Что такое «жесткость» LLM? Это не аппаратное обеспечение, а определенность

В области ИИ слово «жесткость» не означает вычислительную мощность GPU или нано-уровень технологического процесса. Оно обозначает более фундаментальную вещь: может ли LLM при выполнении структурированных задач выдавать определенные, надежные, проверяемые результаты.

Традиционные LLM по сути «мягкие»: они — вероятностные модели, каждое генерируемое слово — случайный выбор из распределения. В диалогах, творческих задачах это не проблема, а даже преимущество. Но когда LLM внедряется в бизнес-системы, выполняет запросы к базам данных, рассчитывает суммы, принимает торговые решения — «мягкость» превращается в критическую уязвимость.

Представьте сценарий: AI-агент помогает вам выполнить банковский перевод. Он должен точно извлечь номер счета, сумму, валюту, затем вызвать API банка. Если LLM в этом запросе ошибется — например, перепутает «1000 долларов» с «1000 евро» или запишет поле amount как amoumt — результат будет не «приблизительно правильно», а категорически неверным.

Вот почему индустрия ИИ переживает переход от «мягкого» к «жесткому». «Жесткость» LLM — это его способность выдавать структурированные, предсказуемые, соответствующие стандартам результаты.

Структурированный вывод: от «хотеть, чтобы было правильно» к «гарантировать правильность»

Структурированный вывод (Structured Output) — кажется технической концепцией, но по сути очень прост: вы задаете форматы вывода для LLM, и он обязан следовать им без отклонений.

OpenAI в 2024 году выпустила функцию Structured Output — это важный шаг. Она позволяет разработчикам задавать строгие JSON Schema, и вывод LLM принудительно ограничивается рамками схемы: не добавит лишних полей, не пропустит запятые, не запишет число как строку.

Но настоящая сложность — не в том, «может ли это сделать», а в том, насколько стабильно это работает в разных сценариях. Согласно последним тестам The Agentic Digest, разные модели показывают огромную разницу в способности соблюдать сложные вложенные схемы, работать с длинным контекстом, смешанными языками. Некоторые модели отлично справляются с простыми задачами, но при более чем 50 полях начинают терять данные, дублировать поля или даже придумывать их.

Новые бенчмарки, такие как Interfaze AI и Spec27, систематически измеряют эти «жесткие» показатели: соблюдение схемы, полнота полей, правильность типов, сохранение вложенной структуры. Эти цифры — ключ к решению, можно ли доверить модель в производственной среде.

Ограниченное декодирование: от вероятностного сэмплинга к синтаксическому принуждению

Если структурированный вывод — это «сказать модели, что нужно», то ограниченное декодирование (Constrained Decoding) — это «заставить модель выдавать только то, что нужно».

Традиционный генеративный процесс — по одному токену, выбираем из распределения по всему словарю. Ограниченное декодирование добавляет «синтаксический щит»: следующий токен должен соответствовать заранее заданным правилам (например, JSON-грамматике, регулярным выражениям). Несоответствующие — исключаются из кандидатов.

Результат — драматический: 100% синтаксическая правильность. Не 99%, не «обычно так», а математически гарантированно. Для AI-агентов, вызывающих API, пишущих в базы данных или генерирующих код — это условие выживания.

Хуанг на GTC 2026 отметил важную тенденцию: возрождение SQL и реляционных баз данных в связи с ростом агентских систем. Почему? Потому что агентам нужны «истинные данные» (Ground Truth): сумма транзакции, баланс счета, условия контракта. Это не вероятностные оценки, а факты. ACID-свойства SQL — атомарность, согласованность, изоляция, долговечность — дают именно ту определенность, которой не хватает LLM.

Скрытая нить GTC 2026: от обучения к экономике рассуждений

Возвращаясь к GTC 2026, ключевая идея Хуанга — это экономическая посылка.

Он предсказывает, что чипы NVIDIA Blackwell и Rubin к 2027 году принесут свыше 1 трлн долларов дохода, и за этим стоит смена бизнес-модели: от «одноразовых затрат на обучение» к «постоянным доходам от рассуждений». Обучение модели — разовая статья расходов, а если модель ежедневно обрабатывает миллионы запросов агентов — это стабильный денежный поток.

Но для реализации этого сценария важен фактор «жесткости» LLM. Если вероятность ошибки при каждом запросе — 5%, ни один банк, ни одна больница, ни один юрист не доверит критические задачи ИИ. Хуанг повторяет: «AI-фабрики» и «системы производства токенов» — это подтверждение этой идеи: индустрия уже готова перейти от «мягких» лабораторных прототипов к «жесткому» производственному уровню.

Стратегические приобретения NVIDIA, такие как Groq и создание полного AI-стека, подтверждают тренд. Архитектура Groq LPU (Language Processing Unit) специально оптимизирована для низкой задержки рассуждений — ведь когда AI-агент должен за секунду понять, запросить, посчитать и ответить, миллисекунда задержки стоит денег.

Почему «жесткость» — настоящая преграда внедрения AI-агентов

Сейчас индустрия переживает неловкую фазу: модели становятся умнее, но менее надежными.

GPT-4, Claude, Gemini показывают впечатляющие результаты в открытых вопросах, креативе, программной помощи, но в одном ключевом показателе — определенности — прогресс очень медленный: один и тот же вопрос может дать два разных, оба «разумных» ответа. В диалогах это достоинство (разнообразие), а в агентских системах — недостаток (невоспроизводимость).

Эта «мягкость» коренится в архитектуре: автогрессивное поколение на базе трансформеров — вероятностное по сути. Хотя RLHF и DPO делают модели более «послушными», они не решают проблему определенности.

Выход — в двух направлениях:

Первое — ограничения на inference, как описано выше: ограниченное декодирование и структурированный вывод, чтобы принудительно соблюдать правила.
Второе — системная проверка: агент перед выполнением действия проверяет свои выводы, сверяет их с внешними источниками, вызывает внешние инструменты (SQL, API) для подтверждения.

Хуанг в GTC подчеркнул важную мысль: «В эпоху рассуждений ИИ перестает просто говорить, он должен действовать». Когда ИИ переходит от «говорения» к «деланию», «жесткость» становится не опцией, а необходимостью.

Бизнес-выбор: хотите ли вы чат-бота или агента, который умеет делать дела?

Для бизнеса ответ очевиден. Чат-боты с 99% точностью — допустимо, иногда ошибутся — и ничего страшного. Но для переводов, контрактов, медицинских диагнозов, автопилотов — допустимая ошибка — ноль.

Именно поэтому в 2025–2026 годах появляется новая рыночная ниша: «жесткие агенты» против «мягких». Мягкие агенты работают на универсальных моделях, управляемых промптами и few-shot. Жесткие — на специально обученных моделях с структурированным обучением, ограниченным декодированием и проверками, гарантирующими точность.

Стратегия NVIDIA на GTC 2026 — подготовить инфраструктуру для «жестких» агентов. Мощные чипы Blackwell Ultra и Vera Rubin, низкая задержка Groq LPU, полное покрытие экосистемы CUDA — все это не для быстрого общения с ChatGPT, а для одновременного точного выполнения миллионов AI-агентов.

Переход от «мягкого» к «жесткому» — не только технологический апгрейд, а революция доверия. Компании не доверят критические задачи системе, которая «примерно правильна». Когда LLM обретет «жесткость», гарантированную точность, проверяемость и структурированный интерфейс — AI-агенты смогут перейти из концепций презентаций в реальную производственную среду.

И первую выстрел этой революции уже дал Роджер Хуанг на GTC 2026.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено