Точка зрения: API-дистилляция — всего лишь подготовительный этап для RL, а самостоятельная итерация GLM 5.2 может полностью избавиться от зависимости от американских моделей

ME AI Сообщение, согласно мониторингу Beating, инженер по программному обеспечению Google TPU Patrick Toulme отметил, что существует недоразумение относительно утверждения, что GLM 5.2 достигает уровня Opus за счет дистилляции. Трудность обучения больших моделей в задачах кодирования агентов заключается в «проблеме нулевого градиента», то есть если на ранних этапах модель не способна генерировать правильный путь выполнения, то обучение с усилением не сможет получить градиентный сигнал для обновления параметров. Роль дистилляции Claude или GPT-5.5 заключается лишь в предоставлении стартового решения на этапе холодного запуска, чтобы обойти проблему нулевого градиента. Как только модель преодолевает порог холодного запуска, последующий рост производительности больше не зависит от дистилляции, а полностью осуществляется с помощью алгоритма подъема по градиенту обучения с усилением для самосовершенствования. Toulme подчеркнул, что GLM 5.2 уже обладает способностью самостоятельно генерировать успешные пути, полностью способную через самостоятельную итерацию с помощью обучения с усилением достичь более высокого уровня, полностью освободившись от зависимости от крупных американских моделей. Основатель Redis Salvatore Sanfilippo добавил возможность другого пути: хотя внедрение режима рассуждения (дистилляция) с помощью мощных моделей очень полезно для получения лучшего сигнала RL, практика DeepSeek R0 уже доказала, что даже при полном отсутствии дистилляции и чистом холодном запуске обучение с усилением может работать автономно и достигать прорывов. В то же время он считает, что если необходимо преодолеть порог холодного запуска, разработка больших моделей вполне может начаться с доработки отечественных открытых моделей, таких как DeepSeek-v3.2, а не обязательно полагаться на американский API. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено