Після тренування модель виведення SU-01 досягає золотої медалі у завданнях рівня олімпіади

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 16 травня (UTC+8), опубліковано нову статтю, яка пропонує системний підхід до перетворення моделей після тренування для логічних висновків у олімпійські рівні розв'язувачі задач, а також на основі цього методу тренує модель SU-01.
Цей метод складається з трьох кроків: спочатку використовується курс зворотної плутаності для контрольованого тонкого налаштування, щоб впровадити строгий пошук доказів та самоперевірку; потім ці поведінки розширюються за допомогою двоетапного підкріпленого навчання (від підкріпленого навчання з підтверджуваними нагородами до підкріпленого навчання на рівні доказів); нарешті, під час тестування застосовується масштабування для підвищення продуктивності.
Дослідницька команда застосувала цей метод до базової моделі 30B-A3B, використовуючи близько 340 000 траєкторій з підмножиною 8K токенів для контрольованого тонкого налаштування, а потім провела 200 кроків підкріпленого навчання, отримавши SU-01.
Ця модель здатна стабільно логічно розв'язувати складні задачі, з довжиною траєкторії понад 100 000 токенів, досягаючи рівня золотої медалі на змаганнях IMO 2025/USAMO 2026 та IPhO 2024/2025, а також демонструє здатність до генералізації у галузі наукових логічних висновків поза межами математики та фізики.
(Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 11
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
FloatingMirrorSphere
· 39хв. тому
Траєкторія стабільно видає 100 000 токенів без збоїв, рівень інфраструктури також досить сильний
Переглянути оригіналвідповісти на0
GateUser-46c777d0
· 3год тому
34 тисяч треків завантажено, RL виконав лише 200 кроків, ефективність даних вища, ніж уявлялося
Переглянути оригіналвідповісти на0
CandlewickKid
· 4год тому
Чи можна узагальнити фізичну олімпіаду? Хочу побачити, як вона проявляється у задачах з проектування експериментів.
Переглянути оригіналвідповісти на0
RetroRadioWaves
· 4год тому
Чи означає "масштабування під час тестування" — це тестове масштабування обчислень?
Переглянути оригіналвідповісти на0
ReflectiveChainShadow
· 4год тому
Цей деталь про траєкторію 子8K цікава, чи розбиваєш довгі доведення на маленькі частини для подачі?
Переглянути оригіналвідповісти на0
ByteSizedAlpha
· 4год тому
Це твердження про міждисциплінарну генералізацію дуже велике, чекати конкретних прикладів.
Переглянути оригіналвідповісти на0
StainedGlassSolarArray
· 4год тому
Здатність до самоперевірки може бути найважливішою, вона набагато важливіша за просте генерування відповіді
Переглянути оригіналвідповісти на0
StillHereAfterTheRugPull
· 4год тому
Чи назва 30B-A3B означає, що A3B — це активуючий параметр?
Переглянути оригіналвідповісти на0
GateUser-52241ed6
· 4год тому
IMO золотий рівень... Чи будуть у майбутньому змаганнях окремі групи для людських учасників та для ШІ?
Переглянути оригіналвідповісти на0
GateUser-e72657f0
· 4год тому
Цей дизайн курсу з оберненої невпевненості дуже геніальний, він дозволяє моделі спочатку навчитися сумніватися в собі
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено