Після тренування модель висновків SU-01 досягає золотої якості на олімпіадних завданнях

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 16 травня (UTC+8), опубліковано нову статтю, яка пропонує системний підхід до перетворення моделей після тренування для логічних висновків у олімпійські рівні розв'язувачі задач, а також на основі цього методу тренує модель SU-01.
Цей метод складається з трьох кроків: спочатку використовується курс зворотної плутаності для керованого тонкого налаштування, щоб впровадити строгий пошук доказів та самоперевірку;
потім ці поведінки розширюються за допомогою двоетапного підкріпленого навчання (від підкріпленого навчання з підтверджуваними нагородами до підкріпленого навчання на рівні доказів);
наостанок під час тестування застосовується масштабування для підвищення продуктивності.
Дослідницька команда застосувала цей метод до базової моделі 30B-A3B, використовуючи близько 340 000 траєкторій з підказками довжиною понад 8 тисяч токенів для керованого тонкого налаштування, а потім провела 200 кроків підкріпленого навчання, отримавши SU-01.
Ця модель здатна стабільно логічно розв'язувати складні задачі, з довжиною траєкторії понад 100 000 токенів, досягаючи рівня золотої медалі на змаганнях IMO 2025/USAMO 2026 та IPhO 2024/2025, а також демонструє здатність до генералізації у галузі наукових логічних висновків поза межами математики та фізики.
(Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 11
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
SeaSaltMintCandy
· 8год тому
Чи має ім'я SU-01 якесь значення, чи його просто вибрали випадково?
Переглянути оригіналвідповісти на0
StainedGlassSolarArray
· 8год тому
Після тренувальної трансформації ця ідея, ймовірно, швидко буде підтримана іншими лабораторіями
Переглянути оригіналвідповісти на0
GateUser-d2929483
· 9год тому
Якщо ця робота справжня, ціна на дані змагань зросте
Переглянути оригіналвідповісти на0
StopRaisingGasFees.
· 9год тому
200 кроків RL може збігтися? Чи це просто публічне число?
Переглянути оригіналвідповісти на0
MetalFrameBookPageCross
· 9год тому
Що саме мається на увазі під розширенням двоетапного RL, є деталі?
Переглянути оригіналвідповісти на0
GateUser-7a050ee5
· 9год тому
Ще немає відкритого коду або детального технічного звіту, наразі просто позначу це.
Переглянути оригіналвідповісти на0
GateUser-f4b3df7a
· 9год тому
Як реалізується механізм самоперевірки, чи є для цього окрема мета навчання?
Переглянути оригіналвідповісти на0
GateUser-e3701961
· 9год тому
Під час тестування, масштабування підвищення — це самовідповідність чи інший трюк?
Переглянути оригіналвідповісти на0
LittleBitcoinInTheReflection
· 9год тому
30B-A3B цей масштаб може зробити так, ефективність набагато вища за GPT-4, правда?
Переглянути оригіналвідповісти на0
HalfLifeHodler
· 9год тому
Здатність до міждисциплінарної генералізації є найважливішою, не знову ж таки, переобтяження бенчмарками
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено