Команда NLP Стенфордського університету демонструє нові досягнення у автоматизованих дослідженнях штучного інтелекту

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 15 травня (UTC+8), команда NLP Стенфордського університету представила нову роботу автоматизованого дослідження штучного інтелекту на конференції ICML 2026, шляхом створення автоматичного виконавця, який перетворює попереднє та пост-тренувальне навчання LLM у виконавче середовище та використовує зворотний зв'язок від виконання для підвищення ефективності досліджень. Дослідження аналізує два підходи: еволюційний пошук має високу ефективність зразків, методи, знайдені у пост-тренувальних задачах, перевищують базовий GRPO (69.4% проти 48.0%), а формули, знайдені у попередньо тренувальних задачах, перевищують базовий nanoGPT (19.7 хвилин проти 35.9 хвилин), обидва завершуються за десять циклів пошуку; натомість, підкріплювальне навчання на основі виконавчої винагороди стикається з проблемою кривої режиму, хоча й підвищує середню винагороду, але не підвищує верхню межу. Ця робота надає напрямок для автоматизованих досліджень штучного інтелекту, орієнтованих на виконання. (Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • 8
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
MintColdBrew
· 2год тому
Робота ICML 2026 вже настільки серйозна
Переглянути оригіналвідповісти на0
QuietRugAlarm
· 3год тому
19 хвилин проти 36 хвилин, nanoGPT був розгромлений
Переглянути оригіналвідповісти на0
Half-MeltedIceCreamPosition
· 3год тому
Еволюційний пошук переміг GRPO, підвищення ефективності трохи неймовірне
Переглянути оригіналвідповісти на0
AirdropOnTheDune
· 3год тому
Об’єднене середовище для попереднього навчання та подальшого тренування — це спроба створити самовдосконалюваний ШІ?
Переглянути оригіналвідповісти на0
NodeUnderTheAurora
· 3год тому
Проблема зламу режиму дуже реальна, підробка нагород вже стала банальною темою.
Переглянути оригіналвідповісти на0
SeaSaltMarketMakingNotes
· 3год тому
Десять раундів пошуку — і вона сходиться, ефективність використання зразків вища, ніж я уявляв.
Переглянути оригіналвідповісти на0
YieldNotYell
· 3год тому
Зворотній зв'язок щодо виконання — це душа автоматизації
Переглянути оригіналвідповісти на0
  • Закріплено