Партнер YC: Замість змагатися за розмір моделі, нехай штучний інтелект пише код і самовдосконалюється, як науковець

robot
Генерація анотацій у процесі
Згідно з моніторингом Beating, партнер Y Combinator Діана Ху у Твіттері зазначила, що порівняно з простим збільшенням параметрів, майбутній фронтир полягає у створенні тонкого програмного шару поверх базової моделі, що дозволяє ШІ, як програмісту, самостійно писати правила для розв’язання проблем (виконувана модель світу). ШІ може постійно тестувати, змінювати та спрощувати код на основі результатів роботи, не потребуючи дорогого тонкого налаштування самої великої моделі.

Шлях безградієнтного навчання коду підтверджує гіпотезу, запропоновану ключовим членом команди OpenAI Вонгом Цзяїєм минулого місяця — гіпотезу евристичного навчання (Heuristic Learning). Традиційне підкріплене навчання для того, щоб навчити ШІ виконувати завдання, вимагає тисячі спроб і помилок, силового впровадження досвіду у чорний ящик нейронної мережі, що споживає багато енергії і легко забувається. Водночас експерименти Вонга Цзяїя показали, що без будь-якої зміни параметрів великої моделі, вона сама писала Python-код, знаходила баги та регулювала правила, і цим проходила рівень у грі Atari Breakout. Це свідчить про те, що носієм знань цілком може бути система коду, зрозуміла і тестована людиною, а не незрозумілі ваги нейронної мережі.

На думку співзасновника YC Пола Грема, цикл написання коду, його перевірки та стиснення дуже близький до щоденної роботи науковця. Велика модель не потребує реконструкції мозку, а скоріше, як науковець, вона використовує код для формулювання гіпотез у нових умовах, запускає їх для перевірки та виводить найпростіші правила для розв’язання задач. Процес пошуку найкоротшого програми — це також кінцева міра ефективності штучного інтелекту ARC-AGI.

Найважливішою перевагою є те, що безградієнтне навчання коду може безпосередньо скористатися підвищенням можливостей базової моделі. Чим розумнішою стає базова модель, тим сильнішими стають код і стратегії, які створює агент. На основі гіркого уроку Річарда Саттона (The Bitter Lesson), безградієнтне навчання коду малює нову криву S. З вибухом здатності коду великих моделей, шлях самовдосконалення ШІ відкриває завісу наступної генерації парадигми штучного інтелекту.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено