Команда NLP Стенфордського університету у Twitter заявила, що наразі опубліковані дані для тренування агентів здебільшого використовуються на етапі подальшого навчання, особливо для моделей на кшталт Qwen. Ці моделі, ймовірно, вже були навчанні на великій кількості даних агентів. Вони вважають, що кількість даних агентів, необхідних для створення високоякісної відкритої моделі з нуля, значно перевищує масштаб подальшого навчання лише на відкритих вагових коефіцієнтах, що підкреслює недоліки даних агентів на етапі попереднього навчання. Джерело: InFoQ

MeNews

2026-05-20 10:36:37

Генерація анотацій у процесі

AIMPACT повідомлення, 15 травня (UTC+8), команда NLP Стенфордського університету зазначила у Twitter, що наразі більшість публічно доступних даних для тренування агентів все ще переважно орієнтовані на стадію пост-тренування, особливо для моделей на кшталт Qwen (які, можливо, вже були натреновані на великій кількості даних агентів). Команда вважає, що для з нуля тренування хороших відкритих моделей потрібно набагато більше даних агентів, ніж потрібно лише для пост-тренування з відкритими вагами, що підкреслює недоліки поточних даних для тренування агентів на етапі попереднього тренування. (Джерело: InFoQ)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

7 лайків

Нагородити
7
5
8
Поділіться

Прокоментувати

Додати коментар

NeonMeltsIceCream

· 6год тому

Відкриті моделі хочуть наздогнати, вартість даних агентів на етапі попереднього навчання занадто висока, малим командами це не під силу.