Команда NLP Стенфордського університету у Twitter заявила, що наразі опубліковані дані для тренування агентів здебільшого використовуються на етапі подальшого навчання, особливо для моделей на кшталт Qwen. Ці моделі, ймовірно, вже були натреновані на великій кількості даних агентів. Вони вважають, що кількість даних агентів, необхідних для створення високоякісної відкритої моделі з нуля, значно перевищує масштаб подальшого навчання лише на відкритих вагових коефіцієнтах, що підкреслює недоліки даних агентів на етапі попереднього навчання. Джерело: InFoQ

MeNews

2026-05-20 10:53:07

Генерація анотацій у процесі

AIMPACT повідомлення, 15 травня (UTC+8), команда NLP Стенфордського університету зазначила у Twitter, що наразі більшість публічно доступних даних для тренування агентів все ще переважно орієнтовані на посттренувальний етап, особливо для моделей на кшталт Qwen (які, можливо, вже були натреновані на великій кількості даних агентів). Команда вважає, що для з нуля тренування хороших відкритих моделей потрібно набагато більше даних агентів, ніж потрібно для посттренування лише з відкритих ваг, що підкреслює недоліки поточних даних для тренування агентів на етапі попереднього тренування. (Джерело: InFoQ)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

7 лайків

Нагородити
7
10
8
Поділіться

Прокоментувати

Додати коментар

ColdLightNftCabinet

· 2год тому

Відкритий спільнота має подумати, як залучити кошти на попереднє навчання даних