DeepSeek тихо випустив V2 версію статті R1, розкриваючи кілька ключових технологічних досягнень.



Щодо проблеми автентичності вмісту, що генерується великими мовними моделями, вони дали офіційне пояснення. Стосовно явища, коли модель часто посилається на OpenAI та ChatGPT при відповідях, DeepSeek пояснює, що це не було навмисним проєктуванням, а походить від об'єктивної реальності навчальних даних — у веб-корпусах об'єктивно існує велика кількість зовнішньо згенерованого вмісту, який, коли включається до навчання базової моделі, створює непрямий, але вимірюваний вплив. Це відкриття має важливе значення для розуміння характеристик поведінки LLM та залежності від даних.

Ще більш гідне уваги — їх планування щодо майбутніх напрямів розвитку можливостей. Стаття чітко визначає «структурований результат» та «використання інструментів» як основні напрями розвитку R2. Структурований результат дозволяє моделі організовувати інформацію за певним форматом, підвищуючи практичність у реальних застосуваннях; використання інструментів стосується здатності моделі взаємодіяти з зовнішніми системами, що є критичним для розширення практичних меж застосування моделей міркування. Ці напрями технологічної еволюції відображають тренд переходу від чистого текстового генерування до мультимодальності та сильної здатності до взаємодії.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 8
  • Репост
  • Поділіться
Прокоментувати
0/400
SignatureLiquidatorvip
· 01-10 17:22
Ха, DeepSeek знову тихо працює над чимось новим, і ніколи не знаєш, коли вийде нова версія Зачекайте, вони ще й звинувачують у тренувальних даних? Що ж, про об'єктивний стан... Добре, ця причина дійсно має підстави Структурований вивід та використання інструментів звучать непогано, бо боюся, що знову буде лише прогрес-бар на папері
Переглянути оригіналвідповісти на0
SatsStackingvip
· 01-10 09:19
嗯...дані про забруднення даних досить прямо звинувачують, але ця аргументація дійсно має підстави Структурована подача + виклики інструментів — це саме те, що хочуть гравці, чисте спілкування справді вже не має конкуренції Оновлення DeepSeek цього разу здається досить стабільним, без перебільшень Щодо навчальних даних, по суті, ніхто не може їх обійти, і краще бути чесним, ніж приховувати Якщо R2 справді зробить інструментальні можливості, можливо, саме цей момент і буде справжнім часом для уваги Проблеми з якістю датасетів дійсно турбують всю галузь, і DeepSeek сміливо говорить про це — це теж прояв щирості Ця хвиля оновлень здається без особливих сюрпризів, але при цьому логіка послідовна, і не вводить в оману
Переглянути оригіналвідповісти на0
LightningWalletvip
· 01-09 12:25
哈,DeepSeek ця хвиля оновлень має щось особливе, структурований вивід + інтеграція інструментів, здається, справді готується великий хід Вплив навчальних даних на поведінку моделі — це правильно, купа штучного інтелекту, згенерованого в Інтернеті, дійсно може забруднити R2 вже на підході, мультимодальність — це майбутнє Головне — чи справді це буде зручно, щоб знову не було лише на папері успіху
Переглянути оригіналвідповісти на0
SchrodingerWalletvip
· 01-08 07:45
Знову DeepSeek — то тихо, то прогресує. Справді у вас талант, чому ж не видати заяву, щоб ми дізналися? У даних тренування скрізь тінь ChatGPT... от і чудо, все звучить як переповідання суперника Структурований вивід + використання інструментів — звучить як підготовка до наступного покоління практичності, R2 справді йде? Забруднення даних — у цьому колі ніхто не втече, DeepSeek хоча б наважився це озвучити, що виглядає чесно Амбіції R2 непомалі — прямий стрибок від генерування тексту до мультимодальної взаємодії, дещо радикально, але мені подобається Цей раунд дорожної карти технологій розкривається досить ясно — це натяк на власну стелю можливостей Використання інструментів — справді ключове, без цього LLM, навіть дуже потужний, залишається яйцюком Папір V2 вийшов так давно, а людям тільки тепер до нього справа,热度справді не на висоті
Переглянути оригіналвідповісти на0
MemeTokenGeniusvip
· 01-08 07:41
哈哈deepseek знову таємно щось робить, структурований вивід та використання інструментів дійсно бездоганні У тренувальних даних повно слідів ChatGPT, що досить цікаво, по суті, це проблема інтернет-ДНК Чи злетить R2 напряму, трохи очікую
Переглянути оригіналвідповісти на0
GasGuzzlervip
· 01-08 07:41
Ці дані токсичності дійсно важко ігнорувати, оскільки у тренувальному наборі даних повно слідів ChatGPT, і важко сказати, що це зовсім не впливає. Проте структурований вивід + виклики інструментів — це саме той ключовий комбо, яке, на мою думку, є справжнім проривом у практичному застосуванні. DeepSeek знову працює у таємниці, настільки скромно, що важко повірити... вони опублікували статтю лише після завершення. Якщо можливості інструментів справді будуть реалізовані на високому рівні, це зможе справді загрожувати екосистемі OpenAI.
Переглянути оригіналвідповісти на0
ForkPrincevip
· 01-08 07:29
嗯...данієзабруднення нарешті хтось сміє говорити про це серйозно, це не баг, а фіча ха-ха структуроване виведення та виклики інструментів — це надійно, якщо R2 справді зможе зробити це, то це буде неймовірно DeepSeek справді скромний, кожного разу вони тихо публікують статті, набагато краще, ніж деякі, що щодня кричать у навчальних даних повністю ChatGPT, тому й модель постійно згадує їх, як би ти її не чистив, це не допоможе якщо здатність використовувати інструменти стане реальною, тоді модель зможе справді знайти застосування, я вже втомився від чистого чату
Переглянути оригіналвідповісти на0
wrekt_but_learningvip
· 01-08 07:21
Дані визначають усе, нічого дивного, що постійно згадують OpenAI... Тому DeepSeek натякає, що у тренувальному наборі є проблеми? --- Структурований вивід + виклики інструментів — це справжній ключ до відкриття практичності, ера чистого текстового генерування справді минула --- Чекайте, вони говорять про "опосередкований, але вимірюваний вплив"... Це не означає, що вони не визнають, що модель може бути схильною до упереджень через тренувальні дані? --- Дорожня карта R2 цікава, здається, DeepSeek йде своїм шляхом, не слідує за трендом чистого логічного мислення --- У тренувальних даних повно зовнішнього контенту, як це забезпечити незалежність цього?
Переглянути оригіналвідповісти на0
  • Закріпити