昨晚 DeepSeek 多模態 дослідник Чень Сяокан на X опублікував повідомлення і оприлюднив новий документ DeepSeek щодо мультимодальних технологій «Thinking with Visual Primitives», заявивши «Захоплений випуском».

Сьогодні рано вранці повідомлення було видалено, а стаття на GitHub також знята.

Але APPSO перед зникненням прочитав весь текст. Після прочитання він подумав, що видалення цієї статті, можливо, не через проблеми з її змістом.

Навпаки, можливо, вона розкриває занадто багато.

Позавчора ми завершили тестування режиму розпізнавання зображень DeepSeek, щоб він рахує пальці, подумав трохи і поскаржився «Я справді заплутався з підрахунком», а потім зробив помилку. Спочатку думали, що це дрібна проблема на етапі тестування.

Ця стаття показує нам, що заплутаність у підрахунку пальців приховує технічний вузол, який колективно не може розв’язати GPT, Claude, Gemini.

А рішення DeepSeek — майже смішно проста ідея: поставити AI «палець».

У тій твіті Чень Сяокан написав:

«Traditional CoT залишається у мовному просторі, але візуальне мислення потребує більшого. Використовуючи точки і рамки як когнітивні опори, наша модель долає «Референсний розрив» — імітуючи «точка-до-розуміння» синергію, яку використовують люди.»

«Традиційний ланцюг мислення залишається у мовній сфері, але візуальне мислення потребує більшого. Використовуючи точки і рамки як когнітивні опори, наша модель долає «Референсну прірву» — імітуючи «точка-до-розуміння» синергію, яку використовують люди.»

Розрізняти чіткість і точність вказівки — це два різні речі

Зараз усі мультимодальні великі моделі для зображень, по суті, перетворюють побачене у текст, а потім у текстовому просторі роблять мисленнєві ланцюги. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash — всі працюють за цим принципом.

За останні два роки, OpenAI, Google, Anthropic зосередилися на одному питанні: як зробити модель більш чіткою у сприйнятті. Високорезолюційне обрізання, динамічне блокування, збільшення зображення і вставлення його назад. DeepSeek називає це Perception Gap, — «прірвою сприйняття».

Але ця стаття вказує на ще один вузол: Reference Gap, — «прірву посилань». Модель бачить чітко, але під час розуміння не може точно вказати на конкретний об’єкт на зображенні.

Можна так зрозуміти: на зображенні 25 людей, які стоять дуже щільно, описати словами «людина, що стоїть поруч із третьою зліва у синій футболці», — і цей опис вже є нечітким. Модель рахує і рахує, і втрачає контекст, забуває, кого саме вона раніше порахувала.

Як люди вирішують цю проблему? Надто примітивно: витягнути палець і вказати.

Модель з 284 мільярдами параметрів — отримала «палець».

Рішення DeepSeek: дозволити моделі під час мислення безпосередньо виводити координати на зображенні.

Уявіть: модель бачить багато людей на зображенні, і її ланцюг мислення вже не «бачу людину у синій футболці зліва», а «бачу цю людину» і додаю координати рамки, щоб обвести її. Кожного разу, коли рахує людину — обводить рамкою, і після завершення рахує кількість рамок.

Два формати координат: один — рамка (bounding box), прямокутник, що обводить об’єкт, підходить для визначення позиції; інший — точка (point), ставиться у конкретне місце на зображенні, підходить для відстеження шляхів і лабіринтів. DeepSeek називає ці два елементи «візуальними primitives» — найменшими мисленнєвими одиницями.

Ключова зміна тут: раніше модель виводила координати як кінцеву відповідь («об’єкт тут»), тепер координати інтегровані у сам процес мислення. Це — начерк, маркування на чорновику, а не відповідь у бланку.

Зменшити зображення у 7056 разів і все одно чітко рахувати кількість людей

Базова модель — DeepSeek-V4-Flash, MoE з 284 мільярдами параметрів. MoE означає: модель має дуже великий мозок, але кожного разу при відповіді активує лише частину нейронів, тобто під час розв’язання задачі активується лише 13 мільярдів параметрів. Це схоже на команду з сотні людей, де кожен виконує свою частину.

Щодо візуального кодування, тут зроблено трирівневе стиснення. Наприклад: у вас є фото, яке потрібно надіслати повільним інтернетом. Спершу розрізати його на маленькі квадратики; потім об’єднати кожні 9 квадратиків у один (3×3 компресія); далі — ще раз зменшити обсяг даних за допомогою KV Cache (зменшення у 4 рази).

Практично: зображення 756×756 пікселів, 570 тисяч пікселів, при такому стисненні перетворюється у 81 інформаційний блок. Співвідношення стиснення — 7 056 разів.

Перша реакція: чи можна таке ще роздивитися? Але результати статті показують, що так можна. Не лише роздивитися, а й точно порахувати, що на зображенні 25 людей.

Порівняння: для зображення 800×800 Gemini-3-Flash витрачає близько 1100 токенів, Claude-Sonnet-4.6 — близько 870, GPT-5.4 — близько 740. DeepSeek у кінцевому підсумку використовує лише 90 інформаційних одиниць. Інші — понад тисячу клітинок для запам’ятовування зображення, а DeepSeek — всього 90, і решту обчислювальної потужності витрачає на «вказівки».

Як зібрати 40 мільйонів тренувальних даних

DeepSeek зібрав усі датасети з платформ Huggingface та інших, що мають тег «об’єктне розпізнавання», отримав 97 984 джерела.

Після двох етапів відбору.

Перший — якість тегів. Автоматично перевіряє AI: чи є теги беззмістовними номерами (категорії «0», «1»), приватними даними («MyRoommate»), або скороченнями («OK», «NG» у промисловій діагностиці, де «OK» — яблуко, а «OK» — плата — зовсім різні речі, і AI їх не зрозуміє). В результаті — видалено 56%, залишилось 43 141.

Другий — якість рамок. Три критерії: пропущені об’єкти (часто половина пропущена), неправильно намальовані рамки (об’єкт зсунутий або зменшений у розмірі), рамки, що охоплюють всю картинку (означає, що дані — просто класифікація, а не детекція). В результаті — ще 27% видалено, залишилось 31 701.

Зрештою, за категоріями зроблено вибірки, унікальні дані — понад 40 мільйонів високоякісних зразків.

DeepSeek спершу робить великі рамки, потім додає точки. Чому? Тому що, коли AI позначає рамкою — відповідь майже однозначна (об’єкт точно обведений), а коли точкою — будь-яка точка на об’єкті вважається правильною, без єдиного правильного варіанту, сигнал для навчання — дуже розмитий. Крім того, рамка містить дві точки (верхній лівий і нижній правий кути), навчившись малювати рамки, позначати точки — зменшення розмірності.

Як навчити модель «вказувати пальцем»

Після тренування стратегія — «спочатку окремо, потім разом».

Спершу DeepSeek тренує окрему модель для малювання рамок, потім — для позначення точок. Це робиться через роздільне навчання, бо даних ще недостатньо, і поєднання двох навичок може заважати.

Після цього обох експертів піддають посиленому навчання. Як визначити, що модель «намалювала рамку правильно» або «зробила правильний шлях»? DeepSeek розробив багатовимірну систему оцінки: правильність формату (чи коректний синтаксис координат), логіка (чи немає суперечностей у мисленні), точність відповіді (наскільки вона відповідає стандарту).

Обробка даних для посиленого навчання теж ретельна: модель проходить кілька разів одне й те саме завдання, і лише ті, що мають і правильні, і неправильні відповіді — використовуються для тренування, щоб уникнути простих і складних прикладів.

Останній крок — об’єднати навички двох експертів у єдину модель. Як? Навчити єдину модель слідувати їхнім виходам, ніби студент, що навчається у двох вчителів одночасно.

Що робить, коли дає їй «вказівку пальцем»?

Рахує 25 людей

Дайте моделі фото футбольної команди і запитайте: «Скільки людей на зображенні?»

Модель спочатку визначає: «Це командне фото, потрібно порахувати всіх, і гравців, і тренерів». Потім вона одночасно виводить 25 рамок, кожну обводить навколо людини. Після цього рахує: 4 у передньому ряді + 9 у середньому + 8 у задньому + 2 тренери зліва + 2 тренери справа = 25.

«На землі лежить кілька ведмедів?»

На зображенні три ведмеді. Модель по черзі малює рамки для кожного і визначає їх положення: перший — на стовбурі дерева, лазить вертикально, — виключає; другий — біля каменю, і його враховує; третій — між гілками і землею, враховує. Відповідь: 2.

Вона не рахує спочатку три ведмеді і віднімає один, а кожного разу визначає «чи на землі» — і кожне таке рішення базується на конкретних координатах. Вона справді перевіряє кожного, а не вгадує.

Багатоступеневе просторове мислення

У 3D-сцені є набір кольорових геометричних тіл. Питання: «Чи існує фіолетовий гумовий об’єкт такого ж розміру, як і сірий металевий?»

Модель спершу обводить сірий металевий кульку, підтверджуючи, що це малий об’єкт. Потім по черзі обводить інші малі об’єкти: коричневий металевий циліндр, синій металевий куб, синій гумовий куб, жовтий гумовий циліндр… шість об’єктів — кожен порівнює колір, матеріал і розмір. Висновок: фіолетового гумового немає.

Шість позицій, шість перевірок. Кожна — з координатами, і ніяких «забув, де був» — все під контролем.

Більше прикладів з статті:

Навігація у лабіринті: інші кидають монети, а DeepSeek реально шукає шлях.

У статті розглянуто чотири завдання, і лабіринт — найвіддаленіший.

Задача проста: маючи зображення лабіринту, визначити, чи є шлях від старту до фінішу, і намалювати його. Лабіринти бувають трьох форм: квадратні, кільцеві і у вигляді сот.

Модель досліджує шлях так само, як ти у дитинстві малював олівцем: вибирає розгалуження і йде до кінця, якщо шлях закінчується — повертається назад і пробує інший. Відмінність у тому, що вона кожен крок позначає координатою, залишаючи запис.

У статті показано повний процес для кругового лабіринту: модель спершу позначає старт і фініш, потім починає дослідження. За 18 кроків, двічі потрапляючи у глухий кут і повертаючись назад, вона знаходить шлях і виводить послідовність координат.

DeepSeek також створив кілька пасткових лабіринтів: здається, що шлях є, але всередині — приховані перешкоди. Такий лабіринт вимагає терпіння: модель не може обмежитися лише аналізом поблизу старту, потрібно досліджувати всі можливі шляхи, щоб переконатися, що шлях відсутній.

Порівняння точності:

DeepSeek: 66.9%
GPT-5.4: 50.6%
Claude-Sonnet-4.6: 48.9%
Gemini-3-Flash: 49.4%
Qwen3-VL: 49.6%

Лабіринт має два варіанти відповіді: шлях є або його немає. Випадкове вгадування — 50%. GPT, Claude, Gemini, Qwen — коливаються біля 50%, що схоже на підкидання монети. DeepSeek — 66.9%, і це не просто випадковість, він реально проходить шлях крок за кроком, а не вгадує.

Відстеження шляху: найкраща версія для пошуку помилок

Задача більш інтуїтивна: безпосередньо зображення з лініями, що переплітаються, кожна лінія — відмітка від одного маркера до іншого. Як виглядає ваш кабель у кишені? Саме так і зображення. Питання: «Куди веде ця лінія C?»

Модель малює координати вздовж лінії, ніби пальцем по паперу. На вигинах — багато точок, на прямих — менше. Людина, що слідкує за лінією очима, робить так само: сповільнюється на вигинах, швидко проходить по прямих.

У статті додано ускладнений тест: всі лінії мають однаковий колір і товщину. Не можна орієнтуватися на колір — потрібно визначити, яка лінія перетинає яку, за формою і рухом.

DeepSeek: 56.7%
GPT-5.4: 46.5%
Claude-Sonnet-4.6: 30.6%
Gemini-3-Flash: 41.4%

Результат Claude — несподіваний: 30.6%. Зазвичай у кінці є 4-5 варіантів, і випадкове вгадування дає понад 20%. 30.6% — трохи краще за випадковість, але все одно дуже низько. Можливо, у таких завданнях, що вимагають просторового мислення, мовна логіка заважає.

Як навчити AI не обманювати у лабіринті

Обучення лабіринтів має реальну проблему: якщо оцінювати лише за кінцевим результатом — чи досягнуто ціль, — модель швидко навчається «обманювати» і просто вгадувати. Це — неефективно, бо пошук — важкий, і вона може помилитися, а просто здогадатися — швидше, але неправильно.

Рішення DeepSeek — враховувати процес дослідження. Кожен легальний крок — дає бал, а через стіну — штраф. Чим більше досліджено, тим краще. Навіть якщо в кінці шлях не знайдено, модель отримує позитивний сигнал за активність.

Для складних лабіринтів, де неможливо визначити шлях однозначно, потрібно довести, що модель дослідила всі можливі шляхи — і тоді вона довела, що шлях відсутній.

Три обмеження і пасхалка

У тренувальних даних немає китайської мови. Але модель може використовувати китайські візуальні primitives.

Наприклад, на фото кавоварки вона позначає парову трубку, молочний кувшин, кавові зерна, кнопку для приготування латте — і дає інструкції. Мовна здатність вона успадкувала від базової моделі, а візуальні primitives — не порушили.

Вона може поєднувати зображення з знаннями: наприклад, на фото мосту Голден Гейт запитати «Чи є тут NBA-команда?», і вона спершу позначить міст, визначить, що це — Сан-Франциско, і відповість «Голден Стейт Ворріорз».

Розуміє гумор: наприклад, на зрізі фрукту випадково утворилася схожа на сумного кота пляма, і модель може пояснити, у чому схожість і чому це смішно.

Може давати поради для escape room: позначити ключ, стілець на підлозі, заперту двері — і порадити: «Перенеси стілець під ключ, стань на нього, щоб дотягнутися до ключа, і відкрий двері».

Стаття чесно описує, що наразі зробити не може.

Обмеження роздільної здатності. Вихід ViT обмежений від 81 до 384 візуальних одиниць. У дуже деталізованих сценах (наприклад, підрахунок пальців) координатної точності не вистачає. Це — причина, чому під час тестування раніше виникли проблеми з підрахунком пальців.

Потрібно спеціальне триггерне слово, щоб активувати режим візуальних primitives. Модель ще не може сама визначити, «коли потрібно витягнути палець», — потрібно нагадування.

Обмежена здатність до топологічного узагальнення. Вона добре працює на тренованих типах лабіринтів, але при нових структурах може давати збій. Чень Сяокан у тому видаленому твіті сказав:

«Ми ще на початковому етапі; узагальнення у складних топологічних задачах ще не ідеальне, але ми працюємо над цим.»

Позавчора під час тесту, можливості розпізнавання зображень DeepSeek (з’ясовування особистості автора, асоціації з логотипом киту, самокорекція, організація «міні-захисту») — все це відповідає описаній у статті мисленнєвій моделі. Вона створює візуальні опори, навколо яких будує логіку, і при суперечностях повертається назад і виправляє.

А заплутаність у підрахунку пальців — живий приклад Reference Gap. У сцені з перехрещеними пальцями, коли потрібно визначити «третя зліва» або «друга справа», — це так само, як і не витягнути палець і порахувати людей, що стоять разом — неможливо безпосередньо, і призводить до хаосу.

Ця стаття вказує напрямок: майбутнє мультимодального мислення — у механізмі прив’язки. DeepSeek з 90 інформаційними одиницями досягає результату, на який інші витрачають тисячі токенів, і економить ресурси на «мислення і вказівки одночасно».

Гонка за роздільною здатністю може трохи затихнути — навчити модель вказувати пальцем — ефективніше, ніж купувати ще більш дорогі окуляри.

Після того, як ця китиця побачила світ, у неї з’явилися пальці. 66.9% точності у лабіринтах — ще далеко до ідеалу, але вона вже реально проходить шлях, а не просто вгадує.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
433.53K Популярність
#
USSeeksStrategicBitcoinReserve
58.68M Популярність
#
IsraelStrikesIranBTCPlunges
37.17K Популярність
#
BitcoinETFOptionLimitQuadruples
975.91K Популярність
#
#FedHoldsRateButDividesDeepen
29.79K Популярність

Закріпити

карта сайту

DeepSeek, що був видалений вночі, новий науковий документ, про що він говорить

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити