Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
DeepSeek, що був видалений вночі, новий науковий документ, про що він говорить
昨晚 DeepSeek 多模態 дослідник Чень Сяокан на X опублікував повідомлення і оприлюднив новий документ DeepSeek щодо мультимодальних технологій «Thinking with Visual Primitives», заявивши «Захоплений випуском».
Сьогодні рано вранці повідомлення було видалено, а стаття на GitHub також знята.
Але APPSO перед зникненням прочитав весь текст. Після прочитання він подумав, що видалення цієї статті, можливо, не через проблеми з її змістом.
Навпаки, можливо, вона розкриває занадто багато.
Позавчора ми завершили тестування режиму розпізнавання зображень DeepSeek, щоб він рахує пальці, подумав трохи і поскаржився «Я справді заплутався з підрахунком», а потім зробив помилку. Спочатку думали, що це дрібна проблема на етапі тестування.
Ця стаття показує нам, що заплутаність у підрахунку пальців приховує технічний вузол, який колективно не може розв’язати GPT, Claude, Gemini.
А рішення DeepSeek — майже смішно проста ідея: поставити AI «палець».
У тій твіті Чень Сяокан написав:
«Traditional CoT залишається у мовному просторі, але візуальне мислення потребує більшого. Використовуючи точки і рамки як когнітивні опори, наша модель долає «Референсний розрив» — імітуючи «точка-до-розуміння» синергію, яку використовують люди.»
«Традиційний ланцюг мислення залишається у мовній сфері, але візуальне мислення потребує більшого. Використовуючи точки і рамки як когнітивні опори, наша модель долає «Референсну прірву» — імітуючи «точка-до-розуміння» синергію, яку використовують люди.»
Розрізняти чіткість і точність вказівки — це два різні речі
Зараз усі мультимодальні великі моделі для зображень, по суті, перетворюють побачене у текст, а потім у текстовому просторі роблять мисленнєві ланцюги. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash — всі працюють за цим принципом.
За останні два роки, OpenAI, Google, Anthropic зосередилися на одному питанні: як зробити модель більш чіткою у сприйнятті. Високорезолюційне обрізання, динамічне блокування, збільшення зображення і вставлення його назад. DeepSeek називає це Perception Gap, — «прірвою сприйняття».
Але ця стаття вказує на ще один вузол: Reference Gap, — «прірву посилань». Модель бачить чітко, але під час розуміння не може точно вказати на конкретний об’єкт на зображенні.
Можна так зрозуміти: на зображенні 25 людей, які стоять дуже щільно, описати словами «людина, що стоїть поруч із третьою зліва у синій футболці», — і цей опис вже є нечітким. Модель рахує і рахує, і втрачає контекст, забуває, кого саме вона раніше порахувала.
Як люди вирішують цю проблему? Надто примітивно: витягнути палець і вказати.
Модель з 284 мільярдами параметрів — отримала «палець».
Рішення DeepSeek: дозволити моделі під час мислення безпосередньо виводити координати на зображенні.
Уявіть: модель бачить багато людей на зображенні, і її ланцюг мислення вже не «бачу людину у синій футболці зліва», а «бачу цю людину» і додаю координати рамки, щоб обвести її. Кожного разу, коли рахує людину — обводить рамкою, і після завершення рахує кількість рамок.
Два формати координат: один — рамка (bounding box), прямокутник, що обводить об’єкт, підходить для визначення позиції; інший — точка (point), ставиться у конкретне місце на зображенні, підходить для відстеження шляхів і лабіринтів. DeepSeek називає ці два елементи «візуальними primitives» — найменшими мисленнєвими одиницями.
Ключова зміна тут: раніше модель виводила координати як кінцеву відповідь («об’єкт тут»), тепер координати інтегровані у сам процес мислення. Це — начерк, маркування на чорновику, а не відповідь у бланку.
Зменшити зображення у 7056 разів і все одно чітко рахувати кількість людей
Базова модель — DeepSeek-V4-Flash, MoE з 284 мільярдами параметрів. MoE означає: модель має дуже великий мозок, але кожного разу при відповіді активує лише частину нейронів, тобто під час розв’язання задачі активується лише 13 мільярдів параметрів. Це схоже на команду з сотні людей, де кожен виконує свою частину.
Щодо візуального кодування, тут зроблено трирівневе стиснення. Наприклад: у вас є фото, яке потрібно надіслати повільним інтернетом. Спершу розрізати його на маленькі квадратики; потім об’єднати кожні 9 квадратиків у один (3×3 компресія); далі — ще раз зменшити обсяг даних за допомогою KV Cache (зменшення у 4 рази).
Практично: зображення 756×756 пікселів, 570 тисяч пікселів, при такому стисненні перетворюється у 81 інформаційний блок. Співвідношення стиснення — 7 056 разів.
Перша реакція: чи можна таке ще роздивитися? Але результати статті показують, що так можна. Не лише роздивитися, а й точно порахувати, що на зображенні 25 людей.
Порівняння: для зображення 800×800 Gemini-3-Flash витрачає близько 1100 токенів, Claude-Sonnet-4.6 — близько 870, GPT-5.4 — близько 740. DeepSeek у кінцевому підсумку використовує лише 90 інформаційних одиниць. Інші — понад тисячу клітинок для запам’ятовування зображення, а DeepSeek — всього 90, і решту обчислювальної потужності витрачає на «вказівки».
Як зібрати 40 мільйонів тренувальних даних
DeepSeek зібрав усі датасети з платформ Huggingface та інших, що мають тег «об’єктне розпізнавання», отримав 97 984 джерела.
Після двох етапів відбору.
Перший — якість тегів. Автоматично перевіряє AI: чи є теги беззмістовними номерами (категорії «0», «1»), приватними даними («MyRoommate»), або скороченнями («OK», «NG» у промисловій діагностиці, де «OK» — яблуко, а «OK» — плата — зовсім різні речі, і AI їх не зрозуміє). В результаті — видалено 56%, залишилось 43 141.
Другий — якість рамок. Три критерії: пропущені об’єкти (часто половина пропущена), неправильно намальовані рамки (об’єкт зсунутий або зменшений у розмірі), рамки, що охоплюють всю картинку (означає, що дані — просто класифікація, а не детекція). В результаті — ще 27% видалено, залишилось 31 701.
Зрештою, за категоріями зроблено вибірки, унікальні дані — понад 40 мільйонів високоякісних зразків.
DeepSeek спершу робить великі рамки, потім додає точки. Чому? Тому що, коли AI позначає рамкою — відповідь майже однозначна (об’єкт точно обведений), а коли точкою — будь-яка точка на об’єкті вважається правильною, без єдиного правильного варіанту, сигнал для навчання — дуже розмитий. Крім того, рамка містить дві точки (верхній лівий і нижній правий кути), навчившись малювати рамки, позначати точки — зменшення розмірності.
Як навчити модель «вказувати пальцем»
Після тренування стратегія — «спочатку окремо, потім разом».
Спершу DeepSeek тренує окрему модель для малювання рамок, потім — для позначення точок. Це робиться через роздільне навчання, бо даних ще недостатньо, і поєднання двох навичок може заважати.
Після цього обох експертів піддають посиленому навчання. Як визначити, що модель «намалювала рамку правильно» або «зробила правильний шлях»? DeepSeek розробив багатовимірну систему оцінки: правильність формату (чи коректний синтаксис координат), логіка (чи немає суперечностей у мисленні), точність відповіді (наскільки вона відповідає стандарту).
Обробка даних для посиленого навчання теж ретельна: модель проходить кілька разів одне й те саме завдання, і лише ті, що мають і правильні, і неправильні відповіді — використовуються для тренування, щоб уникнути простих і складних прикладів.
Останній крок — об’єднати навички двох експертів у єдину модель. Як? Навчити єдину модель слідувати їхнім виходам, ніби студент, що навчається у двох вчителів одночасно.
Що робить, коли дає їй «вказівку пальцем»?
Рахує 25 людей
Дайте моделі фото футбольної команди і запитайте: «Скільки людей на зображенні?»
Модель спочатку визначає: «Це командне фото, потрібно порахувати всіх, і гравців, і тренерів». Потім вона одночасно виводить 25 рамок, кожну обводить навколо людини. Після цього рахує: 4 у передньому ряді + 9 у середньому + 8 у задньому + 2 тренери зліва + 2 тренери справа = 25.
«На землі лежить кілька ведмедів?»
На зображенні три ведмеді. Модель по черзі малює рамки для кожного і визначає їх положення: перший — на стовбурі дерева, лазить вертикально, — виключає; другий — біля каменю, і його враховує; третій — між гілками і землею, враховує. Відповідь: 2.
Вона не рахує спочатку три ведмеді і віднімає один, а кожного разу визначає «чи на землі» — і кожне таке рішення базується на конкретних координатах. Вона справді перевіряє кожного, а не вгадує.
Багатоступеневе просторове мислення
У 3D-сцені є набір кольорових геометричних тіл. Питання: «Чи існує фіолетовий гумовий об’єкт такого ж розміру, як і сірий металевий?»
Модель спершу обводить сірий металевий кульку, підтверджуючи, що це малий об’єкт. Потім по черзі обводить інші малі об’єкти: коричневий металевий циліндр, синій металевий куб, синій гумовий куб, жовтий гумовий циліндр… шість об’єктів — кожен порівнює колір, матеріал і розмір. Висновок: фіолетового гумового немає.
Шість позицій, шість перевірок. Кожна — з координатами, і ніяких «забув, де був» — все під контролем.
Більше прикладів з статті:
Навігація у лабіринті: інші кидають монети, а DeepSeek реально шукає шлях.
У статті розглянуто чотири завдання, і лабіринт — найвіддаленіший.
Задача проста: маючи зображення лабіринту, визначити, чи є шлях від старту до фінішу, і намалювати його. Лабіринти бувають трьох форм: квадратні, кільцеві і у вигляді сот.
Модель досліджує шлях так само, як ти у дитинстві малював олівцем: вибирає розгалуження і йде до кінця, якщо шлях закінчується — повертається назад і пробує інший. Відмінність у тому, що вона кожен крок позначає координатою, залишаючи запис.
У статті показано повний процес для кругового лабіринту: модель спершу позначає старт і фініш, потім починає дослідження. За 18 кроків, двічі потрапляючи у глухий кут і повертаючись назад, вона знаходить шлях і виводить послідовність координат.
DeepSeek також створив кілька пасткових лабіринтів: здається, що шлях є, але всередині — приховані перешкоди. Такий лабіринт вимагає терпіння: модель не може обмежитися лише аналізом поблизу старту, потрібно досліджувати всі можливі шляхи, щоб переконатися, що шлях відсутній.
Порівняння точності:
DeepSeek: 66.9%
GPT-5.4: 50.6%
Claude-Sonnet-4.6: 48.9%
Gemini-3-Flash: 49.4%
Qwen3-VL: 49.6%
Лабіринт має два варіанти відповіді: шлях є або його немає. Випадкове вгадування — 50%. GPT, Claude, Gemini, Qwen — коливаються біля 50%, що схоже на підкидання монети. DeepSeek — 66.9%, і це не просто випадковість, він реально проходить шлях крок за кроком, а не вгадує.
Відстеження шляху: найкраща версія для пошуку помилок
Задача більш інтуїтивна: безпосередньо зображення з лініями, що переплітаються, кожна лінія — відмітка від одного маркера до іншого. Як виглядає ваш кабель у кишені? Саме так і зображення. Питання: «Куди веде ця лінія C?»
Модель малює координати вздовж лінії, ніби пальцем по паперу. На вигинах — багато точок, на прямих — менше. Людина, що слідкує за лінією очима, робить так само: сповільнюється на вигинах, швидко проходить по прямих.
У статті додано ускладнений тест: всі лінії мають однаковий колір і товщину. Не можна орієнтуватися на колір — потрібно визначити, яка лінія перетинає яку, за формою і рухом.
DeepSeek: 56.7%
GPT-5.4: 46.5%
Claude-Sonnet-4.6: 30.6%
Gemini-3-Flash: 41.4%
Результат Claude — несподіваний: 30.6%. Зазвичай у кінці є 4-5 варіантів, і випадкове вгадування дає понад 20%. 30.6% — трохи краще за випадковість, але все одно дуже низько. Можливо, у таких завданнях, що вимагають просторового мислення, мовна логіка заважає.
Як навчити AI не обманювати у лабіринті
Обучення лабіринтів має реальну проблему: якщо оцінювати лише за кінцевим результатом — чи досягнуто ціль, — модель швидко навчається «обманювати» і просто вгадувати. Це — неефективно, бо пошук — важкий, і вона може помилитися, а просто здогадатися — швидше, але неправильно.
Рішення DeepSeek — враховувати процес дослідження. Кожен легальний крок — дає бал, а через стіну — штраф. Чим більше досліджено, тим краще. Навіть якщо в кінці шлях не знайдено, модель отримує позитивний сигнал за активність.
Для складних лабіринтів, де неможливо визначити шлях однозначно, потрібно довести, що модель дослідила всі можливі шляхи — і тоді вона довела, що шлях відсутній.
Три обмеження і пасхалка
У тренувальних даних немає китайської мови. Але модель може використовувати китайські візуальні primitives.
Наприклад, на фото кавоварки вона позначає парову трубку, молочний кувшин, кавові зерна, кнопку для приготування латте — і дає інструкції. Мовна здатність вона успадкувала від базової моделі, а візуальні primitives — не порушили.
Вона може поєднувати зображення з знаннями: наприклад, на фото мосту Голден Гейт запитати «Чи є тут NBA-команда?», і вона спершу позначить міст, визначить, що це — Сан-Франциско, і відповість «Голден Стейт Ворріорз».
Розуміє гумор: наприклад, на зрізі фрукту випадково утворилася схожа на сумного кота пляма, і модель може пояснити, у чому схожість і чому це смішно.
Може давати поради для escape room: позначити ключ, стілець на підлозі, заперту двері — і порадити: «Перенеси стілець під ключ, стань на нього, щоб дотягнутися до ключа, і відкрий двері».
Стаття чесно описує, що наразі зробити не може.
Обмеження роздільної здатності. Вихід ViT обмежений від 81 до 384 візуальних одиниць. У дуже деталізованих сценах (наприклад, підрахунок пальців) координатної точності не вистачає. Це — причина, чому під час тестування раніше виникли проблеми з підрахунком пальців.
Потрібно спеціальне триггерне слово, щоб активувати режим візуальних primitives. Модель ще не може сама визначити, «коли потрібно витягнути палець», — потрібно нагадування.
Обмежена здатність до топологічного узагальнення. Вона добре працює на тренованих типах лабіринтів, але при нових структурах може давати збій. Чень Сяокан у тому видаленому твіті сказав:
«Ми ще на початковому етапі; узагальнення у складних топологічних задачах ще не ідеальне, але ми працюємо над цим.»
Позавчора під час тесту, можливості розпізнавання зображень DeepSeek (з’ясовування особистості автора, асоціації з логотипом киту, самокорекція, організація «міні-захисту») — все це відповідає описаній у статті мисленнєвій моделі. Вона створює візуальні опори, навколо яких будує логіку, і при суперечностях повертається назад і виправляє.
А заплутаність у підрахунку пальців — живий приклад Reference Gap. У сцені з перехрещеними пальцями, коли потрібно визначити «третя зліва» або «друга справа», — це так само, як і не витягнути палець і порахувати людей, що стоять разом — неможливо безпосередньо, і призводить до хаосу.
Ця стаття вказує напрямок: майбутнє мультимодального мислення — у механізмі прив’язки. DeepSeek з 90 інформаційними одиницями досягає результату, на який інші витрачають тисячі токенів, і економить ресурси на «мислення і вказівки одночасно».
Гонка за роздільною здатністю може трохи затихнути — навчити модель вказувати пальцем — ефективніше, ніж купувати ще більш дорогі окуляри.
Після того, як ця китиця побачила світ, у неї з’явилися пальці. 66.9% точності у лабіринтах — ще далеко до ідеалу, але вона вже реально проходить шлях, а не просто вгадує.