Позавчера мы только что протестировали режим распознавания изображений DeepSeek: пусть он считает пальцы, подумал, пожаловался «Я реально запутался в подсчёте», и ошибся. Тогда думали, что это мелкая проблема на этапе тестирования.

Эта статья показывает нам, что запутанность при подсчёте пальцев скрывает за собой технический узкий проход, который коллективно не смогли решить GPT, Claude, Gemini.

А решение DeepSeek — почти смешное своей простотой: поставить AI «палец».

В той же твит-строке Чэнь Сяокан написал:

«Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.»

«Традиционный цепной рассуждение остаётся в языковом пространстве, но визуальное мышление требует большего. Используя точки и рамки в качестве когнитивных якорей, наша модель преодолевает «пропасть ссылок» — имитируя «указание и рассуждение», которое используют люди.»

Видеть ясно и указывать точно — две разные вещи

Все современные мультимодальные большие модели для визуального рассуждения по сути превращают увиденное в текст, а затем в текстовом пространстве делают цепочки рассуждений. GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash — все по этому принципу.

За последние два года направления улучшений от OpenAI, Google, Anthropic сосредоточены на одной проблеме: как сделать модель более ясной в восприятии. Высокое разрешение, динамическое деление на блоки, увеличение изображения и вставка его — всё это называется Perception Gap, — пропасть восприятия.

Но эта статья указывает на другой узкий проход: Reference Gap, пропасть ссылок. Модель видит хорошо, но при рассуждении не может точно указывать на конкретный объект на изображении.

Можно понять так: на изображении 25 человек стоят очень близко друг к другу, и описание «тот, кто в третьем ряду слева в синей футболке» — само по себе расплывчатое. Пока модель считает, она теряет контекст, забывает, кого только что посчитала.

Как решают эту проблему люди? Очень примитивно: вытягивают палец, указывают один за другим.

Модель с 284 миллиардами параметров — вооружена «палцем».

Решение DeepSeek: позволить модели прямо во время рассуждения выводить координаты на изображении.

Представьте: модель видит много людей на картинке, её цепочка рассуждений больше не «вижу человека в синей футболке слева», а «вижу этого человека» — и прикрепляет координаты рамки, выделяющей его. Каждый раз, когда она считает человека, она рисует рамку. После подсчёта всех — просто считает количество рамок.

Два формата координат: один — рамка (bounding box), прямоугольник, охватывающий объект, подходит для определения положения; другой — точка (point), ставится в произвольное место на изображении, подходит для отслеживания путей и лабиринтов. DeepSeek называет оба эти вида «визуальными primitives» — минимальными единицами мышления.

Ключевое изменение: раньше модель выводила координаты как финальный ответ («объект здесь»), а теперь — координаты встроены в сам процесс рассуждения. Координаты — как заметки на черновике, а не как окончательный ответ.

Сжать изображение в 7056 раз и всё равно точно посчитать, сколько на нём людей

Базовая модель — DeepSeek-V4-Flash, MoE (Mixture of Experts) с 284 миллиардами параметров. MoE — это когда у модели очень большой мозг, но при ответе она активирует только часть нейронов, примерно 13 миллиардов параметров. Похоже на команду из ста человек, из которых на задачу выходит только пятеро.

Визуальный кодировщик делает тройное сжатие. Например: у вас есть фото, которое нужно отправить другу при медленном интернете. Первый шаг — разбить фото на маленькие квадраты. Второй — объединить по 9 таких квадратиков в один (3×3 сжатие). Третий — дополнительно избавиться от избыточной информации при передаче (KV Cache сжатие в 4 раза).

Практически: изображение 756×756 пикселей, 570 тысяч пикселей, при сжатии превращается в 81 информационный блок. Коэффициент сжатия — 7 056 раз.

Первое, что приходит в голову: «А можно ли так всё ещё разглядеть?» Но результаты статьи показывают, что да. Не только разглядеть, но и точно посчитать — например, 25 человек.

Сравним: при том же разрешении 800×800 изображение Gemini-3-Flash занимает около 1100 токенов, Claude-Sonnet-4.6 — около 870, GPT-5.4 — около 740. DeepSeek в финальной стадии использует всего 90 информационных единиц. Другие используют более тысячи ячеек для запоминания картинки, а DeepSeek — всего 90, и всё свободное вычисление тратит на «указание».

Как собираются 40 миллионов обучающих данных

DeepSeek собирает все датасеты с меткой «обнаружение объектов» с платформ Huggingface и других, предварительно отбирает 97 984 источника.

Затем проводят два этапа фильтрации.

Первый — проверка качества меток. Автоматическая проверка AI трёх типов проблем: метки — просто цифры без смысла (категории «0», «1»), метки — личные данные («MyRoommate»), метки — неясные сокращения («OK», «NG» в промышленной диагностике, где «OK» — яблоко, а «OK» — плата — совершенно разные вещи). На этом этапе удаляют 56%, остаётся 43 141.

Второй — проверка качества рамок. Три критерия: пропущены объекты (часть объектов не отмечена), рамки неправильно расположены (объект частично за рамкой), рамки слишком большие (охватывают всю картинку, что говорит о том, что исходные данные — просто классификация, а не детектирование). Удаляют ещё 27%, остаётся 31 701.

В итоге — по категориям выбирают, удаляют дубликаты — получается более 40 миллионов высококачественных образцов.

DeepSeek сначала расширяет рамочные данные, а точечные — позже. Почему? Потому что, когда AI отмечает рамку, ответ почти однозначен (объект точно внутри рамки). А точка — это произвольная точка на объекте, и правильных ответов много — нет единственно правильного варианта, сигнал обучения очень размытый. Кроме того, рамка содержит две точки (верхний левый и нижний правый угол), научившись рисовать рамку, отметка точки — это уже снижение размерности.

Как научить модель «указывать пальцем»

Стратегия после обучения — «сначала учим по отдельности, потом объединяем».

DeepSeek сначала обучает отдельную модель для рисования рамок, потом — для отметки точек. Разделение — потому что данных пока мало, смешивание двух навыков мешает обучению.

Затем оба эксперта проходят усиленное обучение. Как понять, что модель «нарисовала рамку правильно» или «выбрала правильный путь»? Разработана система многоуровневых оценок: правильность формата (синтаксис координат), логика (последовательность рассуждений), точность результата (расхождение с эталоном).

Обучение с подкреплением — тоже с нюансами: сначала модель решает одну задачу N раз, все ответы правильные — слишком просто, чтобы учиться, все ответы неправильные — слишком сложно, ничего не усвоишь, оставляют только те, где есть и правильные, и неправильные ответы.

Последний этап — объединение двух экспертов в один универсальный. Делается так: обучают один общий модель, которая по сути учится у двух «учителей» одновременно, — как студент, учащийся сразу по двум предметам.

Что происходит, когда у модели есть «палец» — как она считает?

Подсчёт 25 человек

Даете модели фото футбольной команды и спрашиваете: «Сколько человек на изображении?»

Процесс рассуждения: сначала определяет, что это командное фото, нужно посчитать всех — и игроков, и тренеров. Потом выводит 25 рамок, каждую вокруг одного человека. После этого считает: 4 человека в переднем ряду + 9 — в среднем + 8 — в заднем + 2 тренера слева + 2 — справа — всего 25.

«Сколько медведей на земле?»

На изображении три медведя. Модель по очереди рисует рамки вокруг каждого и определяет их положение: первый — на стволе дерева, лазит вертикально, исключается; второй — на камне, движется — считается; третий — между щебнем и грязью, считается. Итог: 2 медведя.

Она не сначала считает три и вычитает один, а проверяет для каждого: «на земле или нет», — и у каждого есть свои координаты. Она реально проверяет по отдельности, а не угадывает.

Многомерное пространственное рассуждение

В 3D-сцене есть множество цветных геометрических фигур. Вопрос: «Есть ли фиолетовый резиновый объект такого же размера, как серый металлический?»

Модель сначала выделяет серый металлический шар, подтверждает, что это маленький объект. Потом по очереди выделяет остальные маленькие объекты: коричневый металлический цилиндр, синий металлический куб, синий резиновый куб, желтый резиновый цилиндр… шесть объектов, сравнивает цвет, материал и размер. Итог: фиолетового резинового нет.

Шесть раз позиционирует, шесть раз проверяет. Каждый раз есть координаты, не возникает ситуации «подождите, где я остановился».

Больше примеров из статьи:

Навигация по лабиринту: другие бросают монету, DeepSeek реально ищет путь

В статье протестированы четыре задачи, и лабиринт — самая сложная.

Задача очень простая: по изображению лабиринта — есть ли путь от входа к выходу, и если есть — показать его. Лабиринты бывают трёх форм: квадратные, кольцевые, соты.

Модель «ходит» по лабиринту так же, как ты в детстве рисовал: выбирает ответвление, идёт до конца, если не получается — возвращается и пробует другое. Отличие — она отмечает каждое движение координатой, оставляя след.

Показан пример полного прохождения кругового лабиринта: модель сначала отмечает старт и финиш, затем исследует. За 18 шагов, дважды попадая в тупики, она всё-таки находит путь и выводит последовательность координат.

DeepSeek также создал серию ловушечных лабиринтов: кажется, есть путь, а внутри — тайно заблокирован. Такие требуют терпения: модель не должна делать выводы, глядя только на ближайшие участки, а должна проверить все возможные пути, чтобы убедиться, что выхода нет.

Точность сравнения:

DeepSeek: 66.9%
GPT-5.4: 50.6%
Claude-Sonnet-4.6: 48.9%
Gemini-3-Flash: 49.4%
Qwen3-VL: 49.6%

Лабиринт — это всего два варианта ответа: есть путь или нет. Случайное угадывание — 50%. GPT, Claude, Gemini, Qwen — около 50%, как подбрасывание монеты. DeepSeek — 66.9%, — действительно ищет путь, а не угадывает.

Отслеживание пути: финальный уровень

Задача более наглядная: цепочка линий, соединяющих метки. Как у тебя наушники, вытянутые из кармана, — так и линии. Вопрос: «Куда ведёт эта линия?»

Модель выводит координаты по линии, словно пальцем по бумаге: в местах изгиба — много точек, в прямых — мало. Человеческий глаз тоже так отслеживает: замедляется в изгибах, быстро — по прямой.

Добавлен усложнённый тест: все линии одинакового цвета и толщины. Нельзя различать по цвету, нужно по форме и движению линии.

DeepSeek: 56.7%
GPT-5.4: 46.5%
Claude-Sonnet-4.6: 30.6%
Gemini-3-Flash: 41.4%

Результат Claude — неожиданность: 30.6%. Обычно у финальных точек 4-5 вариантов, случайное угадывание — чуть выше 20%. Значит, в этой задаче, связанной только с пространственным отслеживанием, языковое рассуждение мешает.

Как научить AI не жульничать в лабиринте

Обучение на лабиринтах — есть проблема: если оценивать только по финальному ответу — модель быстро учится «играть в угадайку»: ищет короткий путь или просто догадывается, и всё. А если она просто угадает — это не обучение, а случайность.

Решение DeepSeek — учитывать весь процесс. Каждое законное движение — даёт балл, прыжки через стены — штраф, чем больше пройдено — тем лучше. Даже если не дошёл до выхода, но исследовал большую часть — получаешь хороший результат. Тогда модель не захочет жульничать.

Задачи с невозможным решением требуют ещё большего: не только сказать «нет выхода», а доказать, что все возможные пути проверены. То есть — покрытие поиска.

Три ограничения и пасхалка

Обучение на данных без китайского языка. Но модель умеет делать визуальные primitives и на китайском.

Например, фото кофемашины, вопрос «как сделать латте» — она отмечает координаты паровика, молочного сосуда, кофейных зерен, кнопки, и даёт инструкцию. Многоязычные возможности — от базовой модели, обучение визуальных primitives их не разрушило.

Она умеет соединять визуальные знания и общие знания: фото моста Золотые ворота, вопрос «есть ли тут NBA-команда?» — она сначала выделяет мост, понимает, что это Сан-Франциско, и отвечает — «Голден Стэйт».

Понимает юмор: например, на срезе фрукта случайно оказалась точка, похожая на грустную кошку — модель может указать, где и почему это смешно.

Может давать советы по выходу из комнаты: выделяет ключи на верхней полке, стул на полу, запертые двери, и предлагает: «поставьте стул под ключ, чтобы дотянуться, возьмите ключ, откройте дверь».

Статья честно признаёт, что сейчас ещё не всё умеет.

Разрешение входных изображений ограничено. Выход ViT — между 81 и 384 визуальными единицами. В очень детальных сценах (например, считать пальцы) координат недостаточно. Это — причина, почему при тестировании вчера подсчёт пальцев не сработал.

Пока что нужно специальное ключевое слово, чтобы активировать режим primitives. Модель пока не умеет сама решать, «надо ли показывать палец», — требует подсказки.

Общая способность к топологическому рассуждению ещё ограничена. Хорошо работает на обученных типах лабиринтов, на новых структурах — может «зависнуть». В той же удалённой твит-строке Чэнь Сяокан писал:

«We’re still in the early stages; generalization in complex topological reasoning tasks isn’t perfect yet, but we’re committed to solving it.»

«Мы всё ещё на ранней стадии; обобщение в сложных топологических задачах пока не идеально, но мы работаем над этим.»

В тестах, проведённых вчера, возможности распознавания изображений у DeepSeek (узнавать автора, ассоциации с логотипом кита, самокоррекция, организация мини-экзамена) — полностью соответствуют описанию в статье. Он строит визуальные якоря, рассуждает вокруг них, возвращается при противоречиях.

А запутанность при подсчёте пальцев — живое доказательство Reference Gap. Когда пальцы накладываются друг на друга, трудно различить «третий слева» или «второй справа» только по языковому описанию, — это как считать толпу, не показывая пальцем, — всё запутано.

Эта статья показывает, что следующий этап эволюции мультимодальных рассуждений — механизм якорения. DeepSeek с 90 единиц информации достигает результата, на который другие тратят тысячи токенов, — и всё это за счёт того, что модель одновременно думает и указывает.

Можно замедлить гонку за разрешением, научив модель показывать палец — это эффективнее, чем делать ей более дорогие очки.

Эта «китовая» модель после этого ещё и «вырастила» палец. 66.9% точности в лабиринтах — далеко от идеала, но она уже реально ищет путь, а не бросает монету.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
437.65K Популярность
#
USSeeksStrategicBitcoinReserve
58.68M Популярность
#
IsraelStrikesIranBTCPlunges
37.17K Популярность
#
BitcoinETFOptionLimitQuadruples
978.11K Популярность
#
#FedHoldsRateButDividesDeepen
30.3K Популярность

Закрепить

Карта сайта

DeepSeek连夜删掉的新论文到底说了什么

Популярные темы

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закрепить