Кратко Инженер ИИ Кайл Хесслинг объединил два дистиллированных донастройки Джекронга — Claude Opus 4.6 и GLM-5.1 — в один «франкенмёрдж». После объединения потребовалась «исправительная донастройка» для устранения искажённого вывода кода, вызванного границей слоя между двумя независимо обученными моделями.

Decrypt

2026-04-21 18:01:22

Вкратце

Инженер ИИ Кайл Хесслинг объединил два финетюна Claude Opus 4.6 и GLM-5.1 от Jackrong в один «франкенмёрдж».
После слияния потребовалась «исправляющая тонкая настройка» для устранения искажений в выводе кода, вызванных границей слоя между двумя независимо обученными моделями.
Модель чрезмерно рассуждает в некоторых задачах, но это решаемая проблема.

Вы думали, что Qwopus классный, потому что он объединяет Qwen и Opus? А вот Кайл Хесслинг, инженер ИИ с большим опытом и свободным временем, просто взял этот рецепт и добавил GLM — одну из лучших моделей рассуждения — в микс. Результат — 18-миллиардный «франкенмёрдж», который помещается на дешевый GPU и превосходит новейшую модель Alibaba с 35 миллиардами параметров. Для тех, кто не знает, параметры — это числовые значения, встроенные в нейронную сеть во время обучения, как ручки, которые нейросеть может регулировать — чем их больше, тем больше знаний и сложности может обрабатывать модель, и тем больше памяти ей нужно для работы. Хесслинг, инженер по инфраструктуре ИИ, сложил друг на друга два финетюна Qwen3.5 от Jackrong: слои 0–31 из Qwopus 3.5-9B-v3.5, который дистиллировал стиль рассуждения Claude 4.6 Opus в Qwen в качестве базовой модели, и слои 32–63 из Qwen 3.5-9B-GLM5.1-Distill-v1, обученной на данных по рассуждению от модели-преподавателя z.AI GLM-5.1 поверх той же базы Qwen.

Гипотеза: дать модели структурированное планирование в стиле Opus в первой половине рассуждения и scaffold разложения задач GLM во второй — всего 64 слоя в одной модели. Техника называется passthrough frankenmerge — без смешивания, без усреднения весов, просто последовательное наложение слоёв. Хесслинг пришлось писать собственный скрипт с нуля, потому что существующие инструменты не поддерживают гибридную архитектуру внимания с линейным и полным режимами у Qwen 3.5. Итоговая модель прошла 40 из 44 тестов на возможности, превзойдя Qwen 3.6-35B-A3B MoE от Alibaba — которая требует 22 ГБ VRAM — при работе всего на 9,2 ГБ в квантовании Q4_K_M. NVIDIA RTX 3060 справляется с этим отлично… теоретически.

Хесслинг объясняет, что создание этой модели было нелегким. Исходное слияние раньше приводило к искаженному коду. Но даже так, опубликованные им тестовые модели стали довольно популярными среди энтузиастов. Его финальная доработка — «heal fine-tune» — по сути QLoRA ( немного кода, встроенного в модель как аппендикс и сильно влияющего на финальный вывод), ориентированного на все внимание и проекции. Мы попробовали это, и хотя идея запускать Qwen, Claude Opus и GLM 5.1 локально на нашем «картофеле» очень заманчиво, на практике мы обнаружили, что модель настолько хороша в рассуждениях, что начинает переусложнять. При тестировании на MacBook с M1, использующем квантованную версию MLX ( — модель, оптимизированную для работы на Mac). Когда мы попросили её сгенерировать наш обычный тестовый сценарий, цепочка рассуждений оказалась настолько длинной, что достигла лимита токенов и выдала длинное рассуждение без рабочего результата в нулевом взаимодействии. Это мешает ежедневному использованию для тех, кто хочет запускать это локально на потребительском оборудовании для серьезных задач. Мы немного смягчили требования, и всё равно было сложно. Простая команда «напиши игру Змейка» заняла более 40 минут на рассуждение… очень много.

Результаты можно увидеть в нашем репозитории на Github. Это известное противоречие в линейке Qwopus: финетюны Jackrong v2 созданы для устранения склонности Qwen 3.5 к повторяющимся внутренним циклам и «экономии мышления». Наложение 64 слоёв двух моделей рассуждения, похоже, усиливает это поведение на некоторых промптах.

Это решаемая проблема, и сообщество с открытым исходным кодом, вероятно, ее решит. Главное здесь — более широкая картина: псевдонимный разработчик публикует специализированные финетюны с полными руководствами по обучению, другой энтузиаст объединяет их с помощью пользовательского скрипта, проводит 1000 шагов «лечения» и получает модель, превосходящую релиз с 35 миллиардами параметров одного из крупнейших ИИ-лабораторий мира. Всё это помещается в небольшой файл. Именно поэтому open-source стоит наблюдать — не только крупные лаборатории выпускают веса, но и решения слой за слоем, специализации, происходящие за кадром. Разрыв между проектом на выходных и передовым развертыванием становится уже, чем больше разработчиков присоединяется к сообществу. С тех пор Jackrong скопировал репозиторий Хесслинга, и модель за первые две недели после выпуска набрала более трех тысяч скачиваний.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GatePreIPOsLaunchesWithSpaceX
297.7K Популярность
#
Gate13thAnniversaryLive
869.06K Популярность
#
BitcoinBouncesBack
171.88K Популярность
#
IsraelStrikesIranBTCPlunges
30.57K Популярность
#
USIranTalksProgress
877.98K Популярность

Закрепить

Карта сайта

Этот Frankenstein AI объединяет Claude Opus, GLM и Qwen — и превосходит лучшие модели

Вкратце

Популярные темы

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Закрепить