Цей Франкенштейн ШІ об'єднує Claude Opus, GLM і Qwen — і перевершує провідні моделі

Коротко

  • Інженер з ШІ Кайл Гесслін об’єднав два finetune Claude Opus 4.6 та GLM-5.1 від Jackrong у один «франкенмерж».
  • Після злиття потрібен був «лікувальний тонкий донастройка» для виправлення спотвореного виводу коду, спричиненого межами шарів між двома незалежно навченими моделями.
  • Модель надмірно розмірковує в деяких задачах, але це вирішуване питання.

Ви думали, що Qwopus крутий, бо він об’єднує Qwen і Opus? Ну, інженер з ШІ Кайл Гесслін, який має багато знань і вільного часу, просто взяв цей рецепт і додав у мікс GLM — одну з найкращих моделей для логічних висновків. Результат — 18-мільярний параметрний франкенмерж, який поміститься на дешевий GPU і перевершує найновішу модель Alibaba з 35B. Для тих, хто не знає, параметри — це числові значення, закодовані у нейронній мережі під час тренування, ніби регулятори, які мережа може налаштовувати — чим більше їх, тим більше знань і складності може обробляти модель, і тим більше пам’яті їй потрібно для роботи. Гесслін, інженер з інфраструктури ШІ, наклав один finetune Qwen3.5 на інший: шари 0–31 з Qwopus 3.5-9B-v3.5, що дистилює стиль логіки Claude 4.6 Opus у Qwen як базову модель, і шари 32–63 з Qwen 3.5-9B-GLM5.1-Distill-v1, навчені на даних з логіки від моделі-вчителя z.AI GLM-5.1 на основі тієї ж базової Qwen.

Гіпотеза: дати моделі структурування планування у стилі Opus у першій половині логіки і розклад проблем у стилі GLM у другій — всього 64 шари в одній моделі.  Техніка називається passthrough франкенмерж — без змішування, без усереднення ваг, просто послідовне накладання шарів. Гесслін написав власний скрипт для злиття з нуля, бо існуючі інструменти не підтримують гібридну архітектуру з увагою лінійного/повного типу у Qwen 3.5. Вийшла модель, яка пройшла 40 з 44 тестів на можливості, перевершуючи Qwen 3.6-35B-A3B MoE від Alibaba — що потребує 22 ГБ VRAM — при цьому працюючи всього на 9,2 ГБ у Q4_K_M квантизації. NVIDIA RTX 3060 справляється з цим цілком… теоретично.

Гесслін пояснює, що створення цієї моделі було нелегким. Початковий злиття викликало спотворений код. Але навіть так, моделі, які він опублікував, стали досить популярними серед ентузіастів. Остаточне рішення Гесслін — «лікувальна тонка настройка» — фактично QLoRA ( невеликий фрагмент коду, що вбудовується у модель як додаток і сильно впливає на кінцевий результат), орієнтуючись на всю увагу і проекції. Ми спробували, і хоча ідея запускати Qwen, Claude Opus і GLM 5.1 локально на нашому «картопляному» ПК дуже приваблива, насправді ми виявили, що модель настільки добре логічно мислить, що починає надмірно роздумувати. Коли тестували її на MacBook M1 з MLX квантизацією (модель, оптимізовану для Mac), під час генерації нашої звичайної тестової гри логіка йшла так довго, що досягла ліміту токенів і дала нам довгий фрагмент логіки без робочого результату у нульовій взаємодії. Це перешкода для щоденного використання на споживчому обладнанні для будь-яких серйозних застосувань. Ми трохи послабили вимоги, і все одно було важко. Простий запит «напиши гру Змійка» зайняв понад 40 хвилин логіки… багато з них.

Результати можна побачити у нашому репозиторії на Github. Це відомий конфлікт у лінійці Qwopus: finetune від Jackrong v2 створені для вирішення схильності Qwen 3.5 до повторюваних внутрішніх циклів і «більш економного мислення». Стекання 64 шарів двох дистилятів логіки, здається, посилює цю поведінку на певних запитах.

Це вирішуване питання, і, ймовірно, спільнота з відкритим кодом його розв’яже. Тут важливо ширше — псевдонімний розробник публікує спеціалізовані finetune з повними керівництвами з тренування, інший ентузіаст складає їх за допомогою власного скрипта, проводить 1000 кроків лікування і отримує модель, що перевершує реліз з 35 мільярдами параметрів від одного з найбільших лабораторій ШІ у світі. Весь цей обсяг поміщається у невеликий файл. Саме це робить відкритий код цікавим — не лише великі лабораторії, що випускають ваги, а й рішення по шарах, спеціалізація, що відбувається непомітно. Розрив між проектом на вихідних і передовим застосуванням стає меншим із залученням більшої кількості розробників у спільноту. З того часу Jackrong дзеркально скопіював репозиторій Гесслін, і модель за перші два тижні доступу вже зібрала понад три тисячі завантажень.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити