Алі випустила нове покоління базової моделі QianWen 3.5, піднявшись на вершину світового рейтингу найпотужніших відкритих великих моделей

robot
Генерація анотацій у процесі

16 лютого, у день зустрічі Нового року за місячним календарем, Alibaba відкрила вихідний код нове покоління великої моделі Qwen3.5-Plus, яка за характеристиками не поступається Gemini 3 Pro і посідає перше місце у світі серед відкритих моделей.

Зазначається, що Qwen3.5 реалізувала повну революцію у базовій архітектурі моделі. У випущеній версії Qwen3.5-Plus загальна кількість параметрів становить 397 мільярдів, активованих лише 17 мільярдів, що дозволяє досягти переваги над великими моделями — за продуктивністю перевищує Qwen3-Max з трильйонами параметрів. Водночас, обсяг пам’яті для розгортання зменшено на 60%, продуктивність інференсу значно підвищена, максимальна пропускна здатність для обчислень зросла до 19 разів. Ціна API для Qwen3.5-Plus становить всього 0,8 юаня за мільйон токенів, що в 18 разів дешевше за Gemini 3 Pro.

На відміну від попередніх поколінь великих мовних моделей Qwen, Qwen3.5 здійснила перехід від чисто текстової моделі до нативної мультимодальної. Pretraining для Qwen3 був проведений на чисто текстових токенах, тоді як Qwen3.5 базується на поєднаних візуальних і текстових токенах, а також значно додано даних китайською, англійською, багатомовних, STEM та для логічних висновків. Це дозволило моделі з “розкритими очима” засвоїти більш глибокі знання про світ і логіку висновків, досягаючи при цьому понад трильйонної продуктивності базової моделі Qwen3-Max з меншим ніж 40% параметрів. У всіх основних бенчмарках — від інтелектуальних тестів, таких як MMLU-Pro, до складних задач, як GPQA, та у завданнях з дотримання інструкцій (IFBench), — Qwen3.5 демонструє високі результати. Наприклад, у тесті MMLU-Pro модель набрала 87,8 балів, перевищуючи GPT-5.2; у GPQA — 88,4 балів, вище за Claude 4.5; у IFBench — 76,5 балів, встановлюючи новий рекорд серед моделей. У тестах для універсальних агентів (BFCL-V4) та пошукових агентів (Browsecomp) Qwen3.5 також перевершує Gemini 3 Pro і GPT-5.2.

Нативне мультимодальне навчання сприяло значному прориву у візуальних можливостях Qwen3.5: у таких авторитетних тестах, як MathVison, VQA (RealWorldQA), розпізнавання тексту та аналіз файлів (CC_OCR), просторовий інтелект (RefCOCO-avg), відеоаналіз (MLVU), — модель показала найкращі результати. У задачах розв’язання предметних задач, планування та фізичного простору Qwen3.5 перевищує спеціалізовану модель Qwen3-VL, значно покращуючи здатність до просторової орієнтації та аналізу зображень, а також забезпечуючи більш точний і детальний висновок. У відеоаналізі модель підтримує обробку відео тривалістю до 2 годин (з контекстом до 1 мільйона токенів), що підходить для аналізу довгих відео та створення коротких резюме. Крім того, Qwen3.5 поєднує візуальне розуміння з можливостями кодування, використовуючи інструменти пошуку зображень і генерації зображень, що дозволяє перетворювати рукописні ескізи у робочий фронтенд-код або швидко знаходити і виправляти UI-проблеми за скріншотом, роблячи візуальне програмування справжнім інструментом підвищення продуктивності.

Нативне мультимодальне навчання Qwen3.5 було ефективно реалізовано на інфраструктурі Alibaba Cloud AI. Завдяки низці інновацій у базових технологіях, продуктивність тренування моделей з поєднаними даними (текст, зображення, відео) майже досягла рівня тренування чисто текстових моделей, що значно знизило бар’єр для розвитку мультимодальних моделей. За допомогою розроблених стратегій застосування точності FP8 і FP32, при масштабуванні до сотень трильйонів токенів, обсяг активної пам’яті зменшився приблизно на 50%, а швидкість тренування зросла на 10%, що додатково знизило вартість тренування і підвищило його ефективність.

Qwen3.5 також зробила новий прорив у сфері агентних систем. Вона може самостійно керувати смартфонами і комп’ютерами, ефективно виконуючи щоденні завдання, підтримуючи більшу кількість популярних додатків і команд на мобільних пристроях, а на ПК — виконувати складні багатоступінчасті операції, такі як обробка даних між додатками і автоматизація процесів. Це суттєво підвищує швидкість роботи. Команда Alibaba створила масштабовану асинхронну систему навчання агентів, що дозволяє прискорити процес у 3–5 разів і підтримувати до мільйонів плагінів-агентів.

Зазначається, що додатки Qwen3.5 для мобільних і ПК вже першими інтегрували модель Qwen3.5-Plus. Розробники можуть завантажити нову модель у спільноті Модіа або на HuggingFace, або отримати API через Alibaba Cloud Baolian. Незабаром Alibaba планує відкрити вихідний код моделей Qwen3.5 різних розмірів і функціональності. Також незабаром буде представлено флагманську модель Qwen3.5-Max з ще більш високими характеристиками.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено