Тоньи интегрирует Vibe Coding во все модальности, Qwen3.5-Omni занимает 215 передовых позиций (SOTA)

robot
Генерация тезисов в процессе

Согласно мониторингу 1M AI News, лаборатория Tongyi опубликовала мультимодальную модель Qwen3.5-Omni, которая поддерживает текст, изображения, аудио и аудио-видео входы, а также умеет генерировать детализированные аудио-видео Caption с временными метками. Официально заявлено, что Qwen3.5-Omni-Plus в задачах анализа, рассуждений, диалога, перевода и т. п. в аудио и аудио-видео набрала 215 SOTA, а соответствующие возможности превосходят Gemini-3.1-Pro.

На этот раз самое особенное увеличение — не место в рейтинге, а «естественно возникающая способность Audio-Visual Vibe Coding». Tongyi утверждает, что модель не проходила специальное обучение и уже может по аудио-видео инструкциям напрямую генерировать исполняемый код. Официально также заявлено, что модель поддерживает контекст 256K, распознаёт 113 языков, может обрабатывать 10 часов аудио или 1 час видео и нативно поддерживает WebSearch и сложные Function Call.

Qwen3.5-Omni продолжает архитектуру разделения Thinker-Talker: обе части обновлены до Hybrid-Attention MoE. Tongyi уже предоставила через Alibaba Cloud Bailian Plus, Flash и Light в трёх размерах, а также запустила реальную версию Qwen3.5-Omni-Plus-Realtime.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$2.23KДержатели:1
    0.00%
  • РК:$2.22KДержатели:1
    0.00%
  • РК:$2.22KДержатели:1
    0.00%
  • РК:$2.22KДержатели:1
    0.00%
  • РК:$2.31KДержатели:2
    0.44%
  • Закрепить