HappyHorse побеждает в AI Video Blind Test анонимно, Alibaba's Taotian и Sand.ai находятся под наблюдением

robot
Генерация тезисов в процессе

Согласно мониторингу 1M AI News, анонимная модель по имени HappyHorse-1.0 на прошлой неделе возглавила рейтинг Video Arena на платформе оценки ИИ-видео Artificial Analysis, заняв первое место в обеих категориях text-to-video и image-to-video (за исключением аудио). Это потеснило Seedance 2.0 от ByteDance на второе место. В аудио-категории Seedance 2.0 по-прежнему лидирует, но с небольшим отрывом. Не было ни пресс-конференции, ни технического блога, ни указания компании, и пока никто публично не взял на себя это утверждение. Рейтинг Video Arena основан на системе Elo слепого тестирования, где пользователи голосуют за предпочитаемое видео из двух сгенерированных вариантов, не зная личности модели. HappyHorse находится в списке недолго: размер выборки составляет около 3,500, то есть меньше половины Seedance 2.0, из-за чего получается широкий доверительный интервал (±12–13 пунктов). Однако преимущество в категории без аудио (примерно 76 пунктов для text-to-video и около 48 пунктов для image-to-video) намного превышает предел погрешности. Судя по порядку языков на официальном сайте (где китайский и кантонский указаны до английского) и по упоминанию «HappyHorse» как отсылки к Году Лошади в 2026, инсайдеры отрасли предполагают, что модель происходит из китайской команды. Существуют две основные версии:

  1. Ряд отраслевых медиа утверждают, что модель относится к Future Life Lab группы Alibaba, который возглавляет Чжан Ди. Ранее он занимал должность вице-президента по технологиям в Kuaishou и будет руководить разработкой Keling AI, начиная с 2024 года, а запланированный релиз Keling 2.0 Master Edition — в апреле 2025. В ноябре того же года он вернется в Alibaba.

  2. Пользователь Vigo Zhao провел детальное сравнение и обнаружил, что HappyHorse полностью соответствует нескольким бенчмаркам daVinci-MagiHuman, который был опубликован с открытым исходным кодом ИИ-видеостартапом Sand.ai в марте этого года, а структура официальных сайтов также весьма похожа. Sand.ai была основана Цао Юэ, первым автором Swin Transformer, и в индустрии ее называют «DeepSeek в области ИИ-видео». Официальный сайт HappyHorse указывает, что у модели 15 миллиардов параметров, 40 слоев self-attention трансформеров, используется архитектура Transfusion (которая объединяет текстовое автогрессивное предсказание и генерацию видео-аудио методом диффузии в рамках одной модели), 8-шаговый inference, вывод видео 1080p с синхронизированным аудио и поддержка lip-sync на семи языках: китайском, английском, японском, корейском, немецком, французском и кантонском. Модель полностью открыта по исходному коду и допускает коммерческое использование.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить