Sakana AI запускает систему KAME, достигая почти нулевой задержки и обеспечивая более глубокое внедрение знаний

robot
Генерация тезисов в процессе

AIMPACT сообщение, 3 мая (UTC+8), Sakana AI выпустила гибридную архитектуру KAME, которая может одновременно поддерживать почти нулевую задержку и в реальном времени внедрять знания из бэкендовых LLM. Эта система состоит из двух асинхронных компонентов, работающих параллельно: фронтенд на базе архитектуры Moshi с модулем S2S, обрабатывающим аудио примерно за 80 миллисекунд и немедленно генерирующим ответ; бэкенд состоит из компонента STT и полноценной LLM, постоянно формирующих частичные транскрипты и создающих поток oracle, который передается на фронтенд, при этом при поступлении более точного oracle ответ может быть скорректирован в процессе. Оценка показала, что отдельный Moshi набрал 2.05, KAME+gpt-4.1 — 6.43, KAME+claude-opus-4-1 — 6.23, задержка у всех примерно такая же, как у Moshi; передовые системы Unmute получили 7.70, но задержка достигала 2.1 секунды. Бэкенд KAME не зависит от конкретной LLM, поддерживая переключение между ними во время инференса без необходимости повторного обучения.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить