Они создали неподдающийся блокировке "телефон Doupack", получивший инвестиции уровня десятков миллионов на стадии ангела

robot
Генерация тезисов в процессе

“帮我点一杯奶茶。”

“帮我在京东上买一个篮球。”

“帮我在猫眼上买一张电影票。”

Борьба за контроль над мобильным приложением Doubao и различными другими приложениями еще не завершена, а операции заказа еды через Qianwen лишь глубоко интегрировали собственную экосистему, как и популярные сейчас во всем интернете маленькие раки (OpenClaw), которые так и не смогли решить проблему автоматизации между платформами.

Однако недавно два инженера из крупного производителя оборудования, Чжан Чжиюн и Шан Вэньбан, использовали собственную разработку — Agent ZeroFlow. Основанный на отечественной крупной модели с мультимодальными возможностями, он идеально реализовал мультимодальное управление на устройствах Android, в браузере Chrome и на ПК. ZeroFlow способен, как человек, смотреть на экран, нажимать, скользить, вводить, выполнять ряд сложных автоматизированных задач между платформами.

Отличие в техническом подходе

В попытках реализовать автоматизацию между платформами Doubao и AutoGLM от Zhipu выбрали совершенно разные технические пути.

Doubao сотрудничает с производителями смартфонов, получая очень высокие уровни доступа, позволяющие обходить разрешения пользователя или приложений, что сразу вызывает сопротивление со стороны разработчиков приложений и приводит к последующим блокировкам.

AutoGLM, открытая модель Zhipu, основана на получении прав через протокол adb, однако этот режим не может напрямую работать на пользовательских устройствах, поэтому AutoGLM использует удаленную виртуальную машину, управляемую через adb внутри виртуальной среды. Такой подход требует высокого уровня доверия.

Решение ZeroFlow в основном опирается на сервис Android Accessibility (Доступность). Этот системный помощник изначально предназначен для пользователей с нарушениями зрения, и после получения разрешения агент может читать содержимое экрана, получать все тексты, расположение и содержимое кнопок и полей ввода. Также агент может имитировать действия человека — нажимать, долго нажимать, скользить, вводить текст. Эта схема сильно зависит от мультимодальных возможностей модели и агента, и теоретически является решением, которое не может быть заблокировано разработчиками приложений.

Идея кажется очень простой, но на практике разработка гораздо сложнее. Чжан Чжиюн отметил, что одна из главных сложностей — в том, что многие веб-страницы в Китае изначально проектировались с учетом защиты от автоматизации (по сути, противодействия «скребкам» и «читам»), и включают множество проверочных шагов и скрытых элементов. Например, кнопка может казаться расположенной в одном месте, а реальный элемент — совсем в другом. Это усложняет понимание страницы с точки зрения кода, но с мультимодальной точки зрения — гораздо проще. Именно поэтому некоторые крупные модели не могут читать ссылки на страницы, но могут читать скриншоты.

Также важна задача минимизации количества скриншотов, чтобы агент мог правильно понять намерения.

Шан Вэньбан отметил, что реклама и автоматические перенаправления на веб-страницах мешают мультимодическому восприятию. Использование самой мощной мультимодальной модели даст самый точный ответ, но стоимость токенов может оказаться неподъемной для обычных пользователей. Поэтому важно использовать более дешевые модели, минимизировать количество скриншотов и достигать наилучшего понимания — это серьезная инженерная задача.

Баланс между безопасностью и удобством

Когда речь зашла о возможной конкуренции крупных компаний с одинаковыми продуктами, Чжан Чжиюн заявил, что не беспокоится. Благодаря изоляции внутри своих экосистем, даже обладая этим технологией, крупные компании не смогут реализовать полноценную кроссплатформенную и межустройственную автоматизацию, потому что при попытке одна компания столкнется с противодействием других. Это — преимущество стартапов.

ZeroFlow заимствовал идеи с открытого исходного кода OpenClaw, глубоко проработав безопасность, адаптацию моделей и удобство.

Основной риск безопасности OpenClaw — в том, что это «AI с возможностью вызова инструментов», который может выполнять shell-команды, читать и писать файлы, отправлять сообщения, выходить в сеть. Если промпт будет подвержен атаке или введен с целью манипуляции, это может привести к контролю над системой или утечке чувствительных данных.

ZeroFlow использует изоляцию в песочнице и механизм десенситизации малых моделей для снижения этого риска. Во-первых, в рабочем пространстве скрываются чувствительные данные пользователя, такие как ключи, чтобы даже сам AI не мог легко их найти. Во-вторых, все взаимодействия пользователя с большой моделью контролируются малыми моделями, которые при обнаружении чувствительной информации проводят ее десенситизацию и шифрование. Таким образом, чувствительные файлы, хранящиеся в облаке, трудно найти и еще труднее расшифровать. В результате, ZeroFlow обеспечивает максимальную защиту приватности при использовании агентом.

Что касается удобства, ZeroFlow снизил порог входа до нового «минимального» уровня. Процесс развертывания максимально приближен к привычкам интернет-продуктов и практически незаметен. Нужно просто открыть браузер, зарегистрироваться на сайте — и можно начать использовать в диалоговом окне.

OpenClaw, основанный на стандарте Tool Calling от OpenAI/Anthropic, имел сложности с адаптацией к отечественным моделям. ZeroFlow оптимизировал работу с популярными отечественными моделями (Kimi, DeepSeek и др.), улучшил взаимодействие с инструментами и сократил длину подсказок почти на 40%, что значительно снизило стоимость токенов.

Чжан Чжиюн отметил, что для обычных пользователей стоимость токенов при использовании ZeroFlow может снизиться примерно на 30%.

От программируемого агента к универсальному агенту

Рождение ZeroFlow — не просто попытка быстро «подхватить волну».

Когда только появились крупные языковые модели, команда Чжан Чжиюна и Шан Вэньбана оказалась на передовой. Тогда они не гнались за какой-то грандиозной историей, а решали очень конкретную задачу — как освободить инженеров от сложных деталей программирования и дать им возможность сосредоточиться на творчестве. Внутри они создали первое поколение программных агентов — «кодового партнера», который понимает контекст, предугадывает намерения и самостоятельно дополняет логику.

Этот инструмент постепенно развивался внутри их системы. От простых подсказок GPT-3.5 до многократных диалогов с памятью, вызова инструментов, циклов проверки кода — каждое обновление было вызвано реальными потребностями. За несколько лет эта система значительно повысила их собственную эффективность.

Когда OpenClaw достиг своего пика, Чжан Чжиюн вспоминал, что они сидели в конференц-зале, смотрели демонстрационные видео и молчали долго. Не потому, что были потрясены, а потому что узнали что-то очень знакомое — путь, который они прошли, теперь повторяет весь мир.

В тот момент они поняли, что за три года создали не просто инструмент для программирования, а целую методологию — «как заставить агента по-настоящему понимать человеческие намерения и постоянно их выполнять».

«Если эта методология может вдвое повысить эффективность инженеров, почему она не может дать такой же эффект в любой отрасли?» — подумали они, и так появился ZeroFlow.

«Один человек идет быстрее»

Слева направо: Шан Вэньбан, Чжан Чжиюн

«Я считаю, что агент действительно может повысить качество жизни всех людей, дать каждому возможность освободиться и заниматься более важными задачами. Но сейчас главная проблема — слишком высокая стоимость доступа для обычных людей. Речь не только о том, чтобы иметь рака, а о том, чтобы этот рак мог свободно автоматизировать переходы между платформами и решать реальные задачи. Поэтому мы хотим создать универсального агента с нулевым порогом входа — чтобы его можно было запустить просто, открыв браузер», — сказал Чжан Чжиюн.

«ZeroFlow — это не просто замена программного помощника, а перенос основной парадигмы программных агентов (понимание намерений → планирование пути → вызов инструментов → постоянное выполнение → обратная связь и итерации) в более широкие области знаний. Финансовый анализ, операционные процессы, создание контента, аналитика данных — везде, где есть повторяемость, логика и результат, ZeroFlow найдет свое место», — отметил Шан Вэньбан.

Когда его спросили, почему они не реализовали свою идею внутри предыдущей компании, Чжан Чжиюн и Шан Вэньбан улыбнулись в ответ: «Я считаю, что команда может идти дальше, но один человек — быстрее. В этом времени важна скорость».

На данный момент Yiling Technology получила около миллиона юаней инвестиций от личных ангелов и венчурных фондов, и эти средства будут направлены на дальнейшее развитие и продвижение продукта.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить