Зроблене те, що не вдалося Gemini, здійснилося через багато запитів

Анотація:

Gemini каже Uber, а Qianwen одразу викликає таксі — дві функції, які виглядають однаково, насправді абсолютно різні. Перша — це коли AI керує застосунком, а друга — це коли AI справді має глибокі можливості міркування, щоб зануритися в процес виконання замовлення.

Фенікс Веб Технолоґії

Вироблено

Автор|Dale

Редактор|Дон Юцін

У китайській экосистемі ШІ є дві компанії, які ніколи не піддаються підстьобуванню гарячими хвилями. Перша — DeepSeek. Друга — Qianwen. Перша, спираючись на віру в AGI без відволікань, зосереджено досліджує зміни технологій. Друга — завдяки потужним бар’єрам екосистеми — завжди вміє здійснювати руйнівні зміни згодом, пробиваючи стелю можливостей нинішнього рівня ШІ.

У кінці березня, коли вся індустрія йшла за OpenClaw, Qianwen тихо викинув етапну функцію — AI-таксі. Це також є подальшим інвестуванням у «виконання завдань за допомогою AI» після того, як Qianwen почав підтримувати замовлення доставки, бронювання готелів і квитків на літаки, квитків на тури та квитків у кіно.

У глобальному масштабі AI, який здатен дійти до цього, можна перерахувати по пальцях.

Справжні AI-агенти з’явилися

Щоб розібратись у стрибкоподібному прогресі в функції AI-таксі Qianwen, потрібно спершу повернутися до базової логіки технологій.

Протягом досить тривалого часу AI грав роль «пульта дистанційного керування», лише з тією різницею, що це була більш просунута графічна користувацька інтерфейсна оболонка. Незалежно від того, йдеться про ранні системи розумних діалогів чи чат-ботів, логіка була простою: разова команда, разове виконання. Користувач надсилає конкретну інструкцію, модель викликає функції для виконання завдання — це механічна дія, яка не потребує розумних рішень. Це розширення рухів, а не розширення волі.

А роль агента зовсім інша: він уперше отримує здатність виконувати — точніше, модель має можливість розкладати підцілі й здійснювати динамічне планування в складному середовищі.

Якщо йти за цією логікою, можна побачити, що AI-таксі та AI-замовлення доставки, а також AI-покупка квитків у кіно — це взагалі не один рівень складності ні з погляду технологічної глибини, ні з погляду практичного впровадження.

Незалежно від того, чи йдеться про замовлення доставки або покупку квитків у кіно, процес відбувається всередині високоструктурованого «інформаційного контейнера», де задіяні інструменти, наприклад бази меню, купони та платіжні системи, є онлайн-орієнтованими. Навіть якщо запит дуже складний, наприклад планування замовлень у різних сценаріях, усе відбувається у межах обмежених баз даних.

Навіть якщо замовлення доставки зробили «неправильно» — можна просто замовити в іншому місці; якщо квитки в кіно купили «не туди» — можна переробити бронювання. Це сценарії з високою толерантністю до помилок, але таксі легко не «перемкнеш». Таксі — це типовий сценарій із високою частотою запитів, низькою толерантністю до помилок і сильним вимогами до виконання: ти маєш відповідати за реальний результат — і робити це в режимі реального часу.

Це означає, що в бізнесі AI-таксі AI має взаємодіяти та змагатися в режимі реального часу з реальним фізичним світом, водіями та іншими учасниками транспортної системи.

Саме в цьому й полягає етапність оновлення Qianwen — щоб AI брав участь у реальному виконанні.

Під час бета-тестування Phoenix Web Technology виявила, що він може, спираючись на нечіткі потреби користувача, визначати відповідний тип авто й маршрут. Наприклад, спочатку я лише вказав точку відправлення та точку прибуття — він спланував маршрут один. Але після того, як я підказав, що мене нудить у машині, він переоцінив і спланував маршрут два — у порівнянні з маршрутом один, у маршруті два більше швидкісних доріг і менше заторів.

Тобто, коли користувач дає Qianwen інструкцію, це не просто допомога натиснути кілька кнопок. Насправді він розуміє твої складні вимоги — за цим стоїть ціла низка дій у реальному світі, пов’язаних із плануванням маршруту, реальним диспетчеруванням і розрахунком вартості.

Коли ви питаєте: «Поїдь на таксі в затооку Тайцзіван, щоб подивитися тюльпани», AI має розуміти, що таке «Тайцзіван», і що «тюльпани» відповідають особливому сезону — і далі визначати, коли потрібно виїхати та через який вхід зайти найзручніше.

Ось що таке справжнє «ведення справ» — з цього моменту AI більше не є пультом, а є агентом у бізнес-процесах.

Після кількох спроб Phoenix Web Technology виявила, що Qianwen вже попередньо має здатність виконувати інтеграцію багатьох завдань. У ідеальному стані він може завершити довгу ланцюжкову послідовність виконання. Наприклад: спочатку допомогти користувачу забронювати квитки в кіно, потім доїхати на таксі до кінотеатру, а потім запланувати транспорт на зворотну дорогу після 10:30. Це типова ланцюжкова послідовність побутового сценарію, але вона включає повністю різні системи виконання: бронювання квитків у кіно, миттєве викликання таксі та бронювання таксі на конкретний час. У традиційній моделі вам потрібно перемикатися щонайменше між трьома застосунками. А AI одним діалогом може виконати всі операції.

Це означає, що в майбутньому AI зможе ще більше еволюціонувати: від заміни окремого завдання до справжнього «домашнього помічника» у повсякденному сенсі.

За те, що Gemini не може, Qianwen впорався

За «AI ведення справ» стоїть боротьба рівня екосистеми.

У всьому світі Gemini та OpenAI не те що не хочуть робити справжнє AI-ведення справ — вони просто наразі не можуть цього зробити, а в довгостроковій перспективі OpenAI також буде дуже складно до цього дійти.

Функція, яку Gemini нещодавно активно просуває: через голосову команду «допоможи викликати Uber до аеропорту» — Gemini автоматично відкриває застосунок Uber, виконує операції у віртуальному вікні. Наразі також підтримується Lyft. Як і говорилося вище, він все ще виконує роль пульта: у безпечному віртуальному вікні імітує дії користувача з натисканням кнопок і керуванням застосунком, а не напряму інтегрується із серверною системою. Під час остаточного підтвердження замовлення зазвичай останній крок має виконати користувач вручну.

**Це також стосується дуже ключового етапу: **AI ведення справ потребує трьох базових здібностей: розуміти складні потреби, інтегруватися з системами виконання та відповідати за результат. Перші дві здібності можна вирішити частково алгоритмами, але третя — відповідати за результат — потребує справжнього бізнес-замкнутого циклу.

Справа з таксі включає цілу низку складних бізнес-систем: правила тарифікації, диспетчеризацію водіїв, планування маршруту, розрахунки та оплату, обробку скарг тощо. AI може допомогти тобі «викликати машину», але якщо машина не приїде, маршрут буде неправильний, а сума невірна — хто за це відповідає?

Сильна сторона Qianwen походить від потужних можливостей екосистеми Alibaba з «виконання в реальному масштабі» та потужної інтеграції: доставка в Taobao Flash і її система, туризм і квитки в Fliggy для відпочинку й подорожей, кіно й розваги в Taopiaopiao — усе це не просто «підключення», а глибока системна інтеграція.

Коли користувач каже: «До 30 юанів, у машині немає запаху», AI має в режимі реального часу розрахувати вартість, відфільтрувати тип авто та узгодити побажання щодо водія. Усе це не може бути виконано лише тим, що «викликає застосунок» — потрібне поглиблення в систему виконання, а також потужна підтримка просторово-часових даних.

Знову пробиває стелю можливостей AI

Якщо сказати, що змагання в ШІ за останні два роки були боротьбою навколо здібностей до діалогу — демонстрацією стилю письма й художнього вираження, — то з цього моменту конкуренція переходить у нижню половину: змагання можливостей «ведення справ».

Різницю в діалогових здібностях можна виміряти відсотками в оціночних балах — це звичні рейтинги, які ми вже бачили раніше. А різниця в здібностях до ведення справ, принаймні зараз, — це «можеш чи не можеш зробити», прірва між «здатністю» та «неможливістю».

Таксі-skill, який Qianwen запустив цього разу, є саме знаковим продуктом цієї межі. Він не лише розуміє: «Хочу поїхати на роботу», а й точно розкладає складні наміри на кшталт «для 6 людей потрібен діловий автомобіль», «щоб забрати людину, треба збільшити об’їзд через точку».

За цим стоїть повна реконфігурація системи — від розпізнавання наміру до замкнутого циклу виконання. Це не просто додавання входу для таксі, а фундаментальна перебудова всього патерну взаємодії сервісу подорожей. І це також є докорінним переворотом для традиційних застосунків таксі.

У традиційній моделі користувач мусить крок за кроком діяти в застосунку таксі за логікою меню: обрати точку відправлення, ввести точку прибуття, вибрати тип авто, подивитися попередню ціну… Увесь процес передбачає умову «людина має пристосуватися до інструменту». Такий підхід природно відштовхує нечіткі формулювання — наприклад, коли ви кажете: «я хочу поїхати в місце в центрі міста, яке зараз дуже популярне і де можна подивитися тюльпани». Система не зможе відповісти. Також він природно відштовхує «некористувачів з цифрових новачків» — багато літніх людей не вміють користуватися графічним інтерфейсом, і тому їх довгий час виключали з послуг переміщення.

Ще важливіше: якщо основні сценарії поїздок бере на себе AI-помічник, існування традиційних таксі-застосунків зіткнеться зі структурними викликами. Коли користувач більше не має потреби самостійно відкривати традиційний софт, а може завершити повний процес, сказавши лише «допоможи викликати таксі в Тайцзіван», частота відкривання однозавданних інструментів і «липкість» користувачів неминуче зазнає фундаментального удару. Нещодавно, після того як Claude запустив навички для дизайну, акції вертикальних дизайнерських програм на кшталт Adobe, Figma одразу різко впали — це стало чітким натяком на таку тенденцію: коли універсальні агенти здатні виконувати професійні задачі, захисний рівчак вертикальних інструментів швидко випаровується.

Крім того, у межах AI-помічника Skills і Agents також можуть здійснювати міждоменну взаємодію.

Наразі Qianwen уже послідовно підключив сервіси повсякденних потреб, зокрема доставку їжі, поїздки, туризм і квитки, квитки та білети. Після запуску Skill таксі ці можливості можуть безшовно взаємодіяти — наприклад, завершити за один раз: «забронюй мені готель неподалік берега Західного озера», «відвези мене до цього готелю на таксі», «а ще порекомендуй неподалік страви хангзоу-кухні з місцевим колоритом». Це типовий ланцюжок багатокрокового завдання: він включає три ключові системи — бронювання, диспетчеризацію та рекомендації. У минулому вам потрібно було перемикатися щонайменше між трьома застосунками; сьогодні достатньо одного діалогу.

По суті, це також ключовий стрибок, коли AI виходить за межі інструмента продуктивності й переходить у роль помічника для повсякденного життя.

(Редактор: Ґуо Цзяньдун )

     【Відмова від відповідальності】Ця стаття відображає лише власні погляди автора і не має відношення до Hexun. Сайт Hexun зберігає нейтралітет щодо наведених у тексті тверджень, позицій і оцінок; не надає жодних явних чи неявних гарантій щодо точності, надійності або повноти будь-якого змісту. Будь ласка, читачі використовуйте матеріал лише для довідки та несіть повну відповідальність самостійно. Email: news_center@staff.hexun.com

Повідомити про порушення

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.26KХолдери:2
    0.07%
  • Рин. кап.:$2.22KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:0
    0.00%
  • Закріпити