Тривога інвесторів у сфері штучного інтелекту 2026 року: коли модель поглинає все, що залишається у захисних рвах стартапів?

Question

Автор: Сара ГуоПереклад: Шеньчао TechFlowШеньчао Вступ: Коли великі моделі починають домінувати у всіх рейтингах, інвестори починають впадати у відчай: окрім Anthropic та Nvidia, що ще варто інвестувати? Цей топ-інвестор Кремнієвої долини за допомогою даних і кейсів показує, що справжня оборонна стіна не на рейтингах — вона прихована у тих місцях, які неможливо оцінити за допомогою бенчмарків.У середині 2026 року версія AI для інвесторів — це вид відчаю: нічого вартого не залишилось для інвестицій, потрібно вкласти всі гроші в Anthropic і Nvidia і йти додому.Я ніколи не відчував такого. Я переконаний, що моделі вже набагато розумніші за мене, я з радістю купую Anthropic і Nvidia за ринковою ціною, всі мої найрозумніші друзі впевнені, що швидке самовдосконалення скоро принесе успіх — але я все ще не відчуваю цього відчаю.Цей відчай не є дурним. Логіка така: якщо моделі постійно покращуються у всіх сферах, тоді кожна компанія, побудована на них, — це лише тонка обгортка, яка чекає на поглинання, єдина цінність — це обчислювальна потужність і передові ваги.Наприклад, у сфері програмного забезпечення — це найпопулярніший приклад для відчаю. Devin у 2024 році випустив агент, який вирішує лише 13% стандартних бенчмарків програмного забезпечення, його ігнорували. Через півтора року найкращі агенти досягають понад 80 балів, вони виконують реальні завдання у Goldman Sachs і армії США. Майже всі зробили однаковий неправильний висновок: моделі з’їдають інженерію програмного забезпечення. Але коли модель поглинає найпростіші для вимірювання частини інженерії, ми знову усвідомлюємо те, що багато команд знали давно — інженерія завжди уникає вимірювання, і найпростіша частина може бути не єдиною важливою.MIT’s Mert Demirer та його співробітники нарешті надали цифри: серед понад 100 тисяч розробників, новий кодовий агент збільшив кількість написаного коду приблизно на 180%, а фактичний випущений код — приблизно на 30%. Стало дешевше писати код. Решту все ще потрібно робити людині, і це дуже важливо. Звісно, чистий вплив залишається вражаючим.Бенчмарки — це те, що ти можеш виміряти, і що ти можеш виміряти — це те, на чому ти можеш тренуватися. Тому агент для кодування найперший до зрілості: компілятор — безкоштовний валідатор, тестовий набір — безкоштовний валідатор, коли відповіді самі безкоштовно перевіряють себе, ти можеш безперервно вдосконалювати їх, поки не переможеш. Але тестування ніколи не дає відповіді, чи правильний цей зміни для складної системи з трьома незареєстрованими модулями, чи правильно вона працює у довгостроковій pipelines, яка тримається на коді, що його написав один-єдиний cron, який ніхто не хоче визнавати своїм.Ця правильність не може бути зчитана з рейтингів, і насправді — ні з чого іншого. Ви навчаєтеся, запускаючи систему у реальному світі достатньо довго, щоб зрозуміти, чи ефективна ця складна система, і більш розумні моделі не роблять світ швидшим. Ніхто не робить юніт-тестів для Google і не вірить у зелену галочку; вони вірять, бо вона витримала роки реального навантаження. Така правильність не лише приватна, вона — повільна оборонна стіна, яка не руйнується капіталом. Навіть оптимісти визнають, що час не можна пропустити: Noam Brown, піонер моделей для розуміння OpenAI, нещодавно написав, що єдина надійна методика оцінки агента за рік — це... запустити його на рік.Як сказав Gabe Pereyra, справжня автоматизація — це не лише покращення моделей. Це одночасний рух продукту, моделей, робочих процесів і компаній, і три з чотирьох рухаються з організаційною швидкістю.Рухаються ті частини, які б не зміг охопити бенчмарк: переконати скептичного партнера змінити спосіб роботи, зберегти команду під час реконструкції. Саме тому, коли ми наймаємо CEO, здатність працювати з людьми важлива так само, як і аналітичні навички, і розумніша модель цього не змінить. Зворотній зв’язок — розмитий, часовий горизонт — роки, довіра — особиста. Я знаю, що всі компанії змушують інженерів використовувати передові кодові моделі, але жодна не змінює свою інженерну організацію так швидко. Це — квартал на впровадження, яка неймовірна кількість токенів зростає! Але реконструкція триває роками.Очевидно, що щось відходить. Цінна робота структурно невидима: все, що можна помістити у рейтинг, — це вже тренується, і будь-яке вимірюване стає товаром. Цей процес потребує часу і ніколи не буде повністю завершеним, але напрямок — незмінний. За словами мого друга з Rippling, Matt MacInnis, витрати токенів на відповіді на загальні питання майже безцінні, бо будь-яка модель може їх відповісти, а вартість токенів для аналізу ваших даних — набагато вища, бо вона робить те, що ви справді хочете, а не просто здається логічним.Очевидна робота з’їдається з двох сторін: знизу — завантаженість завдань. Як тільки роботу можна перевірити дешево, покупці перестають питати, яка модель її зробила, і починають питати, скільки вона коштує, і тоді вона переходить до найдешевших open-source або дистильованих моделей. Там, де вони можуть впливати, — важлива маржа. Зверху — лабораторії намагаються поглинути свої власні інструменти. Від пошуку, маршрутизації між дешевими і дорогими викликами, використання інструментів і навіть стратегій розуміння — все, що раніше обгортало модель, тепер стає вагами, аж поки обгортка не стане моделлю сама. Це — поглинання передової. Тиск на маржу також зменшує цю можливість: універсальний агент має бути готовий до будь-чого, що дуже дорого, тоді як сфокусовані застосунки можуть налаштувати робочий процес так, щоб він працював на невеликій частині токенів, і, на відміну від лабораторій, що продають ці токени, зберігає різницю.Отже, ми можемо ставити будь-яке питання щодо роботи: чи її правильність приватна і коштує дорого — правда, що існує лише у внутрішніх даних? Чи вона ізольована, закрита у системі, до якої неможливо отримати доступ? Порівнюючи з рівнем насиченості завдань, отримуємо матрицю 2x2. Роботи з відкритими відповідями, що вже є у товарі — це товарні токени, їх мають відкриті моделі. Передові роботи з відкритими відповідями, що знаходяться у межах бенчмарків — це перемога лабораторій, бо коли оцінка безкоштовна, її володіння — не велика справа. Останній кут — це непіддаваний тренуванню: правильність існує лише у приватній передовій роботі. Ви можете побачити її у хмарі для інтелектуальних систем, що належать провідним компаніям, більшість токенів генеруються кастомізованими моделями, а не універсальними відкритими.Вхід у цей останній кут має різну висоту. Окремий кодовий репозиторій розробника — переносний і стандартизований, тому підйом короткий. Банківські системи — ні, і ви не отримаєте root-доступу, заробивши 2% у SWE-Bench Verified.Здатність поглинає багато, але кращі моделі не зроблять приватні факти публічними. Вони не мають ліцензій, не підписують відповідальність і не володіють корпоративними документами, і коли відповіді помилкові — вони не можуть бути відповідачами у суді. Інтелект — не тут обмеження. Ліцензія — це, і відповідальність — це. Ви можете уявити модель, яка набагато розумніша за будь-кого, але їй все одно потрібно дозволити увійти, і хтось має підписати за неї.Ця двері має замок і засувку. Замок — це середовище: ви можете перевірити, чи AI зробив корисну справу, лише коли довірили системі, після безпеки, інтеграції і контракту підпису результату. Засувка — це користувач. Зараз більшість лікарів у США щодня відкривають OpenEvidence, і жодна кількість обчислювальної потужності не купить це. Лабораторії завтра зможуть тренувати ідеальну медичну модель, але вона не увійде у звички лікаря або у процес прийняття рішень у Каліфорнійському університеті Сан-Франциско, бо довіра формується повільно, на основі стосунків, і вимагає згоди користувача, а не стирання їхнього градієнтного спуску.Це — теж робота. Додаток, що виконує непомітну роботу у непіддаваному тренуванню куті, здобуває там свою позицію: організовує приватну реальність компанії так, щоб модель могла діяти у ній, надає інструменти для дій моделі, співпрацює з клієнтами, щоб змінити їхню реальність. Компанія, що займається перекладами, важко копіювати — і переклад ніколи не закінчується. Інтеграція і підтримка тривають стільки ж, скільки і час і стосунки, і їх виграє команда, яка розміщує інженерів і інструменти поруч із клієнтом.Наприклад, у провідній юридичній фірмі злиття та поглинання щороку обробляють майже тисячу угод. З міркувань конфіденційності та інших причин ти не можеш дозволити сотням помічників завантажувати клієнтські файли на робочі столи і просити універсальний агент їх переглянути, навіть якщо зможеш — ти отримаєш лише фрагменти, один за одним, з виправленнями кожного помічника, без можливості побачити весь потік угод. Важливі сигнали — на рівні угод, і угода має свою структуру: для M&A — це конфіденційна угода, список умов, due diligence, угода купівлі, додаткові документи, список передачі; для IP-позов — це клопотання, докази, технології, додаткові клопотання. У кожній галузі свої, і юристи, і інструменти не можуть бути взаємозамінними. А справжня проблема фірми — це рівень вище: паралельне ведення кожної галузі, наче топ-менеджер одночасно керує сотнями справ, вводить нові і навчає помічників. Трансформація такої фірми — не одна задача, яку можна оцінити одним показником. Це — робота оператора, що використовує аналітику даних, з дуже розмитими цілями, неповною зворотнім зв’язком і довгим часом, у середовищі, яке не стоїть на місці.На жаль, невидима цінність важко продати, бо вона так само важко товаризується: компанії не можуть ззовні оцінити, чи трансформує AI їхню діяльність, так само як і бенчмарки не можуть. Тому найсильніші компанії припиняють намагатися довести це зовні і переходять до внутрішніх оцінок. Sierra, яка стягує плату за агентські рішення клієнтів, не бере плату, коли передає проблему людині, тому ціна — це оцінка, і вона працює лише тоді, коли Sierra має визначення «вирішено». Devin з Cognition застосовує те саме у програмному забезпеченні, пропонуючи «гарантію продуктивності», що можливо лише у системі, до якої тебе допустили.Навіть сервісні токени, які всі люблять називати товаром, не працюють як товар. Найкращі AI-компанії зосереджують свої послуги у кількох постачальників (Baseten або Fireworks), бо кожен токен планомірно товаризується, але надійність і доступ до обчислювальної потужності під час реального навантаження — ні. Де ти надаєш послугу — це вибір, відмінний від того, які моделі ти використовуєш. Ціна — єдина частина, що працює як товар у процесі розрахунків.Часто виникає запитання: чому лабораторії — твої постачальники — не будуть продавати свої власні продукти за собівартістю, щоб висмоктати тебе або забрати твій API і захопити ринок? Це — справжня версія відчаю, яка працює лише тоді, коли модель — це гра для одного. Очевидно ні — це більше схоже на смертельну гонку трьох з половиною гравців, групу міжнародних гравців, що тренуються на шостому місяці, і об’єднання, яке у 5 разів більше минулоріч. Клієнти хочуть конкуренції між постачальниками, лабораторії — більше ринкової частки, ніж знищення будь-якого застосунку.Це видно у ринках, де лабораторії змагаються відкрито. У споживчих чатах найкращі моделі ніколи не просто перемагають. ChatGPT тривалий час зберігав лідерство у реальній конкуренції, але зараз частка, яку він втрачає, переходить до Gemini, що базується на Android і пошуку, а не на кращих моделях. Anthropic, за прогнозами ринку (і інтернет-атмосферою), — компанія з найкращими моделями, але у споживчих чатах вона майже не враховується, натомість вона закладає свою бізнес-модель у корпоративний і кодовий сегменти. Якщо кращі моделі не зможуть відвоювати користувачів у найважливіших застосунках, вони не проникнуть у медичні записи або банківські системи через інтеграцію. Вибір споживачів сьогодні — не лише у коді. Якщо передова технологія залишається переповненою, її верхній рівень — цінність.Якщо роботу неможливо оцінити зовні, то внутрішня особа має вирішити, що є хорошою відповіддю, і це — вся гра. Достатньо багато таких рішень, записаних, стають бенчмарками. Harvey створив для юриспруденції, Sierra — для голосових агентів. Ви виграєте, ставши тим, хто вже використовується у цій галузі, і визначаєте, що означає добре у цій сфері, — ці компанії здобувають цю владу через реальне впровадження.Оцінки, що визначають справжню ціну, приватні і залежать від компанії: що ця компанія вважає хорошою роботою у цій сфері, ще не завершено, бо глибина юриспруденції робить будь-яке публічне тестування беззмістовним. OpenEvidence визначає, якою має бути безпечна клінічна відповідь. Це — не справжні вимірювання, а судження про те, що є правдою і добрим, — записуючи їх, щоб вони стали стандартом для інших, і щоб базові лабораторії не могли їх змінити, бо цей статус існує лише у цій галузі. Влада зазвичай зосереджена там, де вона вже є. Старші юристи створюють юридичні бенчмарки. Визначення безпечної клінічної відповіді — на лікарях. А вирішено — це будь-яка компанія, що вже має клієнтів і говорить, що означає це.Поглинаючи передову, вона постійно зростає, бо ми навчаємося вимірювати все більше роботи, і вимірюване з’їдається. Непіддаваний тренуванню ґрунт зменшується під ногами кожного, хто на нього ступає, тому ви не можете знайти точку захисту і відпочити. Ви постійно рухаєтеся у напрямку до того, що ще не можна оцінити, і постійно переоцінюєте. У вузькому завданні, використовуючи свої приватні дані і власну оцінку, ви можете досягти передової і перемогти універсальні моделі у важливих сферах, і ця спеціалізована модель стане частиною оборонної стіни. З іншого боку, конкуренція з універсальними моделями — це війна капіталу: ви програєте тим, у кого найбільше обчислювальної потужності, і це пастка компаній із обмеженим доступом і видимими завданнями. Вона обіцяє, що у день, коли універсальні задачі будуть перевершені передовими тренуваннями для виживання, переможця визначатиме масштаб дата-центрів, і результат зазвичай — не незалежний чемпіон, а компанія, що продає обчислювальні ресурси.Все це — захист. Що складніше — напад, вибір, що будувати першим. Це — те, що я шукаю вже рік і можливо знайшов тричі. Модель тут не допоможе. Вона зробить усе, що ви їй скажете, але не скаже, що варто вказати, і ви не зможете це бенчмаркнути, тому не зможете її тренувати. Це — ще одна причина, чому існуючі компанії не захоплюють усе: вони зберігають свої території, а наступний крок — у тих, хто раніше за всіх знайшов застосування. Можливо, інвестиція — це більш рідкісне, ніж обчислювальна потужність.Відчаїлки мають рацію наполовину. Тонка обгортка справді поглинається, і сьогодні багато чого у компаніях — це тонка обгортка. Вона неправильно визначає, що залишилось. Механізм зрозумілий; ціль — ні. Я ставлю на напрямок: інтелект постійно дешевшає, цінність поступово зсувається у ті сфери, де модель не може дістатися. Непіддаваний тренуванню — це цінність з історією. Тому входити у цю сферу, робити непомітний переклад, починати фіксувати, що означає добре, — бо хтось зробить це. Найпопулярніший бенчмарк цього року — це карта територій, яка скоро стане безцінною, і повідомлення про те, хто скоро втратить право називати щось хорошим.

Тривога інвесторів у сфері штучного інтелекту 2026 року: коли модель поглинає все, що залишається у захисних рвах стартапів?

Популярні теми

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Закріплено