Після того, як ШІ поглине все, що залишиться, що буде непіддається навчанню?

Question

> Оригінальна назва: The Untrainable > Автор оригіналу: Sarah Guo, Conviction > Переклад: Peggy, BlockBeats > Редакторський коментар: коли можливості ШІ постійно зростають, у інвестиційній сфері з’являється новий песимізм: якщо моделі стають дедалі сильнішими, всі застосунки компаній зрештою будуть поглинуті моделями Anthropic, OpenAI, Nvidia та обчислювальними ресурсами, і на ринку залишаться лише передові моделі, обчислювальні потужності та кілька інфраструктурних компаній. Але Sarah Guo вважає, що така оцінка лише частково правильна. Ті «тонкі обгортки» (тобто прості оболонки моделей), справді, будуть поглинуті, але задачі, які можна оцінити за допомогою benchmark (бенчмарків), тренувати на відкритих даних, перевіряти за низькою ціною — поступово стануть товаром. Головне питання: після того, як ШІ поглине все, що можна навчити, що залишиться непіддаваним тренуванню? Відповідь у цій статті — це ті цінності, що існують у реальних організаціях і важко відтворити зовні: приватні дані компанії, складні робочі процеси, довіра користувачів, системні дозволи, галузеві судження, відповідальність за дотримання нормативів та накопичений досвід у довгостроковій перспективі. Моделі можуть ставати розумнішими, але не автоматично проникати у виробничі системи банків; можуть генерувати медичні відповіді, але не отримають довіру лікарів і не увійдуть у процеси прийняття рішень у лікарнях; можуть писати юридичні тексти, але не нестимуть відповідальність за них досвідчені юристи і не зможуть самостійно визначити, що є якісною юридичною роботою. Тому справжні компанії з конкурентною перевагою у майбутньому — це не ті, що просто розумніші за універсальні моделі, а ті, що глибоко занурені у конкретну галузь і виконують складну, але важливу «перекладальну» роботу: перетворюють приватну реальність клієнтів, інструменти, процеси та стандарти суджень у системи, здатні діяти, і поступово визначають, що таке «гарний результат» у довгостроковій перспективі. Чим сильніший буде ШІ, тим більше знецінюватимуться вимірювані та легко відтворювані задачі; натомість, зростатиме цінність тих «непіддаваних тренуванню» речей — з історією, зв’язками, дозволами та професійним судженням. Це і є справжня цінність, яку зможуть зберегти після поглинання моделей. Ось оригінальний текст: У 2026 році інвестори у «ШІ-манію» відчують абсолютну безнадію: здається, що вже нічого не варто вкладати — крім Anthropic і Nvidia, і можна йти спати. Але я ніколи не відчувала такого. Впродовж кількох минулих версій я був переконаний, що моделі вже розумніші за мене; якщо купити Anthropic і Nvidia за ринковою ціною — я б із задоволенням. Найрозумніші друзі теж переконані, що самовдосконалення моделей дуже швидко стане реальністю — але я все одно не відчуваю цієї безнадії. Ця безнадія не є дурною. Її логіка така: якщо моделі постійно стають сильнішими у всьому, тоді всі компанії, що базуються на моделях, — це лише тонка оболонка, яка очікує поглинання моделями. І в кінцевому підсумку цінність зостанеться лише у обчислювальних потужностях і вагових коефіцієнтах передових моделей. Наприклад, у софтверній сфері ця безнадія особливо помітна. У 2024 році Devin випустив агент, здатний вирішувати лише 13% стандартних тестів — і тому його сприймали як недосконалий. Через півтора року найкращий агент досяг понад 80% і почав працювати у Goldman Sachs і армії США. Майже всі зробили однаковий висновок: моделі поглинули софтверну індустрію. Але коли моделі поглинають найпростіші для вимірювання частини софтверної роботи, ми знову починаємо розуміти те, що давно знали багато команд: інженерія завжди була опірною до вимірювань, і найпростіша для оцінки частина — не обов’язково найважливіша. MIT-івець Mert Demirer та його колеги нарешті кількісно це підтвердили: серед понад 100 тисяч розробників, новий кодогенеруючий агент підвищив кількість написаного коду приблизно на 180%, але фактичний обсяг релізів зріс лише на 30%. Створення коду стало дешевшим, але решту процесу все одно доводиться виконувати людям, і ці етапи важливі. Звісно, загальний вплив усе одно вражаючий. Бенчмарки — це те, що можна виміряти; а будь-яке виміряне — можна використовувати для тренування. Тому агент для кодування першим досягнув зрілості: компілятори — безкоштовні валідатори, тести — безкоштовні валідатори. Коли відповідь майже можна перевірити за нульові витрати, можна постійно вдосконалювати цю перевірку, доки не доведеш її до досконалості. Але перевірка за тестами ніколи не гарантує, що зміни у вже працюючому десятиліттями коді є правильними. Модуль може існувати з трьома причинами, які ніхто не задокументував; пайплайн розгортання — на крон-джобі, який ніхто не хоче визнавати своїм. Ця правильність не зчитується з рейтингів і навіть не з будь-яких інших джерел безпосередньо. Єдине, що може допомогти — це запустити таку складну систему у реальному світі достатньо довго, щоб зрозуміти, чи вона справді ефективна. А розумніші моделі не прискорюють цей процес. Ніхто не довірить Google, що його система пройде юніт-тести і отримає зелену галочку — довіра базується на тому, що вона витримала роки реального навантаження. Ця правильність — не лише приватна, а й повільна захисна стіна, капіталізована у часі. Навіть оптимісти визнають, що цей годинник не можна обійти. Noam Brown з OpenAI нещодавно написав: щоб оцінити агент за рік роботи, потрібно дійсно дати йому рік. Як сказав Gabe Pereyra, справжня автоматизація — це не лише посилення моделей. Це зміна продукту, моделей, робочих процесів і організаційної структури, і три з чотирьох рухаються з однаковою швидкістю. Що здатне мотивувати — це частина, яку жоден бенчмарк не може охопити: переконати скептика змінити підхід, зберегти згуртованість команди під час реконструкції. Саме тому при наймі CEO ми цінуємо здатність працювати з людьми так само, як і аналітичні навички. Зміна моделі не змінює цей пріоритет. Зворотній зв’язок тут розмитий, а довіра — це конкретна людина. У кожної компанії вже є інженери, що користуються передовими моделями, але жодна не змінює свою організацію так швидко, як зростають можливості моделей. Впровадження інструментів — це квартал роботи, і це дивовижно швидко! Але справжня реконструкція потребує років. Роботи, що легко помітити, вже йдуть у минуле. Справжня цінність — у структурі, яка непіддається вимірюванню: все, що можна поставити у рейтинг, — це тренує, і тому все, що можна виміряти, — стає товаром. Цей процес триває, але ніколи не завершиться повністю, і напрямок руху — незмінний. Як сказав мій друг, Matt MacInnis із Rippling, у грошовій термінології: один токен, що використовується лише для відповіді на загальне питання, майже нічого не коштує, бо будь-яка модель може відповісти; але якщо цей токен базується на ваших приватних даних і використовується для розуміння вашої ситуації — він набагато цінніший, бо виконує саме те, що вам потрібно, а не просто генерує виглядаючу логічною відповідь. Розбірливі задачі зникатимуть у двох напрямках. Знизу — задачі насичуються: якщо щось можна перевірити за низькою ціною, покупець не буде цікавитися, яка модель це зробила, а запитає, скільки це коштує. І ця робота перейде до найдешевшої відкритої або дистильованої моделі. За умови прибутковості вона обов’язково з’явиться. Зверху — лабораторії намагаються поглинути свої власні інструменти. Маршрути між пошуком, дешевими і дорогими викликами, використанням інструментів і стратегій — все, що раніше було зовнішніми компонентами моделі, тепер інтегрується у ваги моделі, аж поки «оболонка» сама не стане моделлю. Це — межа поглинання. Прибутковий тиск працює і з іншого боку: універсальний агент має бути готовим до будь-яких задач, тому його вартість висока; натомість, спеціалізовані застосунки можуть оптимізувати робочий процес до мінімуму токенів і залишати частину прибутку собі. На відміну від лабораторій, що продають токени, компанії-замовники можуть залишати собі різницю. Тому будь-яку задачу можна поставити під питання: чи є її правильність приватною і дорогою, чи вона базується на внутрішніх даних компанії? Чи ізольована вона у системі, до якої сторонні не мають доступу? Поєднавши ці питання з рівнем насиченості задачі, отримаємо матрицю 2×2. Завдання, що вже насичені і відповіді відкриті — це сфера товаризації токенів, і тут переважають open-source моделі. Передові, але з відкритими відповідями — це лабораторії, бо коли оцінка безкоштовна, сама її цінність зменшується. Найцінніший сегмент — це «непіддавані тренуванню» задачі, що знаходяться у «найпередовішому» куті: вони — передові, але їх правильність зберігається лише у приватних середовищах. Це видно у хмарних сервісах для AI-орієнтованих компаній: більшість токенів генеруються кастомізованими моделями, а не універсальними open-source. Межа входу до цього кута — висока. Створювати власний кодовий репозиторій легко, але для банківської системи — це неможливо. Ви не отримаєте доступ до її кореня, просто навчившись на SWE-Bench Verified на 2% краще. Моделі поглинають багато речей, але кращі моделі не зроблять приватні стандарти відкритими. Вони не мають ліцензій, не підписують відповідальність і не володіють корпоративними документами; коли відповіді помилкові — вони не можуть бути відповідачами у суді. Тут проблема не у розумі, а у дозволах і відповідальності. Можна уявити модель, яка буде набагато розумнішою за будь-кого, але їй все одно потрібно дозволити увійти, і хтось має підписати за неї. Це двері з замком і засувкою. Замок — це середовище: довіряєш системі, пройшовши безпекову перевірку, інтеграцію і підписавши контракт із відповідальністю за результати, ти можеш перевірити, чи справді ШІ зробив корисну роботу. Засувка — це користувач. Зараз більшість американських лікарів щодня відкривають OpenEvidence — і це не кожен обчислювальний ресурс може купити. Лабораторія може завтра натренувати ідеальну медичну модель, але вона не зможе увійти у звички лікарів і процеси ухвалення рішень у UCSF. Довіра формується поступово, через стосунки і дозвіл користувачів, а не через градієнтні спуски. Саме це — робота застосункових компаній. Щоб зайняти місце у «непіддаваній тренуванню» зоні, потрібно виконати непримітну, але важливу роботу: структурувати приватну реальність компанії, щоб модель могла діяти на її основі; надати інструменти для дій; змінювати роботу клієнтів і їхню командну динаміку. Компанія, яка здатна зробити цей «переклад», важко копіювати, і цей процес ніколи не закінчиться. Інтеграція і підтримка триватимуть упродовж усього життя клієнта. Переможцями стануть ті, хто зможе поєднати галузевих інженерів і інструменти з клієнтським бізнесом. Наприклад, у великій історичній юридичній фірмі щороку укладається близько тисячі угод злиття та поглинання. Не можна просто дати сотням юристів і помічникам завантажити файли клієнтів і передати агенту для аналізу. Конфіденційність забороняє так робити, і ще багато інших проблем. Навіть якби можна — ви б отримали лише фрагменти: один помічник виправляє один аспект, і ніхто не бачить, як рухається вся справа. Найважливіші сигнали — це рівень угоди. Угода має свою структуру: для M&A — NDA, список умов, due diligence, купівельний договір, додаткові документи, список передачі. Для судових справ із інтелектуальною власністю — клопотання, докази, технології, додаткові клопотання. У кожній галузі є свої особливості, і юристи з інструментами не можуть їх просто замінити. Але справжня проблема цієї фірми — на більш високому рівні: як одночасно керувати кількома галузями, як керує один партнер, що одночасно веде сотні справ, залучає нових клієнтів і навчає молодших юристів. Трансформувати таку компанію — не просто написати один тест. Це — керувати, як у «бейсбольних даних»: цілі цілісні цілі, з розмитими цілями, неповною зворотнім зв’язком, довгими циклами і мінливим середовищем. На жаль, непіддавані вимірюванню цінності важко продавати — так само, як і важко їх товаризувати: компанія не може ззовні оцінити, чи здатен ШІ змінити її операції так, як показують бенчмарки. Тому найуспішніші компанії припиняють доводити свою ефективність зовні і починають цінувати результати всередині клієнта. Sierra платить лише тоді, коли її агент вирішує проблему клієнта; якщо проблему передають людині — вона не платить. Тому ціна стає механізмом оцінки. І це працює, бо Sierra має право визначати, що таке «вирішена» справа. Devin із Cognition зробив те саме у софтверній сфері, запустивши «гарантію результату». Тільки коли ти справді довіряєш системі, ти можеш платити за такі гарантії. Навіть у сфері послуг токенів — тобто там, де всі називають це товаром — їхній вигляд не є справжнім товаром. Найкращі компанії-орієнтовані на ШІ зосереджуються на одному-двох постачальниках, наприклад Baseten або Fireworks. Адже кожен токен з часом стає товаром, але надійність під час реального навантаження і стабільне отримання обчислювальних ресурсів — ні. Де саме надавати послуги з розуміння — це зовсім інше рішення, ніж які моделі використовувати. Єдина частина, що справді нагадує товар — ціна. Звичайний заперечення: лабораторії — це ваші постачальники, чому вони не занижують ціну і не знищують вас, продаючи свої власні продукти за собівартістю? Або не відкликають API і не забирають цей ринок собі? Це — справжня безнадія. Але вона актуальна лише тоді, коли модель — це гра для одного. Очевидно, що ні. Моделі — це швидше змагання трьох з половиною гравців, поруч із міжнародними командами, що відстають на півроку, і альянсом, що зросла у п’ять разів минулого року. Клієнти хочуть конкуренції між постачальниками, а лабораторії — частки ринку, а не знищення конкретних застосунків. Це видно на ринку, де змагаються лабораторії. У споживчих чатах найкращі моделі ніколи не захоплюють весь ринок. ChatGPT тривалий час був лідером у реальній конкуренції; частка, яку він втратив, перейшла до Gemini, і причина — не модель, а здатність Android і пошуку поширювати її. Anthropic зараз вважається найкращою моделлю у прогнозах і інтернет-оточенні, але у споживчих чатах він майже не грав роль, натомість зосереджений на бізнесі і програмуванні. Якщо навіть найкраща модель не може захопити користувачів у найважливіших застосунках, вона навряд чи легко поглине систему історій хвороб у лікарні або систему відповідальності банку. Сьогодні споживачі обирають не лише за рівнем кодування. Якщо передовий рівень моделей залишається конкурентним, то й застосунки, що їх використовують, мають цінність. Якщо задачу неможливо оцінити зовні, то всередині має бути хтось, хто визначить, що є хорошою відповіддю. І це — вся гра. Якщо багато таких рішень записано, вони стають бенчмарками. Harvey створив бенчмарк для юридичної сфери, Sierra — для голосових агентів. Ви маєте право визначати, що означає «гарно» у цій галузі, бо ця галузь вже використовує вас. І ці компанії здобули цю владу через боротьбу за реальне застосування. Оцінка, що визначає потік грошей, — приватна і формуються вона компанією: що ця компанія вважає хорошою роботою у цій сфері. І ця справа ще не завершена, бо глибина юридичної сфери значно перевищує будь-які відкриті тестування. OpenEvidence формує уявлення про безпечні клінічні відповіді. Все це — не справжнє «міряння», а швидше судження про те, що є правдою і що є добрим. Ці судження записуються і стають стандартами для всіх. Скільки б не ставали розумними лабораторії, вони не зможуть самі створити ці стандарти — бо ця влада існує лише всередині галузі. Ця авторитетність зазвичай залишається там, де вона і була. Старші юристи пишуть юридичні стандарти. Визначають безпечність клінічних відповідей — лікарі. «Розв’язане» означає те, що вже має клієнтські стосунки і цю владу визначає компанія, що їх має. Межі поглинання ще зростатимуть, бо ми постійно навчаємося вимірювати більше задач, і вимірювані речі будуть поглинатися. Непіддавані тренуванню сфери зменшуються під ногами тих, хто стоїть на них, тому не можна зупинитися, знайшовши захищену позицію. Потрібно йти до тих, хто ще не може бути оцінений, і постійно переоцінювати ризики. На вузьких задачах, використовуючи приватні дані і власну систему оцінки, можна досягти передової якості і перемогти універсальні моделі у ключових сценаріях; ця спеціалізована модель стане частиною захисту. Але якщо ви змагаєтеся за можливостями універсальних моделей — це війна капіталу, і ви програєте тим, у кого найбільше обчислювальних ресурсів. Це — пастка для компаній із обмеженим доступом і високою читабельністю задач. Коли компанія вирішує для виживання тренуватися у широкому спектрі задач і створює передові моделі, результат зазвичай визначає масштаб дата-центрів. Іноді не з’являється окремий чемпіон, а компанія продається тому, у кого найбільше обчислювальних ресурсів. Все це — захист. А ось що складніше — напад: спершу потрібно визначити, що саме будувати. Це — те, що я шукаю вже рік і знайшов лише тричі. Модель у цьому не допоможе. Куди її спрямувати — вона зробить; але що саме варто спрямовувати — вона не скаже. Не можна створити бенчмарк для цього, і тому її тренувати теж неможливо. Саме тому великі гравці не захоплюють усе: вони захищають свої позиції, а нові ідеї приходять від тих, хто раніше відкрив їхню цінність. Можливо, намір — це цінніше за обчислювальні ресурси. Це відчуття безнадії частково правильне. Тонка оболонка справді поглинається, і багато того, що здається компаніями, — це лише оболонки. Але їх оцінка «що залишиться після поглинання» — помилкова. Механізми зрозумілі, кінцева точка — ні. Я ставлю на те, що ця тенденція триватиме: інтелект буде дешевшати, а цінність — поступово зникати у тих місцях, до яких моделі не дотягнуться. Непіддавані тренуванню речі — це цінність із історією. Тому, входячи у цю галузь і виконуючи ті непомітні переклади, починаючи визначати, що таке «гарно», — рано чи пізно, хтось зробить це. Найчастіше цитовані бенчмарки цього року — це карта, яка скоро втратить цінність, і повідомлення: хтось скоро втратить право визначати, що таке «гарно». [Посилання на оригінал] Дізнайтеся більше про вакансії BlockBeats **Приєднуйтесь до офіційної спільноти BlockBeats у Telegram:** Telegram підписка: https://t.me/theblockbeats Telegram група: https://t.me/BlockBeats_App Офіційний акаунт у Twitter: https://twitter.com/BlockBeatsAsia

Після того, як ШІ поглине все, що залишиться, що буде непіддається навчанню?

Популярні теми

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Закріплено