Тревога инвесторов в области ИИ к 2026 году: когда модели поглощают всё, что останется у конкурентных преимуществ стартапов?

Question

Автор: Сара ГуоПеревод: Deep潮 TechFlowDeep潮 Вводная: Когда большие модели начинают доминировать во всех рейтингах, инвесторы начинают впадать в отчаяние: кроме Anthropic и Nvidia, есть ли что-то достойное для инвестиций? Эта ведущая инвесторка Кремниевой долины использует данные и кейсы, чтобы показать, что настоящая конкурентная защита не в рейтингах — она скрыта в тех местах, которые невозможно измерить бенчмарками.К середине 2026 года версия AI для инвесторов — это вид отчаяния: нечего больше инвестировать, нужно вложить все деньги в Anthropic и Nvidia и идти домой.Я никогда не испытывала такого чувства. Я уверена, что модели намного умнее меня, я с удовольствием покупаю Anthropic и Nvidia по рыночной цене, все мои самые умные друзья почти уверены, что их самосовершенствование скоро даст успех — но я все равно не чувствую этого отчаяния.Это отчаяние не глупо. Логика такова: если модели постоянно улучшаются во всех сферах, то каждая компания, построенная на них, — это всего лишь тонкая оболочка, ожидающая поглощения, единственная ценность — это вычислительные мощности и передовые веса.В качестве примера — программное обеспечение, на которое опираются скептики. Когда Devin выпустил в 2024 году, он мог решить только 13% задач стандартных бенчмарков, его игнорировали. Полтора года спустя, лучшие агенты достигают более 80%, они выполняют реальные задачи внутри Goldman Sachs и армии США. Почти все пришли к одной и той же ошибочной уроку: модели поглощают инженерное дело. Но когда модели захватывают самую легко измеримую часть инженерии, мы заново осознаем то, что многие команды знали давно — инженерия всегда сопротивлялась измерению, и самая легко измеримая часть может быть не единственно важной.MIT’s Mert Demirer и его соавторы наконец предоставили цифры: среди более 100 тысяч разработчиков, новые кодирующие агенты увеличили объем написанного кода примерно на 180%, а фактический опубликованный код — примерно на 30%. Код стал дешевле. Остальное всё еще требует человека, и это очень важно. Конечно, чистый эффект все равно впечатляющий.Бенчмарк — это то, что можно измерить, а измеряемое — это то, чему можно обучить модель. Поэтому агенты для кодирования созрели первыми: компилятор — бесплатный валидатор, тестовые наборы — бесплатные валидаторы, когда ответы могут проверять сами себя, можно постоянно совершенствовать их, пока не победишь. Но тестирование никогда не скажет тебе, правильно ли изменение для системы с тремя незарегистрированными модулями, с деплоем через цепочку крон-задач, которые никто не хочет признавать своими, — это правильное решение.Такая правильность не читается в рейтингах и на самом деле не читается нигде. Ты учишься, запуская систему в реальном мире достаточно долго, чтобы понять, эффективна ли эта сложная система, а более умные модели не делают мир быстрее. Никто не делает юнит-тесты для Google и не верит в зеленую галочку; ты веришь, потому что она выдержала годы реальной нагрузки. Такая правильность не только приватна, она — медленная конкурентная защита, которая не может быть разрушена капиталом. Даже оптимисты признают, что часы не могут прыгать: недавно Ноам Браун, пионер моделей рассуждения OpenAI, написал, что единственный надежный способ оценить агента за год — это... запустить его на год.Как говорит Gabe Pereyra, настоящая автоматизация — это не только улучшение моделей. Это движение продукта, моделей, рабочих процессов и компании вместе, причем три из них движутся с организационной скоростью.Движущиеся части — это те, что недоступны бенчмаркам: изменение подхода у скептического партнера, сохранение командного духа во время перестройки. Поэтому, когда мы нанимаем CEO, способность управлять людьми важна не меньше, чем аналитические навыки, и более умные модели этого веса не меняют. Обратная связь размыта, временные рамки — годы, доверие — к человеку. Я знаю, что все компании заставляют инженеров использовать передовые кодирующие модели, но ни одна не меняет свою инженерную организацию так быстро. Использование — это квартал, какой замечательный квартал роста токенов! Но перестройка занимает годы.Видны те, кто уходит. Ценная работа по своей сути невидима: все, что можно поместить в рейтинг, — это то, чему можно обучить модель, и все измеряемое уже движется к товаризации. Этот процесс занимает время и никогда не завершится полностью, но направление — всегда верное. Как говорит мой друг из Rippling, Matt MacInnis, деньги, потраченные на ответы на общие вопросы, почти ничего не стоят, потому что любую модель можно обучить на них, а ценность — в выводах, основанных на данных вашей компании, потому что они делают то, что вы действительно хотите, а не просто кажутся разумными.Видимая работа поглощается с двух сторон: снизу — насыщение задачами: как только работа становится дешевым проверяемым, покупатели перестают спрашивать, какая модель ее сделала, и начинают спрашивать, сколько она стоит, — и работа переходит к самым дешевым открытым или дистиллированным моделям. Там, где они могут влиять, прибыльность становится важной. Сверху — лаборатории пытаются поглотить собственные инструменты: маршрутизация между дешевыми и дорогими вызовами, использование инструментов, стратегии рассуждения — все, что раньше было оберткой для модели, теперь интегрировано в веса, пока обертка не станет самой моделью. Это — поглощение передовых технологий. Давление на прибыльность тоже работает в обратную сторону: универсальный агент должен быть готов к любым задачам, что дорого, а узкоспециализированное приложение может настроить рабочий процесс так, чтобы он работал на небольшом количестве токенов, и в отличие от лабораторий, продающих эти токены, оно сохраняет разницу.Итак, мы можем задать любой работе два вопроса. Ее правильность — приватна и дорогостоящая в создании, — это ли правда, скрытая внутри данных компании? Она изолирована, заперта в системе, в которую нельзя войти? Сравнивая с насыщенностью задач, получается 2x2 матрица. Работы с открытыми ответами, насыщенные — это товарные токены, их имеют открытые модели. Передовые работы с открытыми ответами, где находится кодировочный бенчмарк, — это победа лабораторий, потому что когда оценка бесплатна, владение ей — не главное. Последний угол — это неприучаемая работа: правильность существует только в приватной передовой работе. Ее можно увидеть в облаке, где работают ведущие AI-компании, — большинство токенов создаются кастомными моделями, а не универсальными открытыми.Стены последнего угла разной высоты. Индивидуальные разработчики с игрушечными репозиториями — переносимы и стандартизированы, поэтому путь короткий. Банковские системы — это не так, и вы не получите root-доступ, просто будучи на 2% умнее на SWE-Bench Verified.Способности поглощают многое, но более хорошие модели не превращают приватные факты в публичные. Они не имеют лицензий, не берут на себя ответственность, не владеют корпоративными документами, и при ошибках не могут стать ответчиками. Интеллект — не узкое место. Лицензии — да, ответственность — тоже. Можно представить модель, намного умнее любой другой, которая все равно должна иметь разрешение войти, и за нее кто-то должен подписывать.Эта дверь заперта и заперта за замком. Замок — это окружение: только после доверия внутри системы, после проверки безопасности, интеграции и подписания результатов, можно убедиться, что AI сделал что-то полезное. Защелка — это пользователь. Сейчас большинство врачей в США ежедневно используют OpenEvidence, и никакая вычислительная мощность не купит это. Лаборатории завтра смогут обучить идеальную медицинскую модель, но она не войдет в привычки врачей или в процессы UC San Francisco, потому что доверие строится медленно, на отношениях, и требует согласия пользователя, а не устранения их градиентного спуска.Это — работа. Приложение занимает место в неприучаемом углу, выполняя незаметную работу: организовать внутреннюю реальность компании так, чтобы модель могла действовать в ней, дать модели инструменты для действий, сотрудничать с клиентами и менять их сотрудников. Компания, которая занимается переводами, трудно копировать — и перевод никогда не закончится. Интеграция и обслуживание требуют столько же времени и отношений, сколько и сама работа, и выигрывает команда, которая ставит инженеров и инструменты рядом с клиентом.Например, в ведущей юридической фирме по слияниям и поглощениям ежегодно проводится около тысячи сделок. По причинам конфиденциальности и другим, нельзя позволить сотням помощников скачивать клиентские файлы и просматривать их с помощью универсальных агентов — даже если бы могли, это было бы фрагментарно, и каждый помощник исправлял бы по частям, не видя всей картины сделки. Важные сигналы — на уровне сделок, а сделки имеют свою структуру: для M&A — это соглашения о конфиденциальности, списки условий, дью-дилидженс, договоры купли-продажи, сопутствующие документы, списки передачи; для IP-споров — это ходатайства, раскрытие доказательств, существующие технологии, дополнительные ходатайства. У каждого направления свои, и юристы и инструменты не могут пересекаться. А реальные задачи фирмы лежат на другом уровне: параллельное ведение каждого направления, как ведущий партнер управляет сотнями дел одновременно, вводит новые и обучает помощников. Трансформация такой фирмы — это не одна задача, которую можно оценить, а необходимость оператора, использующего аналитические данные, с очень размытыми целями, неполной обратной связью, долгими временными рамками, в динамичной среде.К сожалению, невидимая ценность тоже трудно продать, потому что она так же трудно товаризуется: компания не может внешне судить, произойдет ли трансформация, как и в случае с бенчмарками. Поэтому самые сильные компании перестают пытаться доказать это извне и начинают внутри — оценивать результаты. Sierra взимает плату за решение клиентских задач через агента, а за передачу задач человеку — не платит, поэтому цена становится мерилом. Это работает только тогда, когда Sierra имеет четкое определение «решено». Devin из Cognition использует тот же подход, предлагая «гарантию производительности», которая возможна только в системе, в которую вас доверяют.Даже сервисные токены, которые все называют чистым товаром, работают не как товар. Лучшие AI-компании сосредотачивают свои услуги у одного или двух поставщиков (Baseten или Fireworks), потому что стоимость токенов по плану товаризуется, а надежность и доступ к редким вычислительным ресурсам — нет. Где вы обслуживаете — это вопрос выбора, с какими моделями работаете. Цена — единственная часть, которая работает как товар в рассуждениях.Часто возникает возражение: лаборатории — ваши поставщики — почему они не будут продавать свои собственные продукты по себестоимости, чтобы вытеснить вас или захватить рынок? Это — истинная версия отчаяния, которая работает только в случае однопользовательской модели. Очевидно, что нет — это больше похоже на смертельную гонку трех с половиной сторон, где международные игроки тренируются с задержкой в полгода, а их альянсы в 5 раз больше, чем год назад. Клиенты хотят конкуренции между поставщиками, а лаборатории — больше рынка, а не уничтожения приложений.Это видно на рынке, где лаборатории борются за клиентов. В потребительских чатах лучшие модели никогда не побеждают просто так. ChatGPT сохраняет лидерство после многолетней конкуренции, а его доля уходит к Gemini, благодаря Android и поиску, а не лучшим моделям. Anthropic, по прогнозам рынка (и интернет-атмосфере), — компания с лучшими моделями, в потребительских чатах почти не фигурирует, а строит бизнес в корпоративной и кодирующей сферах. Если более лучшие модели не смогут отобрать клиентов у конкурентов в ключевых приложениях, они не пройдут через интеграцию в медицинские записи или банковские системы. Сегодняшний выбор публики — не только код. Если передовые модели сохранят конкуренцию, их ценность будет в более высоком уровне.Если работу нельзя оценить извне, кто-то внутри должен решать, что есть хороший ответ, и это — вся игра. Достаточно много таких решений, записанных, — и они становятся бенчмарками. Harvey создал один для юриспруденции, Sierra — для голосовых агентов. Вы выигрываете, становясь тем, кто уже используется в конкретной области, определяя, что значит хорошо для этого сектора, — эти компании выигрывают борьбу за признание через реальное внедрение.Оценки, определяющие реальную ценность, — приватны и различаются у разных компаний: какая работа считается хорошей в этой фирме, — еще не завершена, потому что глубина юриспруденции затмевает любые публичные тесты. OpenEvidence определяет, как выглядят безопасные клинические ответы. Все это — не настоящие измерения, а оценки того, что есть истина и что хорошо, — их записывают, пока они не станут стандартом для всех, и даже самые умные лаборатории не смогут их написать, потому что такой статус существует только внутри этого сектора. Эта авторитетность обычно закреплена за теми, кто уже там сидит. Ведущие юристы создают юридические бенчмарки. Определение безопасных клинических ответов — за врачами. А решенные дела — это те, что уже имеют клиентов, и их интерпретация — внутри компании.Поглощение передовых технологий постоянно растет, потому что мы учимся измерять все больше работы, — измеряемое поглощается. Невозможно удержать все, что не поддается обучению, под ногами, — нельзя найти точку защиты и отдыхать. Ты постоянно движешься к тому, что еще не может быть оценено, и постоянно переоценивать. В узкой задаче, используя свои приватные данные и собственные оценки, можно достигнуть передовой и превзойти универсальные модели в важных областях, — эти узкоспециализированные модели становятся частью защиты. С другой стороны, конкуренция на базе универсальных моделей — это война капиталов, и ты проиграешь тем, у кого больше вычислительных ресурсов, — это ловушка компаний с поверхностным доступом и видимыми задачами. Она обещает, что однажды, в день, когда можно будет превзойти передовой в универсальных задачах, победитель будет определяться масштабом дата-центров, а результат — не победа независимого чемпиона, а продажа тем, у кого больше вычислительных мощностей.Все это — защита. А более сложное — это нападение, выбор, что строить в первую очередь. Это — то, что я искала год, и, возможно, нашла трижды. Модели здесь не помогают. Они сделают все, что вы укажете, но не скажут, что стоит указывать, — вы не можете бенчмарками это измерить, и не можете обучить. Поэтому существующие компании не забирают все: они держат свою территорию, а следующий шаг — у тех, кто раньше всех нашел применение. Возможно, цель — это вложение, более редкое, чем вычислительные ресурсы.Отчаяние — это половина правды. Тонкие оболочки действительно поглощаются, и сегодня кажется, что многие компании — это тонкие оболочки. Но это — неправильное понимание оставшейся части. Механизм ясен; цель — нет. Я бы поставила на направление: интеллект становится все дешевле, а ценность уходит в те области, куда модели не могут добраться. Невозможно обучить тому, что имеет историческую ценность. Поэтому, войдя в один сектор, делая незаметный перевод, начинаешь фиксировать, что значит хорошо там, — потому что кто-то это сделает. Самое цитируемое сегодня бенчмарк — это карта территории, которая скоро станет бесполезной, и уведомление о том, кто скоро потеряет право говорить, что хорошо.

Тревога инвесторов в области ИИ к 2026 году: когда модели поглощают всё, что останется у конкурентных преимуществ стартапов?

Популярные темы

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Закреплено