Те молодые люди из маленьких городов, которые маркируют большие модели ИИ

Оригинальный автор: Sleepy.md

Шаньси Датун — этот город, который в прошлом держался за счёт угля и обеспечивал себе половину успеха, — теперь стряхивает с себя угольную пыль, берёт в руки острое кирочное полотно и со всей силой обрушивает его на другую, невидимую шахту.

В офисных зданиях Международного центра Jīn Mào в районе Пинчэн больше нет шахтных подъёмных стволов, больше нет грузовиков для перевозки угля. Вместо этого — тысячи компьютерных рабочих мест, тесно выстроенных в ряд. Шанхай Жунсинь Yúnzhōng Shenggu Дата-сервисная смарт-база занимает несколько этажей целиком. Тысячи молодых сотрудников в наушниках смотрят в экраны, кликают, перетаскивают, обводят рамками.

Согласно официальным данным, по состоянию на ноябрь 2025 года Датун уже ввёл в эксплуатацию 745 тысяч серверов, привлёк 69 компаний по маркировке данных для call-центров, обеспечив занятость «поблизости» более чем 30 тысячам человеко-выходов. Объём выпуска составил 750 миллионов юаней. В этом «цифровом руднике» 94% занятых — местные жители с городской регистрацией (hukou).

Это касается не только Датуна. В первых партиях баз по маркировке данных, утверждённых Национальным управлением по данным, среди прочих чётко фигурируют уезд Юнхэ в провинции Шаньси, город Цзиньбьцзе в провинции Гуйчжоу, Мэнцзы в провинции Юньнань и другие уезды в центральных и западных регионах. В базе по маркировке данных в уезде Юнхэ 80% — женщины. В основном это сельские «мамы-домохозяйки» или вернувшиеся молодые люди, которые так и не смогли найти подходящую работу.

Сто лет назад на текстильных фабриках Манчестера, Великобритания, было тесно от крестьян, лишённых земли. А сегодня перед экранами компьютеров в этих отдалённых уездных городках сидят молодые люди, которые не нашли места в реальной экономике.

Они выполняют работу сдельного типа — одновременно крайне «похожа на будущее» по форме и крайне первобытную по сути — производя данные, необходимые для больших моделей для ИИ-гигантов в Пекине, Шэньчжэне и Силиконовой долине.

Никто не считает, что в этом есть какая-то проблема.

Новая сборочная линия на Лёссовом плато

Суть маркировки данных — научить машину распознавать мир.

Для автоматического вождения нужно научиться распознавать светофоры и пешеходов, а для больших моделей — различать, что такое кошка, а что такое собака. У машины самой по себе нет здравого смысла, поэтому сначала человек должен на картинке нарисовать рамку, сообщив ей: «Это пешеход», — и только после того, как она проглотит миллионы изображений, она научится распознавать сама.

Эта работа не требует высокого уровня образования — нужна лишь терпеливость и один указательный палец, который может бесконечно нажимать.

В 2017 году «золотой век» означал, что даже простой 2D-бокс мог стоить больше десяти центов, а некоторые компании устанавливали цену в 5 цзяо. Маркировщики, у которых быстрые руки, могли работать по дюжину часов в день и зарабатывать пять–шесть сотен юаней. Для уездного города это однозначно высокооплачиваемая и достойная работа.

Но по мере эволюции больших моделей стала видна и жестокая сторона этой линии.

К 2023 году цена за простую визуальную маркировку была раздавлена до 3–4 цзяо-пэня (фэня). Падение составило более 90%. Даже для более сложных 3D точечных облаков — изображений, которые состоят из плотных точек и требуют увеличения в тысячи раз, чтобы увидеть границы, — маркировщикам всё равно приходится в 3D-пространстве рисовать стереобокс, включающий длину, ширину, высоту и угол поворота, чтобы плотно, без зазоров обхватить машину или пешехода. И даже такой сложный 3D-бокс стоит лишь 5 цзяо-пэня.

Прямое последствие обвала цены за единицу — резкий рост трудовой нагрузки. Чтобы мёртвой хваткой удержаться за 2–3 тысячи юаней фиксированной базовой зарплаты в месяц, маркировщикам приходится постоянно, без остановки, наращивать скорость работы пальцами.

Это вообще не лёгкая офисная работа. Во многих базах по маркировке управление настолько строгое, что от него становится душно: на работе нельзя отвечать на звонки, телефон должен быть заперт в ящике для хранения. Система точно фиксирует траекторию мыши каждого сотрудника и время задержки. Если остановиться более чем на три минуты, предупреждение из бэкэнда обрушивается, словно кнут.

Самое же сокрушительное — нулевая терпимость к ошибкам. Порог «прохода» в отрасли обычно 95% и выше, а некоторые компании требуют 98%–99%. Это значит: если вы обведёте 100 рамок и ошибётесь в двух, то всю картинку вам вернут на доработку.

Анимированный ролик состоит из последовательных кадров: при смене полосы транспортное средство будет перекрыто — маркировщику нужно по ассоциациям найти его по одному. В 3D точечных облаках: если объект состоит более чем из 10 точек, его нужно обязательно обвести рамкой. Сложный проект с парковочными местами — если линии протянуты слишком длинно или вы пропустили маркировку, на проверке качества всегда найдутся недостатки. Вернуть на доработку одну картинку четыре-пять раз — дело обычное. В итоге, если посчитать всё, вы потратите час, а на руки получите всего несколько «мао».

Маркировщица из провинции Хунань на социальной платформе опубликовала свою ведомость расчёта: за день, отработав полностью смену, она нарисовала более 700 рамок, цена за единицу — 4 цзяо-пэня, а всего заработала 30,2 юаня.

Это картина, предельно разорванная надвое.

С одной стороны — на презентациях блистательные технологические «боссы», говорящие о том, как AGI освободит человечество; с другой — в уездных городках на Лёссовом плато и в горах Юго-Запада молодые люди ежедневно по 8–10 часов уставляются в экраны, механически рисуют рамки — тысячи, десятки тысяч, а иногда и ночью во сне: пальцы в воздухе продолжают проводить линии проезжей части.

Кто-то когда-то говорил: внешний вид ИИ — это роскошный автомобиль, который проносится мимо на скорости; но откройте дверь — и вы увидите внутри сто человек, которые едут на велосипедах, стиснув зубы, изо всех сил крутят педали.

Никто не считает, что в этом есть какая-то проблема.

Сдельная работа, которая «учит машину тому, как любить»

Когда узкое место распознавания изображений было пробито, большие модели вошли в ещё более глубокую фазу эволюции: им нужно научиться думать, вести диалог и даже демонстрировать «эмпатию», как люди.

Так появляется самый ключевой и самый дорогой этап в обучении больших моделей — RLHF (обучение с подкреплением на основе обратной связи человека).

Проще говоря: живые люди оценивают ответы, которые выдаёт ИИ, выставляя оценки — и сообщают ему, какой ответ лучше и больше соответствует ценностям и эмоциональным предпочтениям людей.

То, почему ChatGPT выглядит «похоже на человека», — в том, что за кулисами тысячи маркировщиков RLHF дают ему уроки.

На краудсорсинговых платформах такие задачи маркировки обычно имеют чётко обозначенную цену: за штуку 3–7 юаней. Маркировщикам нужно крайне субъективно выставлять эмоциональные оценки ответам ИИ — определяя, является ли этот ответ «тёплым», «проявляет ли эмпатию», «учитывает ли настроение пользователя».

Человек, который получает оклад в две-три тысячи в месяц, изо дня в день устает и бегает по кругу в грязи реальной жизни, и даже собственные эмоции ему некогда замечать, — теперь должен в системе выступать как эмоциональный наставник ИИ и как судья по ценностям.

Им нужно насильно раздавить на части такие крайне сложные и тонкие человеческие эмоции, как «теплота» и «эмпатия», и превратить их в ледяные баллы по шкале 1–5. Если их оценки расходятся с эталонными «правильными» ответами, заданными системой, это будет считаться некорректной точностью — и им урежут без того скудную сдельную оплату.

Это вымывание сознания. Сложные, тонкие человеческие эмоции, мораль и сострадание насильно затаскивают в воронку алгоритма. В ледяной количественной и стандартизированной разметке их выжимают досуха — до последней капли тепла. Когда вы восхищённо думаете, что кибер-существо на экране уже научилось писать стихи и музыку, проявлять заботу и задавать вопросы о самочувствии, даже облачилось в оболочку «меланхоличного» сочувствия; а за пределами экрана те живые люди, которые были людьми, — в день за днём механического вынесения суждений деградируют до машин для выставления оценок без эмоций.

Это самая скрытая сторона всей цепочки индустрии: она никогда не появляется ни в новостях о финансировании, ни в технических белых книгах.

Никто не считает, что в этом есть какая-то проблема.

985 магистры и молодёжь из маленьких городов

Сдельная работа по разметке на нижнем уровне раздавливается гусеницами AI. Эта кибер-сборочная линия начинает ползти вверх, пожирая более высокоуровневый интеллектуальный труд.

Аппетит больших моделей изменился. Они больше не довольствуются тем, чтобы пережёвывать простые общие знания; им нужно поглощать профессиональные знания людей и логику более высокого порядка.

На крупных платформах по найму всё чаще всплывает категория особых подработок, например: «разметка для логического рассуждения больших моделей», «AI-гуманитарный тренер». У порога этой подработки очень высокие требования: как правило, требуется «образование магистра 985/211 и выше», а область связана с профессиональными сферами — правом, медициной, философией, литературой и т.д.

Многие магистранты из известных университетов втягиваются и устремляются в аутсорсинговые чаты этих больших компаний. Но очень скоро они обнаруживают: это вообще не лёгкая гимнастика для мозга, а пытка для психики.

Перед тем как официально принять заказы, им нужно прочитать документы на десятки страниц — с измерениями оценок и критериями оценивания — и пройти 2–3 раунда пробной разметки. После прохождения: в официальной разметке, если точность ниже среднего уровня, они теряют право участвовать и их вышвыривают из чата.

Самое душное — то, что эти стандарты вообще не фиксированы. Перед лицом похожих проблем и ответов, при одинаковом стиле мышления для оценивания, результат может оказаться принципиально противоположным. Это похоже на экзаменационный лист, который никогда не закончится и у которого в принципе нет стандартного правильного ответа. Невозможно поднять точность собственными усилиями или обучением — можно только бесконечно крутиться на месте, сжигая мозг и силы.

Это новый вид эксплуатации в эпоху больших моделей — «свертывание классов».

Знания — эта золотая лестница, которую раньше считали тем, что пробивает стены и помогает карабкаться вверх, — теперь превращается в жертву алгоритму: всё более сложные для «разжёвывания» цифровые корма. Под абсолютной властью алгоритмов и систем 985-магистры из «слоновой башни» и молодёжь из маленьких городов на Лёссовом плато приходят к самой странной парадоксальной встрече: один и тот же тупик разными путями.

Они вместе падают в эту глубокую и бездонную кибер-шахту, теряют ореол, стирают различия и все превращаются в дешёвые зубчатые колёса на конвейере, которые можно заменить в любой момент.

За границей — то же самое. В 2024 году компания Apple напрямую убрала AI-команду по голосовой разметке из 121 человека в Сантьяго (Сантьяго). Эти сотрудники улучшали многоязычную обработку Siri. Они когда-то думали, что находятся на периферии ядра бизнеса «больших компаний», но в тот же миг оказались в глубокой пропасти безработицы.

В глазах технологических гигантов, будь то женщины из уездов, которые рисуют рамки, или логические тренеры, выпустившиеся из лучших университетов, — по сути все они являются «расходниками», которые можно заменить в любой момент.

Никто не считает, что в этом есть какая-то проблема.

Триллионная Вавилонская башня, из которой выложена плата за пару цзяо пота

По данным China Academy of Information and Communications Technology (CAICT), в 2023 году объём китайского рынка маркировки данных достиг 6,08 млрд юаней; в 2025 году прогнозируется 20–30 млрд юаней. Согласно прогнозу, к 2030 году выручка глобального рынка маркировки и сервиса данных вырастет до 117,1 млрд юаней.

За этими цифрами — пиршество оценок (valuation) технологических гигантов вроде OpenAI, Microsoft, ByteDance и других, где суммы исчисляются тысячами миллиардов и десятками тысяч миллиардов долларов.

Но эти огромные богатства не текут к тем, кто действительно «кормит» ИИ.

Китайская индустрия маркировки данных имеет типичную перевёрнутую пирамидальную структуру аутсорсинга. На самом верху — технологические гиганты, которые намертво держат в руках ключевые алгоритмы. На втором уровне — крупные поставщики услуг по данным. На третьем — базы по маркировке данных в регионах и малые/средние аутсорсинговые компании. А на самом нижнем уровне — те самые «поденщики» на сдельной оплате.

На каждом уровне аутсорса срезают слой жирка. Когда «большая компания» ставит цену в 5 цзяо за единицу, после многоступенчатых сдираний и перераспределений до маркировщика в уездном городе может не дотянуть и 5 фэня.

В книге «Технологический феодализм» бывший министр финансов Греции Янис Варуфакис высказал крайне проникающий взгляд: сегодня технологические гиганты уже не являются традиционными капиталистами — они «облачные феодалы» (Cloudalists).

У них нет заводов и машин — у них есть алгоритмы, платформы, вычислительные мощности. Это цифровые земли эпохи киберпространства. В этой новой феодальной системе пользователи — не потребители, а цифровые арендаторы (digital tenants): каждое наше лайкание, комментарии и просмотры в соцсетях бесплатно поставляет данные облачным феодалам.

А те маркировщики данных, которые работают на «нисходящем» (downstream) рынке, в этой системе — самые нижние цифровые крепостные. Они должны не только производить данные, но и чистить, классифицировать и оценивать огромные массивы исходных данных, превращая их в качественные корма, которые большие модели смогут «переварить».

Это скрытая борьба за захват познавательного пространства. Как в XIX веке движение за огораживание (enclosure) в Великобритании загнало крестьян на фабрики по производству тканей, так и сегодня волна AI загоняет тех, кто не нашёл места в реальной экономике, на экраны.

AI не сгладил пропасть между классами. Напротив, он выстроил «конвейер данных и пота», идущий из уездных городов центральных и западных регионов Китая прямо к штаб-квартирам техногигантов в Пекин—Шанхай—Гуанчжоу—Шэньчжэнь. Нарратив технологической революции всегда грандиозный и красивый, но фон у него всегда один и тот же: массовое выгорание дешёвой рабочей силы.

Никто не считает, что в этом есть какая-то проблема.

Больше не нужно человеческое «завтра»

Самое жестокое завершение уже совсем рядом — и оно ускоряется.

По мере скачка возможностей больших моделей те задачи по разметке, которые раньше требовали, чтобы люди трудились днём и ночью, теперь забирает себе AI.

В апреле 2023 года основатель Ideal Ли Сянь на форуме раскрыл данные: раньше Ideal за год выполняла примерно 10 миллионов кадров ручной разметки изображений для автоматического вождения, а стоимость аутсорса приближалась к одному миллиарду. Но когда они стали использовать большие модели для автоматизированной разметки, то, на что раньше уходил год, теперь в основном можно сделать примерно за 3 часа.

Эффективность — в 1000 раз больше, чем у человека. И это ещё задолго до 2023 года. В только что прошедшем марте Ideal также выпустила новое поколение движка автоматической разметки MindVLA-o1.

В отрасли ходит одна крайне правдивая самоирония: «Сколько интеллекта — столько и ручного труда». Но сейчас, в части аутсорсинга разметки данных, вложения больших компаний уже показали обвальное падение на 40–50%.

Те молодые люди из маленьких городов, которые много дней и ночей сидели перед компьютерами, с трудом продирали глаза до красноты, собственными руками выкормили себе чудовище. А теперь это чудовище оборачивается, и в один момент выбивает у них их хлеб.

Когда наступает темнота, офисы в районе Пинчэн в Датуне всё ещё белы, как при дневном свете. Молодые люди, которые сменяются, молча меняют в лифтовом холле усталые тела. В этом пространстве складывающейся геометрии, где бесчисленные многоугольные рамки намертво сковали людей, никого не волнует, какие эпические ступени прыжка ещё сделал Transformer по другую сторону океана; и никто не понимает грохота вычислительных мощностей за плечами сотен миллиардов параметров.

Их взгляд прикован лишь к тем красно-зелёным полосам прогресса на экране бэкэнда, которые означают «порог прохождения». Они считают, хватит ли тех нескольких «фэней» и «цзяо» сдельной оплаты, чтобы в конце месяца собрать приличную жизнь.

С одной стороны — звон колокола на Nasdaq и нескончаемые публикации технологических СМИ: гиганты поднимают тосты за наступление AGI. А с другой — цифровые крепостные, которых кормили AI по глотку, по кусочку, ценой собственной плоти и крови, — могут только трястись и ждать в кислых, болевых кошмарах сна, когда то самое чудовище, которого они сами вырастили, в каком-то вроде бы обычном раннем утре вдруг легкомысленно пнёт и выкинет их из их работы.

Никто не считает, что в этом есть какая-то проблема.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить