От каменного века до эпохи Возрождения: технологические прорывы и продуктовые идеи за OpenAI Image Generation 2.0

Написано: Techub News整理

Это содержание 19-го выпуска официального подкаста OpenAI. Ведущий Эндрю Мэйн и исследователь Кенджи Хата, руководитель продукта Адель Ли провели глубокий диалог о GPT Image 2.0 (то есть ImageGen 2.0). Этот диалог произошёл примерно через две недели после официального запуска модели — в тот момент количество сгенерированных изображений в неделю превысило 1,5 миллиарда, а несколько трендов использования быстро стали популярными по всему миру. Это не просто обзор выпуска продукта, а откровенное обсуждение парадигмальных изменений в технологиях генерации изображений.

От инвестора к руководителю продукта: история о смене ролей

Адель Ли до присоединения к OpenAI всю свою карьеру занималась инвестициями. Она работала в частных инвестиционных фирмах и Redpoint Ventures, сосредотачиваясь на ранних инвестициях в области ИИ и программного обеспечения. Когда она пришла в OpenAI, её первоначальной задачей было планирование инфраструктуры данных и вычислений, что было далёко от генерации изображений. Однако за последние полгода она постепенно перешла на продуктовую сторону, полностью отвечая за работу над ImageGen.

Она признаётся, что суть роли менеджера продукта — «делать то, что нужно делать», независимо от того, что именно это. И проект ImageGen особенно позволил ей задействовать множество навыков — тесно сотрудничать с исследователями вроде Кенджи, а также постоянно думать о том, где есть пробелы на рынке и где открываются возможности.

«Это уже не тот рынок, который был год назад, когда вышел ImageGen 1.0», — говорит Адель. Сегодня на рынке генерации изображений есть несколько конкурентов, а сам ChatGPT стал совершенно другим продуктом. В этом контексте для неё особенно интересно — как ImageGen будет развиваться внутри экосистемы ChatGPT, и это одна из самых увлекательных тем.

Кенджи Хата тоже присоединился к OpenAI примерно два года назад. Изначально он работал над проектом в области аудио, но случайно участвовал в подготовке к выпуску ImageGen 1.0, а затем полностью переключился на исследования в области генерации изображений, доведя проект до версии 2.0.

Данные говорят сами за себя: две недели после запуска — 1,5 миллиарда изображений в неделю

В первые две недели после официального запуска GPT Image 2.0 использование генерации изображений в ChatGPT выросло более чем на 50%, а количество создаваемых изображений превысило 1,5 миллиарда в неделю. В то же время, тренды использования быстро распространились по всему миру — от анализа цвета и стикеров, популярных у азиатских пользователей, до набирающих популярность в США рисунков цветными карандашами и граффити.

Адель считает, что такая вирусная распространённость сама по себе говорит о важном — пользователи практически мгновенно почувствовали скачок возможностей модели. «Обратная связь через визуальное восприятие — самая прямая», — говорит она. Пользователю не нужно читать технические отчёты, он просто открывает модель, генерирует изображение — и сразу понимает, хорошо оно или нет.

Ведущий Эндрю тоже разделяет это ощущение — масштаб повышения возможностей настолько велик, что его можно назвать не просто «2.0», а новым парадигмальным сдвигом. Но как именно произошёл этот сдвиг?

Три ключевых прорыва: слова, многоязычие и реализм

Адель и Кенджи связывают рост возможностей ImageGen 2.0 с несколькими синхронными прорывами в ключевых направлениях.

Первое — способность к текстовой рендерингу. В ранних моделях генерации изображений обработка текста на изображениях была почти катастрофической — искажение букв, путаница слов, хаотичная верстка. Эндрю шутит, что надпись «OpenAI», созданная DALL-E в ранние годы, выглядела как написанная шимпанзе. А сейчас модель способна чётко и точно отображать длинные тексты и даже сложные инфографики.

Кенджи приводит внутренний тест для оценки этого прогресса: он просил модель сгенерировать сетку из 100 случайных объектов и подсчитывал точность. В эпоху DALL-E 3 правильных было 5–8, в ImageGen 1.0 — около 16, в 1.5 — стабильно 25–36, а сейчас в версии 2.0 почти достигает 100 правильных ответов. «Это не внезапный скачок, а стабильный рост», — говорит он.

Второе — поддержка многоязычия. В процессе обучения команда специально усиливала понимание и генерацию на различных языках. После запуска активные отзывы пользователей из Азии и Европы подтвердили правильность этого направления — пользователи в разных языковых средах получают высококачественные локализованные изображения.

Третье — фотореализм. Это одна из самых острых проблем, о которых жаловались пользователи ранее: изображения людей в старых моделях часто имели «переборщенную» глянцевую обработку, искажённые пропорции лица и тела, недостаток реалистичности. В версии 2.0 в этом направлении проведена большая работа — цель, чтобы изображения «выглядели как вы сами». Кенджи вспоминает, как впервые увидел результаты новой модели: сравнил их с изображениями из ImageGen 1.0 — и сразу понял, кто победил. Он показывает сцену: женщина стоит у моря и смотрит вдаль. «Мы смотрели на две картинки, ничего не говорили. Просто… хорошо, это выиграло».

Как добиться скорости и качества одновременно? Важные этапы после обучения

Эндрю задаёт популярный вопрос: модель стала умнее, а скорость генерации не снизилась — как это удалось?

Кенджи объясняет, что между версиями накопился огромный инженерный опыт. Например, команда работала над повышением «эффективности токенов» — чтобы при меньшем использовании токенов получать более качественные изображения. Это постоянная оптимизация в каждом цикле, а не один раз взятый технологический прорыв.

Адель добавляет важность постобучения. Она говорит, что при обучении модели команда должна не только научить её понимать знания мира — науку, концепции, математику — но и ответить на более субъективные вопросы: что такое «красиво», что такое «со вкусом»?

Эти вопросы не имеют стандартных ответов, но напрямую влияют на верхний предел качества модели. Поэтому команда тесно сотрудничает с художниками, дизайнерами, маркетологами, чтобы внедрить их эстетические оценки и лучшие практики в взаимодействие с моделью.

Также команда активно собирает обратную связь из соцсетей, чтобы исправлять реальные проблемы пользователей в новых версиях. Кенджи говорит, что эти отзывы либо снимаются, либо полностью исправляются в следующем релизе.

Вирусные тренды: использование AI для выражения «недостатков» себя

Среди появившихся после запуска трендов есть один, который удивил и порадовал команду: пользователи специально используют мощную модель для генерации грубых, неуклюжих изображений в стиле «Microsoft Paint» — превращая знаменитостей или популярные картинки в пиксельные граффити.

Адель делится своим глубоким пониманием: «Чтобы AI мог сгенерировать что-то «недостаточное», нужно очень много интеллекта». Это не ошибка модели, а её способность понять намерения пользователя.

Она считает, что за этим стоит психологический тренд: люди хотят ощущать реальность, несовершенство и ностальгию. Стилы карандаша, граффити, ретро-пиксели — всё это говорит о желании показать себя более настоящим, более забавным, а не только идеально отточенным.

«Самовыражение через AI — это то, что нас по-настоящему вдохновляет», — говорит Адель. Это очень созвучно миссии OpenAI — дать возможность каждому выразить «ранее невозможное для выражения» себя.

От развлечений к производительности: образование, дизайн и межотраслевое проникновение

Ещё одно важное изменение ImageGen 2.0 — это переход от развлечений к инструментам для реальной продуктивности.

В образовании внутри компании есть специальный внутренний канал для педагогов, охватывающий от начальной школы до аспирантуры. Кенджи рассказывает о впечатляющем случае: профессор биологии ввёл в модель учебник с высоким уровнем сложности, и она сгенерировала точные иллюстрации, полностью соответствующие содержанию.

Адель считает, что превращение сложных концепций в понятные визуальные материалы — одна из сильных сторон модели. Она особенно выделяет направление «персонализированного обучения» — преподаватели могут использовать ImageGen для создания индивидуальных учебных материалов для студентов с разными языками и предпочтениями. Это направление активно исследуется командой: как глубже интегрировать ImageGen в образовательные сценарии ChatGPT, чтобы концепции сопровождались естественной визуализацией.

В рабочей среде Адель делится внутренними данными: более 50% презентаций внутри OpenAI используют изображения, созданные с помощью ImageGen. «Проникновение визуальной коммуникации идёт быстрее, чем мы ожидали».

Она также перечисляет профессиональные группы, уже использующие ImageGen: риэлторы создают демонстрационные изображения и виртуальные ремонты, ютуберы — обложки и промо-материалы, художники — взаимодействуют с фанатами, писатели — быстро создают графику для соцсетей…

Эндрю делится своим опытом: он загрузил обложку своей книги в модель, и она сгенерировала подходящие для разных соцсетей размеры и стили — и всё с первого раза. «Это как магия».

360-градусные панорамы, эльфийские картинки и синергия с Codex: неожиданные возможности

Помимо ожидаемых улучшений, версия 2.0 принесла и неожиданные «всплывающие» способности, которые команда сама не предвидела.

Например, 360-градусные панорамы. Модель при поддержке произвольных соотношений сторон начала автоматически генерировать сверхширокие панорамы и даже 360-градусные окружные изображения. Сейчас эта функция встроена в продукт — пользователи могут прямо в ChatGPT на сайте или в мобильном приложении создавать и просматривать такие панорамы. Эндрю сразу же использовал её для создания «покерной собаки» в 360°, сидя в роли собаки и оглядываясь вокруг.

Sprite Sheets (спрайт-листы) тоже стали популярным сценарием. Разработчики игр и независимые создатели используют ImageGen для генерации многопозиционных изображений персонажей, а с помощью Codex — для автоматической сборки мини-игр с кастомными персонажами. Эндрю рассказывает, как он просил «хочу ворона», и система автоматически вызвала ImageGen для создания спрайтов, а Codex — интегрировал их в код игры. «Это магия».

Поддержка согласованности изображений — ещё одно важное достижение 2.0. Кенджи отмечает, что уже есть пользователи, создающие 10-страничные комиксы с одинаковыми персонажами и стилями — и это стало возможным благодаря новым возможностям. Раньше требовались сложные ручные корректировки, а сейчас — более надёжно и быстро.

Следующие шаги: креативный агент и персональный визуальный помощник

Обсуждая будущее, Адель делится видением: создание «Креативного агента» — AI-помощника, который сможет понять ваш стиль, предпочтения и цели, и выступать в роли личного дизайнера интерьеров, архитектора, свадебного организатора — всё в одном изображении.

Главная идея — внедрить «персонализацию» во все этапы генерации изображений. Адель приводит пример своей «me-me-me eval»: она использует 100 фотографий себя, друзей и семьи, чтобы проверить, сможет ли модель вставить нужные личные элементы в сцену — например, помнить, что у неё есть брат, что родители любят делать, и включить эти детали в поздравительную открытку.

Кенджи добавляет, что команда продолжает работать над улучшением согласованности изображений, общего опыта визуального творчества и упрощением получения желаемого результата. «Пока ещё не идеально, но мы знаем, куда движемся».

Что касается подсказок, оба дают советы: Адель рекомендует использовать «мышление ImageGen» — в режиме Pro или в режиме размышлений, где модель может подключаться к интернету, анализировать файлы и вызывать инструменты, повышая качество и композицию. Она советует задавать открытые подсказки, позволяя модели самостоятельно исследовать и рассуждать, при этом задавая чёткий эстетический стиль как якорь. Кенджи предпочитает минимализм — он говорит «держите всё просто и чисто».

Если DALL-E — это эпоха каменного века генерации изображений, то ImageGen 2.0 — это его Возрождение — не только прогресс в искусстве, а полное слияние науки, искусства, архитектуры, знаний и эстетики. В конце диалога Адель подытожила так, и, возможно, это лучший способ понять этот модель: она больше не просто «инструмент для рисования», а настоящий визуальный интеллект, начинающий понимать мир, людей и красоту.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено