Від кам'яної доби до Відродження: технологічні прориви та продуктові ідеї за OpenAI Image Generation 2.0

Написано: Techub News зібрано

Це 19-й епізод офіційного подкасту OpenAI. Ведучий Ендрю Мейн та дослідник Кенджі Хата, керівниця продукту Адель Лі обговорювали GPT Image 2.0 (тобто ImageGen 2.0) у глибокій дискусії. Ця розмова відбулася приблизно через два тижні після офіційного запуску моделі — тоді кількість згенерованих зображень на тиждень вже перевищила 1,5 мільярда, а кілька трендів швидко набули популярності по всьому світу. Це не просто огляд релізу продукту, а щира дискусія про парадигмальні зміни у технології генерації зображень.

Від інвестора до керівника продукту: історія про зміну ролей

Адель Лі перед приєднанням до OpenAI все життя займалася інвестиціями. Вона працювала у приватних інвестиційних фондах та Redpoint Ventures, зосереджуючись на ранніх інвестиціях у сферах ШІ та програмного забезпечення. Коли вона приєдналася до OpenAI, її спершу відповідальністю було планування інфраструктури даних і обчислень, що було далеке від генерації зображень. Однак за останні півроку вона поступово перейшла до продуктового напрямку, повністю відповідаючи за продукт ImageGen.

Вона зізнається, що суть ролі менеджера продукту — “робити те, що потрібно зробити”, незалежно від того, що саме це. І проект ImageGen особливо дозволив їй застосувати різні навички — тісно співпрацювати з дослідниками на кшталт Кенджі, а також постійно думати, де є прогалини на ринку, де можливості для зростання.

“Ринок вже зовсім інший, ніж був рік тому, коли виходив ImageGen 1.0,” — каже Адель. Зараз у сегменті генерації зображень з’явилося кілька конкурентів, а сам ChatGPT став зовсім іншим продуктом. У цьому контексті для неї однією з найцікавіших задач є розмірковування про роль ImageGen у екосистемі ChatGPT і її еволюцію.

Кенджі Хата також приєднався до OpenAI приблизно два роки тому. Спершу він займався проектом у галузі аудіо, але згодом випадково долучився до роботи над випуском ImageGen 1.0, а згодом перейшов до повноцінної дослідницької роботи у сфері генерації зображень, довівши до версії 2.0.

Дані говорять самі за себе: за два тижні після запуску понад 1,5 мільярда зображень щотижня

Після офіційного запуску GPT Image 2.0 у перші два тижні використання генерації зображень у ChatGPT зросло більш ніж на 50%, а кількість згенерованих зображень перевищила 1,5 мільярда щотижня. Одночасно швидко поширювалися різноманітні тренди — від аналізу кольорів і стікерів, популярних у Азії, до крейдяних малюнків і графіті, популярних у США.

Адель вважає, що така вірусна поширюваність сама по собі підтверджує одне: користувачі майже миттєво відчули підвищення можливостей моделі. “Візуальний зворотній зв’язок — найпряміший,” — каже вона. — “Користувачам не потрібно читати технічні звіти, вони просто відкривають модель і дивляться на згенероване зображення — і одразу розуміють, добре воно чи ні.”

Ведучий Ендрю також поділяє це враження — масштаб підвищення можливостей настільки великий, що йому здається, що краще назвати це не “2.0”, а цілком новою парадигмою. Але як саме відбувається цей зсув?

Три ключові прориви: текст, багатомовність і реалістичність

Адель і Кенджі зводять підвищення можливостей ImageGen 2.0 до кількох синхронних проривів у ключових напрямках.

Перший — здатність до текстової рендерингу. На ранніх етапах моделі генерації зображень майже не могли коректно відображати текст — букви спотворювалися, слова плуталися, верстка була хаотичною. Ендрю жартома згадує, що напис “OpenAI” на ранніх згенерованих DALL-E зображеннях виглядав так, ніби його намалювала шимпанзе. А тепер модель може чітко і точно відтворювати великі обсяги тексту, навіть складні інфографіки.

Кенджі наводить внутрішній тест для кількісної оцінки прогресу: він просить модель згенерувати сітку з 100 випадкових об’єктів і підрахувати кількість правильно відтворених. З часів DALL-E 3 ця кількість зросла з 5–8 до близько 16, у версії 1.5 стабільно — 25–36, а у 2.0 майже до 100 правильних. “Це не раптовий прорив, а стабільне зростання,” — каже він.

Другий — багатомовна підтримка. У команді спеціально посилили здатність моделі розуміти і генерувати різні мови під час тренування. Після запуску активна реакція користувачів з Азії та Європи підтверджує правильність цього напрямку — у різних мовних середовищах отримуються високоякісні локалізовані зображення.

Третій — фотореалістична якість. Це був один із найчастіших фідбеків користувачів раніше: моделі часто створювали персонажів із “журналовою” надмірною красою, з перекосами облич і тіл, без реалістичності. У версії 2.0 зроблено багато роботи, щоб зображення “виглядали більш схожими на вас”. Кенджі згадує, що перший раз, коли він побачив результати нової моделі, він просто подивився і сказав: “Це — краще.” — і не потрібно було довго думати, хто з них виграв.

Він описує сцену: жінка стоїть на березі моря і дивиться у далечінь. “Ми дивилися на дві картинки і мовчки погодилися: ця — краще.”

Як поєднати швидкість і якість? Ключові моменти після тренування

Ендрю ставить питання, яке цікавить багатьох: модель стала розумнішою, але швидкість генерації не знизилася — як це вдалося?

Кенджі пояснює, що кожна версія накопичувала багато інженерних знань. Зокрема, команда багато працювала над підвищенням “token-ефективності” — здатності генерувати високоякісне зображення, використовуючи менше токенів. Це — постійний процес оптимізації у кожній ітерації, а не один технічний прорив.

Адель підкреслює важливість посттренувального етапу. Вона каже, що під час тренування команда не лише навчає модель розуміти світові знання — наукові, концептуальні, математичні — а й відповідає на більш суб’єктивне питання: що таке “гарно”? Що таке “з смаком”?

Ці питання не мають однозначних відповідей, але безпосередньо визначають межі якості виходу моделі. Тому команда тісно співпрацює з художниками, дизайнерами, маркетологами, щоб інкорпорувати їхню естетичну експертизу і найкращі практики у спосіб взаємодії з моделлю.

Вони також уважно слідкують за відгуками у соцмережах, щоб врахувати реальні проблеми користувачів у наступних оновленнях. Кенджі каже, що ці відгуки або зменшуються, або повністю враховуються у нових версіях.

Вірусні тренди: використання AI для вираження “недосконалості” себе

Серед трендів після запуску є один, що здивував і водночас зацікавив команду: користувачі навмисно створюють грубі, недосконалі зображення у стилі “Microsoft Paint” — наприклад, зірки, зірки-люди, зірки-обличчя, зменшують рівень деталізації, щоб отримати “піксельний” або “графіті” стиль.

Адель має глибоке пояснення: “Щоб AI створював щось ‘недосконале’, потрібно дуже високий рівень інтелекту.” Це — не провал моделі, а навпаки — її здатність розуміти і передавати людські наміри.

Вона вважає, що за цим стоїть психологічний тренд: люди прагнуть до реальності, недосконалості і ностальгії. Стилі крейди, графіті, ретро-пікселі — все це вказує на бажання показати себе більш автентичним, веселим, “справжнім”, а не ідеальним.

“Самовираження через AI — це те, що нас справді захоплює,” — каже Адель. — “Це дуже співзвучно місії OpenAI — допомогти кожному виразити себе, те, що раніше було неможливо.”

Від розваг до продуктивності: освіта, дизайн і міжгалузевий вплив

Ще один важливий аспект ImageGen 2.0 — це перехід від розважальних сценаріїв до інструментів для реальної продуктивності.

У сфері освіти команда має внутрішній бета-канал для викладачів — від початкової школи до аспірантури. Кенджі згадує приклад: біологічний професор ввів у модель матеріал для студентів і отримав високоточні ілюстрації, які були цілком правильними.

Адель вважає, що перетворення складних концепцій у зрозумілі візуальні матеріали — одна з найсильніших можливостей моделі. Вона особливо підкреслює ідею “персоналізованого навчання” — викладачі можуть використовувати ImageGen для створення індивідуальних навчальних матеріалів для студентів з різних мовних і культурних середовищ. Це — напрямок, у якому команда активно працює: інтегрувати ImageGen у навчальні сценарії ChatGPT, щоб концепти супроводжувалися візуальним супроводом.

У професійному середовищі Адель ділиться внутрішніми даними: понад 50% презентацій у компанії вже використовують згенеровані зображення. “Проникнення візуальної комунікації — швидше, ніж ми очікували.”

Вона також називає приклади застосування у різних сферах: ріелтори створюють презентаційні зображення і віртуальні ремонти, ютубери — обкладинки і промо-матеріали, художники — для зв’язку з фанами, письменники — швидко генерують зображення для соцмереж.

Ведучий Ендрю також поділився своїм досвідом: він завантажив обкладинку книги і попросив модель створити адаптовані для соцмереж варіанти — і отримав ідеальні пропорції і стиль. “Це — як магія.”

360-градусні панорами, ельфи і Codex: несподівані можливості

Крім очікуваних покращень, версія 2.0 принесла і кілька несподіваних “з’явлень” — здатностей, які команда навіть не передбачала.

Одним із таких є 360-градусні панорами. Виявилося, що модель у процесі підтримки будь-яких співвідношень сторін почала самостійно створювати надширокі панорамні зображення і навіть 360-градусні сцени. Тепер цю функцію зробили частиною продукту — користувачі можуть у ChatGPT на сайті або мобільному додатку створювати і переглядати панорами у режимі доповненої реальності. Ендрю першим використав цю можливість для створення “собака грає у покер” у 360-градусному форматі, сидячи у ролі собаки і оглядаючи навколо.

Ще один — спрайт-ліст (Sprite Sheet). Розробники і незалежні творці вже використовують ImageGen для створення анімаційних спрайтів персонажів, а з Codex — для автоматичного написання коду і створення ігор з цими персонажами. Ендрю бачив, як він просить: “Хочу ворона,” — і система автоматично викликає ImageGen для створення спрайтів ворона, а Codex інтегрує їх у код гри. “Це — магія.”

Консистентність між зображеннями — ще один важливий прогрес. Користувачі вже намагаються створювати 10-сторінкові комікси з однаковими персонажами і стилем. Це раніше вимагало багато ручної роботи, а тепер — стало більш надійним і швидким.

Наступне: креативний агент і персоналізований візуальний помічник

Про майбутнє Адель має чітке бачення: створити “Креативного агента” — AI-помічника, що розуміє ваш стиль, цілі і роботу. Це може бути ваш особистий дизайнер інтер’єру, архітектор або організатор весіль — все у вигляді однієї картинки.

Головна ідея — зробити “персоналізацію” невід’ємною частиною кожного етапу генерації зображень. Адель наводить приклад: вона сама використовує набір з 100 фотографій себе, друзів і родини для тестування — щоб перевірити, чи модель може природно вставляти особисті елементи у згенеровані сцени, наприклад, у привітальні листівки.

Кенджі додає, що команда продовжує працювати над покращенням багатогранної узгодженості, досвідом у сфері візуального мистецтва і швидкістю отримання бажаного результату. “Ще не ідеально, але ми знаємо напрямок.”

Щодо технік підказок, вони радять спробувати “Модель мислення ImageGen” — у Pro-режимі або режимі роздумів, коли модель може шукати, аналізувати файли і викликати інструменти для підвищення якості і композиції. Адель рекомендує давати відкриті підказки і дозволяти моделі досліджувати, а також встановлювати чіткий естетичний стиль як орієнтир. Кенджі ж віддає перевагу мінімалізму і чітким інструкціям, наприклад, “залишай чисто і просто.”

Якщо DALL-E — це епоха кам’яної доби у генерації зображень, то ImageGen 2.0 — її Відродження — не лише у мистецтві, а й у науці, архітектурі, знаннях і естетиці. У завершенні цієї розмови Адель підсумовує: модель вже не просто “інструмент для малювання”, а справжній візуальний інтелект, що починає розуміти світ, людей і красу.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено