Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Від кам'яної доби до Відродження: технологічні прориви та продуктові ідеї за OpenAI Image Generation 2.0
Написано: Techub News зібрано
Це 19-й епізод офіційного подкасту OpenAI. Ведучий Ендрю Мейн та дослідник Кенджі Хата, керівниця продукту Адель Лі обговорювали GPT Image 2.0 (тобто ImageGen 2.0) у глибокій дискусії. Ця розмова відбулася приблизно через два тижні після офіційного запуску моделі — тоді кількість згенерованих зображень на тиждень вже перевищила 1,5 мільярда, а кілька трендів швидко набули популярності по всьому світу. Це не просто огляд релізу продукту, а щира дискусія про парадигмальні зміни у технології генерації зображень.
Від інвестора до керівника продукту: історія про зміну ролей
Адель Лі перед приєднанням до OpenAI все життя займалася інвестиціями. Вона працювала у приватних інвестиційних фондах та Redpoint Ventures, зосереджуючись на ранніх інвестиціях у сферах ШІ та програмного забезпечення. Коли вона приєдналася до OpenAI, її спершу відповідальністю було планування інфраструктури даних і обчислень, що було далеке від генерації зображень. Однак за останні півроку вона поступово перейшла до продуктового напрямку, повністю відповідаючи за продукт ImageGen.
Вона зізнається, що суть ролі менеджера продукту — “робити те, що потрібно зробити”, незалежно від того, що саме це. І проект ImageGen особливо дозволив їй застосувати різні навички — тісно співпрацювати з дослідниками на кшталт Кенджі, а також постійно думати, де є прогалини на ринку, де можливості для зростання.
“Ринок вже зовсім інший, ніж був рік тому, коли виходив ImageGen 1.0,” — каже Адель. Зараз у сегменті генерації зображень з’явилося кілька конкурентів, а сам ChatGPT став зовсім іншим продуктом. У цьому контексті для неї однією з найцікавіших задач є розмірковування про роль ImageGen у екосистемі ChatGPT і її еволюцію.
Кенджі Хата також приєднався до OpenAI приблизно два роки тому. Спершу він займався проектом у галузі аудіо, але згодом випадково долучився до роботи над випуском ImageGen 1.0, а згодом перейшов до повноцінної дослідницької роботи у сфері генерації зображень, довівши до версії 2.0.
Дані говорять самі за себе: за два тижні після запуску понад 1,5 мільярда зображень щотижня
Після офіційного запуску GPT Image 2.0 у перші два тижні використання генерації зображень у ChatGPT зросло більш ніж на 50%, а кількість згенерованих зображень перевищила 1,5 мільярда щотижня. Одночасно швидко поширювалися різноманітні тренди — від аналізу кольорів і стікерів, популярних у Азії, до крейдяних малюнків і графіті, популярних у США.
Адель вважає, що така вірусна поширюваність сама по собі підтверджує одне: користувачі майже миттєво відчули підвищення можливостей моделі. “Візуальний зворотній зв’язок — найпряміший,” — каже вона. — “Користувачам не потрібно читати технічні звіти, вони просто відкривають модель і дивляться на згенероване зображення — і одразу розуміють, добре воно чи ні.”
Ведучий Ендрю також поділяє це враження — масштаб підвищення можливостей настільки великий, що йому здається, що краще назвати це не “2.0”, а цілком новою парадигмою. Але як саме відбувається цей зсув?
Три ключові прориви: текст, багатомовність і реалістичність
Адель і Кенджі зводять підвищення можливостей ImageGen 2.0 до кількох синхронних проривів у ключових напрямках.
Перший — здатність до текстової рендерингу. На ранніх етапах моделі генерації зображень майже не могли коректно відображати текст — букви спотворювалися, слова плуталися, верстка була хаотичною. Ендрю жартома згадує, що напис “OpenAI” на ранніх згенерованих DALL-E зображеннях виглядав так, ніби його намалювала шимпанзе. А тепер модель може чітко і точно відтворювати великі обсяги тексту, навіть складні інфографіки.
Кенджі наводить внутрішній тест для кількісної оцінки прогресу: він просить модель згенерувати сітку з 100 випадкових об’єктів і підрахувати кількість правильно відтворених. З часів DALL-E 3 ця кількість зросла з 5–8 до близько 16, у версії 1.5 стабільно — 25–36, а у 2.0 майже до 100 правильних. “Це не раптовий прорив, а стабільне зростання,” — каже він.
Другий — багатомовна підтримка. У команді спеціально посилили здатність моделі розуміти і генерувати різні мови під час тренування. Після запуску активна реакція користувачів з Азії та Європи підтверджує правильність цього напрямку — у різних мовних середовищах отримуються високоякісні локалізовані зображення.
Третій — фотореалістична якість. Це був один із найчастіших фідбеків користувачів раніше: моделі часто створювали персонажів із “журналовою” надмірною красою, з перекосами облич і тіл, без реалістичності. У версії 2.0 зроблено багато роботи, щоб зображення “виглядали більш схожими на вас”. Кенджі згадує, що перший раз, коли він побачив результати нової моделі, він просто подивився і сказав: “Це — краще.” — і не потрібно було довго думати, хто з них виграв.
Він описує сцену: жінка стоїть на березі моря і дивиться у далечінь. “Ми дивилися на дві картинки і мовчки погодилися: ця — краще.”
Як поєднати швидкість і якість? Ключові моменти після тренування
Ендрю ставить питання, яке цікавить багатьох: модель стала розумнішою, але швидкість генерації не знизилася — як це вдалося?
Кенджі пояснює, що кожна версія накопичувала багато інженерних знань. Зокрема, команда багато працювала над підвищенням “token-ефективності” — здатності генерувати високоякісне зображення, використовуючи менше токенів. Це — постійний процес оптимізації у кожній ітерації, а не один технічний прорив.
Адель підкреслює важливість посттренувального етапу. Вона каже, що під час тренування команда не лише навчає модель розуміти світові знання — наукові, концептуальні, математичні — а й відповідає на більш суб’єктивне питання: що таке “гарно”? Що таке “з смаком”?
Ці питання не мають однозначних відповідей, але безпосередньо визначають межі якості виходу моделі. Тому команда тісно співпрацює з художниками, дизайнерами, маркетологами, щоб інкорпорувати їхню естетичну експертизу і найкращі практики у спосіб взаємодії з моделлю.
Вони також уважно слідкують за відгуками у соцмережах, щоб врахувати реальні проблеми користувачів у наступних оновленнях. Кенджі каже, що ці відгуки або зменшуються, або повністю враховуються у нових версіях.
Вірусні тренди: використання AI для вираження “недосконалості” себе
Серед трендів після запуску є один, що здивував і водночас зацікавив команду: користувачі навмисно створюють грубі, недосконалі зображення у стилі “Microsoft Paint” — наприклад, зірки, зірки-люди, зірки-обличчя, зменшують рівень деталізації, щоб отримати “піксельний” або “графіті” стиль.
Адель має глибоке пояснення: “Щоб AI створював щось ‘недосконале’, потрібно дуже високий рівень інтелекту.” Це — не провал моделі, а навпаки — її здатність розуміти і передавати людські наміри.
Вона вважає, що за цим стоїть психологічний тренд: люди прагнуть до реальності, недосконалості і ностальгії. Стилі крейди, графіті, ретро-пікселі — все це вказує на бажання показати себе більш автентичним, веселим, “справжнім”, а не ідеальним.
“Самовираження через AI — це те, що нас справді захоплює,” — каже Адель. — “Це дуже співзвучно місії OpenAI — допомогти кожному виразити себе, те, що раніше було неможливо.”
Від розваг до продуктивності: освіта, дизайн і міжгалузевий вплив
Ще один важливий аспект ImageGen 2.0 — це перехід від розважальних сценаріїв до інструментів для реальної продуктивності.
У сфері освіти команда має внутрішній бета-канал для викладачів — від початкової школи до аспірантури. Кенджі згадує приклад: біологічний професор ввів у модель матеріал для студентів і отримав високоточні ілюстрації, які були цілком правильними.
Адель вважає, що перетворення складних концепцій у зрозумілі візуальні матеріали — одна з найсильніших можливостей моделі. Вона особливо підкреслює ідею “персоналізованого навчання” — викладачі можуть використовувати ImageGen для створення індивідуальних навчальних матеріалів для студентів з різних мовних і культурних середовищ. Це — напрямок, у якому команда активно працює: інтегрувати ImageGen у навчальні сценарії ChatGPT, щоб концепти супроводжувалися візуальним супроводом.
У професійному середовищі Адель ділиться внутрішніми даними: понад 50% презентацій у компанії вже використовують згенеровані зображення. “Проникнення візуальної комунікації — швидше, ніж ми очікували.”
Вона також називає приклади застосування у різних сферах: ріелтори створюють презентаційні зображення і віртуальні ремонти, ютубери — обкладинки і промо-матеріали, художники — для зв’язку з фанами, письменники — швидко генерують зображення для соцмереж.
Ведучий Ендрю також поділився своїм досвідом: він завантажив обкладинку книги і попросив модель створити адаптовані для соцмереж варіанти — і отримав ідеальні пропорції і стиль. “Це — як магія.”
360-градусні панорами, ельфи і Codex: несподівані можливості
Крім очікуваних покращень, версія 2.0 принесла і кілька несподіваних “з’явлень” — здатностей, які команда навіть не передбачала.
Одним із таких є 360-градусні панорами. Виявилося, що модель у процесі підтримки будь-яких співвідношень сторін почала самостійно створювати надширокі панорамні зображення і навіть 360-градусні сцени. Тепер цю функцію зробили частиною продукту — користувачі можуть у ChatGPT на сайті або мобільному додатку створювати і переглядати панорами у режимі доповненої реальності. Ендрю першим використав цю можливість для створення “собака грає у покер” у 360-градусному форматі, сидячи у ролі собаки і оглядаючи навколо.
Ще один — спрайт-ліст (Sprite Sheet). Розробники і незалежні творці вже використовують ImageGen для створення анімаційних спрайтів персонажів, а з Codex — для автоматичного написання коду і створення ігор з цими персонажами. Ендрю бачив, як він просить: “Хочу ворона,” — і система автоматично викликає ImageGen для створення спрайтів ворона, а Codex інтегрує їх у код гри. “Це — магія.”
Консистентність між зображеннями — ще один важливий прогрес. Користувачі вже намагаються створювати 10-сторінкові комікси з однаковими персонажами і стилем. Це раніше вимагало багато ручної роботи, а тепер — стало більш надійним і швидким.
Наступне: креативний агент і персоналізований візуальний помічник
Про майбутнє Адель має чітке бачення: створити “Креативного агента” — AI-помічника, що розуміє ваш стиль, цілі і роботу. Це може бути ваш особистий дизайнер інтер’єру, архітектор або організатор весіль — все у вигляді однієї картинки.
Головна ідея — зробити “персоналізацію” невід’ємною частиною кожного етапу генерації зображень. Адель наводить приклад: вона сама використовує набір з 100 фотографій себе, друзів і родини для тестування — щоб перевірити, чи модель може природно вставляти особисті елементи у згенеровані сцени, наприклад, у привітальні листівки.
Кенджі додає, що команда продовжує працювати над покращенням багатогранної узгодженості, досвідом у сфері візуального мистецтва і швидкістю отримання бажаного результату. “Ще не ідеально, але ми знаємо напрямок.”
Щодо технік підказок, вони радять спробувати “Модель мислення ImageGen” — у Pro-режимі або режимі роздумів, коли модель може шукати, аналізувати файли і викликати інструменти для підвищення якості і композиції. Адель рекомендує давати відкриті підказки і дозволяти моделі досліджувати, а також встановлювати чіткий естетичний стиль як орієнтир. Кенджі ж віддає перевагу мінімалізму і чітким інструкціям, наприклад, “залишай чисто і просто.”
Якщо DALL-E — це епоха кам’яної доби у генерації зображень, то ImageGen 2.0 — її Відродження — не лише у мистецтві, а й у науці, архітектурі, знаннях і естетиці. У завершенні цієї розмови Адель підсумовує: модель вже не просто “інструмент для малювання”, а справжній візуальний інтелект, що починає розуміти світ, людей і красу.