ChatGPT Images 2.0 з'являється! Твердження про здатність мислити, еволюцію текстової візуалізації, реальні результати меню з м'ясною локшиною

robot
Генерація анотацій у процесі

OpenAI випустила інструмент для створення зображень ChatGPT Images 2.0, який відзначається потужними можливостями складного форматування та обробки багатомовного тексту (включаючи китайську), у цій статті буде детально представлено функції, особливості, безкоштовні та платні плани, а також результати тестового генерування.

Що таке ChatGPT Images 2.0? Основні функції та особливості!

З’явився інструмент для створення AI-зображень, здатний конкурувати з Gemini Nano Banana 2? OpenAI оголосила про запуск ChatGPT Images 2.0, який працює на новій моделі GPT Image 2, орієнтованій на високоякісне зображення з можливістю вибору, розташування та викриття інформації. Нижче наведено три головні особливості ChatGPT Images 2.0:

Потужне форматування та обробка багатомовного тексту

Першою очевидною особливістю є значне покращення можливостей форматування та обробки багатомовного тексту у ChatGPT Images 2.0.

Згідно з іноземним виданням Techcrunch, раніше більшість інструментів для генерації зображень на основі AI використовували дифузійні моделі, які часто стикалися з труднощами при написанні тексту. ChatGPT Images 2.0 здатен точно відтворювати дрібний текст, іконки та елементи інтерфейсу користувача.

OpenAI заявила, що Images 2.0 демонструє значний прогрес у роботі з мовами, що не використовують латинський алфавіт, включаючи китайську, японську, корейську, хінді та бенгальську, і може генерувати їх з високою чіткістю у зображеннях.

Джерело: офіційний приклад генерації ChatGPT Images 2.0 від OpenAI

Нові можливості мислення та пошук у мережі

Крім форматування та обробки багатомовного тексту, ChatGPT Images 2.0 пропонує нові можливості мислення, зокрема, здатність здійснювати пошук у мережі для допомоги у створенні зображень. Модель оновлена до грудня 2025 року, що допомагає генерувати контент, пов’язаний із недавніми подіями.

Джерело: офіційний приклад генерації ChatGPT Images 2.0 від OpenAI

Підтримка 2K роздільної здатності та різноманітних співвідношень сторін

ChatGPT Images 2.0 підтримує створення зображень з роздільною здатністю до 2K і пропонує широкий вибір співвідношень сторін, від широкоформатних 3:1 до довгих 1:3.

Керівник досліджень OpenAI Бойуань Чен (Boyuan Chen) зазначив, що архітектура Images 2.0 була повністю оновлена і є універсальною моделлю, яка за допомогою простих текстових підказок може виконувати перетворення перспективи у стилі 3D та складне просторове логіку.

Функції безкоштовних та платних планів ChatGPT Images 2.0

Чи вартує платити? Різні рівні платних користувачів ChatGPT Images 2.0 мають доступ до різних функцій, що наведено нижче:

  • Безкоштовні користувачі: наразі можуть використовувати базову модель ImageGen 2.0 для стандартних завдань з генерації зображень. Базова версія вже включає багато ключових оновлень, таких як кращий слідування інструкціям, потужніший рендеринг тексту, багатомовна підтримка та різноманітні співвідношення сторін.
  • Користувачі ChatGPT Plus, Business та Enterprise: ці платні користувачі можуть активувати нову модель мислення. У цьому режимі генератор зображень використовує пошук у мережі, створює візуальні пояснення на основі завантажених файлів і виконує структурне логіку перед створенням зображень. Одночасно можна генерувати до 8 зображень, з гарантією збереження послідовності персонажів, об’єктів і стилів у сцені.
  • Користувачі Pro: отримують доступ до більш просунутої моделі ImageGen Pro. Хоча OpenAI ще не оприлюднила точні деталі різниці між Pro та функцією мислення, корпоративні користувачі можуть вважати цю функцію суттєвим оновленням, корисним для створення фактологічних пояснень, перетворення внутрішніх документів у ілюстрації або збереження візуальної послідовності у кількох активів.
  • Розробники API: тепер можуть інтегрувати модель gpt-image-2 з підтримкою високої роздільної здатності та гнучких співвідношень сторін.

Тестування ChatGPT Images 2.0: меню, журнали, ілюстрації та графіки

Як показує практика, чи відповідає реальна робота ChatGPT Images 2.0 заявленим можливостям OpenAI? Проведемо тест.

Тест меню ресторану з м’ясною локшиною

Редактор «Крипто Місто» протестував безкоштовний план ChatGPT, створивши меню тайванської м’ясної локшини за допомогою простих підказок: «Згенеруй мені меню з тайванською м’ясною локшиною, використовуючи традиційний китайський шрифт, з назвою страв, цінами та зображеннями.»

Результат:

Джерело: генерація ChatGPT Images 2.0

З точки зору можливостей безкоштовної версії, результат виглядає досить добре, хоча при детальному розгляді видно, що при обробці складних штрихів традиційних китайських ієрогліфів все ще трапляються помилки у написанні. Можливо, платна версія дасть кращий результат.

Крім того, ціна відповідає приблизно ціновій політиці у Тайбеї для м’ясної локшини, і ще можна безкоштовно додати один додатковий порцію.

Якщо ж потрібно друкувати меню, найкращим варіантом є перетворення згенерованих зображень у векторний формат (наприклад, EPS, .ai файли Adobe Illustrator, PDF) і використання кольору CMYK. Це забезпечить найкращу якість друку. Хоча друкарні можуть приймати JPG або PNG, для високоякісного друку краще використовувати векторні формати, щоб мати можливість точніше налаштовувати зовнішній вигляд.

Тест обкладинки наукового журналу

Наступним тестом стала обкладинка наукового журналу з фантастичним дизайном. Підказка: «Згенеруй мені обкладинку технологічного журналу українською мовою, назва журналу — “Крипто Місто”, тема — “Мости між блокчейном та AI”, ця обкладинка має містити заголовок, номер випуску, дату передбачуваного терміну у верхній частині штрих-кодом, усі тексти мають бути чіткими та професійно вирівняними.»

Результат:

Джерело: генерація ChatGPT Images 2.0

Цей результат схожий на попередній — з перших поглядів виглядає добре, але при детальному розгляді видно, що при обробці складних штрихів китайських ієрогліфів все ще трапляються помилки. Шрифт на обкладинці нагадує шрифт Justfont «金萱體», можливо, він був ліцензований.

Такі питання виникали й у «Крипто Місто» під час запуску Nano Banana Pro.

  • Пов’язані статті: Nano Banana Pro тестування: покращення китайських ієрогліфів! Але з’явилися питання щодо авторських прав на анімацію та шрифти

Тест багатомовних пояснювальних графіків

«Крипто Місто» протестувало графік причин землетрусу українською, японською та корейською мовами. Складний багатомовний текст був частково успішним у рендерингу. У форматуванні використовували різні кольори для різних мов, хоча при детальному розгляді деякі складні штрихи китайських ієрогліфів, ханзі або корейських символів залишаються розмитими.

Результат:

Джерело: генерація ChatGPT Images 2.0

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити