Dari Zaman Batu hingga Renaissance: Terobosan Teknologi dan Pemikiran Produk di Balik OpenAI Image Generation 2.0

Tulisan: Berita Techub News yang disusun

Ini adalah isi dari podcast resmi OpenAI episode ke-19. Pembawa acara Andrew Mayne bersama peneliti Kenji Hata dan kepala produk Adele Li mengadakan dialog mendalam tentang GPT Image 2.0 (yaitu ImageGen 2.0). Percakapan ini berlangsung sekitar dua minggu setelah peluncuran resmi model—pada saat itu jumlah gambar yang dihasilkan setiap minggu telah menembus 1,5 miliar, dan berbagai tren penggunaan dengan cepat menjadi populer di seluruh dunia. Ini bukan hanya ulasan peluncuran produk, tetapi juga diskusi terbuka tentang perubahan paradigma teknologi generasi gambar.

Dari investor ke kepala produk: sebuah kisah tentang peralihan peran

Adele Li sebelum bergabung dengan OpenAI, seluruh kariernya diisi dengan investasi. Ia pernah bekerja di lembaga ekuitas swasta dan Redpoint Ventures, fokus pada investasi awal di bidang AI dan perangkat lunak. Saat bergabung dengan OpenAI, awalnya ia bertanggung jawab atas perencanaan pembangunan infrastruktur data dan komputasi, yang jauh dari bidang generasi gambar. Namun dalam enam bulan terakhir, ia perlahan beralih ke sisi produk, secara penuh memimpin pekerjaan produk ImageGen.

Ia mengakui, inti dari peran manajer produk adalah “melakukan hal yang perlu dilakukan,” apa pun itu. Dan proyek ImageGen sangat memungkinkannya menggabungkan berbagai kemampuan—baik bekerja sama erat dengan peneliti seperti Kenji, maupun memikirkan di mana kekosongan pasar dan peluangnya.

“Ini bukan lagi pasar saat ImageGen 1.0 dirilis setahun lalu,” kata Adele. Saat ini, di jalur generasi gambar terdapat beberapa pesaing, dan ChatGPT sendiri sudah menjadi produk yang sangat berbeda. Dalam konteks ini, memikirkan evolusi ImageGen dalam ekosistem ChatGPT adalah salah satu hal yang paling menarik baginya.

Kenji Hata juga bergabung dengan OpenAI sekitar dua tahun lalu. Awalnya ia mengerjakan proyek di bidang audio, kemudian secara kebetulan terlibat dalam pekerjaan pra-peluncuran ImageGen 1.0, dan sejak itu beralih menjadi peneliti penuh waktu di bidang generasi gambar, hingga mencapai versi 2.0.

Data berbicara: dua minggu peluncuran, 1,5 miliar gambar per minggu

Dalam dua minggu setelah peluncuran resmi GPT Image 2.0, penggunaan generasi gambar di ChatGPT meningkat lebih dari 50%, dan jumlah gambar yang dihasilkan setiap minggu melampaui 1,5 miliar. Pada saat yang sama, berbagai tren penggunaan menyebar dengan cepat di seluruh dunia—dari analisis warna dan gaya stiker yang digemari pengguna Asia, hingga gambar krayon dan gaya grafiti yang populer di Amerika Serikat.

Adele berpendapat, penyebaran secara virus ini sendiri menunjukkan satu hal: pengguna hampir langsung merasakan lonjakan kemampuan model. “Umpan balik visual adalah yang paling langsung,” katanya, pengguna tidak perlu membaca laporan teknis, cukup buka model dan hasilkan satu gambar, dan langsung tahu bagus atau tidaknya.

Pembawa acara Andrew juga menyampaikan perasaan yang sama—peningkatan kemampuan sebesar ini membuatnya merasa bahwa istilah “2.0” kurang tepat, dan lebih cocok disebut sebagai paradigma baru. Lalu, bagaimana sebenarnya perubahan paradigma ini terjadi?

Tiga terobosan utama: teks, multibahasa, dan realisme

Adele dan Kenji menyimpulkan lonjakan kemampuan ImageGen 2.0 sebagai hasil dari beberapa terobosan kunci secara bersamaan.

Pertama adalah kemampuan rendering teks. Model generasi gambar awal hampir selalu gagal saat memproses teks di dalam gambar—huruf terdistorsi, kata-kata salah urut, tata letak berantakan. Andrew bercanda bahwa, pada masa awal DALL-E, tulisan “OpenAI” yang dihasilkan terlihat seperti ditulis oleh simpanse. Sekarang, model mampu menampilkan teks panjang secara jelas dan akurat dalam gambar, bahkan grafik informasi yang kompleks sekalipun.

Kenji menggunakan sebuah pengujian internal untuk mengukur kemajuan ini: meminta model menghasilkan gambar berisi 100 objek acak dalam sebuah grid, lalu menghitung tingkat keberhasilannya. Dari era DALL-E 3 yang mampu sekitar 5 sampai 8 objek, ke ImageGen 1.0 sekitar 16 objek, kemudian stabil di 25-36 objek di versi 1.5, dan sekarang di versi 2.0 hampir mendekati 100 objek semuanya benar. “Ini bukan lonjakan mendadak, tetapi pertumbuhan yang stabil dan konsisten,” kata Kenji.

Kedua adalah dukungan multibahasa. Tim secara khusus memperkuat kemampuan model dalam memahami dan menghasilkan berbagai bahasa selama pelatihan. Setelah peluncuran, umpan balik dari pengguna di Asia dan Eropa mengonfirmasi bahwa arah ini benar—pengguna dari berbagai latar bahasa dapat memperoleh output gambar yang berkualitas tinggi dan terlokalisasi.

Ketiga adalah realisme fotografi. Ini adalah salah satu masalah utama yang sering dilaporkan pengguna sebelumnya: gambar manusia yang dihasilkan model lama sering memiliki “kesan berlebihan dan glamor ala sampul majalah,” dengan proporsi wajah dan tubuh yang tidak realistis. Versi 2.0 melakukan banyak pekerjaan di bidang ini, bertujuan agar gambar “terlihat lebih seperti diri Anda sendiri.” Kenji mengenang saat pertama kali melihat output checkpoint model baru: membandingkan hasilnya dengan ImageGen 1.0, langsung jelas mana yang lebih baik.

Gambar yang dia gambarkan adalah seorang wanita berdiri di pantai, menatap ke kejauhan. “Kami melihat dua gambar itu, tidak perlu bicara apa-apa. Cukup… oke, ini yang menang.”

Bagaimana menyeimbangkan kecepatan dan kualitas? Kunci di tahap pasca pelatihan

Andrew mengajukan pertanyaan yang banyak orang penasaran: model menjadi lebih pintar, tetapi kecepatan generasi tidak melambat, bagaimana caranya?

Kenji menjelaskan bahwa setiap versi mengakumulasi banyak pembelajaran teknik. Misalnya, mereka melakukan banyak pekerjaan untuk meningkatkan “token efisiensi” model—menghasilkan gambar berkualitas tinggi dengan lebih sedikit token. Ini adalah proses yang terus menerus di setiap iterasi versi, bukan hanya satu terobosan teknologi.

Adele menambahkan pentingnya tahap pasca pelatihan. Ia mengatakan, saat melatih model ini, tim tidak hanya ingin model memahami pengetahuan dunia—ilmu pengetahuan, konsep, matematika dalam gambar—tetapi juga menjawab pertanyaan yang lebih subjektif: apa yang disebut “menarik”? Apa yang disebut “berkelas”?

Pertanyaan-pertanyaan ini tidak memiliki jawaban standar, tetapi langsung menentukan batas kualitas output model. Untuk itu, tim bekerja sama dengan banyak seniman, desainer, dan profesional pemasaran, berusaha mengintegrasikan penilaian estetika dan praktik terbaik dari bidang tersebut ke dalam cara model berinteraksi dengan pengguna.

Tim juga memantau umpan balik dari media sosial dan mengintegrasikan masalah penggunaan dunia nyata ke dalam siklus iterasi. Kenji mengatakan, umpan balik ini akan diatasi atau diperbaiki secara menyeluruh di versi berikutnya.

Tren virus di baliknya: menggunakan AI untuk mengekspresikan “ketidaksempurnaan” diri

Di antara tren penggunaan yang muncul setelah peluncuran, ada satu yang membuat tim merasa terkejut sekaligus menarik: pengguna secara sengaja menghasilkan gambar bergaya “sketsa Microsoft” yang kasar dan jelek—mengubah foto selebriti atau gambar populer menjadi grafiti beresolusi pixel.

Adele memberikan interpretasi yang tajam: “Untuk membuat AI menghasilkan sesuatu yang ‘tidak sempurna’, sebenarnya membutuhkan kecerdasan yang tinggi.” Ini bukan kegagalan model, justru sebaliknya, ini adalah cerminan bahwa model benar-benar memahami niat pengguna.

Ia berpendapat, ini mencerminkan tren psikologi konsumen: orang menginginkan keaslian, ketidaksempurnaan, dan nostalgia. Gaya krayon, grafiti, pixel vintage—semua kata kunci yang sedang populer ini mengarah ke satu tema: pengguna ingin menggunakan AI untuk menampilkan sisi diri mereka yang lebih nyata dan menyenangkan, bukan sekadar mengejar “hasil yang sempurna.”

“Ekspresi diri melalui AI adalah arah yang benar-benar membuat kami bersemangat,” kata Adele. Ini juga sangat sejalan dengan misi OpenAI—memungkinkan lebih banyak orang mengekspresikan “diri yang sebelumnya tidak bisa diekspresikan.”

Dari hiburan ke produktivitas: pendidikan, desain, dan infiltrasi lintas industri

Perubahan penting lain dari ImageGen 2.0 adalah pergeseran dari penggunaan yang berfokus pada hiburan menuju alat produktivitas yang sesungguhnya.

Di bidang pendidikan, tim memiliki saluran uji coba internal khusus untuk pendidik, mencakup dari tingkat sekolah dasar hingga mahasiswa pascasarjana. Kenji berbagi sebuah contoh yang mengesankan: seorang profesor biologi memasukkan materi buku teks tingkat mahasiswa ke dalam model, dan menghasilkan halaman ilustrasi yang sangat akurat, serta menyatakan isinya benar sepenuhnya.

Adele berpendapat, mengubah konsep kompleks menjadi visual yang mudah dipahami adalah salah satu kekuatan utama model ini. Ia menyoroti arah “pembelajaran personalisasi”—guru dapat menggunakan ImageGen untuk menghasilkan materi belajar yang disesuaikan untuk siswa dengan latar bahasa dan preferensi berbeda. Ini adalah bidang yang sedang mereka eksplorasi secara aktif: bagaimana mengintegrasikan ImageGen secara lebih mendalam ke dalam skenario belajar ChatGPT, sehingga pengajaran konsep secara visual menjadi bawaan.

Dalam konteks dunia kerja, Adele mengungkapkan data internal yang menarik: lebih dari 50% presentasi internal OpenAI sudah menggunakan gambar yang dihasilkan ImageGen. “Percepatan adopsi komunikasi visual ini jauh lebih cepat dari yang kami perkirakan.”

Selain itu, ia menyebutkan berbagai profesi yang sudah menggunakan ImageGen: agen real estate membuat gambar properti dan efek renovasi virtual, pembuat konten YouTube membuat sampul video dan materi promosi, seniman berinteraksi dengan penggemar, penulis menghasilkan gambar untuk media sosial secara cepat…

Andrew juga berbagi pengalaman pribadinya: dia mengunggah sampul buku ke model, dan hasilnya langsung sesuai proporsi dan gaya yang diinginkan. “Ini seperti sihir.”

Kemampuan panorama 360 derajat, sprite, dan kolaborasi dengan Codex: kejutan dari kemampuan yang muncul

Selain peningkatan kemampuan yang diharapkan, versi 2.0 juga menghadirkan beberapa “kemampuan muncul” yang bahkan tidak sepenuhnya diprediksi tim.

Gambar panorama 360 derajat adalah salah satunya. Tim menemukan bahwa saat mendukung pembuatan gambar dengan rasio aspek bebas, pengguna mulai secara spontan menghasilkan panorama lebar dan bahkan gambar berputar 360 derajat. Mereka pun mengubah kemampuan ini menjadi fitur produk, sehingga pengguna bisa langsung membuat dan menjelajah secara imersif panorama 360 di web dan aplikasi ChatGPT. Andrew langsung menggunakannya untuk membuat gambar “anjing bermain poker” versi 360 derajat dari sudut pandang anjing.

Sprite sheet juga menjadi tren penggunaan yang luar biasa. Pengembang game dan kreator independen menggunakan ImageGen untuk membuat sprite karakter dengan berbagai pose, dan dengan kemampuan kode dari Codex, mereka bisa membangun game kecil dengan karakter kustom dari nol. Andrew menggambarkan prosesnya: menyebut “saya ingin seekor gagak” di Codex, lalu sistem otomatis memanggil alat ImageGen, menghasilkan sprite gagak, dan kemudian Codex mengintegrasikannya ke dalam kode game. “Ini seperti sihir.”

Konsistensi gambar dalam banyak gambar juga merupakan kemajuan signifikan di versi 2.0. Kenji menyebutkan, ada pengguna yang mencoba membuat komik berisi 10 halaman dengan karakter dan gaya visual yang sangat konsisten di seluruh gambar. Kemampuan ini sebelumnya membutuhkan banyak intervensi manual dan keahlian, sekarang menjadi lebih andal dan lancar.

Langkah selanjutnya: Agen Kreatif dan asisten visual personal

Mengenai arah masa depan, Adele memberikan visi yang jelas: Agen Kreatif (Creative Agent).

Dia membayangkan sebuah AI yang benar-benar memahami cara kerja, preferensi estetika, dan tujuan output Anda, sehingga bisa berfungsi sebagai desainer interior pribadi, arsitek pribadi, perencana pernikahan pribadi—semua ini bisa diwujudkan dalam satu gambar.

Inti dari arah ini adalah mengintegrasikan “personalization” secara nyata ke setiap aspek generasi gambar. Adele mencontohkan “evaluasi me-me-me”-nya sendiri: dia menggunakan 100 foto dirinya, teman, dan keluarganya sebagai data evaluasi, untuk menguji apakah model mampu menyisipkan elemen personal yang tepat dalam konteks yang benar—misalnya, ChatGPT mengingat bahwa dia punya adik, orang tuanya suka apa, sehingga saat membuat kartu ulang tahun, model bisa menyisipkan informasi tersebut secara alami ke dalam gambar.

Kenji dari sisi riset menambahkan bahwa tim terus mengoptimalkan konsistensi gambar, pengalaman kreatif visual secara keseluruhan, dan memudahkan pengguna mendapatkan output yang diinginkan dengan lebih cepat. “Hari ini belum sempurna, tapi kami tahu ke mana arahnya.”

Mengenai teknik prompt, keduanya memberi saran. Adele menyarankan pengguna mencoba “Mode Berpikir ImageGen”—dalam mode Pro atau mode berpikir, ImageGen bisa melakukan pencarian online, menganalisis dokumen, dan memanggil alat, sehingga kualitas dan komposisi gambar meningkat. Ia menyarankan menggunakan prompt terbuka dalam mode ini agar model bisa mengeksplorasi dan berimajinasi sendiri, sambil memberi gaya estetika yang jelas sebagai acuan. Kenji lebih suka gaya minimalis, jadi dia akan memberi instruksi “tetap bersih dan simpel.”

Jika DALL-E adalah zaman batu dari generasi gambar, maka ImageGen 2.0 adalah kebangkitan seni—bukan hanya kemajuan artistik, tetapi juga integrasi penuh ilmu pengetahuan, seni, arsitektur, pengetahuan, dan estetika. Di akhir percakapan ini, Adele menutup dengan kalimat ini, dan mungkin ini adalah cara terbaik untuk memahami model ini: ia tidak lagi sekadar “alat gambar,” tetapi sebuah agen visual yang mulai memahami dunia, manusia, dan keindahan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan