Setengah bagian tim GPT Image 2 dari komunitas Tionghoa terungkap, 13 orang mencapai puncak dalam 4 bulan

GPT Image2 menjadi viral di seluruh internet, tetapi sebenarnya apa alasan efektivitasnya begitu luar biasa?

Kepala Peneliti Chen Boyuan mengungkapkan: arsitektur dasarnya telah benar-benar direkonstruksi.

Namun dia menolak menjawab apakah menggunakan model difusi atau teknik autoregressive, hanya dengan misterius menyebutnya sebagai “model umum” atau “GPT di bidang gambar”.

Sebuah cuitan Chen Boyuan juga mengungkapkan, sejak GPT Image 1.5 akhir Desember tahun lalu, hanya dalam empat bulan sudah ada peningkatan sebesar ini.

Dengan pencapaian yang terobosan ini, tim inti hanya terdiri dari 13 orang.

Seluruh tim dipamerkan dalam foto keluarga AI yang diunggah oleh kepala tim Gabriel Goh.

Di kolom komentar, ada netizen yang berkomentar: kenapa semuanya orang Asia?

Chen Boyuan: dari tidak tahu Python sampai menjadi Pemimpin Riset

Apa sebenarnya arsitektur GPT Image 2?

OpenAI mungkin tidak akan mengumumkannya dalam waktu dekat, tetapi dari latar belakang akademik anggota inti tim bisa terlihat beberapa jejaknya.

Chen Boyuan adalah Pemimpin Riset tim, dan dia serta anggota lain Kiwhan Song saat menempuh studi doktor di MIT memiliki mentor yang sama, Vincent Sitzmann.

Karya doktoralnya yang terkenal, Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion, masuk dalam daftar NeurIPS 2024.

Penelitian ini mengusulkan paradigma pelatihan generasi urutan baru bernama Diffusion Forcing, yang menggabungkan difusi noise independen per token dengan prediksi token berikutnya secara kausal, memadukan keunggulan model autoregressive dengan panjang generasi variabel dan model difusi seluruh urutan yang mampu mengarahkan proses jangka panjang.

Saat magang di Google, dia juga menerbitkan SpatialVLM bersama rekan penulis lainnya.

Dengan membangun dataset inferensi ruang 3D skala internet (10 juta gambar, 2 miliar pasangan QA), model ini mampu memberikan kemampuan inferensi ruang secara kuantitatif / kualitatif dari satu gambar 2D, seperti jarak meter, ukuran, arah, dan nilai numerik lainnya secara akurat.

Penelitian ini menerapkan pemikiran berantai inferensi ruang ke bidang kecerdasan berbasis tubuh.

Selama magang di Google, teknologi fine-tuning instruksi yang dikembangkannya juga diadopsi oleh Gemini 2.0.

Saat mengikuti kamp pelatihan penelitian saat SMA, dia bahkan belum memahami sintaks dasar Python, dan saat itu kenal dengan peneliti senior DeepMind Google, Xia Fei, yang memperkenalkannya ke dunia AI.

Xia Fei dua kali mengundangnya ke DeepMind untuk magang berkualitas tinggi, pengalaman ini memberinya pengalaman teknik dalam pelatihan model skala besar dan juga sudut pandang berharga tentang kebutuhan data sistem multimodal.

Setelah lulus doktor, Chen Boyuan bergabung dengan OpenAI pada Juni 2025, dan dengan cepat menjadi salah satu dari lima anggota inti tim penghasil gambar GPT, bertanggung jawab atas semua pelatihan model gambar GPT, sekaligus anggota tim pembuatan video Sora.

Dalam demonstrasi, dia membuat poster untuk kampung halamannya, Wuxi. Kemudian membuat poster berbahasa Korea untuk rekan dari Seoul, dan poster berbahasa Bengali untuk rekan dari Bangladesh. Setiap teks dalam poster tersebut sangat akurat dan tepat.

Jianfeng Wang dari Universitas Sains dan Teknologi China: Membuat AI gambar memahami pengetahuan dunia

Jianfeng Wang, lulusan doktor dari USTC, bertanggung jawab atas kemampuan lain yang menakjubkan di tim GPT Image 2: mengikuti instruksi dan memahami dunia.

Model lama selalu menggambar jam yang selalu menunjuk 10:10, berasal dari iklan jam di internet, hampir semuanya menunjukkan pukul 10:10.

Ini karena produsen jam pernah melakukan eksperimen dengan psikolog, dan percaya bahwa ini membantu merangsang keinginan konsumen untuk membeli jam.

Dia membuat model baru menggambar waktu 2:25, 3:30, 9:10, 7:45, semuanya tepat.

Ini baru permulaan.

Layout ruang yang lebih kompleks, apel di tengah, cangkir di kanan, buku di atas, kamera di kiri, bola basket di bawah. Model mampu mengeksekusi semuanya dengan tepat.

Sebelum bergabung dengan OpenAI, dia bekerja di Microsoft selama hampir 9 tahun. Selama di Microsoft, dia juga berkolaborasi dengan tim OpenAI pada DALL·E 3.

Dia telah menerbitkan banyak makalah di bidang visi komputer, yang mungkin mencakup klasifikasi gambar, deteksi objek, segmentasi semantik, dan pembelajaran representasi visual.

Kemampuan memahami pengetahuan dunia secara besar-besaran meningkat, dengan pemahaman yang benar terhadap isi semantik dan struktur fungsi objek.

Jianfeng Wang mengatakan di akhir video demonstrasi: GPT Image 2 sedang mengurangi jarak antara niatmu dan keluaran model.

Benar-benar membuat apa yang kamu inginkan, model akan memberikannya.

Yuguang Yang: Menghasilkan diagram informasi kompleks berpresisi tinggi

Yuguang Yang memamerkan kemampuan menghasilkan diagram informasi dan PPT dalam acara peluncuran GPT Image 2.

Seluruh 75 halaman makalah GPT-3 diunggah ke ChatGPT, secara otomatis menghasilkan 7 slide presentasi.

Pengalamannya bisa dikatakan paling kaya di antara anggota tim, setiap kali berganti pekerjaan selalu lintas bidang, tetapi fokusnya tetap pada pembelajaran mesin.

Dia lulusan teknik dari Zhejiang University Zhuke College, dan selama studi doktor di Johns Hopkins University mempelajari kimia komputasi, fisika, dan pembelajaran mesin.

Pekerjaan pertamanya sebagai analis kuantitatif, dan selama menjadi peneliti tamu di Tsinghua, dia mengerjakan algoritma pembelajaran penguatan dan kontrol untuk robot nano.

Kemudian dia pernah bekerja di Amazon dalam penelitian suara Alexa.

Lalu di Microsoft, dia mengerjakan pemahaman kueri pencarian Bing dan pengindeksan, serta pemahaman dokumen.

Setelah bergabung dengan OpenAI awal 2025, selain penghasil gambar, dia juga terlibat dalam proyek agen cerdas ChatGPT.

Dia di akun pribadi memperkenalkan kemampuan pembuatan diagram informasi GPT Image 2, yang dapat menghemat banyak waktu para peneliti.

Dia juga mengingatkan lagi agar saat membuat diagram informasi, jangan lupa memilih pola berpikir.

Dari DALL·E ke GPT Image 2.0

Dari pengenalan diri anggota tim Kenji Hata, diketahui bahwa GPT Image 1.0 adalah bagian dari penghasil gambar GPT-4o.

Ada satu orang yang terlibat dari awal dalam penelitian multimodal OpenAI, yaitu kepala tim GPT Image 2.0, Gabriel Goh.

Sejak bergabung di 2019, penelitiannya lebih banyak bersifat teoretis, fokus pada interpretabilitas dan optimisasi konveks, dan mulai beralih ke generasi gambar dari DALL·E.

Melihat riwayat penelitian anggota tim lain, Weixin Liang, lagi-lagi mengungkapkan dasar teknologi GPT Image 2.

Saat magang di Meta, karya utamanya adalah Mixture-of-Transformers, yang memperkenalkan MoE dan perhatian terpisah untuk mengurangi biaya komputasi pelatihan model multimodal.

Dia lulus doktor dari Stanford dan juga lulusan dari Zhejiang University Zhuke College, tetapi beberapa tahun lebih lambat dari Yuguang Yang.

Seperti Chen Boyuan, Weixin Liang juga bergabung ke OpenAI segera setelah lulus doktor tahun 2025 dan menjadi anggota inti tim dengan cepat.

Anggota tim GPT Image 2 lainnya termasuk:

Ayaan Haque, sebelumnya di Luma AI, berpartisipasi dalam pelatihan model dasar video Luma Dream Machine.

Bing Liang, bekerja lebih dari 5 tahun di Google, terlibat dalam Imagen3, Veo, Gemini Multimodal, dan bergabung ke OpenAI tahun 2025 untuk riset gambar.

Mengchao Zhong, alumni Shanghai Jiao Tong University, magister dari Texas A&M University, pernah menjadi insinyur perangkat lunak di Pinterest dan Airtable, dan bertanggung jawab atas produk multimodal di OpenAI.

Dibya Bhattacharjee, dari Yale University, peraih medali perunggu IPhO 2015, dan nilai tertinggi di matematika dan biologi CIE A-Level.

Kiwhan Song adalah anggota terakhir yang bergabung pada Oktober 2025, selain melakukan riset, dia juga master prompt, dan banyak dari gambar demonstrasi resmi berasal dari karyanya.

……

Dari DALL·E yang pertama hingga GPT Image 2.0 saat ini, tim ini telah menyelesaikan: menggambar dengan jelas, akurat, indah, dan tepat.

Meskipun dalam beberapa tahun terakhir terjadi pergerakan besar di kalangan talenta OpenAI, perusahaan ini tetap mampu menarik berbagai orang berbakat dengan kepribadian unik, tanpa batasan bidang, dan mendukung penelitian bottom-up.

Dimulai dari tim kecil, setelah ada terobosan, perusahaan mengarahkan lebih banyak sumber daya, hingga mampu mengubah dunia.

One More Thing

Dulu, avatar yang dihasilkan GPT-4o dengan gaya Ghibli menyebar ke seluruh dunia.

Sekarang, anggota tim GPT Image 2.0 semua mengganti avatar mereka dengan gaya aneh ini.

Lalu, apa sih kata kunci untuk gaya gambar ini? Anggota tim juga mengumumkannya.

Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan