Từ thời kỳ đồ đá đến Phục hưng: Những đột phá công nghệ và suy nghĩ về sản phẩm đằng sau OpenAI Hình ảnh tạo ra 2.0

Viết bài: Techub News tổng hợp

Đây là nội dung tập 19 của podcast chính thức của OpenAI. Người dẫn chương trình Andrew Mayne cùng các nhà nghiên cứu Kenji Hata, trưởng bộ phận sản phẩm Adele Li đã có một cuộc đối thoại sâu về GPT Image 2.0 (tức ImageGen 2.0). Cuộc trò chuyện này diễn ra khoảng hai tuần sau khi mô hình chính thức ra mắt — thời điểm số lượng hình ảnh tạo ra hàng tuần đã vượt quá 1,5 tỷ, và nhiều xu hướng sử dụng nhanh chóng trở thành trào lưu toàn cầu. Đây không chỉ là một cuộc tổng kết về sự kiện ra mắt sản phẩm, mà còn là một cuộc thảo luận chân thành về sự chuyển đổi trong mô hình công nghệ tạo hình ảnh.

Từ nhà đầu tư đến trưởng bộ phận sản phẩm: câu chuyện về sự chuyển đổi vai trò

Adele Li trước khi gia nhập OpenAI, đã dành toàn bộ sự nghiệp trong lĩnh vực đầu tư. Cô lần lượt làm việc tại các quỹ tư nhân và Redpoint Ventures, tập trung vào đầu tư sớm trong lĩnh vực AI và phần mềm. Khi gia nhập OpenAI, ban đầu cô phụ trách kế hoạch xây dựng hạ tầng dữ liệu và tính toán, khá xa so với lĩnh vực tạo hình ảnh. Tuy nhiên trong nửa năm qua, cô dần chuyển hướng sang phía sản phẩm, đảm nhiệm toàn bộ công việc liên quan đến ImageGen.

Cô thẳng thắn chia sẻ, bản chất của vai trò quản lý sản phẩm chính là “làm những việc cần phải làm”, bất kể đó là gì. Và dự án ImageGen đặc biệt giúp cô phát huy nhiều khả năng khác nhau — vừa phải hợp tác chặt chẽ với các nhà nghiên cứu như Kenji, vừa phải luôn suy nghĩ về những khoảng trống thị trường, các cơ hội còn bỏ ngỏ.

“Thị trường của ImageGen đã khác xa so với khi ra mắt ImageGen 1.0 cách đây một năm.” Adele nói. Hiện tại, trên lĩnh vực tạo hình ảnh có nhiều đối thủ cạnh tranh, ChatGPT cũng đã trở thành một sản phẩm hoàn toàn khác biệt. Trong bối cảnh đó, việc suy nghĩ về vai trò của ImageGen trong hệ sinh thái ChatGPT, là một trong những điều cô thấy thú vị nhất.

Kenji Hata cũng gia nhập OpenAI cách đây khoảng hai năm. Ban đầu anh làm về một dự án âm thanh, sau đó tình cờ tham gia vào công việc chuẩn bị ra mắt ImageGen 1.0, rồi dần chuyển sang nghiên cứu tạo hình ảnh toàn thời gian, và cuối cùng đã phát triển đến phiên bản 2.0.

Dữ liệu nói lên tất cả: ra mắt hai tuần, 1,5 tỷ hình mỗi tuần

Trong hai tuần sau khi GPT Image 2.0 chính thức ra mắt, lượng sử dụng tạo hình ảnh trên ChatGPT đã tăng hơn 50%, số hình ảnh tạo ra mỗi tuần vượt quá 1,5 tỷ. Đồng thời, các xu hướng sử dụng cũng lan rộng nhanh chóng trên toàn cầu — từ phân tích màu sắc và sticker phổ biến của người dùng châu Á, đến tranh phết màu, graffiti của người dùng Mỹ, đủ loại.

Adele cho rằng, sự lan truyền theo kiểu virus này chính là minh chứng cho một vấn đề: người dùng gần như ngay lập tức cảm nhận được sự nâng cấp về khả năng của mô hình. “Phản hồi trực quan về hình ảnh là rõ ràng nhất.” Cô nói, người dùng không cần đọc báo cáo kỹ thuật, chỉ cần mở mô hình tạo ra một bức tranh, xem có đẹp hay không, là biết ngay.

Người dẫn chương trình Andrew cũng chia sẻ cảm nhận tương tự — mức độ nâng cấp này lớn đến mức khiến anh nghĩ rằng, thay vì gọi là “2.0”, nên gọi là một bước chuyển đổi mô hình hoàn toàn mới. Vậy, sự chuyển đổi mô hình này thực sự đã xảy ra như thế nào?

Ba đột phá cốt lõi: văn bản, đa ngôn ngữ và cảm giác chân thực

Adele và Kenji quy kết khả năng vượt bậc của ImageGen 2.0 dựa trên một số đột phá chính đồng bộ.

Thứ nhất là khả năng xử lý văn bản. Các mô hình tạo hình ảnh sơ khai gần như thất bại hoàn toàn trong việc xử lý chữ trong hình — chữ bị biến dạng, từ ngữ lộn xộn, bố cục rối rắm. Andrew đùa rằng, từ thời DALL-E đầu tiên, chữ “OpenAI” trông như do tinh tinh viết vậy. Nhưng giờ đây, mô hình có thể rõ ràng, chính xác thể hiện đoạn văn dài trong hình, thậm chí là biểu đồ phức tạp.

Kenji dùng một thử nghiệm nội bộ để đo lường tiến bộ này: yêu cầu mô hình tạo ra một bức tranh lưới gồm 100 vật thể ngẫu nhiên, rồi đếm số đúng. Từ thời DALL-E 3 chỉ đạt 5 đến 8, đến ImageGen 1.0 khoảng 16, rồi ổn định ở mức 25 đến 36 trong phiên bản 1.5, còn hiện tại phiên bản 2.0 gần như có thể đạt gần 100 vật thể đúng hoàn toàn. “Đây không phải là một bước nhảy đột ngột, mà là sự tăng trưởng liên tục và ổn định.” Kenji nói.

Thứ hai là hỗ trợ đa ngôn ngữ. Nhóm đã tập trung rèn luyện khả năng hiểu và tạo ra nhiều ngôn ngữ khác nhau trong quá trình huấn luyện. Sau khi ra mắt, phản hồi tích cực từ người dùng châu Á và châu Âu đã chứng minh hướng đi này là đúng đắn — người dùng ở các môi trường ngôn ngữ khác nhau đều có thể nhận được hình ảnh phù hợp, chất lượng cao.

Thứ ba là cảm giác chân thực như chụp ảnh. Đây là một trong những điểm người dùng phản hồi nhiều nhất trước đó: các hình ảnh nhân vật do mô hình cũ tạo ra thường có cảm giác “quảng cáo magazine quá mức”, tỷ lệ khuôn mặt và cơ thể bị biến dạng, thiếu cảm giác thật. Phiên bản 2.0 đã làm rất nhiều việc để cải thiện điều này, mục tiêu là khiến hình ảnh “trông giống như chính bạn”. Kenji nhớ lần đầu xem kết quả của mô hình mới, cảm giác như thế nào: so sánh với kết quả của ImageGen 1.0, không cần phải bàn cãi, rõ ràng thắng thế.

Ông mô tả bức tranh đó là cảnh một người phụ nữ đứng bên bờ biển nhìn xa xăm. “Chúng tôi nhìn hai bức tranh, không nói gì. Chỉ… ừ, cái này thắng rồi.”

Làm thế nào để cân bằng tốc độ và chất lượng? Chìa khóa nằm ở giai đoạn hậu huấn luyện

Andrew đặt ra một câu hỏi nhiều người tò mò: mô hình ngày càng thông minh hơn, nhưng tốc độ tạo ra không giảm, làm thế nào?

Kenji giải thích, mỗi phiên bản đều tích lũy rất nhiều bài học kỹ thuật. Ví dụ về tốc độ, nhóm đã làm rất nhiều để nâng cao “hiệu quả token” của mô hình — dùng ít token hơn để tạo ra hình ảnh chất lượng cao hơn. Đây là quá trình tối ưu liên tục qua các phiên bản, chứ không phải dựa vào một đột phá công nghệ duy nhất.

Adele bổ sung về tầm quan trọng của giai đoạn hậu huấn luyện. Cô nói, khi huấn luyện mô hình này, nhóm không chỉ giúp mô hình hiểu thế giới — kiến thức khoa học, khái niệm, toán học trong hình ảnh thể hiện như thế nào — mà còn phải trả lời một câu hỏi mang tính chủ quan hơn: “đẹp” là gì? “có gu” là gì?

Những câu hỏi này không có câu trả lời chuẩn mực, nhưng lại quyết định giới hạn chất lượng đầu ra của mô hình. Để làm được điều đó, nhóm hợp tác chặt chẽ với nhiều nghệ sĩ, nhà thiết kế, nhân viên marketing, cố gắng đúc kết các tiêu chuẩn thẩm mỹ và thực hành tốt nhất của các lĩnh vực này vào cách mô hình tương tác với người dùng.

Nhóm cũng theo dõi sát phản hồi từ mạng xã hội, đưa các vấn đề thực tế trong sử dụng vào vòng lặp cải tiến. Kenji nói, những phản hồi này sẽ được xử lý hoặc trong các phiên bản tới, hoặc sẽ được sửa triệt để.

Xu hướng lan truyền theo kiểu virus: dùng AI thể hiện “bản thân không hoàn hảo”

Trong các xu hướng sử dụng xuất hiện sau khi ra mắt, có một điều khiến nhóm cảm thấy vừa bất ngờ vừa thích thú: người dùng dùng khả năng mạnh mẽ của mô hình để tạo ra những hình ảnh thô ráp, vụng về theo phong cách “vẽ nguệch ngoạc của Microsoft” — biến ảnh của người nổi tiếng hoặc hình hot thành các tác phẩm pixel, graffiti.

Adele có một phân tích sâu sắc về điều này: “Muốn AI tạo ra thứ ‘không hoàn hảo’ thực ra đòi hỏi trí tuệ rất cao.” Điều này không phải là thất bại của mô hình, mà chính là biểu hiện của việc mô hình hiểu rõ ý định của người dùng.

Cô cho rằng, điều này phản ánh một xu hướng tâm lý tiêu dùng: mọi người mong muốn cảm giác chân thực, không hoàn hảo và hoài cổ. Phong cách phết màu, graffiti, pixel cổ điển — những từ khóa này đều hướng về một chủ đề chung: người dùng muốn AI thể hiện bản thân một cách chân thật, vui vẻ hơn, chứ không chỉ đơn thuần là “xuất ra hoàn hảo”.

“Ai thể hiện bản thân qua AI chính là hướng chúng tôi cảm thấy phấn khích nhất.” Adele nói, điều này cũng phù hợp với sứ mệnh của OpenAI — giúp nhiều người hơn có thể thể hiện “bản thân mà trước đây không thể thể hiện được”.

Từ giải trí đến năng suất: giáo dục, thiết kế và thâm nhập các ngành khác

Một chuyển biến quan trọng khác của ImageGen 2.0 là từ các ứng dụng chủ yếu giải trí, chuyển sang công cụ thúc đẩy năng suất thực sự.

Trong lĩnh vực giáo dục, nhóm có một kênh thử nghiệm nội bộ dành riêng cho giáo viên, từ tiểu học đến đại học. Kenji chia sẻ một ví dụ ấn tượng: một giáo sư sinh học nhập nội dung sách giáo trình cấp cao vào mô hình, tạo ra các trang minh họa chính xác cao, và xác nhận nội dung hoàn toàn đúng.

Adele cho rằng, khả năng biến các khái niệm phức tạp thành hình ảnh dễ hiểu là một trong những điểm mạnh của mô hình này. Cô đặc biệt nhấn mạnh hướng “học tập cá nhân hóa” — giáo viên có thể dùng ImageGen để tạo ra tài liệu học tập phù hợp với từng học sinh, dựa trên ngôn ngữ, sở thích riêng. Đây là hướng nhóm đang tích cực khám phá: làm thế nào để tích hợp sâu hơn ImageGen vào các kịch bản học tập của ChatGPT, giúp việc giảng dạy khái niệm đi kèm hình ảnh trực quan.

Trong môi trường làm việc, Adele tiết lộ một dữ liệu nội bộ thú vị: hơn 50% các slide trình bày nội bộ của OpenAI đã sử dụng hình ảnh do ImageGen tạo ra. “Việc hình ảnh hóa giao tiếp đang lan rộng nhanh hơn chúng tôi dự đoán.”

Ngoài ra, cô còn liệt kê các nhóm nghề nghiệp đã bắt đầu dùng ImageGen: nhân viên bất động sản tạo hình ảnh nhà đất và mô phỏng nội thất ảo, nhà sáng tạo YouTube làm ảnh bìa video và vật phẩm quảng cáo, nghệ sĩ kết nối với fan qua hình ảnh, nhà văn tạo hình ảnh cho mạng xã hội…

Người dẫn chương trình Andrew cũng chia sẻ trải nghiệm cá nhân: anh gửi bìa sách của mình cho mô hình, để tạo ra các hình quảng cáo phù hợp với các kích thước mạng xã hội khác nhau, lần đầu đã đạt tỷ lệ và phong cách đúng ý. “Cảm giác như phép thuật vậy.”

Tổng thể 360 độ, ảnh linh hồn và Codex hợp tác: khả năng xuất hiện bất ngờ

Ngoài các khả năng đã dự đoán, phiên bản 2.0 còn mang lại một số khả năng “tự nhiên xuất hiện” mà nhóm cũng chưa hoàn toàn dự đoán trước.

Chẳng hạn, hình toàn cảnh 360 độ. Nhóm phát hiện ra rằng, khi hỗ trợ tạo hình theo tỷ lệ tùy ý, người dùng bắt đầu tự tạo ra các hình toàn cảnh siêu rộng, thậm chí là hình dạng 360 độ vòng quanh. Nhóm đã tích hợp khả năng này thành chức năng sản phẩm, cho phép người dùng tạo và duyệt trực tiếp các hình toàn cảnh 360 độ trên web và di động của ChatGPT. Andrew đã dùng nó để tạo ra một bức “chó chơi bài” 360 độ, từ góc nhìn của chú chó, nhìn quanh.

Ảnh sprite (Sprite Sheet) cũng trở thành một xu hướng phổ biến bất ngờ. Các nhà phát triển game và sáng tạo độc lập dùng ImageGen để tạo các sprite đa dạng của nhân vật, kết hợp khả năng tạo mã của Codex để xây dựng các trò chơi nhỏ có nhân vật tùy chỉnh từ đầu. Andrew mô tả quá trình anh chứng kiến: nói “Tôi muốn một con quạ” trong Codex, rồi hệ thống tự gọi công cụ ImageGen, tạo ra các sprite của quạ, rồi Codex tích hợp vào mã game. “Thật là phép thuật.”

Khả năng duy trì nhất quán hình ảnh trong nhiều hình là một tiến bộ rõ rệt của 2.0. Kenji nói, đã có người dùng thử tạo truyện tranh dài 10 trang, các nhân vật và phong cách hình ảnh giữ độ nhất quán cao qua nhiều hình. Khả năng này trước đây đòi hỏi nhiều thao tác thủ công và kỹ năng, giờ trở nên đáng tin cậy và mượt mà hơn.

Bước tiếp theo: Agent sáng tạo và trợ lý hình ảnh cá nhân hóa

Nói về hướng phát triển tương lai, Adele đưa ra một tầm nhìn rõ ràng: Agent sáng tạo (Creative Agent).

Cô mô tả hình dung về một AI hiểu rõ cách làm việc, sở thích thẩm mỹ và mục tiêu của bạn, có thể đóng vai trò như nhà thiết kế nội thất riêng, kiến trúc sư cá nhân, nhà tổ chức tiệc cưới riêng — tất cả đều thể hiện trong một bức tranh.

Hướng này tập trung vào việc đưa “cá nhân hóa” thực sự vào từng bước của quá trình tạo hình ảnh. Adele lấy ví dụ về “me-me-me eval” của chính cô: dùng 100 ảnh của chính mình, bạn bè, gia đình làm bộ dữ liệu đánh giá, thử xem mô hình có thể chèn các yếu tố cá nhân phù hợp vào hình ảnh đúng ngữ cảnh hay không — ví dụ, ChatGPT nhớ cô có em trai, biết bố mẹ thích làm gì, để khi tạo thiệp sinh nhật, mô hình có thể tự nhiên tích hợp các thông tin này vào hình.

Kenji từ góc độ nghiên cứu bổ sung, nhóm vẫn đang tối ưu hóa tính nhất quán đa hình, trải nghiệm sáng tạo tổng thể, và giúp người dùng dễ dàng, nhanh chóng có được kết quả mong muốn. “Hiện tại vẫn chưa hoàn hảo, nhưng chúng tôi đã biết hướng đi rồi.”

Về kỹ thuật prompt, hai người cũng đưa ra lời khuyên riêng. Adele đề xuất người dùng thử “Chế độ suy nghĩ của ImageGen” — trong chế độ Pro hoặc chế độ suy nghĩ, ImageGen có thể kết nối mạng, phân tích tài liệu, gọi công cụ, giúp nâng cao chất lượng và bố cục hình ảnh. Cô khuyên dùng prompt mở, để mô hình tự khám phá, suy luận, đồng thời định hướng theo phong cách thẩm mỹ rõ ràng. Kenji thì thích phong cách tối giản, thường nói rõ “giữ sạch sẽ, đơn giản” cho mô hình.

Nếu DALL-E là thời kỳ đồ đá của tạo hình ảnh, thì ImageGen 2.0 chính là thời kỳ Phục Hưng — không chỉ tiến bộ về nghệ thuật, mà còn là sự hòa quyện toàn diện giữa khoa học, nghệ thuật, kiến trúc, tri thức và thẩm mỹ. Cuộc đối thoại kết thúc bằng câu nói của Adele, và có lẽ đó cũng chính là cách tốt nhất để hiểu về mô hình này: nó không còn chỉ là một “công cụ vẽ tranh”, mà đã bắt đầu hiểu thế giới, hiểu người, hiểu vẻ đẹp.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim