Este é o conteúdo do 19º episódio do podcast oficial da OpenAI. O apresentador Andrew Mayne e os pesquisadores Kenji Hata e a responsável pelo produto Adele Li discutiram profundamente sobre GPT Image 2.0 (ou ImageGen 2.0). Essa conversa ocorreu cerca de duas semanas após o lançamento oficial do modelo — na época, a geração semanal de imagens já ultrapassava 1,5 bilhão, e várias tendências de uso se tornaram rapidamente populares globalmente. Não foi apenas uma revisão do lançamento do produto, mas uma discussão franca sobre a mudança de paradigma na tecnologia de geração de imagens.

De investidores a responsáveis por produto: uma história de mudança de papéis

Adele Li, antes de ingressar na OpenAI, trabalhou toda a sua carreira em investimentos. Ela passou por fundos de private equity e Redpoint Ventures, focando em investimentos iniciais em IA e software. Quando entrou na OpenAI, inicialmente era responsável pelo planejamento de infraestrutura de dados e computação, bastante distante de geração de imagens. No entanto, nos últimos seis meses, ela gradualmente se voltou para o lado de produto, assumindo integralmente o trabalho de produto do ImageGen.

Ela admite que a essência do papel de gerente de produto é “fazer o que precisa ser feito”, independentemente do que seja. E o projeto ImageGen permitiu que ela mobilizasse várias habilidades — colaborando estreitamente com pesquisadores como Kenji, além de pensar constantemente onde há lacunas no mercado e janelas de oportunidade.

“Este já não é o mercado de um ano atrás, quando o ImageGen 1.0 foi lançado.” diz Adele. Hoje, há vários concorrentes na corrida de geração de imagens, e o próprio ChatGPT já é um produto completamente diferente. Nesse contexto, refletir sobre o papel evolutivo do ImageGen dentro do ecossistema do ChatGPT é uma das coisas que ela acha mais interessante.

Kenji Hata também ingressou na OpenAI há cerca de dois anos. Inicialmente trabalhou em um projeto de áudio, mas por acaso acabou participando das atividades de pré-lançamento do ImageGen 1.0, e depois se dedicou integralmente à pesquisa de geração de imagens, chegando até a versão 2.0.

Dados falam: duas semanas após o lançamento, 1,5 bilhão de imagens por semana

Nas duas semanas após o lançamento oficial do GPT Image 2.0, o uso de geração de imagens no ChatGPT cresceu mais de 50%, ultrapassando 1,5 bilhão de imagens geradas por semana. Ao mesmo tempo, várias tendências de uso se espalharam rapidamente globalmente — desde análises de cores e stickers populares entre usuários asiáticos, até desenhos em giz e estilos de rabisco entre usuários americanos.

Adele acredita que essa disseminação viral já indica uma questão importante: os usuários perceberam quase instantaneamente a elevação das capacidades do modelo. “O feedback visual é o mais direto.” ela afirma, os usuários não precisam ler relatórios técnicos, basta abrir o modelo, gerar uma imagem e avaliar de uma olhada se ficou boa ou não.

O apresentador Andrew também compartilhou dessa sensação — a magnitude da melhora de capacidades foi tão grande que ele acha que, ao invés de chamá-lo de “2.0”, seria mais adequado chamá-lo de um novo paradigma. Mas como exatamente essa mudança de paradigma aconteceu?

Três grandes avanços: texto, multilíngue e realismo

Adele e Kenji atribuem a elevação das capacidades do ImageGen 2.0 a avanços sincronizados em vários aspectos-chave.

O primeiro é a capacidade de renderização de texto. Modelos iniciais de geração de imagens tinham dificuldades quase catastróficas ao lidar com textos nas imagens — letras deformadas, palavras embaralhadas, layout confuso. Andrew brincou que, nos primeiros tempos, o “OpenAI” gerado pelo DALL-E parecia escrito por um chimpanzé. Agora, o modelo consegue apresentar textos longos, claros e precisos nas imagens, inclusive gráficos complexos.

Kenji usou um teste interno para quantificar esse progresso: pediu ao modelo gerar uma grade com 100 objetos aleatórios e contou a precisão. De cerca de 5 a 8 objetos na era do DALL-E 3, para cerca de 16 na ImageGen 1.0, estabilizando entre 25 e 36 na versão 1.5, e agora, na versão 2.0, quase chegando a 100 objetos corretos. “Não foi um salto repentino, mas um crescimento contínuo e estável.” disse Kenji.

O segundo avanço é o suporte multilíngue. Durante o treinamento, a equipe reforçou especificamente a compreensão e geração de múltiplos idiomas pelo modelo. Após o lançamento, o feedback ativo de usuários na Ásia e Europa confirmou essa direção — usuários de diferentes línguas conseguem obter imagens localizadas de alta qualidade.

O terceiro é o realismo fotográfico. Essa foi uma das principais dores relatadas pelos usuários anteriormente: imagens de pessoas geradas por modelos antigos frequentemente tinham uma estética “exageradamente polida de capa de revista”, com proporções distorcidas e falta de realismo. A versão 2.0 trabalhou bastante nesse aspecto, com o objetivo de fazer as imagens “parecerem mais com você mesmo”. Kenji lembra de sua primeira impressão ao ver os resultados de um ponto de verificação do novo modelo: ao colocar lado a lado com os resultados do ImageGen 1.0, a diferença era clara e sem discussão.

Ele descreveu uma cena de uma mulher olhando para o mar. “Olhamos as duas imagens, sem dizer uma palavra. Simplesmente… ok, essa ganhou.”

Como equilibrar velocidade e qualidade? O papel do pós-treinamento

Andrew levantou uma dúvida comum: o modelo ficou mais inteligente, mas a velocidade de geração não diminuiu. Como conseguir isso?

Kenji explicou que cada versão acumulou uma vasta aprendizagem de engenharia. Por exemplo, trabalhar na eficiência de tokens — gerar imagens de alta qualidade usando menos tokens — foi uma grande prioridade. Essa é uma otimização contínua em cada iteração, não uma única inovação técnica.

Adele complementou destacando a importância do pós-treinamento. Ela disse que, ao treinar o modelo, a equipe não só buscou ensinar ao modelo conhecimentos do mundo — ciência, conceitos, matemática —, mas também responder a uma questão mais subjetiva: o que é “bonito”? O que é “com bom gosto”?

Essas perguntas não têm respostas padrão, mas determinam diretamente o limite de qualidade das saídas do modelo. Para isso, a equipe trabalhou junto a artistas, designers e profissionais de marketing, tentando incorporar esses julgamentos estéticos e boas práticas ao modo de interação do modelo com o usuário.

Eles também monitoram feedbacks de redes sociais, incluindo problemas do mundo real, para ajustar as próximas versões. Kenji afirmou que esses feedbacks são tratados para aliviar problemas ou, em alguns casos, completamente resolvê-los na próxima atualização.

Tendências virais por trás: usar IA para expressar “imperfeições” do eu

Entre as tendências de uso que surgiram após o lançamento, uma delas surpreendeu e divertiu a equipe: usuários usando o modelo altamente capaz para gerar imagens rústicas, com estilo “desenho do Windows”, degradando fotos de celebridades ou imagens populares em rabiscos pixelados.

Adele fez uma leitura perspicaz: “Para fazer a IA gerar algo ‘imperfeito’, é preciso muita inteligência.” Não é uma falha do modelo, mas uma demonstração de que ele realmente compreende a intenção do usuário.

Ela acredita que isso reflete uma tendência psicológica: as pessoas desejam autenticidade, imperfeição e nostalgia. Estilos de giz, rabisco, pixel vintage — todas essas palavras-chave populares apontam para um tema comum: os usuários querem usar IA para mostrar uma versão mais real, mais divertida de si mesmos, não apenas uma saída “perfeita”.

“Expressar-se com IA é uma direção que realmente nos empolga.” diz Adele, alinhando-se à missão da OpenAI — permitir que mais pessoas expressem aquele “eu que antes não podia ser expresso”.

De entretenimento a produtividade: educação, design e penetração em diferentes setores

Outro avanço importante do ImageGen 2.0 é sua transição de um cenário predominantemente de entretenimento para uma ferramenta de produtividade real.

Na educação, há um canal de testes internos voltado para professores, cobrindo desde o ensino fundamental até pós-graduação. Kenji compartilhou um caso impressionante: uma professora de biologia usou o modelo para gerar diagramas altamente precisos de conteúdo de livros didáticos avançados, com conteúdo totalmente correto.

Adele acredita que transformar conceitos complexos em conteúdos visuais acessíveis é uma das maiores forças do modelo. Ela destacou especialmente o potencial de “aprendizado personalizado” — professores podem usar o ImageGen para criar materiais de estudo sob medida para estudantes de diferentes línguas e preferências. Essa é uma direção que ela e a equipe estão explorando ativamente: integrar o ImageGen mais profundamente nos cenários de aprendizagem do ChatGPT, tornando o ensino de conceitos uma experiência visual natural.

No ambiente de trabalho, Adele revelou um dado interno interessante: mais de 50% das apresentações internas da OpenAI já usam imagens geradas pelo ImageGen. “A penetração da comunicação visual está muito mais rápida do que imaginávamos.”

Ela também citou diferentes profissionais que já usam o ImageGen: corretores imobiliários gerando imagens de propriedades e reformas virtuais, criadores do YouTube produzindo capas de vídeos e materiais promocionais, artistas conectando-se com fãs, escritores criando imagens para redes sociais…

Andrew também compartilhou sua experiência pessoal: enviou a capa de seu livro ao modelo, que gerou versões otimizadas para diferentes tamanhos de redes sociais, com proporções e estilos corretos na primeira tentativa. “É como magia.”

Capacidades emergentes: panoramas 360°, sprites e colaboração com Codex

Além das melhorias esperadas, a versão 2.0 trouxe algumas capacidades emergentes que nem a equipe previa totalmente.

Um exemplo é a geração de panoramas 360°. A equipe descobriu que, ao suportar proporções arbitrárias, os usuários começaram a gerar espontaneamente imagens de panoramas ultra largos e até de 360 graus. Aproveitando isso, transformaram essa capacidade em uma funcionalidade do produto, permitindo que os usuários gerem e naveguem imersivamente em panoramas 360° no navegador ou no app móvel do ChatGPT. Andrew foi um dos primeiros a usar essa função, criando uma versão de “cachorro jogando pôquer” em 360°, do ponto de vista do cachorro.

Sprites (spritesheets) também se tornaram um uso popular inesperado. Desenvolvedores de jogos e criadores independentes usam o ImageGen para gerar sprites de personagens com múltiplas poses, e combinam com o Codex para gerar o código do jogo do zero, com personagens personalizados. Andrew descreveu uma cena que viu: pediu “quero uma coruja”, e o sistema chamou automaticamente o ImageGen para criar a sprite, que foi integrada ao código do jogo pelo Codex. “Isso é magia.”

A consistência entre múltiplas imagens também avançou bastante na 2.0. Kenji mencionou que já há usuários criando histórias em quadrinhos de 10 páginas com personagens e estilos visuais altamente consistentes ao longo de todas as imagens. Essa capacidade, que antes exigia muita intervenção manual, agora é mais confiável e fluida.

Próximos passos: agentes criativos e assistentes visuais personalizados

Sobre o futuro, Adele apresentou uma visão clara: agentes criativos (Creative Agents).

Ela descreveu um cenário onde um assistente de IA realmente compreende seu modo de trabalho, preferências estéticas e objetivos, podendo atuar como seu designer de interiores, arquiteto, planejador de casamentos — tudo refletido em uma única imagem.

O núcleo dessa direção é inserir “personalização” em cada etapa da geração de imagens. Adele citou seu próprio exemplo de avaliação “me-me-me eval”: usando 100 fotos de si mesma, amigos e familiares, ela testa se o modelo consegue inserir elementos personalizados corretos — por exemplo, se o ChatGPT lembra que ela tem um irmão, o que seus pais gostam de fazer, e se na geração de cartões de aniversário essas informações são integradas naturalmente na imagem.

Kenji, do lado de pesquisa, acrescentou que a equipe continua otimizando a consistência entre múltiplas imagens, a experiência geral na criação visual e a facilidade de o usuário obter o resultado desejado. “Ainda não está perfeito, mas sabemos para onde estamos indo.”

Quanto às dicas de prompts, ambos deram sugestões. Adele recomenda experimentar o “modo de pensamento do ImageGen” — usando o modo Pro ou de raciocínio, o ImageGen pode pesquisar na web, analisar arquivos e usar ferramentas, elevando a qualidade e a composição. Ela sugere usar prompts abertos nesse modo, deixando o modelo explorar e raciocinar, com um estilo estético definido como âncora. Kenji prefere um estilo mais minimalista, pedindo “manter limpo e simples” nas instruções.

Se DALL-E foi a Idade da Pedra da geração de imagens, o ImageGen 2.0 é seu Renascimento — uma fusão de arte, ciência, arquitetura, conhecimento e estética. No final, Adele conclui com uma frase que talvez seja a melhor forma de entender esse modelo: ele não é mais apenas uma “ferramenta de desenho”, mas um agente visual que começa a entender o mundo, as pessoas e a beleza.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
1.79M Popularidade
#
CLARITYActPassesSenateCommittee
3.49M Popularidade
#
IsraelStrikesIranBTCPlunges
46.79K Popularidade
#
#DailyPolymarketHotspot
362.91K Popularidade
#
BitcoinVShapedReversalBack
178.98M Popularidade

Fixado

Do período Paleolítico ao Renascimento: Os avanços tecnológicos e reflexões de produto por trás do OpenAI Image Generation 2.0

Tópicos em destaque

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fixado