O GPT-5 está chegando? Foi revelado que a OpenAI acelerou o treinamento do grande modelo multimodal Gobi, matando o Google Gimini de uma só vez!

Question

**Fonte:**Xinzhiyuan**Introdução:** No campo de batalha dos grandes modelos multimodais, algumas pessoas já perceberam isso. De acordo com relatos da mídia estrangeira, o novo modelo multimodal da OpenAI, Gobi, parece estar em preparação. O confronto entre Google e OpenAI parece iminente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2a481a75c2-dd1a6f-6d2ef1) Fonte da imagem: gerada por Unbounded AIÀ medida que o outono se aproxima, a batalha do modelo multimodal entre o Google e a OpenAI também entrou em um estágio acirrado.Na semana passada, o Google abriu os recursos de seu grande modelo multimodal Gemini para algumas empresas externas.E a OpenAI, é claro, não ficará parada esperando pela morte. Eles estão correndo contra o tempo para integrar funções multimodais ao GPT-4, se esforçando para lançar um grande modelo multimodal com funções semelhantes ao Gemini e matar o Google de uma só vez.A lendária função multimodal foi demonstrada na conferência GPT-4 da OpenAI que chocou o mundo em março deste ano——Desenhe um esboço no papel, tire uma foto e envie para o GPT-4, e diga “Faça-me um site com este layout”, e ele escreverá imediatamente o código da página web.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c171a3b4f2-dd1a6f-6d2ef1) O chefe Greg Brockman demonstrou pessoalmente onlineMas então, a multimodalidade parecia ser uma novidade, e ninguém jamais viu uma função física produzida.Então, a guerra multimodal entre Google e OpenAI finalmente está chegando?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-616be2fb11-dd1a6f-6d2ef1)## **Competindo com o Google, OpenAI corre para lançar grandes modelos multimodais**Diante dos rumores de que o Google vai matar seu próprio grande assassino, a OpenAI certamente não permanecerá indiferente.De acordo com a mídia estrangeira The Information, um novo grande modelo multimodal chamado Gobi já está em preparação intensiva.A OpenAI planeja lançar o LLM multimodal antes do lançamento do Gemini, derrotando completamente o Google.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2ae9d54225-dd1a6f-6d2ef1) Greg Brockman da OpenAI x Demis Hassabis do GoogleNa verdade, depois de lançar uma prévia do recurso multimodal GPT-4 em março, a OpenAI lançou esse recurso para uma empresa chamada Be My Eyes, mas não o forneceu a outras empresas.Como você pode perceber pelo nome, esta empresa está desenvolvendo tecnologia que permite que pessoas cegas ou com deficiência visual vejam com mais clareza.Recentemente, a OpenAI planeja lançar um recurso chamado GPT-Vision de forma mais ampla.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0cece22801-dd1a6f-6d2ef1) Por que o OpenAI demorou tanto?A principal razão é que eles estão preocupados com a possibilidade de as novas funções visuais serem utilizadas por criminosos, como a personificação de seres humanos através da quebra automática de códigos de verificação ou o rastreamento de seres humanos através do reconhecimento facial.No entanto, os engenheiros da OpenAI parecem ter resolvido esses riscos legais de segurança.Da mesma forma, um porta-voz do Google também disse: O Google tomou algumas medidas para evitar abusos no Gemini.Num compromisso assumido em julho, o Google comprometeu-se a desenvolver inteligência artificial responsável em todos os seus produtos.##### **Gobi pode se tornar GPT-5? **Depois do GPT-Vision, a OpenAI provavelmente lançará um grande modelo multimodal mais poderoso, de codinome Gobi.Ao contrário do GPT-4, o Gobi é construído desde o início em um modelo multimodal.Então, Gobi é o lendário GPT-5?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8f54e33e9-dd1a6f-6d2ef1) Neste momento, não sabemos. Não há informações definitivas sobre o quão longe Gobi chegou nos treinos.No início de setembro, Mustafa Suleyman, cofundador da DeepMind e agora CEO da Inflection AI, lançou uma bomba em uma entrevista – de acordo com suas especulações, a OpenAI estava treinando secretamente o GPT-5.Suleyman acredita que Sam Altman pode não estar dizendo a verdade quando disse recentemente que eles não treinaram o GPT-5. (As palavras originais são: Vamos lá. Não sei. Acho que é melhor que todos sejamos francos sobre isso.)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-03da3dd0d0-dd1a6f-6d2ef1) Aqui, de acordo com pessoas que experimentaram o Gemini, o Gemini produzirá menos alucinações do que os modelos existentes. Os motivos são detalhados abaixo.Em suma, pode-se dizer que a guerra de modelos multimodais entre Google e OpenAI é a versão AI do confronto entre iPhone e Android.Um é um gigante do Vale do Silício que domina o campo da IA há muitos anos, e o outro é uma empresa start-up de IA de alto nível que não tem igual no centro das atenções. Quão grande é a diferença entre os dois, todos estão esperando com a respiração suspensa.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-760eba07f4-dd1a6f-6d2ef1) ### **Google testa secretamente o Gemini**Por outro lado, o Google também começou a convidar alguns desenvolvedores externos para agilizar os testes do grande modelo multimodal de próxima geração Gemini.Na semana passada, The Information informou com exclusividade que o Gemini poderá em breve estar pronto para uma versão beta e integrado a serviços como o Google Cloud Vertex AI.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-201cbc9c02-dd1a6f-6d2ef1) Na Google I/O Developer Conference deste ano, Pichai apresentou publicamente o Gemini, que é um modelo multimodal, ferramenta de integração eficiente e API.Para trabalhar juntos para fazer grandes coisas, o Google também fundiu o Google Brain com o DeepMind Labs.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e1bee6f282-dd1a6f-6d2ef1) Diz-se que pelo menos mais de 20 executivos participaram da pesquisa e desenvolvimento do Gemini, liderados por Demis Hassabis, o fundador da DeepMind, e Sergey Brin, o fundador do Google, participaram da pesquisa e desenvolvimento.Há também centenas de funcionários no Google DeepMind, incluindo o ex-diretor do Google Brain, Jeff Dean, e outros.Uma pessoa que o testou disse que o Gemini tem uma vantagem sobre o GPT-4 em pelo menos um aspecto: além das informações publicamente disponíveis na web, o modelo também aproveita uma grande quantidade de dados proprietários dos produtos de consumo do Google (pesquisa, YouTube) .Portanto, o Gemini deve ser particularmente preciso na compreensão da intenção do usuário para uma consulta específica e parece produzir menos respostas incorretas, ou seja, alucinações.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-bc81db72a5-dd1a6f-6d2ef1) De acordo com relatórios anteriores de analistas da SemiAnalysis, o grande modelo Gemini da próxima geração do Google começou a treinar no novo Pod TPUv5, com um poder de computação de até ~1e26 FLOPS, que é 5 vezes maior que o poder de computação do treinamento GPT-4.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8091bc7c50-dd1a6f-6d2ef1) Além disso, o banco de dados de treinamento do Gemini contém 93,6 bilhões de minutos de legendas de vídeo no Youtube, e o tamanho total do conjunto de dados é aproximadamente o dobro do GPT-4.Diz-se que o grande modelo de próxima geração do Google também é composto por múltiplas escalas e pode usar arquitetura MoE e tecnologia de amostragem especulativa.O token é gerado antecipadamente pelo modelo pequeno e passado para o modelo grande para avaliação, a fim de melhorar a velocidade geral de raciocínio do modelo.Hassabis, chefe do Google DeepMind, disse em uma entrevista que o Gemini deverá custar dezenas a centenas de milhões de dólares, o que equivale ao custo de desenvolvimento do GPT-4.> Gemini integrará a tecnologia utilizada no AlphaGo, o que dará ao sistema novas capacidades de planejamento e resolução de problemas.>> Pode-se dizer que o Gemini combina algumas das vantagens do sistema AlphaGo com as incríveis capacidades de linguagem de grandes modelos de linguagem. E temos algumas outras inovações interessantes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3ffd696fb2-dd1a6f-6d2ef1) A tecnologia por trás do AlphaGo é o aprendizado por reforço, uma tecnologia pioneira da DeepMind.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8c1778861-dd1a6f-6d2ef1) Os agentes RL interagem com o ambiente ao longo do tempo, aprendendo políticas através de tentativa e erro, maximizando assim as recompensas cumulativas a longo prazoAtravés da aprendizagem por reforço, a IA pode ajustar o seu desempenho através de tentativa e erro e receber feedback, aprendendo assim a lidar com problemas difíceis, como escolher como dar o próximo passo no Go ou nos videojogos.Além disso, AlphaGo também utiliza o método Monte Carlo Tree Search (MCTS) para explorar e lembrar todos os movimentos possíveis no tabuleiro.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0155cd1a35-dd1a6f-6d2ef1) Em comparação com os modelos existentes, o Gemini melhorará muito as capacidades de geração de código dos desenvolvedores de software, e o Google espera usá-lo para acompanhar o assistente de código GitHub Copilot da Microsoft.O Google também discutiu o uso do Gemini para implementar funções como análise de gráficos, como pedir ao modelo para interpretar o significado dos gráficos concluídos e usar comandos de texto ou voz para navegar em navegadores da web ou outro software.Google Cloud Vertex AI, a plataforma de desenvolvimento do Google Cloud, também será suportada pelo Gemini, com versões grandes e pequenas disponíveis, para que os desenvolvedores possam pagar para comprar modelos pequenos para rodar em dispositivos pessoais.Agora, o Google está totalmente preparado para a guerra, esperando que o Gemini inicie seu contra-ataque.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a714aa6120-dd1a6f-6d2ef1)## **gpt-3.5-turbo-instruct lançado**Em julho, a OpenAI anunciou que a API GPT-4 está totalmente disponível e lançará novos modelos nos próximos meses.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7bd008c8ed-dd1a6f-6d2ef1) Não, ainda hoje, os internautas receberam e-mails divulgando o novo modelo do gpt-3.5-turbo-instruct para substituir o antigo modelo text-davinci-003.Segundo relatos, gpt-3.5-turbo-instruct é um modelo do estilo InstructGPT e seu método de treinamento é semelhante ao text-davinci-003.O método de utilização é semelhante ao anterior -Completion, completando de acordo com as instruções da palavra prompt.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-87210bb364-dd1a6f-6d2ef1) Em termos de preço, o gpt-3.5-turbo 4K permanece consistente.Alguns internautas começaram a usar o modelo mais recente para jogar xadrez com cerca de 1800 Elo.Ele descobriu anteriormente que o GPT não poderia fazer isso, mas agora parece que isso é apenas um problema com o modelo de bate-papo RLHF, e o modelo de conclusão pura é bem-sucedido.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8d2cf1b156-dd1a6f-6d2ef1) No jogo, gpt-3.5-turbo-instruct derrotou facilmente o Stockfish nível 4 (1700 pontos) e ainda não ficou para trás no nível 5 (2000 pontos).Ele nunca faz um movimento ilegal, usa sacrifícios iniciais inteligentes e incríveis xeque-mate de peão e rei, permitindo que seus oponentes avancem sem qualquer significado real.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6418d4a2c8-dd1a6f-6d2ef1) Os internautas usam os seguintes prompts de estilo PGN para simular o jogo mestre. O destaque está um pouco errado. O GPT faz seus próprios movimentos e insere manualmente os movimentos do Stockfish.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-eebb70a314-dd1a6f-6d2ef1)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3744cf2619-dd1a6f-6d2ef1) A propósito, já começaram as inscrições para a primeira conferência de desenvolvedores da OpenAI, que será realizada em novembro, então corra e inscreva-se.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a1db8e2172-dd1a6f-6d2ef1) Referências:

O GPT-5 está chegando? Foi revelado que a OpenAI acelerou o treinamento do grande modelo multimodal Gobi, matando o Google Gimini de uma só vez!

Competindo com o Google, OpenAI corre para lançar grandes modelos multimodais

Gobi pode se tornar GPT-5?

gpt-3.5-turbo-instruct lançado

Tópicos em destaque

WCTCTradingKingPK

IsraelStrikesIranBTCPlunges

#FedHoldsRateButDividesDeepen

#DailyPolymarketHotspot

TapAndPayWithGateCard

Fixar