A OpenAI lançou o modelo de fala-para-fala gpt-realtime com suporte multimodal, habilidades de conversação avançadas e forte desempenho em raciocínio auditivo.
A organização de pesquisa em inteligência artificial OpenAI anunciou a disponibilidade geral da sua API Realtime, agora aprimorada com recursos que permitem a desenvolvedores e empresas construir agentes de voz robustos e prontos para produção. A API suporta servidores MCP remotos, entradas de imagem e chamadas telefônicas via Protocolo de Iniciação de Sessão (SIP), permitindo aplicações de voz mais capazes e cientes do contexto.
Juntamente com a API, a OpenAI lançou seu modelo de fala-para-fala mais avançado, gpt-realtime, projetado para melhorar o seguimento de instruções, chamadas de função e fala com som natural. O modelo pode interpretar prompts complexos, mudar de idioma no meio da frase, reproduzir sequências alfanuméricas com precisão e capturar sinais não verbais. Duas novas vozes, Cedar e Marin, também estão disponíveis, oferecendo uma entonação mais expressiva e semelhante à humana. As vozes existentes foram atualizadas para incorporar essas melhorias.
A API em Tempo Real processa áudio diretamente através de um único modelo, reduzindo a latência e preservando a nuance, ao contrário dos pipelines tradicionais que encadeiam modelos separados de fala-para-texto e texto-para-fala. gpt-realtime foi treinada em colaboração com os usuários para se destacar em aplicações do mundo real, como suporte ao cliente, assistência pessoal e educação. Avaliações de benchmark mostram melhorias substanciais em raciocínio, adesão a instruções e precisão na chamada de funções em comparação com modelos anteriores.
Atualizações adicionais incluem a chamada de funções assíncronas, permitindo operações de longa duração sem interromper conversas em andamento, apoiando ainda mais experiências de voz contínuas e prontas para produção.
OpenAI Expande a API em Tempo Real com Suporte MCP, Entradas de Imagem, Integração SIP e Controles de Redução de Custos para Agentes de Voz
A API em tempo real da OpenAI agora inclui novos recursos projetados para simplificar a integração e expandir as capacidades para agentes de voz prontos para produção. Os desenvolvedores podem habilitar o suporte remoto MCP vinculando uma sessão a uma URL do servidor MCP, permitindo que a API gerencie chamadas de ferramentas automaticamente e acesse funcionalidades adicionais sem configuração manual.
O modelo gpt-realtime agora suporta entradas de imagem, permitindo que o sistema incorpore fotos, capturas de tela e outros visuais juntamente com áudio ou texto. Isso permite que os usuários façam perguntas específicas sobre o que veem, enquanto os desenvolvedores mantêm o controle sobre quais imagens são compartilhadas e quando.
Melhorias adicionais incluem suporte para o Protocolo de Iniciação de Sessão (SIP) para conectar aplicativos a redes telefônicas e sistemas PBX, bem como prompts reutilizáveis que permitem aos desenvolvedores salvar e implantar instruções pré-configuradas, ferramentas e mensagens de exemplo em múltiplas sessões.
A API Realtime geralmente disponível e o modelo gpt-realtime estão agora acessíveis a todos os desenvolvedores, com preços reduzidos em 20% em comparação com o anterior gpt-4o-realtime-preview. Novos controles para o contexto da conversa permitem uma gestão de tokens mais inteligente, reduzindo os custos para sessões prolongadas. Documentação, um Playground para testes e um guia de prompts da API Realtime estão disponíveis para apoiar os desenvolvedores na adoção dessas funcionalidades.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
OpenAI Revela Modelo GPT-Realtime de Fala-Para-Fala com Suporte Multimodal e Capacidades Avançadas de Conversação
Em Resumo
A OpenAI lançou o modelo de fala-para-fala gpt-realtime com suporte multimodal, habilidades de conversação avançadas e forte desempenho em raciocínio auditivo.
A organização de pesquisa em inteligência artificial OpenAI anunciou a disponibilidade geral da sua API Realtime, agora aprimorada com recursos que permitem a desenvolvedores e empresas construir agentes de voz robustos e prontos para produção. A API suporta servidores MCP remotos, entradas de imagem e chamadas telefônicas via Protocolo de Iniciação de Sessão (SIP), permitindo aplicações de voz mais capazes e cientes do contexto.
Juntamente com a API, a OpenAI lançou seu modelo de fala-para-fala mais avançado, gpt-realtime, projetado para melhorar o seguimento de instruções, chamadas de função e fala com som natural. O modelo pode interpretar prompts complexos, mudar de idioma no meio da frase, reproduzir sequências alfanuméricas com precisão e capturar sinais não verbais. Duas novas vozes, Cedar e Marin, também estão disponíveis, oferecendo uma entonação mais expressiva e semelhante à humana. As vozes existentes foram atualizadas para incorporar essas melhorias.
A API em Tempo Real processa áudio diretamente através de um único modelo, reduzindo a latência e preservando a nuance, ao contrário dos pipelines tradicionais que encadeiam modelos separados de fala-para-texto e texto-para-fala. gpt-realtime foi treinada em colaboração com os usuários para se destacar em aplicações do mundo real, como suporte ao cliente, assistência pessoal e educação. Avaliações de benchmark mostram melhorias substanciais em raciocínio, adesão a instruções e precisão na chamada de funções em comparação com modelos anteriores.
Atualizações adicionais incluem a chamada de funções assíncronas, permitindo operações de longa duração sem interromper conversas em andamento, apoiando ainda mais experiências de voz contínuas e prontas para produção.
OpenAI Expande a API em Tempo Real com Suporte MCP, Entradas de Imagem, Integração SIP e Controles de Redução de Custos para Agentes de Voz
A API em tempo real da OpenAI agora inclui novos recursos projetados para simplificar a integração e expandir as capacidades para agentes de voz prontos para produção. Os desenvolvedores podem habilitar o suporte remoto MCP vinculando uma sessão a uma URL do servidor MCP, permitindo que a API gerencie chamadas de ferramentas automaticamente e acesse funcionalidades adicionais sem configuração manual.
O modelo gpt-realtime agora suporta entradas de imagem, permitindo que o sistema incorpore fotos, capturas de tela e outros visuais juntamente com áudio ou texto. Isso permite que os usuários façam perguntas específicas sobre o que veem, enquanto os desenvolvedores mantêm o controle sobre quais imagens são compartilhadas e quando.
Melhorias adicionais incluem suporte para o Protocolo de Iniciação de Sessão (SIP) para conectar aplicativos a redes telefônicas e sistemas PBX, bem como prompts reutilizáveis que permitem aos desenvolvedores salvar e implantar instruções pré-configuradas, ferramentas e mensagens de exemplo em múltiplas sessões.
A API Realtime geralmente disponível e o modelo gpt-realtime estão agora acessíveis a todos os desenvolvedores, com preços reduzidos em 20% em comparação com o anterior gpt-4o-realtime-preview. Novos controles para o contexto da conversa permitem uma gestão de tokens mais inteligente, reduzindo os custos para sessões prolongadas. Documentação, um Playground para testes e um guia de prompts da API Realtime estão disponíveis para apoiar os desenvolvedores na adoção dessas funcionalidades.