O Google adicionou pesquisa de arquivos multimodal na API Gemini.


Agora ela consegue pesquisar imagens e textos juntos, além de permitir filtros personalizados de metadados, e também fornece citações a nível de página.
Quem trabalha com RAG deve poder usar isso imediatamente.
O que eu valorizo mais é que ela finalmente começou a lidar com cenários de dados híbridos, colocar materiais visuais, versões de contratos, estado de bases de conhecimento no mesmo fluxo de pesquisa faz uma grande diferença.
Quem trabalha com bases de conhecimento de atendimento ao cliente, pesquisa de documentos jurídicos, ou repositórios de ativos de conteúdo pode dar uma olhada.
A documentação oficial está aqui:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar