Como foi criado o grande modelo Qingliu Cohere?

Fonte: Shidao

Fonte da imagem: gerada por Unbounded AI

Resumo do conteúdo desta edição:

1 garoto de 20 anos participou de artigos importantes que inauguraram a era da IA generativa 2 Um empresário chinês que gosta de brincar com tecnologia e um garoto talentoso fundaram em conjunto a Cohere 3 Que riscos a IA trará e quais são as suas maiores oportunidades no futuro?

A competição global no campo de grandes modelos básicos ainda continua. OpenAI, que arrecadou dezenas de bilhões de dólares, é sem dúvida um dos pioneiros. Seu aplicativo matador ChatGPT tem centenas de milhões de usuários ativos. É sem dúvida difícil competir de frente com ele.

Um unicórnio de IA com avaliação de US$ 2 bilhões encontrou um caminho diferenciado na competição de grandes modelos básicos, tornando-se uma lufada de ar fresco na confusão do empreendedorismo de grandes modelos.

Este unicórnio é Cohere, que foi co-fundado por Aidan Gomez, o mais jovem autor do artigo inovador "Atenção é tudo que você precisa", e dois de seus ex-alunos da Universidade de Toronto, Ivan Zhang e Nick Frosst.

A Cohere recebeu recentemente US$ 270 milhões em financiamento da Série C, elevando o valor acumulado do financiamento para mais de US$ 430 milhões e uma avaliação de mais de US$ 2,1 bilhões. Sua lista de investidores inclui gigantes corporativos como Salesforce, NVIDIA e Oracle, instituições de investimento importantes como Tiger Global e Index Ventures, bem como conhecidos especialistas em IA como Geoffrey Hinton (os três gigantes do aprendizado profundo e vencedor do Turing Prêmio) e Li Feifei. Seus parceiros também incluem Amazon, McKinsey, etc.

Por que Cohere é uma lufada de ar fresco na confusão do empreendedorismo de grandes modelos?

Em termos de produtos, ele se concentra em atender clientes de nível empresarial.Baseado no poderoso modelo Command, ele fornece processamento de texto de nível empresarial, perguntas e respostas de conhecimento e outras funções, e o modelo pode ser ajustado e personalizado. Além disso, lançou o Coral, um assistente de conhecimento de nível empresarial.

Em termos de segurança, para tirar as dúvidas dos clientes corporativos, seus produtos podem ser implantados em multi-cloud e on-premises, além de possuírem alto grau de privacidade de dados.

Em termos de estratégia de financiamento, prefere tirar dinheiro de grandes empresas relacionadas com a sua própria cadeia industrial e usar o poder dos gigantes para se desenvolver, mas não está vinculado a gigantes (consulte a relação entre OpenAI e Microsoft).

Como um conhecido unicórnio de IA, os produtos e vantagens competitivas corporativas da Cohere foram exaustivamente estudados. Tentamos abordá-los da perspectiva dos empreendedores, usando várias entrevistas com os dois fundadores da Cohere, Aidan Gomez e Ivan Zhang, como materiais para resolver a história da Cohere. O processo de desenvolvimento de 0 a 1, bem como os diversos insights dos dois empreendedores Aidan e Ivan sobre empresas e IA.

  • Observação: o material neste artigo vem de conversas entre o investidor da Cohere e sócio da Madrona, Jon Turow, o fundador da Weights&Bias, Lukas Biewald, o conhecido jornalista Steven Marsh e os dois cofundadores da Cohere, Aidan Gomez e Ivan Zhang. *

O jovem de 20 anos participou de um importante artigo que inaugurou a era da IA generativa

Aidan Gomez é o autor mais jovem do artigo seminal "Attention is All You Need" na área de grandes modelos de linguagem. Naquela época, ele foi para o Google Brain da Universidade de Toronto para estagiar. Ele ainda tinha cerca de 19 ou 20 anos na graduação. Essa foi sua primeira experiência no mundo da tecnologia americana.

Aidan Gomez, da Universidade de Toronto

Seu mentor de estágio no Google foi Lukasz Kaiser, um dos principais autores de “Attention is All You Need”. Naquela época, eles construíram em conjunto o Tensor, uma plataforma de software para treinar grandes redes neurais, e também estavam treinando um modelo de IA. A ideia é treinar um enorme modelo de IA que possa aprender a fazer muitas coisas a partir de um conjunto de dados. Treiná-lo requer o uso de conjuntos de dados em múltiplas modalidades, incluindo imagens, texto e até vídeos.

Naquela época, Aidan e Noam Shazeer (também autor do artigo Transformer) eram "alunos".Noam também estudava grandes modelos de linguagem, mas o algoritmo que ele estudou era RNN (Rede Neural Recorrente). O objetivo de Noam é encontrar uma nova arquitetura que seja mais simples, mais refinada e mais escalável que a RNN.

Então, Lukasz, Aidan e Noam se deram bem e planejaram fazer essa pesquisa juntos. Então eles descobriram que Niki Parmar, Jakob Uszkoreit e Ashish Vaswani, do grupo de tradução do Google Brain, tinham ideias semelhantes às suas. Após a fusão dos dois grupos, todos trabalharam juntos. Após extensa pesquisa, nasceu a peça final "Atenção é tudo que você precisa".

O trabalho foi entregue nas primeiras horas da manhã, quando havia apenas duas pessoas no escritório, Aidan e Ashish. Depois que o manuscrito foi enviado, eles ficaram imersos em entusiasmo. Ashish previu que este artigo pode ter um enorme impacto, mas o jovem Aidan está submetendo um artigo importante pela primeira vez e ainda não sabe a importância deste artigo. Como ele disse em entrevista ao colunista da New Yorker Steven Marsh: “Não acho que alguém preveja o que será no futuro”.

Ele ficou realmente chocado com o impacto prático do modelo Transformer depois de retornar à Universidade de Toronto após seu estágio.

"Na época, eu estava fazendo uma pesquisa de verão na Universidade de Toronto e recebi um e-mail de Lukasz com o assunto" Veja isso ". O conteúdo do e-mail era uma história sobre uma banda japonesa de punk rock. O história registrou como eles formaram um grupo e como lançaram um álbum. Depois, ele se arrependeu do processo de dissolução. No final do e-mail, Lukasz escreveu: 'A única palavra que digitei foi transformador, e o modelo gerou automaticamente a história.'

Depois de ler este texto gerado por máquina, acho que isso iniciará uma revolução no produto. Porque, pela primeira vez, um sistema não humano está a usar a linguagem de uma forma tão convincente como nós, humanos. ”Aidan disse a Steven Marsh.

Árvore evolutiva de modelo grande

Quando “Attention is All You Need” e Transformer nasceram, este modelo inovador foi rapidamente adotado pela comunidade de IA e se tornou um novo padrão técnico. Isso desencadeou uma mania entre os pesquisadores de IA, e modelos poderosos baseados no Transformer estão surgindo constantemente, como BERT e GPT. No final de 2022, ChatGPT iniciou oficialmente o boom de IA generativa.

Um empresário chinês que gosta de brincar com tecnologia e um garoto talentoso fundaram em conjunto a Cohere

Ivan Zhang, cofundador da Cohere, é um pesquisador de IA atípico, mas um empreendedor típico. Ele e Aidan são ex-alunos da Universidade de Toronto e mais tarde abandonaram a escola para abrir um negócio com Aidan. "Sou um criador. Não gosto de ficar sentado em uma sala de aula e simplesmente absorver muitas informações. Preciso fazer isso sozinho e aprender enquanto 'brinco com a tecnologia'. Essa é a melhor maneira de aprender." Foi assim que ele investiu na Cohere Jon Turow se apresenta.

Ivan Zhang, cofundador da Cohere

De pesquisador a empreendedor, de ToC a ToB

Em 2017, após abandonar a Universidade de Toronto, Ivan trabalhou como engenheiro back-end em uma empresa startup. Foi nessa época que conheceu Aidan Gomez. Naquela época, Aidan queria criar um grupo independente de pesquisa em IA para conduzir pesquisas de IA orientadas por interesses e verificar suas ideias inovadoras, então eles fundaram o FOR.ai juntos. Esta organização ainda está em funcionamento e se chama Cohere For AI. É composta por vários cientistas pesquisadores na área de IA e conduz principalmente pesquisas básicas em IA.

Em 2019, Ivan propôs a Aidan: “Por que não fazemos algo novo juntos?” Então eles se tornaram independentes da FOR.ai e iniciaram um negócio mais formal. Nesta fase, eles já possuem experiência empreendedora, entendem a forma correta de administrar uma organização e conheceram muitos fundadores na área de IA.

Nos primeiros dias do Cohere, sua primeira ideia era construir uma plataforma básica de IA que permitisse aos desenvolvedores fazer upload de modelos de IA e, em seguida, a plataforma compactaria o tamanho do modelo para torná-lo mais eficiente. Mas naquela altura, a mania da IA generativa ainda não tinha chegado e o mercado ainda era demasiado pequeno.

Como autor do artigo, Aidan observou o desenvolvimento crescente do modelo Transformer na comunidade de IA, viu que ele resolveu vários problemas relacionados ao processamento de texto e viu os desenvolvedores melhorarem essa arquitetura. Naquela época, o GPT-2 da OpenAI foi lançado e os parâmetros do modelo Transformer ultrapassaram 1 bilhão, o que também fez com que Aidan percebesse ainda mais a importância da escala do modelo e o real potencial dessa arquitetura de modelo.

Como resultado, vários fundadores transformaram o Cohere de uma plataforma de compressão de modelos em grandes modelos e serviços básicos.

"Depois de experimentar o GPT-2, descobrimos que é muito legal, mas não temos certeza de quais serviços podem ser construídos usando modelos básicos de IA, como o GPT. Primeiro tentamos construir o primeiro projeto de Cohere, que era uma ferramenta de conclusão automática de texto está na forma de uma extensão do navegador Chrome. Os usuários só precisam inserir um trecho de texto na caixa de texto e ela pode continuar a ser concluída automaticamente. Inicialmente, planejamos usar publicidade para ganhar dinheiro. (Observação: este é um negócio ToC modelo). Mas obviamente subestimamos a dificuldade de construir um produto de consumo. A experiência desse produto não é boa e não conquistou muitos usuários. Entendemos que não temos vantagem competitiva nesse sentido.

Portanto, decidimos desmantelar a interface front-end e fornecer apenas os recursos do modelo back-end, passando do ToC para o ToB para fornecer serviços de API de nível empresarial. Naquela época, 99% dos casos de uso de PNL exigiam incorporação de palavras e ajuste fino do modelo, portanto, em poucos meses, construímos uma plataforma de API com recursos de geração de IA que poderia incorporar e ajustar o modelo. ”Ivan compartilhou o pensamento por trás da transformação de Cohere com Jon Turow.

Quanto ao motivo pelo qual Cohere recorreu ao ToB e ao núcleo da missão da empresa, Aidan Gomez fez uma declaração clara: "Queremos apenas fazer com que grandes modelos de IA sejam usados por mais pessoas. Naquela época, os desenvolvedores e as empresas queriam aproveitar as vantagens dos recursos de grandes modelos de IA, independentemente de Existem muitos obstáculos em termos de tecnologia e poder de computação. O significado da nossa existência é remover os obstáculos para as pessoas usarem grandes modelos de IA, para que os desenvolvedores que não estão familiarizados com IA, bem como empresas comuns podem usar facilmente os recursos de IA.

Porque a interação conversacional exclusiva da IA generativa é a melhor experiência para os usuários finais. Tomando-me como exemplo, quando quero abrir uma conta em banco, se um banco puder ter um aplicativo mobile que possa interagir comigo 24 horas por dia e resolver problemas de forma eficiente, será muito mais atrativo para mim.

A Cohere está aqui para fazer exatamente isso, ajudando todos os tipos de empresas e organizações a aproveitar o poder da IA generativa para aumentar sua vantagem competitiva.

Cohere permite que clientes corporativos ajustem modelos com seus próprios dados

Quando as empresas adotarem recursos de IA, elas também terão dúvidas sobre duas questões: hospedagem de modelos e privacidade de dados. Oferecemos suporte para hospedagem multinuvem. As empresas podem escolher o serviço de nuvem mais adequado ou implantá-lo em um servidor local. Também atribuímos grande importância à privacidade dos dados. Quando as empresas usam seus próprios dados para o ajuste fino do modelo, seja implantado na nuvem ou em um servidor local, não veremos seus dados. Este é um dos nossos principais recursos. "

A estratégia eclética de talentos molda a alta criatividade da Cohere

A capacidade da Cohere de se movimentar rapidamente e encontrar a posição certa nos estágios iniciais é inseparável da perspectiva de talento e da filosofia empreendedora que Ivan e Aidan acumularam desde FOR.ai. Ivan compartilhou sua filosofia de recrutamento de talentos e cultura empreendedora ao conversar com Jon Turow: "Nosso método de recrutamento é diferente. Quando a FOR.ai iniciou o negócio, estabelecemos um princípio: procuramos pessoas de diferentes origens, mas alguém que seja muito interessado em IA e quer causar um grande impacto.

Você não precisa ter uma experiência perfeita trabalhando em Meta AI, DeepMind ou Google, mas deve ter um grande interesse e entusiasmo na área em que se concentra. E você não só pode escrever artigos, mas também ter habilidades práticas. Trouxemos essa abordagem de recrutamento para a Cohere e construímos uma equipe muito forte no estágio inicial.

Em termos de cultura empresarial, gostamos de explorar bastante a tecnologia, “brincar com a tecnologia” e depois fazer avanços. Embora todos nós escrevamos artigos, não somos 'nerds'. Temos uma ideia muito clara do que devemos fazer e gastamos muito tempo em práticas de engenharia, em vez de apenas na exploração de algoritmos. Isso nos permite construir produtos que pode realmente trazer benefícios para as pessoas. "

Agora que a OpenAI ocupa a posição C de IA generativa, o ChatGPT, que já tem centenas de milhões de usuários ativos, ajudará a OpenAI a monopolizá-la? Outras empresas ainda têm oportunidades? Aidan Gomez tem a sua própria opinião: “Não penso de forma alguma que haverá um monopólio no campo dos grandes modelos. Acho que cada empresa tem o seu estilo, direcção e vantagens próprias, e encontrará o seu lugar no mercado Clientes consumidores e empresariais Eles escolherão o melhor parceiro, a empresa mais confiável e a plataforma que melhor poderá ajudá-los a ter sucesso.

Para empresas de modelo básico como a Cohere, a situação final que enfrentamos provavelmente não será uma situação em que o vencedor leva tudo, mas sim uma estrutura de mercado diversificada. Contaremos com nossas próprias vantagens para vencer nossos próprios jogos. Usaremos vários métodos para ajudar os clientes para que possam usar os melhores recursos de IA. Nosso foco é permitir que o modelo de IA ajude clientes específicos a obter valor máximo por meio de vários métodos, incluindo prompts e ajustes finos. "

##Quais riscos a IA traz e quais são suas maiores oportunidades no futuro?

A explosão da IA generativa, embora bem-vinda, também causou muitas preocupações. A nível público, as pessoas estão preocupadas com a possibilidade de a IA se desenvolver demasiado rapidamente e ser demasiado poderosa, "roubando" assim oportunidades de emprego humano; a nível prático, muitas pessoas estão preocupadas com a segurança e a controlabilidade dos modelos de IA.

Aidan Gomez e Ivan Zhang também expressaram suas opiniões sobre este tema.

A IA pode “poluir” as redes sociais

A visão de Aidan Gomez é mais social. Ele disse que a “poluição” das mídias sociais por conteúdo gerado por IA é digna de preocupação: “Em vez de nos preocuparmos com a substituição da inteligência não humana pelos humanos, o que pode não acontecer por muitos anos, deveríamos pagar atenção aos riscos reais actuais.

Por exemplo, é muito possível que a IA possa gerar milhões de bots que entram perfeitamente nas nossas redes sociais e conversas públicas e depois promovem um determinado ponto de vista (seja esse ponto de vista útil ou prejudicial). Isto pode ter consequências imprevistas em algumas questões públicas que podem ter um impacto significativo na sociedade.

Portanto, devemos pesar os riscos desta questão, e é melhor ter políticas específicas para mitigar este risco. Por exemplo, as pessoas têm o direito de saber se o conteúdo mediático ou de marketing que lemos é criado por humanos ou sintetizado por máquinas. "

A visão de Ivan Zhang é relativamente realista. Ele acredita que a IA enfrenta dois grandes desafios: "Para os desafios enfrentados pela IA, as informações que obtemos dos clientes são, antes de tudo, como avaliar a capacidade dos modelos de IA generativos. Para comparar com precisão dois modelos de IA, o capacidade não é fácil e, em termos de geração de texto, esta comparação provavelmente será subjetiva, o que criará certos obstáculos à adoção comercial da IA generativa.

Outro desafio é a questão da privacidade dos dados: ao usar grandes modelos de código aberto ou de código fechado para uso comercial, às vezes você usa alguns dados confidenciais, o que, por sua vez, cria problemas de conformidade. Por exemplo, ao usar IA para ajudá-lo a escrever um e-mail confidencial, você se preocuparia com o abuso dos dados confidenciais inseridos no modelo? É claro que esta preocupação se torna uma oportunidade para nós e estamos trabalhando com a Oracle para resolver esta questão. "

A inteligência incorporada é uma grande oportunidade para a IA no futuro

Aidan Gomez e Ivan Zhang são especialistas e empreendedores em IA. Suas opiniões sobre as novas direções e oportunidades para a IA no futuro também merecem atenção.

Em primeiro lugar, todos mencionaram a mesma tecnologia em diferentes ocasiões, que é a inteligência incorporada, ou seja, injetar as capacidades da IA generativa em máquinas tangíveis.

Aidan disse a Lukas Biewald: "Acho muito legal aplicar IA generativa à robótica e à fisicalização, e há uma demanda muito forte nessa direção. Todos nós imaginamos o que robôs com alta inteligência e corpos flexíveis fariam. Que tal - isso certamente produzirá uma grande mudança. Mas ainda há um longo caminho a percorrer nessa direção, e também espero poder ter um impacto nessa direção e tentar fazer algo relacionado."

Ivan também acredita que a inteligência incorporada é definitivamente uma grande oportunidade para o próximo estágio da IA: “Acho que a maior oportunidade é o ‘modelo de ação’ que pode afetar as entidades. Há muitas empresas interessadas neles. Porém, para que essa tecnologia se concretize, a precisão do modelo precisa ser melhorada ainda mais.”

Além disso, Aidan também apresentou uma visão de longo prazo para o desenvolvimento inteligente e aplicações futuras da IA: "Agora, a construção de modelos de IA depende dos humanos. Para tornar a IA mais inteligente, usaremos vários conhecimentos humanos de alto nível para treiná-lo. Por exemplo, é como pedir a uma pessoa muito inteligente para ensinar uma IA não tão inteligente. Então, no futuro, se o modelo de IA se tornar muito inteligente e todo o conhecimento humano tiver sido aprendido por ele, ele irá enfrentar um ponto crítico—— Os humanos não têm mais nada para ensinar IA.

O que mais me interessa é: o que acontecerá se a IA ultrapassar esse ponto crítico? Se um grupo de IAs que aprenderam o conhecimento existente dos humanos conversar, explorar e aprender juntos, eles gerarão novos conhecimentos?

Talvez quando chegar esse momento, nós, humanos, aprenderemos novos conhecimentos com a IA, e a IA levará os humanos a nadar no novo oceano do conhecimento. "

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)