O modelo de código aberto mais poderoso muda de mãos? Kai-Fu Lee levou a equipe ao topo de muitas listas globais, e 400.000 processamento de texto quebrou um recorde
A batalha de 100 modelos, um dos jogadores mais esperados, finalmente fez sua estreia oficial!
É o primeiro modelo de código aberto da empresa AI 2.0 fundada pelo Dr. Kai-Fu Lee--Yi** série de modelos grandes:
Yi-34B和Yi-6B。
Embora a série Yi de modelos grandes tenha estreado relativamente tarde, em termos de efeito, ela definitivamente pode ser chamada de retardatário.
Assim que foi filmado, ganhou uma série de estreias globais**:
Hugging Face ficou em primeiro lugar na lista de testes em inglês, esmagando uma série de modelos de grande escala, como o Llama-2 70B e Falcon-180B com um tamanho de 34B;
O único modelo doméstico de grande escala que alcançou com sucesso o topo do HuggingFace;
C-Chinese habilidade ranking primeiro, superando todos os modelos de código aberto no mundo;
MMLU, BBH e outras oito capacidades abrangentes ganharam o desempenho;
Ganhou o trono da janela de contexto mais longa do mundo, atingindo 200K, que pode lidar diretamente com 400.000 caracteres chineses para entrada de texto ultra-longo.
......
Vale a pena notar que o Zero Mil Coisas e seu grande modelo não foram alcançados da noite para o dia, mas foram fabricados por mais de meio ano.
Isto levanta inevitavelmente muitas questões:
Por exemplo, por que você quer segurar por meio ano e optar por filmar perto do final do ano?
Outro exemplo é como conseguir tantas estreias na primeira vez?
Com estas perguntas, fizemos uma comunicação exclusiva com o Zero Um Tudo, e agora vamos revelar os segredos um a um.
Derrote 100 bilhões de modelos grandes de parâmetros
Especificamente, há dois destaques principais da série Yi de modelos grandes recém-lançados e de código aberto:
"Ganhe grande com pequeno" para bater 100 bilhões de modelos de parâmetros
A janela de contexto mais longa do mundo suporta 400.000 palavras
No ranking dos modelos de código aberto pré-treinados da Hugging Face, o Yi-34B ficou em primeiro lugar no mundo com uma pontuação de 70,72, superando LLaMA-70B e Falcon-180B.
Você deve saber que o número de parâmetros do Yi-34B é apenas 1/2, 1/5 dos dois últimos. Não só ganhou a lista com "pequeno e grande", mas também alcançou uma ultrapassagem de ordem de grandeza, derrotando o modelo de 100 mil milhões de grandes com uma escala de 10 mil milhões.
Entre eles, Yi-34B superou em muito outros grandes modelos nos dois indicadores de MMLU (Massive Multi-task Language Understanding) e TruthfulQA (Authenticity Benchmark).
** **###### △Hugging Face Open LLM Leaderboard (pré-treinado) Large Model Leaderboard, Yi-34B lidera a lista (5 de novembro de 2023)
Com foco na proficiência em chinês, o Yi-34B supera todos os modelos de código aberto no ranking de proficiência em C-chinês.
Da mesma forma, o Yi-6B de código aberto supera todos os modelos de código aberto da mesma escala.
** **###### △C- Tabela de Classificação: Modelo acessível ao público, Yi-34B No. 1 no mundo (5 de novembro de 2023)
Nos três principais indicadores chineses de CMMLU, E-, e Gaokao, ** está significativamente à frente do GPT-4**, demonstrando a forte vantagem do chinês, e sabemos mais sobre as raízes
。
Em termos de BooIQ e OBQA, está no mesmo nível do GPT-4.
Além disso, no conjunto de avaliação que reflete a capacidade abrangente do modelo, como MMLU (Massive Multitask Language Understanding) e BBH, os indicadores de avaliação mais críticos de grandes modelos, Yi-34B supera na avaliação de habilidade geral, raciocínio de conhecimento, compreensão de leitura e outros indicadores, o que é altamente consistente com a avaliação Hugging Face.
###### △Pontuação de cada conjunto de avaliação: Yi model v.s. Outros modelos de código aberto
No entanto, no comunicado, 010000 também disse que os modelos da série Yi não tiveram um desempenho tão bom quanto os modelos GPT nas avaliações matemáticas e de código do GSM8k e MBPP.
Isso ocorre porque a equipe queria preservar o máximo possível dos recursos genéricos do modelo durante a fase de pré-treinamento, para não incluir muitos dados matemáticos e de código nos dados de treinamento.
Atualmente, a equipe está conduzindo pesquisas na direção da matemática, e propõe um grande modelo MammoTH que pode resolver problemas matemáticos gerais, usando CoT e PoT para resolver problemas matemáticos, e é superior ao modelo SOTA em todas as versões de escala e conjuntos de testes internos e externos. Entre eles, o MammoTH-34B tem uma taxa de precisão de 44% em MATH, o que excede o resultado CoT do GPT-4.
A série Yi de acompanhamento também lançará um modelo de formação contínua especializado em código e matemática.
Além dos resultados deslumbrantes, o Yi-34B também atualizou o comprimento da grande janela de contexto do modelo para 200K, que pode lidar com a entrada de texto ultralonga de cerca de 400.000 caracteres chineses.
Isso equivale a ser capaz de processar dois romances "Problema dos Três Corpos 1"** ao mesmo tempo**, compreender** documentos PDF de mais de 1000 páginas e até mesmo substituir muitos cenários que dependem de bancos de dados vetoriais para construir bases de conhecimento externas.
A janela de contexto ultralonga é uma dimensão importante para refletir a força do modelo grande, e ter uma janela de contexto mais longa pode processar informações mais ricas da base de conhecimento, gerar texto mais coerente e preciso e dar suporte ao modelo grande para lidar melhor com tarefas como resumo/perguntas e respostas de documentos.
É importante saber que, em muitas aplicações verticais da indústria de grandes modelos (como finanças, direito, finanças, etc.), os recursos de processamento de documentos são apenas necessários.
Por exemplo, GPT-4 pode suportar 32K, cerca de 25.000 caracteres, e Claude 2 pode suportar 100K, cerca de 200.000 caracteres.
A Zero One Everything não apenas atualizou o recorde da indústria, mas também se tornou a primeira empresa de modelos em grande escala a abrir uma janela de contexto ultralonga na comunidade de código aberto.
Então, como é feita a série Yi?
Plataforma de formação auto-desenvolvida Super Infra+
Zero One Ten Thousand Things diz que o segredo da série Yi vem de dois aspetos:
Plataforma experimental de formação em larga escala auto-desenvolvida
Equipa Super Infra
A combinação dos dois acima pode tornar o processo de treinamento de modelo grande mais eficiente, preciso e automatizado. Na fusão multimodo atual, economize tempo, cálculo e custos de mão de obra valiosos.
Eles são uma das razões pelas quais a série Yi de grandes modelos são "lentos", mas também por causa deles, "lento é rápido".
Primeiro, vamos olhar para a parte de treinamento modelo.
Esta é a parte de estabelecer a base para a capacidade de grandes modelos, e a qualidade dos dados e métodos de treinamento estão diretamente relacionados ao efeito final do modelo.
Portanto, a 010000 construiu seu próprio pipeline de processamento de dados inteligente e plataforma experimental de treinamento em larga escala.
O pipeline de processamento inteligente de dados é eficiente, automatizado, avaliável e escalável, e a equipe é liderada por ex-especialistas em big data e gráficos de conhecimento do Google.
A "Plataforma de Experiência de Treinamento em Grande Escala" pode orientar o projeto e a otimização de modelos, melhorar a eficiência do treinamento de modelos e reduzir o desperdício de recursos de computação.
Com base nesta plataforma, o erro de previsão de cada nó do Yi-34B é controlado dentro de 0,5%, como correspondência de dados, pesquisa de hiperparâmetros e experimentos de estrutura de modelo.
Como resultado, em comparação com o treinamento anterior de "alquimia extensiva", o treinamento da série Yi de grandes modelos avançou para "ciência de treinamento de modelo": tornou-se mais detalhado e científico, os resultados experimentais podem ser mais estáveis e a escala do modelo pode ser expandida mais rapidamente no futuro.
Vejamos a parte Infra.
AI Infra refere-se à tecnologia de estrutura básica de inteligência artificial, que inclui várias instalações técnicas subjacentes no treinamento e implantação de grandes modelos, incluindo processadores, sistemas operacionais, sistemas de armazenamento, infraestrutura de rede, plataformas de computação em nuvem, etc.
Se o processo de treinamento é para estabelecer a base para a qualidade do modelo, então AI Infra fornece uma garantia para essa ligação, tornando a base mais sólida, e também está diretamente relacionado com a camada inferior do modelo grande.
A equipe do Zero One Everything usou uma metáfora mais vívida para explicar:
Se o treinamento de modelo grande é montanhismo, as capacidades do Infra definem o limite de capacidade entre o algoritmo de treinamento de modelo grande e o modelo, ou seja, o teto da "altura de montanhismo".
Especialmente na atual escassez de recursos computacionais na indústria, como promover a pesquisa e o desenvolvimento de grandes modelos de forma mais rápida e constante é muito importante.
É por isso que o Zero Um leva a parte Infra tão a sério.
Kai-Fu Lee também disse que as pessoas que fizeram o modelo em grande escala Infra são mais escassas do que os talentos algorítmicos.
A equipa da Infra participou no apoio à formação em larga escala de várias centenas de milhares de milhões de modelos de grande porte.
Com o apoio deles, o custo de treinamento do modelo Yi-34B foi reduzido em 40%, e o custo de treinamento da escala de simulação de 100 bilhões de yuans pode ser reduzido em até 50%. O treinamento real completa o tempo de previsão do domínio de tempo padrãoerro é inferior a 1 hora - você sabe, geralmente a indústria reservará alguns dias como um erro.
De acordo com a equipe, até agora, a taxa de precisão de previsão de erro da capacidade 010000 Infra excedeu 90%, a taxa de deteção precoce de falhas atingiu 99,9% e a taxa de autorrecuperação de falhas sem participação manual excedeu 95%, o que pode efetivamente garantir o progresso suave do treinamento do modelo.
Kai-Fu Lee revelou que, ao completar o pré-treinamento do Yi-34B, o treinamento do modelo de parâmetros de 100 bilhões de níveis foi lançado oficialmente.
E sugere que modelos maiores provavelmente estarão disponíveis mais rápido do que todos esperavam:
pipelines de processamento de dados do Zero-One, pesquisa de algoritmos, plataformas de experimentação, recursos de GPU e AI Infra estão prontos e vamos nos mover cada vez mais rápido.
Preemptivo Zero Uma Coisas
Finalmente, vamos responder às perguntas que mencionamos no início.
A razão pela qual a Zero One Everything escolheu pegar o "trem atrasado" no final do ano está, na verdade, intimamente relacionada aos seus próprios objetivos.
Como Kai-Fu Lee afirmou neste comunicado:
Zero Um Tudo entrou firmemente no primeiro escalão do mundo, desde a primeira pessoa recrutada, a primeira linha de código escrito e o primeiro modelo projetado, sempre manteve a intenção e determinação originais de se tornar "Número 1 do Mundo".
E para ser o primeiro, você precisa ser capaz de suportar o temperamento e se concentrar em cultivar uma base sólida, a fim de alcançar um blockbuster quando você estrear.
Não só isso, na época do estabelecimento do Zero One Things, seu ponto de partida era fundamentalmente diferente do de outros fabricantes de modelos de grande escala.
O zero um representa todo o mundo digital, de zero a um, e até mesmo todas as coisas do universo, o chamado Tao gera um... Dar à luz todas as coisas significa a ambição de "zero uma inteligência, todas as coisas empoderadas".
Isso também é consistente com o pensamento e julgamento de Kai-Fu Lee sobre AI2.0, depois que o ChatGPT impulsionou o boom em modelos grandes, ele uma vez declarou publicamente:
A era da IA 2.0, com o avanço do modelo de pedestal, desencadeará uma revolução em vários níveis, da tecnologia, da plataforma à aplicação. Assim como o Windows impulsionou a popularização dos PCs, o Android deu origem à ecologia da Internet móvel, o AI2.0 dará origem a oportunidades de plataforma dez vezes maiores do que a Internet móvel, reescreverá o software, a interface do usuário e os aplicativos existentes, também dará origem a um novo lote de aplicativos de IA e dará origem a modelos de negócios liderados por IA.
O conceito é AI-first, a força motriz é a visão técnica, apoiado pela excelente herança de engenharia chinesa, o ponto de avanço é o modelo de pedestal, cobrindo vários níveis de tecnologia, plataforma e aplicação.
Para tal, a via empreendedora escolhida pela Zero One desde a sua criação é um modelo autodesenvolvido.
Embora tenha sido lançado tarde, definitivamente não é lento em termos de velocidade.
Por exemplo, nos primeiros três meses, 01000000000 alcançou testes internos de modelo com uma escala de 10 bilhões de parâmetros; Depois de mais três meses, você pode desbloquear o primeiro do mundo com uma escala de parâmetros de 34B.
Tal velocidade e um objetivo tão alto devem ser inseparáveis da forte força da equipe por trás do 0100000000.
Zero One Everything** é pessoalmente liderado pelo Dr. Kai-Fu Lee e atua como CEO**.
Na fase inicial, o Zero One reuniu uma equipe de dezenas de membros principais, com foco em tecnologia de grandes modelos, algoritmos de inteligência artificial, processamento de linguagem natural, arquitetura de sistemas, arquitetura de computação, segurança de dados, pesquisa e desenvolvimento de produtos e outros campos.
Entre eles, os membros da equipe conjunta que se juntaram incluem o ex-vice-presidente do Alibaba, o ex-vice-presidente do Baidu, o ex-executivo do Google China e o ex-vice-presidente da Microsoft/SAP/Cisco, e o histórico das equipes de algoritmo e produto são todos de grandes fabricantes nacionais e estrangeiros.
Tomando os membros da equipe de algoritmos e modelos como exemplo, há mestres de algoritmos cujos artigos foram citados pelo GPT-4, pesquisadores excecionais que ganharam prêmios de pesquisa interna da Microsoft e super engenheiros que ganharam o Alibaba CEO Special Award. No total, publicou mais de 100 artigos académicos relacionados com grandes modelos em conferências académicas bem conhecidas, tais como ICLR, NeurIPS, CVPR e ICCV.
Além disso, no início de seu estabelecimento, 010000 começou a construir uma plataforma experimental, construindo um cluster de milhares de GPUs para treinamento, ajuste e inferência. Em termos de dados, o foco principal é melhorar o número de parâmetros válidos e a densidade de dados de alta qualidade utilizados.
A partir disso, não é difícil ver onde a confiança do modelo da série Yi do zero uma coisa é ousar atacar para trás.
Entende-se que, com base na série Yi de grandes modelos, ele irá rapidamente iterar e abrir o código aberto mais versões quantitativas, modelos de diálogo, modelos matemáticos, modelos de código e modelos multimodais.
Tudo somado, com a entrada do dark horse de 010.000 coisas, a batalha de 100 modelos tornou-se mais intensa e animada.
Vale a pena esperar quantas "estreias globais" o modelo grande da série Yi irá subverter no futuro.
Mais uma coisa
Porquê o nome "Yi"? **
O nome vem do pinyin de "一", e o "Y" em "Yi" é de cabeça para baixo, lembrando habilmente o caractere chinês "humano", combinado com o i em IA, que representa Humano + IA.
Acreditamos que o empoderamento da IA impulsionará a sociedade humana, e a IA deve criar grande valor para os seres humanos no espírito de colocar as pessoas em primeiro lugar.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O modelo de código aberto mais poderoso muda de mãos? Kai-Fu Lee levou a equipe ao topo de muitas listas globais, e 400.000 processamento de texto quebrou um recorde
Fonte original: qubits
A batalha de 100 modelos, um dos jogadores mais esperados, finalmente fez sua estreia oficial!
É o primeiro modelo de código aberto da empresa AI 2.0 fundada pelo Dr. Kai-Fu Lee--Yi** série de modelos grandes:
Yi-34B和Yi-6B。
Assim que foi filmado, ganhou uma série de estreias globais**:
Isto levanta inevitavelmente muitas questões:
Por exemplo, por que você quer segurar por meio ano e optar por filmar perto do final do ano?
Outro exemplo é como conseguir tantas estreias na primeira vez?
Com estas perguntas, fizemos uma comunicação exclusiva com o Zero Um Tudo, e agora vamos revelar os segredos um a um.
Derrote 100 bilhões de modelos grandes de parâmetros
Especificamente, há dois destaques principais da série Yi de modelos grandes recém-lançados e de código aberto:
No ranking dos modelos de código aberto pré-treinados da Hugging Face, o Yi-34B ficou em primeiro lugar no mundo com uma pontuação de 70,72, superando LLaMA-70B e Falcon-180B.
Você deve saber que o número de parâmetros do Yi-34B é apenas 1/2, 1/5 dos dois últimos. Não só ganhou a lista com "pequeno e grande", mas também alcançou uma ultrapassagem de ordem de grandeza, derrotando o modelo de 100 mil milhões de grandes com uma escala de 10 mil milhões.
Entre eles, Yi-34B superou em muito outros grandes modelos nos dois indicadores de MMLU (Massive Multi-task Language Understanding) e TruthfulQA (Authenticity Benchmark).
**
**###### △Hugging Face Open LLM Leaderboard (pré-treinado) Large Model Leaderboard, Yi-34B lidera a lista (5 de novembro de 2023)
Com foco na proficiência em chinês, o Yi-34B supera todos os modelos de código aberto no ranking de proficiência em C-chinês.
Da mesma forma, o Yi-6B de código aberto supera todos os modelos de código aberto da mesma escala.
**
**###### △C- Tabela de Classificação: Modelo acessível ao público, Yi-34B No. 1 no mundo (5 de novembro de 2023)
Nos três principais indicadores chineses de CMMLU, E-, e Gaokao, ** está significativamente à frente do GPT-4**, demonstrando a forte vantagem do chinês, e sabemos mais sobre as raízes
Em termos de BooIQ e OBQA, está no mesmo nível do GPT-4.
No entanto, no comunicado, 010000 também disse que os modelos da série Yi não tiveram um desempenho tão bom quanto os modelos GPT nas avaliações matemáticas e de código do GSM8k e MBPP.
Isso ocorre porque a equipe queria preservar o máximo possível dos recursos genéricos do modelo durante a fase de pré-treinamento, para não incluir muitos dados matemáticos e de código nos dados de treinamento.
Atualmente, a equipe está conduzindo pesquisas na direção da matemática, e propõe um grande modelo MammoTH que pode resolver problemas matemáticos gerais, usando CoT e PoT para resolver problemas matemáticos, e é superior ao modelo SOTA em todas as versões de escala e conjuntos de testes internos e externos. Entre eles, o MammoTH-34B tem uma taxa de precisão de 44% em MATH, o que excede o resultado CoT do GPT-4.
A série Yi de acompanhamento também lançará um modelo de formação contínua especializado em código e matemática.
Isso equivale a ser capaz de processar dois romances "Problema dos Três Corpos 1"** ao mesmo tempo**, compreender** documentos PDF de mais de 1000 páginas e até mesmo substituir muitos cenários que dependem de bancos de dados vetoriais para construir bases de conhecimento externas.
É importante saber que, em muitas aplicações verticais da indústria de grandes modelos (como finanças, direito, finanças, etc.), os recursos de processamento de documentos são apenas necessários.
Por exemplo, GPT-4 pode suportar 32K, cerca de 25.000 caracteres, e Claude 2 pode suportar 100K, cerca de 200.000 caracteres.
A Zero One Everything não apenas atualizou o recorde da indústria, mas também se tornou a primeira empresa de modelos em grande escala a abrir uma janela de contexto ultralonga na comunidade de código aberto.
Então, como é feita a série Yi?
Plataforma de formação auto-desenvolvida Super Infra+
Zero One Ten Thousand Things diz que o segredo da série Yi vem de dois aspetos:
A combinação dos dois acima pode tornar o processo de treinamento de modelo grande mais eficiente, preciso e automatizado. Na fusão multimodo atual, economize tempo, cálculo e custos de mão de obra valiosos.
Eles são uma das razões pelas quais a série Yi de grandes modelos são "lentos", mas também por causa deles, "lento é rápido".
Primeiro, vamos olhar para a parte de treinamento modelo.
Esta é a parte de estabelecer a base para a capacidade de grandes modelos, e a qualidade dos dados e métodos de treinamento estão diretamente relacionados ao efeito final do modelo.
Portanto, a 010000 construiu seu próprio pipeline de processamento de dados inteligente e plataforma experimental de treinamento em larga escala.
O pipeline de processamento inteligente de dados é eficiente, automatizado, avaliável e escalável, e a equipe é liderada por ex-especialistas em big data e gráficos de conhecimento do Google.
A "Plataforma de Experiência de Treinamento em Grande Escala" pode orientar o projeto e a otimização de modelos, melhorar a eficiência do treinamento de modelos e reduzir o desperdício de recursos de computação.
Com base nesta plataforma, o erro de previsão de cada nó do Yi-34B é controlado dentro de 0,5%, como correspondência de dados, pesquisa de hiperparâmetros e experimentos de estrutura de modelo.
Como resultado, em comparação com o treinamento anterior de "alquimia extensiva", o treinamento da série Yi de grandes modelos avançou para "ciência de treinamento de modelo": tornou-se mais detalhado e científico, os resultados experimentais podem ser mais estáveis e a escala do modelo pode ser expandida mais rapidamente no futuro.
AI Infra refere-se à tecnologia de estrutura básica de inteligência artificial, que inclui várias instalações técnicas subjacentes no treinamento e implantação de grandes modelos, incluindo processadores, sistemas operacionais, sistemas de armazenamento, infraestrutura de rede, plataformas de computação em nuvem, etc.
Se o processo de treinamento é para estabelecer a base para a qualidade do modelo, então AI Infra fornece uma garantia para essa ligação, tornando a base mais sólida, e também está diretamente relacionado com a camada inferior do modelo grande.
A equipe do Zero One Everything usou uma metáfora mais vívida para explicar:
Especialmente na atual escassez de recursos computacionais na indústria, como promover a pesquisa e o desenvolvimento de grandes modelos de forma mais rápida e constante é muito importante.
É por isso que o Zero Um leva a parte Infra tão a sério.
Kai-Fu Lee também disse que as pessoas que fizeram o modelo em grande escala Infra são mais escassas do que os talentos algorítmicos.
A equipa da Infra participou no apoio à formação em larga escala de várias centenas de milhares de milhões de modelos de grande porte.
Com o apoio deles, o custo de treinamento do modelo Yi-34B foi reduzido em 40%, e o custo de treinamento da escala de simulação de 100 bilhões de yuans pode ser reduzido em até 50%. O treinamento real completa o tempo de previsão do domínio de tempo padrãoerro é inferior a 1 hora - você sabe, geralmente a indústria reservará alguns dias como um erro.
De acordo com a equipe, até agora, a taxa de precisão de previsão de erro da capacidade 010000 Infra excedeu 90%, a taxa de deteção precoce de falhas atingiu 99,9% e a taxa de autorrecuperação de falhas sem participação manual excedeu 95%, o que pode efetivamente garantir o progresso suave do treinamento do modelo.
Kai-Fu Lee revelou que, ao completar o pré-treinamento do Yi-34B, o treinamento do modelo de parâmetros de 100 bilhões de níveis foi lançado oficialmente.
E sugere que modelos maiores provavelmente estarão disponíveis mais rápido do que todos esperavam:
Preemptivo Zero Uma Coisas
Finalmente, vamos responder às perguntas que mencionamos no início.
A razão pela qual a Zero One Everything escolheu pegar o "trem atrasado" no final do ano está, na verdade, intimamente relacionada aos seus próprios objetivos.
Como Kai-Fu Lee afirmou neste comunicado:
E para ser o primeiro, você precisa ser capaz de suportar o temperamento e se concentrar em cultivar uma base sólida, a fim de alcançar um blockbuster quando você estrear.
Não só isso, na época do estabelecimento do Zero One Things, seu ponto de partida era fundamentalmente diferente do de outros fabricantes de modelos de grande escala.
O zero um representa todo o mundo digital, de zero a um, e até mesmo todas as coisas do universo, o chamado Tao gera um... Dar à luz todas as coisas significa a ambição de "zero uma inteligência, todas as coisas empoderadas".
O conceito é AI-first, a força motriz é a visão técnica, apoiado pela excelente herança de engenharia chinesa, o ponto de avanço é o modelo de pedestal, cobrindo vários níveis de tecnologia, plataforma e aplicação.
Para tal, a via empreendedora escolhida pela Zero One desde a sua criação é um modelo autodesenvolvido.
Embora tenha sido lançado tarde, definitivamente não é lento em termos de velocidade.
Por exemplo, nos primeiros três meses, 01000000000 alcançou testes internos de modelo com uma escala de 10 bilhões de parâmetros; Depois de mais três meses, você pode desbloquear o primeiro do mundo com uma escala de parâmetros de 34B.
Tal velocidade e um objetivo tão alto devem ser inseparáveis da forte força da equipe por trás do 0100000000.
Zero One Everything** é pessoalmente liderado pelo Dr. Kai-Fu Lee e atua como CEO**.
Entre eles, os membros da equipe conjunta que se juntaram incluem o ex-vice-presidente do Alibaba, o ex-vice-presidente do Baidu, o ex-executivo do Google China e o ex-vice-presidente da Microsoft/SAP/Cisco, e o histórico das equipes de algoritmo e produto são todos de grandes fabricantes nacionais e estrangeiros.
Tomando os membros da equipe de algoritmos e modelos como exemplo, há mestres de algoritmos cujos artigos foram citados pelo GPT-4, pesquisadores excecionais que ganharam prêmios de pesquisa interna da Microsoft e super engenheiros que ganharam o Alibaba CEO Special Award. No total, publicou mais de 100 artigos académicos relacionados com grandes modelos em conferências académicas bem conhecidas, tais como ICLR, NeurIPS, CVPR e ICCV.
Além disso, no início de seu estabelecimento, 010000 começou a construir uma plataforma experimental, construindo um cluster de milhares de GPUs para treinamento, ajuste e inferência. Em termos de dados, o foco principal é melhorar o número de parâmetros válidos e a densidade de dados de alta qualidade utilizados.
A partir disso, não é difícil ver onde a confiança do modelo da série Yi do zero uma coisa é ousar atacar para trás.
Entende-se que, com base na série Yi de grandes modelos, ele irá rapidamente iterar e abrir o código aberto mais versões quantitativas, modelos de diálogo, modelos matemáticos, modelos de código e modelos multimodais.
Tudo somado, com a entrada do dark horse de 010.000 coisas, a batalha de 100 modelos tornou-se mais intensa e animada.
Vale a pena esperar quantas "estreias globais" o modelo grande da série Yi irá subverter no futuro.
Mais uma coisa
Porquê o nome "Yi"? **
O nome vem do pinyin de "一", e o "Y" em "Yi" é de cabeça para baixo, lembrando habilmente o caractere chinês "humano", combinado com o i em IA, que representa Humano + IA.
Acreditamos que o empoderamento da IA impulsionará a sociedade humana, e a IA deve criar grande valor para os seres humanos no espírito de colocar as pessoas em primeiro lugar.