Tether Expande Dados de Treino do Open AI com o Lançamento do Conjunto de Dados QVAC Genesis II


Descubra as principais notícias e eventos de fintech!

Subscreva a newsletter da FinTech Weekly

Lida por executivos da JP Morgan, Coinbase, Blackrock, Klarna e mais


Uma Grande Expansão nos Dados de Formação em Open AI

A Tether Data lançou uma nova versão do seu conjunto de dados educacionais sintéticos para inteligência artificial, aumentando significativamente a quantidade e o âmbito do material de formação aberto disponível para investigadores em todo o mundo. A divisão de investigação em IA da empresa, QVAC, anunciou que o novo lançamento, chamado QVAC Genesis II, acrescenta 107 mil milhões de tokens ao seu conjunto de dados anterior, elevando o tamanho total para 148 mil milhões de tokens.

O conjunto de dados expandido é agora o maior recurso educacional sintético publicamente disponível, concebido especificamente para o pré-treinamento de IA. Abrange 19 domínios académicos e pretende melhorar a forma como os modelos aprendem raciocínio, explicação e tomada de decisão, em vez do reconhecimento de padrões à superfície.

O anúncio posiciona o lançamento como um passo em direção ao desenvolvimento de IA mais transparente e acessível, num momento em que muitos avançados conjuntos de dados de treino permanecem bloqueados dentro de sistemas proprietários.

Building on the First Genesis Release

QVAC Genesis II baseia-se no trabalho introduzido pela primeira vez com Genesis I, que se focou em criar um conjunto de dados sintético validado, centrado na educação, cobrindo as disciplinas fundamentais de ciências, tecnologia, engenharia e matemática. Esse lançamento anterior estabeleceu uma estrutura para gerar questões de treino estruturadas, destinadas a melhorar a exatidão do raciocínio.

O novo lançamento expande a cobertura para dez campos adicionais, incluindo química, ciência da computação, estatística, aprendizagem automática, astronomia, geografia, econometria e engenharia elétrica. Também revisita conteúdos de física ao nível da universidade, regenerando-os com uma metodologia atualizada concebida para melhorar a clareza conceptual.

Em conjunto, os dois lançamentos formam o que a QVAC descreve como o conjunto de dados educacionais sintéticos mais extenso disponibilizado até agora ao público. O conjunto de dados destina-se a ser usado no pré-treinamento de grandes modelos de linguagem e noutros sistemas de IA que necessitam de material académico estruturado.

A Shift in How Training Data Is Generated

No cerne da Genesis II está um novo método de geração de dados, referido como Option-Level Reasoning. Esta abordagem difere de muitas técnicas de dados sintéticos existentes ao focar-se não apenas em respostas incorretas, mas também nas corretas.

Em vez de tratar uma resposta correta como o fim do processo, o método analisa cada opção de resposta numa pergunta de escolha múltipla. As escolhas corretas são decompostas para reforçar por que são corretas, enquanto as opções incorretas são examinadas para abordar conceções erradas comuns. Esta estrutura permite que os modelos aprendam raciocínio causal e lógica de decisão, em vez de simplesmente associar perguntas a resultados.

A abordagem complementa o método de Failure Analysis introduzido na Genesis I, que se focou em extrair valor dos erros do modelo. Em conjunto, os dois métodos formam um pipeline em que cada questão gerada é concebida para contribuir com valor instrucional.

Avaliações independentes citadas pela QVAC indicam que os modelos treinados com dados da Genesis II apresentam maior exatidão no raciocínio e produzem respostas mais claras do que os treinados em conjuntos de dados sintéticos anteriores.

Emphasis on Understanding Over Fluency

Grande parte do ecossistema atual de treino de IA depende de reunir volumes muito grandes de texto, frequentemente recolhidos de fontes públicas, para melhorar a fluência da linguagem. O objetivo declarado da QVAC difere na ênfase. Os conjuntos de dados Genesis são estruturados para ensinar os modelos a raciocinar através dos problemas e a explicar conclusões de forma clara.

A liderança da empresa indicou que a intenção é ir além de sistemas de treino que predizem sequências prováveis de texto, rumo a modelos que demonstram compreensão dos conceitos subjacentes. O desenho do conjunto de dados dá prioridade à clareza, à causalidade e à lógica, com o objetivo de reduzir a ambiguidade nas saídas do modelo.

Esta abordagem está alinhada com discussões mais amplas na investigação em IA sobre fiabilidade e explicabilidade, especialmente à medida que os sistemas de IA são usados em contextos de educação, ciência e apoio à decisão.

Open Access for Researchers and Developers

Tal como no conjunto de dados original da Genesis, a QVAC Genesis II está a ser disponibilizada de forma aberta. O conjunto de dados está licenciado ao abrigo de uma licença Creative Commons Attribution–NonCommercial 4.0, permitindo que investigadores, instituições académicas e programadores independentes usem e estudem os dados fora de contextos comerciais.

O conjunto de dados e os modelos associados são alojados no Hugging Face, juntamente com um artigo técnico detalhado que descreve a metodologia de geração e os resultados de avaliação. Esta distribuição aberta pretende reduzir barreiras para investigadores que não têm acesso a grandes conjuntos de dados proprietários.

Ao manter licenciamento não comercial, a QVAC pretende apoiar a investigação académica e impulsionada pela comunidade, limitando a exploração comercial direta.

Supporting Decentralized AI Development

O lançamento também se enquadra numa estratégia mais ampla prosseguida pela Tether Data para incentivar o desenvolvimento descentralizado de IA. A empresa afirmou que dados de treino de alta qualidade não devem ficar restritos a organizações com acesso a infraestrutura cloud centralizada.

Ao disponibilizar publicamente conjuntos de dados estruturados de grande escala, a QVAC pretende permitir treino local, experimentação e implementação de modelos de IA. Esta abordagem destina-se a apoiar ambientes de investigação onde os recursos de computação podem ser limitados, mas as contribuições intelectuais continuam a ser significativas.

A ênfase na descentralização reflete o crescente interesse em reduzir a dependência de um pequeno número de plataformas de IA dominantes e em promover um ecossistema de investigação mais distribuído.

Tether’s Role in AI Research

A QVAC opera como a divisão de investigação em IA da Tether Data. Embora a Tether seja amplamente conhecida pelo seu papel em ativos digitais e stablecoins, a empresa expandiu as suas atividades para investigação em dados e IA nos últimos anos.

Através da QVAC, a Tether Data concentrou-se na construção de infraestruturas e recursos que suportam investigação aberta. Os conjuntos de dados Genesis representam um dos outputs mais visíveis desse esforço, posicionando a empresa em discussões em torno do desenvolvimento em Open AI e de conjuntos de dados de treino centrados na educação.

Este trabalho também reflete a crescente sobreposição entre empresas de fintech e investigação avançada em IA, já que empresas de tecnologia financeira investem cada vez mais em capacidades de ciência de dados e aprendizagem automática.

Leadership Perspective on the Release

A liderança da empresa enquadrou o lançamento da Genesis II como um afastamento de abordagens de treino que priorizam apenas o volume. O foco, de acordo com declarações da equipa executiva da Tether, está em ensinar sistemas de IA a raciocinar e a explicar, em vez de simplesmente gerar respostas fluidas.

Paolo Ardoino, diretor executivo da Tether, enfatizou que a IA fiável deve assentar na compreensão de por que razão as respostas estão corretas. Ele indicou que disponibilizar o conjunto de dados de forma aberta reflete a crença de que uma IA mais forte e mais explicável beneficia a sociedade no seu conjunto.

Estas perspetivas ecoam preocupações levantadas por investigadores sobre as limitações de modelos treinados sobretudo em texto não estruturado.

Educational Scope and Domain Coverage

Os conjuntos de dados combinados da Genesis I e II cobrem 19 domínios, com conteúdos concebidos para níveis secundário e terciário de educação. As disciplinas vão desde a matemática e a física fundamentais até áreas aplicadas como econometria e aprendizagem automática.

Cada domínio inclui questões estruturadas, explicações e percursos de raciocínio destinados a espelhar a forma como os conceitos são ensinados e avaliados em contextos de educação formal. Este desenho destina-se a apoiar tarefas de pré-treinamento que exigem consistência lógica e profundidade conceptual.

Ao regenerar e expandir conteúdo com recurso a métodos melhorados, a QVAC pretende aperfeiçoar a forma como o material educativo é representado em conjuntos de dados sintéticos.

Evaluation and Model Performance

De acordo com avaliações internas e independentes referenciadas pela QVAC, os modelos treinados com dados da Genesis II apresentam desempenho melhorado em tarefas com forte componente de raciocínio. Estas incluem responder a questões estruturadas, explicar conclusões e evitar respostas ambíguas ou contraditórias.

Os resultados da avaliação sugerem que a combinação de Failure Analysis e Option-Level Reasoning conduz a saídas mais consistentes. Embora a empresa não tenha posicionado o conjunto de dados como uma solução isolada, apresentou-o como uma base sólida para treino adicional e afinação.

Espera-se que os investigadores realizem avaliações adicionais à medida que o conjunto de dados ganha uso mais amplo na comunidade.

Implications for Open AI Research

O lançamento de um conjunto de dados tão grande e aberto poderá influenciar a forma como investigadores académicos e independentes abordam o treino de modelos. O acesso a dados educacionais estruturados neste nível de escala tem tradicionalmente sido limitado a organizações bem financiadas.

Ao fornecer uma alternativa, a QVAC Genesis II pode apoiar a experimentação com modelos mais pequenos, esforços de treino localizados e investigação em métodos de IA explicável.

O conjunto de dados pode também servir como referência para futuros projetos de dados sintéticos que priorizem a qualidade do raciocínio em vez da mera dimensão.

Position Within the Broader AI Ecosystem

A QVAC Genesis II entra num ecossistema de IA marcado por desenvolvimento rápido e por uma crescente concentração de recursos. Muitos dos modelos mais capazes são treinados em conjuntos de dados proprietários que não estão acessíveis para escrutínio ou replicação.

Conjuntos de dados abertos como a Genesis II oferecem um contraponto, permitindo transparência e progresso partilhado. Também levantam questões sobre como é que recursos abertos podem coexistir com o desenvolvimento de IA comercial.

O envolvimento de uma empresa com raízes em fintech e ativos digitais destaca como a investigação em IA está a captar interesse de um vasto conjunto de indústrias para além de empresas tradicionais de tecnologia.

Availability and Next Steps

A documentação técnica completa para o conjunto de dados, intitulada “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” foi publicada no blogue de investigação da QVAC. O acesso ao conjunto de dados e aos modelos relacionados está disponível através do Hugging Face.

A QVAC indicou que pretende continuar a refinar os seus métodos e a expandir a cobertura educacional em lançamentos futuros. Espera-se que o feedback da comunidade de investigação desempenhe um papel na definição das iterações seguintes.

A Continuing Push for Open Foundations

Com a Genesis II, a QVAC reforça a sua posição de que dados de treino abertos e estruturados são essenciais para construir sistemas de IA fiáveis. O lançamento reflete a visão de que a inteligência deve estar assente em raciocínio e explicação, e não apenas em associação estatística.

À medida que os sistemas de IA se tornam mais integrados na educação, na ciência e nos serviços financeiros, incluindo aplicações de fintech, a qualidade dos seus dados de treino continuará a ser uma preocupação central.

Por agora, o conjunto de dados Genesis expandido surge como uma contribuição notável para a investigação em Open AI, oferecendo escala, estrutura e acessibilidade a um nível raramente visto fora de ambientes proprietários.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar