Tether Expande Dados de Treino do Open AI com o Lançamento do Conjunto de Dados QVAC Genesis II

SleepTrader

2026-04-03 08:56:09

Descubra as principais notícias e eventos de fintech!

Subscreva a newsletter da FinTech Weekly

Lida por executivos da JP Morgan, Coinbase, Blackrock, Klarna e mais

Uma Grande Expansão nos Dados de Treino da Open AI

A Tether Data lançou uma nova versão do seu conjunto de dados educacionais sintéticos para inteligência artificial, aumentando significativamente o volume e o âmbito do material de treino aberto disponível para investigadores em todo o mundo. A divisão de investigação em IA da empresa, QVAC, anunciou que o novo lançamento, chamado QVAC Genesis II, adiciona 107 mil milhões de tokens ao seu conjunto de dados anterior, elevando o tamanho total para 148 mil milhões de tokens.

O conjunto de dados expandido é agora o maior recurso educacional sintético disponibilizado publicamente, concebido especificamente para pré-treino de IA. Abrange 19 domínios académicos e tem como objetivo melhorar a forma como os modelos aprendem raciocínio, explicação e tomada de decisão, em vez de apenas reconhecimento de padrões ao nível da superfície.

O anúncio enquadra o lançamento como um passo em direção a um desenvolvimento de IA mais transparente e acessível, num momento em que muitos conjuntos de dados avançados de treino continuam bloqueados em sistemas proprietários.

Construindo Sobre o Primeiro Lançamento Genesis

QVAC Genesis II baseia-se em trabalho inicialmente apresentado com o Genesis I, que se focava na criação de um conjunto de dados sintéticos validado, centrado na educação, cobrindo matérias fundamentais de ciências, tecnologia, engenharia e matemática. Esse lançamento anterior estabeleceu uma estrutura para gerar perguntas de treino estruturadas destinadas a melhorar a exatidão do raciocínio.

O novo lançamento expande a cobertura para dez áreas adicionais, incluindo química, ciência da computação, estatística, aprendizagem automática, astronomia, geografia, econometria e engenharia elétrica. Também revisita conteúdos de física ao nível universitário, regenerando-os com uma metodologia atualizada, concebida para melhorar a clareza conceptual.

Em conjunto, os dois lançamentos constituem o que a QVAC descreve como o mais extenso conjunto de dados educacionais sintéticos disponibilizado até agora ao público. O conjunto de dados destina-se a ser usado no pré-treino de grandes modelos de linguagem e de outros sistemas de IA que exigem material académico estruturado.

Uma Mudança na Forma como os Dados de Treino São Gerados

No cerne do Genesis II está um novo método de geração de dados referido como Option-Level Reasoning. Esta abordagem difere de muitas técnicas existentes de dados sintéticos por se concentrar não apenas nas respostas incorretas, mas também nas corretas.

Em vez de tratar uma resposta correta como o fim do processo, o método analisa todas as opções de resposta numa pergunta de escolha múltipla. As escolhas corretas são decompostas para reforçar por que razão estão corretas, enquanto as opções incorretas são examinadas para abordar conceções erróneas comuns. Esta estrutura permite que os modelos aprendam raciocínio causal e lógica de decisão, em vez de apenas associar perguntas aos resultados.

A abordagem complementa o método de Failure Analysis introduzido no Genesis I, que se focava em extrair valor dos erros do modelo. Em conjunto, os dois métodos formam um pipeline em que cada pergunta gerada é concebida para contribuir com valor instrucional.

Avaliações independentes citadas pela QVAC indicam que os modelos treinados com dados do Genesis II apresentam maior exatidão no raciocínio e produzem respostas mais claras do que os treinados com conjuntos de dados sintéticos anteriores.

Ênfase na Compreensão em vez da Fluência

Grande parte do atual ecossistema de treino de IA depende de reunir volumes muito grandes de texto, muitas vezes recolhidos de fontes públicas, para melhorar a fluência da linguagem. O objetivo declarado da QVAC difere na ênfase. Os conjuntos de dados Genesis são estruturados para ensinar os modelos a raciocinar através dos problemas e a explicar conclusões de forma clara.

A liderança da empresa indicou que a intenção é ir além de sistemas de treino que predizem sequências de texto prováveis, no sentido de modelos que demonstram compreensão dos conceitos subjacentes. A conceção do conjunto de dados prioriza clareza, causalidade e lógica, com o objetivo de reduzir a ambiguidade nas saídas dos modelos.

Esta abordagem está alinhada com discussões mais amplas na investigação em IA sobre fiabilidade e explicabilidade, sobretudo à medida que os sistemas de IA são usados em educação, ciência e contextos de apoio à decisão.

Acesso Aberto para Investigadores e Desenvolvedores

Tal como no conjunto de dados original Genesis, o QVAC Genesis II está a ser disponibilizado de forma aberta. O conjunto de dados está disponível sob uma licença Creative Commons Attribution–NonCommercial 4.0, permitindo que investigadores, instituições académicas e programadores independentes usem e estudem os dados fora de contextos comerciais.

O conjunto de dados e os modelos associados são alojados no Hugging Face, juntamente com um artigo técnico detalhado que descreve a metodologia de geração e os resultados de avaliação. Esta distribuição aberta destina-se a reduzir barreiras para investigadores que não têm acesso a grandes conjuntos de dados proprietários.

Ao manter licenciamento não comercial, a QVAC procura apoiar investigação académica e orientada pela comunidade, limitando, em simultâneo, a exploração comercial direta.

Apoiar o Desenvolvimento Descentralizado de IA

O lançamento também se enquadra numa estratégia mais ampla seguida pela Tether Data para incentivar o desenvolvimento descentralizado de IA. A empresa afirmou que dados de treino de alta qualidade não devem ser restringidos a organizações com acesso a infraestruturas de cloud centralizadas.

Ao tornar públicos, em larga escala, conjuntos de dados estruturados, a QVAC pretende permitir treino local, experimentação e implementação de modelos de IA. Esta abordagem pretende apoiar ambientes de investigação onde os recursos de computação possam ser limitados, mas em que as contribuições intelectuais permanecem significativas.

A ênfase na descentralização reflete o crescente interesse em reduzir a dependência de um pequeno número de plataformas de IA dominantes e fomentar um ecossistema de investigação mais distribuído.

O Papel da Tether na Investigação em IA

A QVAC opera como a divisão de investigação em IA da Tether Data. Embora a Tether seja amplamente conhecida pelo seu papel em ativos digitais e stablecoins, a empresa expandiu as suas atividades para dados e investigação em IA nos últimos anos.

Através da QVAC, a Tether Data concentrou-se em construir infraestruturas e recursos que apoiam investigação aberta. Os Genesis datasets representam um dos resultados mais visíveis desse esforço, posicionando a empresa nas discussões em torno do desenvolvimento de Open AI e de dados de treino centrados na educação.

Este trabalho reflete também a sobreposição crescente entre empresas de fintech e investigação avançada em IA, à medida que as empresas de tecnologia financeira investem cada vez mais em capacidades de ciência de dados e aprendizagem automática.

Perspetiva da Liderança sobre o Lançamento

A liderança da empresa enquadrou o lançamento do Genesis II como um afastamento de abordagens de treino que priorizam apenas o volume. O foco, de acordo com declarações da equipa executiva da Tether, está em ensinar sistemas de IA a raciocinar e a explicar, em vez de apenas gerar respostas fluidas.

Paolo Ardoino, CEO da Tether, enfatizou que uma IA fiável deve estar alicerçada em compreender por que razão as respostas estão corretas. Ele indicou que tornar o conjunto de dados disponível de forma aberta reflete a crença de que uma IA mais forte e mais explicável beneficia a sociedade como um todo.

Estas perspetivas ecoam preocupações levantadas por investigadores sobre as limitações de modelos treinados sobretudo com texto não estruturado.

Âmbito Educacional e Cobertura por Domínios

Os Genesis I e II datasets combinados cobrem 19 domínios, com conteúdo concebido para níveis de ensino secundário e terciário. As disciplinas vão desde matemática e física fundamentais até áreas aplicadas como econometria e aprendizagem automática.

Cada domínio inclui perguntas estruturadas, explicações e percursos de raciocínio destinados a espelhar a forma como os conceitos são ensinados e avaliados em contextos formais de educação. Esta conceção pretende apoiar tarefas de pré-treino que exigem consistência lógica e profundidade conceptual.

Ao regenerar e expandir conteúdos com recurso a métodos melhorados, a QVAC tem como objetivo refinar a forma como o material educacional é representado em conjuntos de dados sintéticos.

Avaliação e Desempenho dos Modelos

De acordo com avaliações internas e independentes citadas pela QVAC, os modelos treinados com dados do Genesis II apresentam desempenho melhorado em tarefas que exigem raciocínio. Estas incluem responder a perguntas estruturadas, explicar conclusões e evitar respostas ambíguas ou contraditórias.

Os resultados de avaliação sugerem que a combinação de Failure Analysis e Option-Level Reasoning conduz a saídas mais consistentes. Embora a empresa não tenha posicionado o conjunto de dados como uma solução autónoma, apresentou-o como uma base sólida para treino adicional e afinação (fine-tuning).

Espera-se que os investigadores realizem avaliações adicionais à medida que o conjunto de dados ganha maior utilização na comunidade.

Implicações para a Investigação em Open AI

O lançamento de um conjunto de dados tão grande e aberto poderá influenciar a forma como investigadores académicos e independentes abordam o treino de modelos. O acesso a dados educacionais estruturados nesta escala tem tradicionalmente estado limitado a organizações bem financiadas.

Ao disponibilizar uma alternativa, o QVAC Genesis II poderá apoiar experiências com modelos menores, esforços de treino localizados e investigação em métodos de IA explicável.

O conjunto de dados poderá também servir como referência para futuros projetos de dados sintéticos que priorizem a qualidade do raciocínio em vez do mero tamanho.

Posição no Ecossistema Mais Amplo de IA

O QVAC Genesis II entra num ecossistema de IA marcado por desenvolvimento rápido e aumento da concentração de recursos. Muitos dos modelos mais capazes são treinados com conjuntos de dados proprietários que não estão acessíveis para escrutínio ou replicação.

Conjuntos de dados abertos como o Genesis II oferecem um contraponto, permitindo transparência e progresso partilhado. Também levantam questões sobre como é que recursos abertos podem coexistir com o desenvolvimento de IA comercial.

A participação de uma empresa com raízes em fintech e ativos digitais realça como a investigação em IA está a atrair interesse de uma vasta gama de indústrias para além das empresas de tecnologia tradicionais.

Disponibilidade e Próximos Passos

A documentação técnica completa para o conjunto de dados, intitulada “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” foi publicada no QVAC research blog. O acesso ao conjunto de dados e aos modelos relacionados está disponível através do Hugging Face.

A QVAC indicou que pretende continuar a refinar os seus métodos e a expandir a cobertura educacional em lançamentos futuros. Espera-se que o feedback da comunidade de investigação desempenhe um papel na definição das iterações subsequentes.

Um Impulso Continuado por Bases Abertas

Com o Genesis II, a QVAC reforça a sua posição de que dados de treino abertos e estruturados são essenciais para construir sistemas de IA fiáveis. O lançamento reflete uma visão de que a inteligência deve estar alicerçada em raciocínio e explicação, e não apenas em associação estatística.

À medida que os sistemas de IA se tornam mais integrados na educação, na ciência e nos serviços financeiros, incluindo aplicações de fintech, a qualidade dos seus dados de treino continuará a ser uma preocupação central.

Por agora, o conjunto de dados Genesis expandido destaca-se como uma contribuição notável para a investigação em Open AI, oferecendo escala, estrutura e acessibilidade num nível raramente visto fora de ambientes proprietários.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareAprilPostingChallenge
136.08K Popularidade
#
MarchNonfarmPayrollsIncoming
213.98K Popularidade
#
IsraelStrikesIranBTCPlunges
21.42K Popularidade
#
CryptoMarketSeesVolatility
106.54K Popularidade
#
OilPricesRise
1.3M Popularidade

Gate Fun tendência
Ver mais

1
TMP
特没谱
LM:$2.23KTitulares:1
0.00%
2
BHR
黑马纪元
LM:$2.26KTitulares:2
0.07%
3
LELE
乐乐
LM:$2.22KTitulares:1
0.00%
4
op
op
LM:$2.23KTitulares:1
0.00%
5
火箭
HJ
LM:$2.23KTitulares:0
0.00%

Fixar

Tether Expande Dados de Treino do Open AI com o Lançamento do Conjunto de Dados QVAC Genesis II

Uma Grande Expansão nos Dados de Treino da Open AI

Construindo Sobre o Primeiro Lançamento Genesis

Uma Mudança na Forma como os Dados de Treino São Gerados

Ênfase na Compreensão em vez da Fluência

Acesso Aberto para Investigadores e Desenvolvedores

Apoiar o Desenvolvimento Descentralizado de IA

O Papel da Tether na Investigação em IA

Perspetiva da Liderança sobre o Lançamento

Âmbito Educacional e Cobertura por Domínios

Avaliação e Desempenho dos Modelos

Implicações para a Investigação em Open AI

Posição no Ecossistema Mais Amplo de IA

Disponibilidade e Próximos Passos

Um Impulso Continuado por Bases Abertas

Tópicos em destaque

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Gate Fun tendência

TMP

特没谱

BHR

黑马纪元

LELE

乐乐

op

op

火箭

HJ

Fixar