Tether Expande Dados de Treino do Open AI com o Lançamento do Conjunto de Dados QVAC Genesis II

SleepTrader

2026-04-01 09:14:11

Descubra as principais notícias e eventos de fintech!

Subscreva a newsletter do FinTech Weekly

Lida por executivos da JP Morgan, Coinbase, Blackrock, Klarna e mais

Uma grande expansão nos dados de treino da Open AI

A Tether Data lançou uma nova versão do seu conjunto de dados educacionais sintéticos para inteligência artificial, aumentando de forma significativa o volume e o âmbito do material de treino aberto disponível para investigadores em todo o mundo. A divisão de investigação em IA da empresa, a QVAC, anunciou que o novo lançamento, denominado QVAC Genesis II, acrescenta 107 mil milhões de tokens ao seu conjunto de dados anterior, elevando o tamanho total para 148 mil milhões de tokens.

O conjunto de dados expandido é agora o maior recurso educacional sintético disponível publicamente, concebido especificamente para o pré-treino de IA. Abrange 19 áreas académicas e tem como objetivo melhorar a forma como os modelos aprendem raciocínio, explicação e tomada de decisão, em vez de reconhecimento de padrões à superfície.

O anúncio posiciona o lançamento como um passo rumo a um desenvolvimento de IA mais transparente e acessível, num momento em que muitos dos conjuntos de dados de treino avançados permanecem bloqueados dentro de sistemas proprietários.

Apoiar-se no primeiro lançamento Genesis

O QVAC Genesis II baseia-se no trabalho introduzido inicialmente com o Genesis I, que se focou na criação de um conjunto de dados sintéticos validado, centrado na educação, abrangendo disciplinas nucleares de ciências, tecnologia, engenharia e matemática. Esse lançamento anterior estabeleceu uma estrutura para gerar questões de treino estruturadas, destinadas a melhorar a exatidão do raciocínio.

O novo lançamento alarga a cobertura para mais dez áreas, incluindo química, ciência da computação, estatística, aprendizagem automática, astronomia, geografia, econometria e engenharia elétrica. Reavalia também conteúdos de física ao nível universitário, regenerando-os com uma metodologia atualizada concebida para melhorar a clareza conceptual.

Em conjunto, os dois lançamentos constituem o que a QVAC descreve como o conjunto de dados educacionais sintéticos mais extenso disponibilizado até agora ao público. O conjunto de dados destina-se a ser usado no pré-treino de grandes modelos de linguagem e noutros sistemas de IA que necessitam de material académico estruturado.

Uma mudança na forma como os dados de treino são gerados

No centro do Genesis II está um novo método de geração de dados, referido como Option-Level Reasoning. Esta abordagem difere de muitas técnicas existentes de dados sintéticos por se centrar não apenas em respostas incorretas, mas também nas corretas.

Em vez de tratar uma resposta correta como o fim do processo, o método analisa todas as opções de resposta numa questão de escolha múltipla. As opções corretas são decompostas para reforçar por que razão estão corretas, enquanto as opções incorretas são examinadas para abordar conceções erradas comuns. Esta estrutura permite que os modelos aprendam raciocínio causal e lógica de decisão, em vez de simplesmente associar perguntas aos resultados.

A abordagem complementa o método de Failure Analysis introduzido no Genesis I, que se focou em extrair valor dos erros do modelo. Em conjunto, os dois métodos formam um pipeline em que cada questão gerada é concebida para contribuir com valor instrucional.

Avaliações independentes citadas pela QVAC indicam que modelos treinados com dados do Genesis II apresentam maior precisão no raciocínio e produzem respostas mais claras do que os treinados em conjuntos de dados sintéticos anteriores.

Ênfase na compreensão em vez da fluência

Grande parte do ecossistema atual de treino de IA depende de reunir volumes muito grandes de texto, frequentemente obtido por scraping de fontes públicas, para melhorar a fluência linguística. O objetivo declarado da QVAC difere na ênfase. Os conjuntos de dados Genesis são estruturados para ensinar os modelos a raciocinar através dos problemas e a explicar conclusões de forma clara.

A liderança da empresa indicou que a intenção é ir além dos sistemas de treino que predizem sequências de texto prováveis, em direção a modelos que demonstrem compreensão dos conceitos subjacentes. O desenho do conjunto de dados dá prioridade à clareza, causalidade e lógica, com o objetivo de reduzir a ambiguidade nas saídas dos modelos.

Esta abordagem está alinhada com discussões mais amplas na investigação em IA sobre fiabilidade e explicabilidade, especialmente à medida que os sistemas de IA são usados em educação, ciência e contextos de apoio à decisão.

Acesso aberto para investigadores e programadores

Tal como no conjunto de dados original Genesis, o QVAC Genesis II está a ser disponibilizado de forma aberta. O conjunto de dados está disponível sob uma licença Creative Commons Attribution–NonCommercial 4.0, permitindo que investigadores, instituições académicas e programadores independentes usem e estudem os dados fora de contextos comerciais.

O conjunto de dados e os modelos associados são alojados no Hugging Face, juntamente com um artigo técnico detalhado que descreve a metodologia de geração e os resultados de avaliação. Esta distribuição aberta destina-se a reduzir barreiras para investigadores que não têm acesso a grandes conjuntos de dados proprietários.

Ao manter licenciamento não comercial, a QVAC pretende apoiar investigação académica e orientada pela comunidade, limitando a exploração comercial direta.

Apoiar o desenvolvimento descentralizado de IA

O lançamento também se enquadra numa estratégia mais ampla prosseguida pela Tether Data para incentivar o desenvolvimento descentralizado de IA. A empresa afirmou que dados de treino de alta qualidade não devem ser restringidos a organizações com acesso a infraestruturas cloud centralizadas.

Ao disponibilizar publicamente conjuntos de dados estruturados de grande escala, a QVAC procura permitir treino local, experimentação e implementação de modelos de IA. Esta abordagem pretende apoiar ambientes de investigação onde os recursos de computação podem ser limitados, mas em que as contribuições intelectuais permanecem significativas.

A ênfase na descentralização reflete o interesse crescente em reduzir a dependência de um pequeno número de plataformas de IA dominantes e em promover um ecossistema de investigação mais distribuído.

O papel da Tether na investigação em IA

A QVAC funciona como a divisão de investigação em IA da Tether Data. Embora a Tether seja amplamente conhecida pelo seu papel em ativos digitais e stablecoins, a empresa alargou as suas atividades para a investigação em dados e IA nos últimos anos.

Através da QVAC, a Tether Data tem-se concentrado em construir infraestruturas e recursos que suportam investigação aberta. Os conjuntos de dados Genesis representam um dos outputs mais visíveis desse esforço, posicionando a empresa em discussões sobre desenvolvimento de IA aberta e dados de treino focados na educação.

Este trabalho também reflete a sobreposição crescente entre empresas de fintech e investigação avançada em IA, à medida que as empresas de tecnologia financeira investem cada vez mais em capacidades de ciência de dados e aprendizagem automática.

Perspetiva da liderança sobre o lançamento

A liderança da empresa enquadrou o lançamento do Genesis II como um afastamento de abordagens de treino que priorizam apenas o volume. O foco, segundo declarações da equipa executiva da Tether, é ensinar sistemas de IA a raciocinar e a explicar, em vez de simplesmente gerar respostas fluidas.

Paolo Ardoino, CEO da Tether, enfatizou que a IA fiável deve assentar em compreender por que razão as respostas estão corretas. Indica que tornar o conjunto de dados disponível de forma aberta reflete a crença de que uma IA mais forte e mais explicável beneficia a sociedade no seu conjunto.

Estas visões ecoam preocupações levantadas por investigadores sobre as limitações de modelos treinados principalmente com texto não estruturado.

Escopo educativo e cobertura por domínios

Os conjuntos de dados combinados Genesis I e II cobrem 19 domínios, com conteúdo concebido para níveis de educação secundária e terciária. As disciplinas vão desde matemática e física fundamentais até áreas aplicadas como econometria e aprendizagem automática.

Cada domínio inclui questões estruturadas, explicações e percursos de raciocínio destinados a espelhar como os conceitos são ensinados e avaliados em contextos formais de educação. Este desenho pretende suportar tarefas de pré-treino que exigem consistência lógica e profundidade conceptual.

Ao regenerar e expandir conteúdo usando métodos melhorados, a QVAC pretende refinar a forma como o material educativo é representado em conjuntos de dados sintéticos.

Avaliação e desempenho do modelo

De acordo com avaliações internas e independentes referidas pela QVAC, os modelos treinados com dados do Genesis II demonstram desempenho melhorado em tarefas centradas em raciocínio. Estas incluem responder a questões estruturadas, explicar conclusões e evitar respostas ambíguas ou contraditórias.

Os resultados da avaliação sugerem que a combinação de Failure Analysis e Option-Level Reasoning leva a saídas mais consistentes. Embora a empresa não tenha apresentado o conjunto de dados como uma solução autónoma, apresentou-o como uma base sólida para treino adicional e afinação (fine-tuning).

Espera-se que os investigadores realizem avaliações adicionais à medida que o conjunto de dados ganha uso mais alargado na comunidade.

Implicações para a investigação em Open AI

O lançamento de um conjunto de dados tão grande e aberto pode influenciar a forma como investigadores académicos e independentes abordam o treino de modelos. O acesso a dados educacionais estruturados neste nível de escala tem sido tradicionalmente limitado a organizações bem financiadas.

Ao fornecer uma alternativa, o QVAC Genesis II poderá apoiar a experimentação com modelos mais pequenos, esforços de treino localizados e investigação sobre métodos de IA explicável.

O conjunto de dados também pode servir como benchmark para futuros projetos de dados sintéticos que priorizem a qualidade do raciocínio acima da mera dimensão.

Posicionamento no ecossistema mais amplo de IA

O QVAC Genesis II entra num ecossistema de IA marcado por desenvolvimento rápido e aumento da concentração de recursos. Muitos dos modelos mais capazes são treinados com conjuntos de dados proprietários que não estão acessíveis para escrutínio ou replicação.

Conjuntos de dados abertos como o Genesis II oferecem um contraponto, permitindo transparência e progresso partilhado. Também levantam questões sobre como os recursos abertos podem coexistir com o desenvolvimento comercial de IA.

A participação de uma empresa com raízes em fintech e ativos digitais destaca como a investigação em IA está a atrair interesse de uma vasta gama de indústrias para além das empresas tradicionais de tecnologia.

Disponibilidade e próximos passos

A documentação técnica completa do conjunto de dados, intitulada “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” foi publicada no blog de investigação da QVAC. O acesso ao conjunto de dados e aos modelos relacionados está disponível através do Hugging Face.

A QVAC indicou que pretende continuar a refinar os seus métodos e a expandir a cobertura educativa em futuros lançamentos. Espera-se que o feedback da comunidade de investigação desempenhe um papel na definição das iterações seguintes.

Um impulso contínuo por bases abertas

Com o Genesis II, a QVAC reforça a sua posição de que dados de treino abertos e estruturados são essenciais para construir sistemas de IA fiáveis. O lançamento reflete a visão de que a inteligência deve assentar no raciocínio e na explicação, e não apenas na associação estatística.

À medida que os sistemas de IA se tornam mais integrados na educação, na ciência e nos serviços financeiros, incluindo aplicações de fintech, a qualidade dos seus dados de treino continuará a ser uma preocupação central.

Por agora, o conjunto de dados Genesis expandido destaca-se como uma contribuição notável para a investigação em IA aberta, oferecendo escala, estrutura e acessibilidade a um nível raramente visto fora de ambientes proprietários.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
AprilMarketOutlook
331.73K Popularidade
#
CryptoMarketsRiseBroadly
59.2K Popularidade
#
IsraelStrikesIranBTCPlunges
19.84K Popularidade
#
GoldSilverRally
338.46K Popularidade
#
ClaudeCode500KCodeLeak
808.65K Popularidade

Gate Fun tendência
Ver mais

1
bababoyi
bababoyi
LM:$2.26KTitulares:1
0.00%
2
APRIL
APRILIA
LM:$2.26KTitulares:1
0.00%
3
mtt
mtt sports
LM:$0.1Titulares:1
0.00%
4
PYL
Pylora
LM:$2.26KTitulares:0
0.00%
5
TT
TRUMP TOWER
LM:$2.26KTitulares:1
0.00%

Fixar

Tether Expande Dados de Treino do Open AI com o Lançamento do Conjunto de Dados QVAC Genesis II

Uma grande expansão nos dados de treino da Open AI

Apoiar-se no primeiro lançamento Genesis

Uma mudança na forma como os dados de treino são gerados

Ênfase na compreensão em vez da fluência

Acesso aberto para investigadores e programadores

Apoiar o desenvolvimento descentralizado de IA

O papel da Tether na investigação em IA

Perspetiva da liderança sobre o lançamento

Escopo educativo e cobertura por domínios

Avaliação e desempenho do modelo

Implicações para a investigação em Open AI

Posicionamento no ecossistema mais amplo de IA

Disponibilidade e próximos passos

Um impulso contínuo por bases abertas

Tópicos em destaque

AprilMarketOutlook

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

GoldSilverRally

ClaudeCode500KCodeLeak

Gate Fun tendência

bababoyi

bababoyi

APRIL

APRILIA

mtt

mtt sports

PYL

Pylora

TT

TRUMP TOWER

Fixar