Tether Expande Dados de Treino do Open AI com o Lançamento do Conjunto de Dados QVAC Genesis II

SleepTrader

2026-03-28 19:18:33

Descubra as principais notícias e eventos de fintech!

Subscreva-se na newsletter da FinTech Weekly

Lida por executivos da JP Morgan, Coinbase, Blackrock, Klarna e outros

Uma Grande Expansão nos Dados de Treino da Open AI

A Tether Data lançou uma nova versão do seu conjunto de dados educacional sintético para inteligência artificial, aumentando significativamente o volume e o alcance do material de treino aberto disponível para pesquisadores em todo o mundo. A divisão de pesquisa em IA da empresa, QVAC, anunciou que o novo lançamento, chamado QVAC Genesis II, adiciona 107 bilhões de tokens ao seu conjunto de dados anterior, elevando o tamanho total para 148 bilhões de tokens.

O conjunto de dados expandido é agora o maior recurso educativo sintético disponível publicamente, projetado especificamente para pré-treinamento em IA. Ele abrange 19 domínios acadêmicos e destina-se a melhorar a forma como os modelos aprendem raciocínio, explicação e tomada de decisão, em vez de reconhecimento de padrões superficial.

O anúncio posiciona o lançamento como um passo em direção a um desenvolvimento de IA mais transparente e acessível, num momento em que muitos conjuntos de dados de treino avançados permanecem bloqueados dentro de sistemas proprietários.

Construindo sobre o Primeiro Lançamento do Genesis

O QVAC Genesis II baseia-se no trabalho introduzido pela primeira vez com o Genesis I, que se concentrou na criação de um conjunto de dados sintético validado, centrado na educação, cobrindo disciplinas fundamentais de ciência, tecnologia, engenharia e matemática. Esse lançamento anterior estabeleceu uma estrutura para gerar perguntas de treino estruturadas com o objetivo de melhorar a precisão do raciocínio.

O novo lançamento expande a cobertura para dez campos adicionais, incluindo química, ciência da computação, estatística, aprendizado de máquina, astronomia, geografia, econometria e engenharia elétrica. Ele também revisita conteúdos de física em nível universitário, regenerando-os usando uma metodologia atualizada projetada para melhorar a clareza conceitual.

Juntos, os dois lançamentos formam o que a QVAC descreve como o conjunto de dados educacionais sintéticos mais extenso já disponibilizado ao público. O conjunto de dados é destinado ao uso em pré-treinamento de grandes modelos de linguagem e outros sistemas de IA que requerem material acadêmico estruturado.

Uma Mudança na Forma Como os Dados de Treino São Gerados

No cerne do Genesis II está um novo método de geração de dados referido como Raciocínio ao Nível de Opção. Essa abordagem difere de muitas técnicas existentes de dados sintéticos ao focar não apenas em respostas incorretas, mas também nas corretas.

Em vez de tratar uma resposta correta como o fim do processo, o método analisa cada opção de resposta em uma pergunta de múltipla escolha. As escolhas corretas são decompostas para reforçar por que são corretas, enquanto as opções incorretas são examinadas para abordar concepções errôneas comuns. Essa estrutura permite que os modelos aprendam raciocínio causal e lógica de decisão, em vez de simplesmente associar perguntas com resultados.

A abordagem complementa o método de Análise de Falhas introduzido no Genesis I, que se concentrou em extrair valor dos erros do modelo. Juntas, as duas métodos formam um pipeline onde cada pergunta gerada é projetada para contribuir com valor instrucional.

Avaliações independentes citadas pela QVAC indicam que os modelos treinados com dados do Genesis II mostram maior precisão no raciocínio e produzem respostas mais claras do que aqueles treinados em conjuntos de dados sintéticos anteriores.

Ênfase na Compreensão em vez de Fluência

Grande parte do atual ecossistema de treino de IA depende da montagem de volumes muito grandes de texto, muitas vezes extraídos de fontes públicas, para melhorar a fluência da linguagem. O objetivo declarado da QVAC difere em ênfase. Os conjuntos de dados Genesis são estruturados para ensinar modelos a raciocinar sobre problemas e explicar conclusões de forma clara.

A liderança da empresa indicou que a intenção é ir além dos sistemas de treino que preveem sequências de texto prováveis, em direção a modelos que demonstrem compreensão dos conceitos subjacentes. O design do conjunto de dados prioriza clareza, causalidade e lógica, visando reduzir a ambiguidade nas saídas do modelo.

Essa abordagem alinha-se com discussões mais amplas na pesquisa em IA sobre confiabilidade e explicabilidade, especialmente à medida que os sistemas de IA são utilizados em educação, ciência e contextos de apoio à decisão.

Acesso Aberto para Pesquisadores e Desenvolvedores

Assim como o conjunto de dados original do Genesis, o QVAC Genesis II está sendo lançado abertamente. O conjunto de dados está disponível sob uma licença Creative Commons Atribuição–NãoComercial 4.0, permitindo que pesquisadores, instituições acadêmicas e desenvolvedores independentes usem e estudem os dados fora de ambientes comerciais.

O conjunto de dados e os modelos associados estão hospedados no Hugging Face, juntamente com um artigo técnico detalhado que descreve a metodologia de geração e os resultados da avaliação. Esta distribuição aberta visa baixar as barreiras para pesquisadores que não têm acesso a grandes conjuntos de dados proprietários.

Ao manter uma licença não comercial, a QVAC visa apoiar a pesquisa acadêmica e comunitária, limitando a exploração comercial direta.

Apoio ao Desenvolvimento Descentralizado de IA

O lançamento também se insere em uma estratégia mais ampla perseguida pela Tether Data para incentivar o desenvolvimento descentralizado de IA. A empresa afirmou que dados de treino de alta qualidade não devem ser restritos a organizações com acesso a infraestrutura de nuvem centralizada.

Ao tornar conjuntos de dados estruturados e em grande escala disponíveis publicamente, a QVAC busca possibilitar o treino local, a experimentação e a implementação de modelos de IA. Essa abordagem visa apoiar ambientes de pesquisa onde os recursos de computação podem ser limitados, mas as contribuições intelectuais permanecem significativas.

A ênfase na descentralização reflete o crescente interesse em reduzir a dependência de um pequeno número de plataformas de IA dominantes e fomentar um ecossistema de pesquisa mais distribuído.

O Papel da Tether na Pesquisa em IA

A QVAC opera como a divisão de pesquisa em IA da Tether Data. Enquanto a Tether é amplamente conhecida por seu papel em ativos digitais e stablecoins, a empresa expandiu suas atividades para pesquisa em dados e IA nos últimos anos.

Através da QVAC, a Tether Data tem se concentrado na construção de infraestrutura e recursos que apoiam a pesquisa aberta. Os conjuntos de dados Genesis representam uma das saídas mais visíveis desse esforço, posicionando a empresa dentro das discussões sobre desenvolvimento aberto de IA e dados de treino focados em educação.

Esse trabalho também reflete a crescente sobreposição entre empresas de fintech e pesquisa avançada em IA, à medida que as empresas de tecnologia financeira investem cada vez mais em ciência de dados e capacidades de aprendizado de máquina.

Perspectiva da Liderança sobre o Lançamento

A liderança da empresa enquadrou o lançamento do Genesis II como um movimento longe de abordagens de treino que priorizam apenas o volume. O foco, de acordo com declarações da equipe executiva da Tether, é ensinar sistemas de IA a raciocinar e explicar, em vez de simplesmente gerar respostas fluentes.

Paolo Ardoino, diretor executivo da Tether, enfatizou que uma IA confiável deve estar fundamentada na compreensão do porquê das respostas serem corretas. Ele indicou que tornar o conjunto de dados disponível abertamente reflete a crença de que uma IA mais forte e mais explicável beneficia a sociedade como um todo.

Essas opiniões ecoam preocupações levantadas por pesquisadores sobre as limitações dos modelos treinados principalmente em texto não estruturado.

Escopo Educacional e Cobertura de Domínio

Os conjuntos de dados combinados do Genesis I e II cobrem 19 domínios, com conteúdo projetado para níveis de educação secundária e terciária. As disciplinas variam desde matemática fundamental e física até campos aplicados, como econometria e aprendizado de máquina.

Cada domínio inclui perguntas estruturadas, explicações e caminhos de raciocínio destinados a refletir como os conceitos são ensinados e avaliados em ambientes de educação formal. Este design visa apoiar tarefas de pré-treinamento que exigem consistência lógica e profundidade conceitual.

Ao regenerar e expandir o conteúdo utilizando métodos melhorados, a QVAC visa refinar como o material educacional é representado em conjuntos de dados sintéticos.

Avaliação e Desempenho do Modelo

De acordo com avaliações internas e independentes referenciadas pela QVAC, os modelos treinados com dados do Genesis II mostram performance melhorada em tarefas que exigem raciocínio. Estas incluem responder a perguntas estruturadas, explicar conclusões e evitar respostas ambíguas ou contraditórias.

Os resultados da avaliação sugerem que a combinação de Análise de Falhas e Raciocínio ao Nível de Opção leva a saídas mais consistentes. Embora a empresa não tenha posicionado o conjunto de dados como uma solução autônoma, apresentou-o como uma base sólida para treinamento e ajustes adicionais.

Espera-se que pesquisadores realizem avaliações adicionais à medida que o conjunto de dados veja um uso mais amplo na comunidade.

Implicações para a Pesquisa em IA Aberta

O lançamento de um conjunto de dados tão grande e aberto pode influenciar como pesquisadores acadêmicos e independentes abordam o treino de modelos. O acesso a dados educacionais estruturados em tal escala tem sido tradicionalmente limitado a organizações bem financiadas.

Ao fornecer uma alternativa, o QVAC Genesis II pode apoiar experimentação com modelos menores, esforços de treino localizados e pesquisa em métodos de IA explicável.

O conjunto de dados também pode servir como um benchmark para futuros projetos de dados sintéticos que priorizam a qualidade do raciocínio em vez do tamanho absoluto.

Posição Dentro do Ecossistema de IA Mais Amplo

O QVAC Genesis II entra em um ecossistema de IA marcado por rápido desenvolvimento e crescente concentração de recursos. Muitos dos modelos mais capazes são treinados em conjuntos de dados proprietários que não estão acessíveis para escrutínio ou replicação.

Conjuntos de dados abertos como o Genesis II oferecem um contraponto, permitindo transparência e progresso compartilhado. Eles também levantam questões sobre como recursos abertos podem coexistir com o desenvolvimento comercial de IA.

O envolvimento de uma empresa enraizada em fintech e ativos digitais destaca como a pesquisa em IA está atraindo interesse de uma ampla gama de indústrias além das tradicionais empresas de tecnologia.

Disponibilidade e Próximos Passos

A documentação técnica completa do conjunto de dados, intitulada “QVAC Genesis II: Expandindo o Maior e Mais Alto Conjunto de Dados Educacional Sintético Multidomínio para Pré-Treinamento,” foi publicada no blog de pesquisa da QVAC. O acesso ao conjunto de dados e modelos relacionados está disponível através do Hugging Face.

A QVAC indicou que planeja continuar refinando seus métodos e expandindo a cobertura educacional em lançamentos futuros. O feedback da comunidade de pesquisa é esperado para desempenhar um papel na formação de iterações subsequentes.

Um Empurrão Contínuo por Fundamentos Abertos

Com o Genesis II, a QVAC reforça sua posição de que dados de treino abertos e estruturados são essenciais para construir sistemas de IA confiáveis. O lançamento reflete uma visão de que a inteligência deve estar fundamentada no raciocínio e na explicação, não apenas na associação estatística.

À medida que os sistemas de IA se tornam mais integrados em educação, ciência e serviços financeiros, incluindo aplicações de fintech, a qualidade de seus dados de treino continuará a ser uma preocupação central.

Por enquanto, o conjunto de dados Genesis expandido permanece como uma contribuição notável para a pesquisa em IA aberta, oferecendo escala, estrutura e acessibilidade em um nível raramente visto fora de ambientes proprietários.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.03M Popularidade
#
RangeTradingStrategy
24.64K Popularidade
#
IsraelStrikesIranBTCPlunges
17.22K Popularidade
#
BitcoinWeakens
101.06M Popularidade
#
FedRateHikeExpectationsResurface
857.83K Popularidade

Gate Fun tendência
Ver mais

1
ZX
张雪
LM:$2.27KTitulares:1
0.00%
2
DSB袋鼠币
DSB
LM:$2.25KTitulares:1
0.00%
3
MINA
Mina Coin
LM:$0.1Titulares:2
0.00%
4
SU
Satoru
LM:$0.1Titulares:1
0.00%
5
CoCo
Coco
LM:$2.25KTitulares:1
0.00%

Fixar

Tether Expande Dados de Treino do Open AI com o Lançamento do Conjunto de Dados QVAC Genesis II

Uma Grande Expansão nos Dados de Treino da Open AI

Construindo sobre o Primeiro Lançamento do Genesis

Uma Mudança na Forma Como os Dados de Treino São Gerados

Ênfase na Compreensão em vez de Fluência

Acesso Aberto para Pesquisadores e Desenvolvedores

Apoio ao Desenvolvimento Descentralizado de IA

O Papel da Tether na Pesquisa em IA

Perspectiva da Liderança sobre o Lançamento

Escopo Educacional e Cobertura de Domínio

Avaliação e Desempenho do Modelo

Implicações para a Pesquisa em IA Aberta

Posição Dentro do Ecossistema de IA Mais Amplo

Disponibilidade e Próximos Passos

Um Empurrão Contínuo por Fundamentos Abertos

Tópicos em destaque

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun tendência

ZX

张雪

DSB袋鼠币

DSB

MINA

Mina Coin

SU

Satoru

CoCo

Coco

Fixar