Model Kecil 20B Menyamai GPT-5 dan Opus dalam Kemampuan Pencarian: Chroma Rilis Model Agen Pencarian Sumber Terbuka Context-1

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan oleh 1M AI News, database vektor sumber terbuka Chroma telah merilis Context-1, sebuah model pencarian agen dengan 20 miliar parameter yang dirancang khusus untuk tugas pencarian multi-putaran. Bobot model ini dirilis sebagai sumber terbuka di bawah lisensi Apache 2.0, dan kode untuk saluran generasi data sintetik juga tersedia untuk umum. Context-1 diposisikan sebagai subagen pencarian: ia tidak secara langsung menjawab pertanyaan tetapi mengembalikan serangkaian dokumen pendukung untuk model penalaran hilir melalui pencarian multi-putaran. Teknologi inti adalah ‘konteks penyuntingan mandiri,’ di mana model secara aktif membuang fragmen dokumen yang tidak relevan selama proses pencarian, membebaskan ruang dalam jendela konteks yang terbatas untuk pencarian berikutnya, sehingga menghindari penurunan kinerja yang disebabkan oleh pembengkakan konteks. Pelatihan dilakukan dalam dua fase: pertama, menggunakan model besar seperti Kimi K2.5 untuk menghasilkan trajektori SFT untuk pemanasan fine-tuning yang diawasi, diikuti dengan pelatihan pada lebih dari 8.000 tugas sintetik melalui pembelajaran penguatan (berdasarkan algoritma CISPO). Desain hadiah menggunakan mekanisme kurikulum, mendorong eksplorasi luas pada tahap awal dan secara bertahap beralih menuju presisi di tahap akhir untuk mempromosikan retensi selektif. Model dasar adalah gpt-oss-20b, yang disesuaikan menggunakan LoRA, dan menjalankan inferensi dengan kuantisasi MXFP4 pada B200, mencapai throughput 400-500 token per detik. Dalam empat tolok ukur domain yang dibangun sendiri oleh Chroma (web, keuangan, hukum, email) dan tolok ukur publik (BrowseComp-Plus, SealQA, FRAMES, HotpotQA), versi paralel empat arah dari Context-1 mencocokkan atau mendekati metrik ‘tingkat keberhasilan jawaban akhir’ dari model-model terdepan seperti GPT-5.2, Opus 4.5, dan Sonnet 4.5; misalnya, ia mencapai 0.96 di BrowseComp-Plus (dibandingkan dengan 0.87 untuk Opus 4.5 dan 0.82 untuk GPT-5.2), sementara biaya dan latensinya hanya sebagian kecil dari yang terakhir. Perlu dicatat bahwa model ini dilatih hanya pada data web, hukum, dan keuangan tetapi juga menunjukkan peningkatan signifikan di domain email, yang tidak termasuk dalam pelatihan, menunjukkan transferabilitas kemampuan pencarian lintas domain.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan