Tanpa menyentuh bobot, penyesuaian API murni: Poetiq「Modul Tambahan」membantu Kimi meningkat 29,9 poin persentase, versi ringan Gemini melawan balik Claude Opus

robot
Pembuatan abstrak sedang berlangsung
Pesan AIMPACT, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, tim startup yang terdiri dari 6 orang yang didirikan oleh mantan peneliti Google dan DeepMind Shumeet Baluja serta Ian Fischer mengumumkan bahwa Meta-System mereka telah mencapai rekor tertinggi pada benchmark pemrograman LiveCodeBench Pro. Sistem ini adalah sebuah ekstensi cerdas berbasis akses API murni (Harness), yang secara otomatis mengekstrak pengalaman tugas melalui perbaikan diri secara rekursif. Pengujian resmi menunjukkan bahwa tanpa menyentuh bobot model dan tanpa melakukan fine-tuning, sistem ini secara langsung meningkatkan kemampuan kode dari model besar utama di pasar. Hasil pengujian menunjukkan bahwa solusi ekstensi yang terlepas dari model ini sangat efektif dalam meningkatkan model yang memiliki kemampuan lebih lemah. Setelah terintegrasi dengan sistem Poetiq, akurasi Kimi K2.6 melonjak dari 50,0% menjadi 79,9%, peningkatan skor absolut sebesar 29,9 poin persentase; performa Gemini 3.0 Flash yang ringan meningkat 10 poin persentase, tidak hanya melampaui versi Gemini 3.1 Pro yang lebih besar, tetapi juga mengalahkan Claude Opus 4.7 dan GPT 5.2 High yang disebut sebagai "lebih besar, lebih mahal" oleh Poetiq. Dalam hal batas performa, GPT 5.5 High yang sebelumnya mencapai 89,6% berhasil mencapai level baru 93,9% dengan dukungan ekstensi; sementara Gemini 3.1 Pro versi dasar yang dipasangkan dengan ekstensi ini mendapatkan skor 90,9%, langsung melampaui model inferensi terkuat dari Google yang belum membuka API-nya, Gemini 3 Deep Think (88,8%). Tim Poetiq menyatakan bahwa fine-tuning tradisional akan mengunci efek peningkatan pada satu model saja, sementara solusi ekstensi yang mereka miliki memungkinkan perusahaan untuk tidak harus menanggung biaya tinggi dalam melakukan fine-tuning dan deployment model lengkap demi kemampuan inferensi. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
CandleChaser
· 3jam yang lalu
Gagasan model lemah + plugin kuat, apakah berarti musim semi model kecil akan datang?
Lihat AsliBalas0
GateUser-b74aba1c
· 9jam yang lalu
Tim enam tim membongkar hambatan inferensi model besar, inovasi di lapisan API telah diremehkan terlalu lama
Lihat AsliBalas0
L2ArbitrageTrader
· 10jam yang lalu
Poetiq enam orang ini menghasilkan efek ini, konfigurasi tim patut dipelajari
Lihat AsliBalas0
CyberBridgeDeepPerspective
· 10jam yang lalu
GPT5.5 High mencapai 93.9%, Gemini3.1 Pro selesai 90.9%, cheat ini lebih hebat daripada konfigurasi asli tertinggi
Lihat AsliBalas0
GateUser-cbb8cdf5
· 10jam yang lalu
Perusahaan sangat gembira, akhirnya tidak perlu mengeluarkan uang untuk penyesuaian kecil lagi
Lihat AsliBalas0
BribeCoffee
· 10jam yang lalu
Peningkatan diri secara rekursif + ekstraksi pengalaman, arsitektur Meta-System ini cukup menarik
Lihat AsliBalas0
VineGeometry
· 10jam yang lalu
Plugin API murni tanpa menyentuh bobot dapat membuat Kimi melompat dari 50% ke 79%, jalur ini jauh lebih cerdas daripada penyesuaian kecil
Lihat AsliBalas0
  • Disematkan