Tim Poetiq enam tim Meta-System di LiveCodeBench Pro memecahkan rekor skor tertinggi. Plugin API murni ini melalui peningkatan diri secara rekursif untuk mengekstrak pengalaman tugas, tanpa menyentuh bobot atau penyesuaian kecil, mampu meningkatkan model lemah secara signifikan. Setelah terintegrasi, KimiK2.6 naik dari 50,0% menjadi 79,9%, Gemini3.0 Flash bertambah 10 poin, bahkan melampaui Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High mencapai 93,9% melalui plugin, Gemini3.1 Pro mencapai 90,9%, melampaui Gemini3 Deep Think. Perusahaan tidak perlu penyesuaian kecil biaya tinggi untuk meningkatkan kemampuan penalaran.

MeNews

2026-05-23 20:04:52

Pembuatan abstrak sedang berlangsung

Pesan AIMPACT, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, tim startup yang terdiri dari 6 orang yang didirikan oleh mantan peneliti Google dan DeepMind Shumeet Baluja dan Ian Fischer mengumumkan bahwa Meta-System mereka telah mencapai rekor tertinggi pada benchmark pemrograman LiveCodeBench Pro. Sistem ini adalah sebuah ekstensi cerdas berbasis akses API murni (Harness), yang secara otomatis mengekstrak pengalaman tugas melalui perbaikan diri secara rekursif. Pengujian resmi menunjukkan bahwa tanpa menyentuh bobot model dan tanpa melakukan fine-tuning, sistem ini secara langsung meningkatkan kemampuan kode dari model besar utama di pasar. Hasil pengujian menunjukkan bahwa solusi ekstensi yang terlepas dari model ini sangat meningkatkan model yang memiliki kemampuan lebih lemah. Setelah terhubung dengan sistem Poetiq, akurasi Kimi K2.6 melonjak dari 50,0% menjadi 79,9%, peningkatan skor absolut sebesar 29,9 poin persentase; performa Gemini 3.0 Flash yang ringan meningkat 10 poin persentase, tidak hanya melampaui versi Gemini 3.1 Pro yang lebih besar, tetapi juga mengalahkan secara luar biasa Claude Opus 4.7 dan GPT 5.2 High yang disebut sebagai "lebih besar, lebih mahal" oleh Poetiq. Dalam hal batas performa, GPT 5.5 High yang awalnya mencapai 89,6% mencapai ketinggian baru 93,9% dengan dukungan ekstensi; sementara Gemini 3.1 Pro versi dasar yang dipasangkan dengan ekstensi ini mendapatkan skor 90,9%, langsung melampaui model inferensi terkuat dari Google yang belum membuka API-nya, Gemini 3 Deep Think (88,8%). Tim Poetiq menyatakan bahwa fine-tuning tradisional akan mengunci efek peningkatan pada satu model saja, sementara solusi ekstensi yang mereka miliki secara seamless memungkinkan perusahaan untuk tidak harus menanggung biaya tinggi dari fine-tuning dan deployment model penuh demi kemampuan inferensi. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

13 Suka

Hadiah
13
8
1
Bagikan

Komentar

Tambahkan komentar

PerpPessimist

· 5jam yang lalu

Deep Think dikalahkan oleh kombinasi cheat, apakah jalur spesialisasi penalaran Google perlu direnungkan kembali

Lihat AsliBalas0

On-ChainSoilAfterTheRain

· 13jam yang lalu

GPT5.5 High langsung 93.9%, cheat ini lebih hebat dari pembaruan resmi

Lihat AsliBalas0

SlothSignal

· 13jam yang lalu

Tunggu, Gemini3.1 Pro setelah dipasang cheat hanya 90.9, apakah versi asli tidak bisa mengalahkan cheat versi 3.0 Flash? Perbandingan ini sangat ironis

Lihat AsliBalas0

ForkItAnyway

· 13jam yang lalu

Rekursif peningkatan diri + plugin API murni, ide ini terlalu liar, tanpa mengubah bobot bisa membuat KimiK2.6 melonjak dari 50 menjadi 79.9, perusahaan memang bisa menghemat banyak uang penyesuaian kecil

Lihat AsliBalas0

VolatilityInATeacup

· 13jam yang lalu

Kimi kali ini menang besar, lonjakan dari 50 ke 79.9 jauh lebih cepat daripada iterasi mereka sendiri

Lihat AsliBalas0

PaperHandsPro

· 14jam yang lalu

Skenario implementasi di sisi perusahaan seharusnya sangat bergantung pada ini, tidak perlu menyimpan kartu atau melakukan RLHF, cukup di tingkat API untuk meningkatkan efisiensi

Lihat AsliBalas0

Post-RainReflectionsMarket

· 14jam yang lalu

Tidak menyentuh bobot dan tidak melakukan penyetelan ulang, hanya mengandalkan pengalaman dalam ekstraksi dan perbaikan rekursif, jalur ini cukup cerdas, menghindari banyak masalah kepatuhan dan biaya

Lihat AsliBalas0

Frictionless

· 14jam yang lalu

Poetiq enam orang ini menciptakan Meta-System seperti ini, cukup keren

Lihat AsliBalas0