Poetiq tim enam orang dari Meta-System mencapai skor tertinggi di LiveCodeBench Pro. Ekstensi API murni ini melalui peningkatan diri secara rekursif untuk mengekstrak pengalaman tugas, tanpa menyentuh bobot atau penyesuaian kecil, mampu secara signifikan meningkatkan model lemah. Setelah terhubung, KimiK2.6 meningkat dari 50,0% menjadi 79,9%, Gemini3.0 Flash bertambah 10 poin, bahkan melampaui Gemini3.1 Pro, Claude Opus4.7, GPT5.2 High. GPT5.5 High mencapai 93,9% melalui ekstensi, Gemini3.1 Pro mencapai 90,9%, melampaui Gemini3 Deep Think. Perusahaan tidak perlu penyesuaian kecil biaya tinggi untuk meningkatkan kemampuan penalaran.

MeNews

2026-05-24 08:07:37

Pembuatan abstrak sedang berlangsung

Pesan AIMPACT, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, tim startup yang terdiri dari 6 orang yang didirikan oleh mantan peneliti Google dan DeepMind Shumeet Baluja serta Ian Fischer mengumumkan bahwa Meta-System mereka telah mencapai rekor tertinggi pada benchmark pemrograman LiveCodeBench Pro. Sistem ini adalah sebuah ekstensi cerdas berbasis akses API murni (Harness), yang secara otomatis mengekstrak pengalaman tugas melalui perbaikan diri secara rekursif. Pengujian resmi menunjukkan bahwa tanpa menyentuh bobot model dan tanpa melakukan fine-tuning, sistem ini secara langsung meningkatkan kemampuan kode dari model besar utama di pasar. Hasil pengujian menunjukkan bahwa solusi ekstensi yang terlepas dari model ini sangat efektif dalam meningkatkan model yang memiliki kemampuan lebih lemah. Setelah terintegrasi dengan sistem Poetiq, akurasi Kimi K2.6 melonjak dari 50,0% menjadi 79,9%, peningkatan skor absolut sebesar 29,9 poin persentase; performa Gemini 3.0 Flash yang ringan meningkat 10 poin persentase, tidak hanya melampaui versi besar Gemini 3.1 Pro sendiri, tetapi juga mengalahkan Claude Opus 4.7 dan GPT 5.2 High yang disebut sebagai "lebih besar, lebih mahal" oleh Poetiq. Dalam hal batas performa, GPT 5.5 High yang sebelumnya mencapai 89,6% berhasil mencapai level baru 93,9% dengan dukungan ekstensi; sementara Gemini 3.1 Pro versi dasar yang dipasangkan dengan ekstensi ini mendapatkan skor 90,9%, langsung melampaui model inferensi terkuat Google Gemini 3 Deep Think yang belum membuka API-nya (88,8%). Tim Poetiq menyatakan bahwa fine-tuning tradisional akan mengunci efek peningkatan pada satu model saja, sementara solusi ekstensi yang dapat dipasang dan dicopot ini memungkinkan perusahaan untuk tidak harus menanggung biaya tinggi dalam fine-tuning dan deployment model penuh demi kemampuan inferensi. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

8 Suka

Hadiah
8
8
Posting ulang
Bagikan

Komentar

Tambahkan komentar

SeaSaltAirdropNotes

· 4jam yang lalu

API eksternal murni dapat memaksimalkan model lemah, ide ini terlalu liar, perusahaan hemat banyak uang

Lihat AsliBalas0

StargazerInTheWoods

· 4jam yang lalu

Meta-System ini seperti memberi model otak eksternal, pengalaman reuse-nya keren banget

Lihat AsliBalas0

RugpullTaster

· 5jam yang lalu

Tanpa penyesuaian, bisa menyamai Deep Think, pabrik kecil dan menengah sangat gembira

Lihat AsliBalas0

TreatEarningsAsSnacks

· 5jam yang lalu

Tim enam orang menghancurkan sekelompok departemen penyempurnaan kecil dari perusahaan besar, sindiran penuh

Lihat AsliBalas0

MarginMoth

· 5jam yang lalu

Claude Opus4.7 dihancurkan oleh Flash+ cheat, Anthropic harus merenung kembali

Lihat AsliBalas0

BridgeSideBanter

· 5jam yang lalu

Mengambil pengalaman secara rekursif, terdengar seperti model sendiri yang menulis rekayasa prompt

Lihat AsliBalas0

GovernanceGremlin

· 5jam yang lalu

Model lemah ekstensi menjadi kuat, demokratisasi daya komputasi benar-benar datang?

Lihat AsliBalas0

FloatingTeacupClub

· 5jam yang lalu

GPT5.5 High sudah mencapai 93,9%, batas atas masih terus naik

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
339.54K Popularitas
#
PlatinumCardCreatorExclusive
123.59K Popularitas
#
IsraelStrikesIranBTCPlunges
49.09K Popularitas
#
#DailyPolymarketHotspot
1.05M Popularitas
#
GateSquarePizzaDay
1.79M Popularitas

Disematkan

peta situs

Tanpa menyentuh bobot, penyesuaian API murni: Poetiq「Modul Tambahan」membantu Kimi meningkat 29,9 poin persentase, versi ringan Gemini melawan balik Claude Opus

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan