Kerangka kerja otomatis AI untuk optimalisasi eksekusi membuat Haiku 4.5 Terminal meraih peringkat pertama: Lin Junyang menyebut ini adalah perubahan "desain lingkungan" yang dia prediksi

robot
Pembuatan abstrak sedang berlangsung

Berita dari CoinJie.com. Menurut pemantauan 1M AI News, para peneliti dari Stanford, MIT, dan perusahaan game Korea KRAFTON telah merilis Meta-Harness, sebuah metode untuk membuat AI secara otomatis mengoptimalkan kerangka eksekusi (harness, yaitu kerangka kerja eksekusi yang membungkus model dan menggerakkan tindakan Agent, yang mencakup perancangan prompt, pemanggilan alat, dan manajemen konteks). Berbeda dari kerangka eksekusi yang ditulis manual, Meta-Harness membuat Agent pengkodean membaca kode, log eksekusi, dan penilaian dari berbagai rangkaian kerangka kandidat sebelumnya, lalu melakukan iterasi pengoptimalan secara otomatis. Pada benchmark operasi terminal TerminalBench-2, Meta-Harness meningkatkan tingkat kelulusan Claude Haiku 4.5 hingga 37,6%, mengungguli Goose (35,5%) dan Claude Code (27,5%), serta menempati peringkat pertama di antara semua kerangka eksekusi Haiku 4.5 yang telah dilaporkan. Pada Claude Opus 4.6, tingkat kelulusannya mencapai 76,4%, dan menempati peringkat kedua. Penanggung jawab teknis Tongyi Qianwen, Lin Junyang, meneruskan postingan para penulis makalah dan berkomentar: “Model ditambah kerangka eksekusi” sudah melampaui “hanya melihat model”; kinerja Agent akan secara signifikan dipengaruhi oleh desain dan kualitas kerangka tersebut, “saya memang merasa ini arah yang benar”. Dalam esai panjang yang dipublikasikan Lin Junyang pada 27 Maret (saat ini sudah dihapus), ia juga memprediksi bahwa desain lingkungan akan berubah dari proyek sampingan menjadi kategori produk startup yang sesungguhnya. Meta-Harness membuktikan penilaian tersebut dengan data eksperimen: model yang sama, jika diganti dengan kerangka eksekusi yang telah dioptimalkan oleh AI, perbedaan hasil dapat mencapai 10 poin persentase.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan