Opus 4.7 dengan tingkat pemikiran rendah melampaui nilai maksimum Sonnet 4.6, Anthropic merilis panduan penyesuaian kontrol agen pertama.

robot
Pembuatan abstrak sedang berlangsung
Berita AIMPACT, 20 Mei (UTC+8), menurut pemantauan dari Dongcha Beating, Anthropic merilis panduan pengembangan resmi pertama, yang mengungkapkan secara mendalam batas resolusi, rasio kedalaman berpikir, dan mekanisme pengurangan biaya cache untuk Claude 4.6 dan Opus 4.7 dalam skenario kendali komputer dan peramban.
Resolusi layar secara langsung menentukan keakuratan klik agen. Claude 4.6 memiliki batas atas sisi panjang tangkapan layar sebesar 1568 piksel, sedangkan Opus 4.7 sebesar 2576 piksel. Begitu tangkapan layar melebihi batas, server API secara otomatis akan mengecilkan gambar secara proporsional, yang menyebabkan koordinat klik yang dihasilkan model bergeser dari gambar asli klien. Oleh karena itu, pengembang harus terlebih dahulu mengecilkan tangkapan layar di klien menjadi 1280x720 (disarankan untuk Claude 4.6) atau 1080p (disarankan untuk Opus 4.7).
Pengendalian antarmuka terutama bergantung pada persepsi visual dan lokasi elemen, tidak memerlukan penalaran logika rantai panjang. Pengujian menunjukkan bahwa Opus 4.7 pada kedalaman berpikir rendah (low) sudah dapat menyamai kinerja Sonnet 4.6 pada kedalaman berpikir maksimum (max), dan biaya token hanya sepersepuluh dari yang terakhir. Rekomendasi resmi adalah mengatur opsi berpikir ke high, dibandingkan dengan kedalaman max, konsumsi token berkurang setengahnya dan tingkat keberhasilan sama persis; sebaiknya hindari mengaktifkan max untuk mencegah model berpikir berlebihan yang menggandakan tagihan.
Karena satu tangkapan layar menghabiskan hingga 1800 token dalam konteks, resmi memberikan tiga skema pengurangan biaya: menetapkan 1 breakpoint cache tingkat sistem secara permanen, dan secara dinamis mengalokasikan 3 breakpoint lainnya ke hasil eksekusi alat dari beberapa putaran terbaru; melakukan pemangkasan gulir di klien, hanya menyimpan 3 tangkapan layar terbaru dalam konteks, sisanya diganti dengan placeholder; memicu kompresi ringkasan ketika kedalaman konteks mendekati 90%.
Selain itu, API memperkenalkan alat batch computer_batch, yang mendukung eksekusi beberapa operasi tanpa ketergantungan visual dalam satu panggilan; dan menyediakan mekanisme penasihat agen (Advisor Tool), yang memungkinkan model utama secara langsung memanggil model Opus tingkat tinggi di latar belakang untuk mengaudit langkah-langkah eksekusi. Pengembang juga dapat menggunakan Teach Mode (mode pengajaran dengan merekam jejak operasi nyata pengguna dan menggunakannya sebagai referensi instruksi saat pemutaran ulang) untuk meningkatkan tingkat keberhasilan tugas secara signifikan.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar