Opus 4.7 dengan tingkat pemikiran rendah melampaui maksimum Sonnet 4.6, Anthropic merilis panduan penyesuaian kontrol agen pertama.

robot
Pembuatan abstrak sedang berlangsung
Berita AIMPACT, 20 Mei (UTC+8), menurut pemantauan Dongcha Beating, Anthropic merilis panduan pengembangan resmi pertama, yang mengungkap secara mendalam batas resolusi, rasio kedalaman pemikiran, dan mekanisme pengurangan biaya cache untuk Claude 4.6 dan Opus 4.7 dalam skenario kontrol komputer dan browser.
Resolusi layar secara langsung menentukan akurasi klik agen. Claude 4.6 memiliki batas atas sisi panjang tangkapan layar sebesar 1568 piksel, sementara Opus 4.7 sebesar 2576 piksel. Begitu tangkapan layar melebihi batas, server API secara otomatis akan memperkecil gambar secara proporsional, yang menyebabkan koordinat klik yang dihasilkan model bergeser dari gambar asli klien. Oleh karena itu, pengembang harus memperkecil tangkapan layar di sisi klien terlebih dahulu menjadi 1280x720 (rekomendasi Claude 4.6) atau 1080p (rekomendasi Opus 4.7).
Kontrol antarmuka terutama bergantung pada persepsi visual dan lokasi elemen, tidak memerlukan penalaran logika rantai panjang. Pengujian menunjukkan bahwa Opus 4.7 pada kedalaman pemikiran rendah (low) dapat menyamai kinerja kontrol Sonnet 4.6 pada kedalaman pemikiran maksimal (max), dan biaya token hanya sepersepuluh dari yang terakhir. Pihak resmi menyarankan untuk mengatur opsi pemikiran ke high, dibandingkan dengan kedalaman max, konsumsi token berkurang setengahnya sementara tingkat keberhasilan tetap sama, hindari mengaktifkan max untuk mencegah model berpikir berlebihan yang menyebabkan tagihan dua kali lipat.
Karena satu tangkapan layar mengkonsumsi hingga 1800 token dalam konteks, pihak resmi memberikan tiga lapis skema pengurangan biaya: menyimpan 1 breakpoint cache tingkat sistem permanen, dan secara dinamis mengalokasikan 3 breakpoint lainnya ke hasil eksekusi alat dari beberapa putaran terakhir; melakukan pemangkasan gulir di sisi klien, hanya menyimpan 3 tangkapan layar terbaru dalam konteks, sisanya diganti dengan placeholder; memicu kompresi ringkasan ketika kedalaman konteks mendekati 90%.
Selain itu, API memperkenalkan alat batch computer_batch, yang mendukung eksekusi beberapa operasi tanpa dependensi visual dalam satu panggilan; dan menyediakan mekanisme penasihat agen (Advisor Tool), yang memungkinkan model utama memanggil model Opus tingkat tinggi secara langsung di latar belakang untuk mengaudit langkah-langkah eksekusi. Pengembang juga dapat menggunakan mode perekaman bimbingan (Teach Mode, yaitu merekam jejak operasi nyata pengguna dan menggunakannya sebagai referensi instruksi saat diputar ulang) untuk meningkatkan tingkat keberhasilan tugas secara signifikan.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar