Anthropic Rilis Analisis Pasca-Pemakaman tentang Penurunan Kualitas Kode Claude: Tiga Perubahan Lapisan Produk, Bukan Masalah Model

Menurut pemantauan oleh Beating, tim rekayasa Anthropic mengonfirmasi bahwa penurunan kualitas Claude Code yang dilaporkan pengguna selama sebulan terakhir berasal dari tiga perubahan independen di lapisan produk, yang mempengaruhi Claude Code, SDK Agen Claude, dan Claude Cowork, sementara API dan model dasar tetap tidak terpengaruh. Ketiga masalah tersebut diperbaiki pada 7, 10, dan 20 April, dengan versi akhir adalah v2.1.116. Perubahan pertama terjadi pada 4 Maret, di mana tim menyesuaikan kekuatan inferensi default Claude Code dari tinggi ke sedang untuk mengurangi penundaan panjang sesekali (UI yang muncul membeku) di bawah beban inferensi tinggi. Pengguna secara luas melaporkan penurunan kinerja, yang menyebabkan rollback pada 7 April, dengan default saat ini untuk Opus 4.7 diatur ke xhigh dan model lainnya ke high. Masalah kedua adalah bug yang diperkenalkan pada 26 Maret, dirancang untuk menghapus catatan inferensi lama setelah sesi tidak aktif selama lebih dari satu jam untuk menghemat biaya pemulihan sesi. Kelemahan dalam implementasi menyebabkan penghapusan tersebut dieksekusi tidak hanya sekali tetapi di setiap putaran berikutnya, menyebabkan model secara bertahap kehilangan konteks inferensi sebelumnya, yang mengakibatkan lupa, tindakan berulang, dan panggilan alat yang tidak normal. Bug ini juga mempercepat konsumsi kuota pengguna karena cache miss pada setiap permintaan. Tim menyatakan bahwa dua eksperimen internal yang tidak terkait mengaburkan kondisi untuk mereproduksi masalah, memakan waktu lebih dari seminggu untuk diselidiki, dengan perbaikan diterapkan pada 10 April. Tinjauan kode selanjutnya menggunakan Opus 4.7 pada PR bermasalah mengungkapkan bahwa Opus 4.7 dapat mendeteksi bug ini, sementara Opus 4.6 tidak dapat. Perubahan ketiga diluncurkan pada 16 April dengan Opus 4.7, di mana tim menambahkan arahan untuk membatasi panjang output dalam prompt sistem: “Teks antara panggilan alat tidak boleh melebihi 25 kata, dan respons akhir tidak boleh melebihi 100 kata kecuali tugas membutuhkan detail lebih.” Pengujian internal menunjukkan tidak ada regresi selama beberapa minggu, tetapi setelah peluncuran, hal ini berakumulasi dengan prompt lain untuk menurunkan kualitas pengkodean, mempengaruhi Sonnet 4.6, Opus 4.6, dan Opus 4.7. Evaluasi yang diperluas menemukan penurunan 3% pada Opus 4.6 dan 4.7, yang menyebabkan rollback pada 20 April. Ketiga perubahan tersebut mempengaruhi kelompok pengguna yang berbeda dan mulai berlaku pada waktu yang berbeda, menampilkan penurunan kualitas yang luas dan tidak konsisten, menyulitkan pemecahan masalah. Anthropic menyatakan bahwa ke depan, mereka akan membutuhkan lebih banyak karyawan internal untuk menggunakan versi build publik yang sama dengan pengguna, menjalankan rangkaian evaluasi model lengkap untuk setiap modifikasi pada prompt sistem, dan menetapkan periode abu-abu. Sebagai kompensasi, Anthropic telah mengatur ulang kuota penggunaan untuk semua pengguna berlangganan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan