Anthropic umumkan analisis pasca peluncuran Claude Code yang menurunkan kecerdasan: tiga perubahan tingkat produk yang digabungkan, bukan masalah model

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, tim engineering Anthropic mengeluarkan pernyataan, mengonfirmasi bahwa penurunan kualitas Claude Code yang dilaporkan pengguna selama lebih dari satu bulan disebabkan oleh tiga perubahan produk yang berbeda secara independen, yang juga mempengaruhi Claude Code, Claude Agent SDK, dan Claude Cowork, sementara API dan model dasar tidak terpengaruh. Ketiga masalah tersebut diperbaiki pada tanggal 7, 10, dan 20 April, dengan versi akhir adalah v2.1.116.

Perubahan pertama terjadi pada 4 Maret. Tim mengurangi kekuatan inferensi default Claude Code dari tinggi ke sedang untuk mengurangi lonjakan latensi sesekali yang sangat lama saat Opus 4.6 melakukan inferensi dengan kekuatan tinggi (UI tampak membeku). Setelah banyak pengguna melaporkan penurunan kecerdasan, pada 7 April dilakukan rollback, sekarang Opus 4.7 secara default menggunakan xhigh, dan model lain default ke high.

Perubahan kedua adalah bug yang diperkenalkan pada 26 Maret. Awalnya dirancang agar setelah sesi tidak aktif selama lebih dari 1 jam, catatan inferensi lama dihapus untuk menghemat biaya pemulihan sesi. Kekurangan implementasi menyebabkan penghapusan ini tidak dilakukan sekali, melainkan setiap putaran berikutnya, sehingga model secara bertahap kehilangan konteks inferensi sebelumnya, yang menunjukkan sebagai semakin lupa, pengulangan, dan panggilan alat yang tidak normal. Bug ini juga menyebabkan cache miss pada setiap permintaan, mempercepat konsumsi kuota pengguna. Tim menyatakan bahwa dua eksperimen internal yang tidak terkait menutupi kondisi reproduksi, dan penyelidikan memakan waktu lebih dari seminggu, diperbaiki pada 10 April. Setelahnya, dilakukan pengujian kode ulang terhadap PR bermasalah menggunakan Opus 4.7, dan ditemukan bahwa Opus 4.7 mampu mendeteksi bug ini, sedangkan Opus 4.6 tidak.

Perubahan ketiga dilakukan bersamaan dengan peluncuran Opus 4.7 pada 16 April. Tim menambahkan instruksi pembatasan panjang output dalam prompt sistem: “Teks antara panggilan alat tidak lebih dari 25 kata, balasan akhir tidak lebih dari 100 kata, kecuali tugas membutuhkan detail lebih.” Pengujian internal selama beberapa minggu tidak menunjukkan regresi, tetapi setelah peluncuran, penumpukan prompt ini bersama prompt lain merusak kualitas pengkodean, mempengaruhi Sonnet 4.6, Opus 4.6, dan Opus 4.7. Setelah evaluasi lebih luas, ditemukan bahwa Opus 4.6 dan 4.7 keduanya menurun sebesar 3%, dan rollback dilakukan pada 20 April.

Ketiga perubahan tersebut mempengaruhi kelompok pengguna yang berbeda dan berlaku pada waktu yang berbeda pula, sehingga ketika digabungkan, menimbulkan penurunan kualitas yang luas dan tidak konsisten, meningkatkan kesulitan dalam penyelidikan. Anthropic menyatakan bahwa ke depannya akan meminta lebih banyak karyawan internal menggunakan versi rilis publik yang sama persis dengan pengguna, melakukan pengujian lengkap terhadap setiap perubahan prompt sistem, dan menetapkan masa uji coba secara bertahap.

Sebagai kompensasi, Anthropic telah mengatur ulang kuota penggunaan semua pengguna berlangganan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan