Anthropic công bố phân tích sau sự kiện về sự suy giảm chất lượng mã của Claude: Ba thay đổi trong lớp sản phẩm, không phải vấn đề của mô hình

Theo giám sát của Beating, nhóm kỹ thuật của Anthropic xác nhận rằng sự giảm chất lượng của Claude Code được báo cáo bởi người dùng trong tháng qua bắt nguồn từ ba thay đổi độc lập ở lớp sản phẩm, ảnh hưởng đến Claude Code, Claude Agent SDK, và Claude Cowork, trong khi API và các mô hình nền vẫn không bị ảnh hưởng. Ba vấn đề đã được khắc phục vào ngày 7, 10 và 20 tháng 4, với phiên bản cuối cùng là v2.1.116. Thay đổi đầu tiên xảy ra vào ngày 4 tháng 3, khi nhóm điều chỉnh độ mạnh suy luận mặc định của Claude Code từ cao xuống trung bình để giảm thiểu các trì hoãn dài thỉnh thoảng (UI xuất hiện đóng băng) dưới tải suy luận cao. Người dùng rộng rãi phản ánh sự giảm hiệu suất, dẫn đến việc quay lại phiên bản cũ vào ngày 7 tháng 4, với mặc định hiện tại của Opus 4.7 là xhigh và các mô hình khác là high. Vấn đề thứ hai là một lỗi được giới thiệu vào ngày 26 tháng 3, nhằm xóa các bản ghi suy luận cũ sau khi một phiên đã bị nghỉ quá một giờ để tiết kiệm chi phí khôi phục phiên. Một lỗi trong quá trình thực hiện đã khiến việc xóa không chỉ thực hiện một lần mà lặp lại trong mỗi vòng tiếp theo, dẫn đến mô hình dần mất đi ngữ cảnh suy luận trước đó, gây ra quên lãng, hành động lặp lại và gọi công cụ bất thường. Lỗi này cũng làm tăng tốc tiêu thụ hạn mức của người dùng do cache bị miss mỗi lần yêu cầu. Nhóm cho biết rằng hai thử nghiệm nội bộ không liên quan đã che khuất điều kiện để tái tạo vấn đề, mất hơn một tuần để điều tra, với bản sửa lỗi được thực hiện vào ngày 10 tháng 4. Một cuộc xem xét mã sau đó sử dụng Opus 4.7 trên PR gặp sự cố cho thấy Opus 4.7 có thể phát hiện lỗi này, trong khi Opus 4.6 thì không. Thay đổi thứ ba được triển khai vào ngày 16 tháng 4 cùng với Opus 4.7, khi nhóm thêm chỉ thị giới hạn độ dài đầu ra trong lời nhắc hệ thống: “Văn bản giữa các cuộc gọi công cụ không nên vượt quá 25 từ, và phản hồi cuối cùng không vượt quá 100 từ trừ khi nhiệm vụ yêu cầu nhiều chi tiết hơn.” Thử nghiệm nội bộ cho thấy không có sự suy giảm trong vài tuần, nhưng sau khi ra mắt, nó cộng hưởng với các lời nhắc khác để làm giảm chất lượng mã hóa, ảnh hưởng đến Sonnet 4.6, Opus 4.6 và Opus 4.7. Các đánh giá mở rộng cho thấy sự giảm 3% ở cả Opus 4.6 và 4.7, dẫn đến việc quay lại phiên bản cũ vào ngày 20 tháng 4. Ba thay đổi ảnh hưởng đến các nhóm người dùng khác nhau và có hiệu lực vào các thời điểm khác nhau, thể hiện như sự suy giảm chất lượng rộng rãi và không nhất quán, làm phức tạp việc xử lý sự cố. Anthropic tuyên bố rằng trong tương lai, sẽ yêu cầu nhiều nhân viên nội bộ hơn sử dụng cùng các phiên bản build công khai như người dùng, chạy bộ đánh giá toàn diện mô hình cho mỗi thay đổi trong lời nhắc hệ thống, và thiết lập một giai đoạn xám. Như một biện pháp bồi thường, Anthropic đã đặt lại hạn mức sử dụng cho tất cả người dùng đăng ký.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim