Anthropic công bố phân tích sau khi giảm trí tuệ của Claude Code: Ba lớp thay đổi sản phẩm chồng chất, không phải vấn đề của mô hình

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, nhóm kỹ thuật của Anthropic đã công bố, xác nhận rằng sự giảm chất lượng của Claude Code trong hơn một tháng gần đây bắt nguồn từ ba thay đổi độc lập ở cấp độ sản phẩm, đồng thời ảnh hưởng đến Claude Code, Claude Agent SDK và Claude Cowork, API và mô hình nền không bị ảnh hưởng. Ba vấn đề này đã được sửa vào ngày 7, 10 và 20 tháng 4, phiên bản cuối cùng là v2.1.116.

Thay đổi đầu tiên xảy ra vào ngày 4 tháng 3. Nhóm đã giảm độ mạnh suy luận mặc định của Claude Code từ cao xuống trung bình để giảm thiểu độ trễ cực dài xảy ra ngẫu nhiên trong Opus 4.6 khi suy luận mạnh (giao diện người dùng có vẻ như bị treo), người dùng phản ánh chung là trở nên ngu hơn, ngày 7 tháng 4 đã thực hiện quay lại, hiện tại Opus 4.7 mặc định xhigh, các mô hình khác mặc định high.

Thứ hai là lỗi được giới thiệu vào ngày 26 tháng 3. Ban đầu thiết kế là sau khi cuộc trò chuyện bị bỏ quên quá 1 giờ, sẽ xóa bỏ các ghi chú suy luận cũ để tiết kiệm chi phí khôi phục cuộc trò chuyện. Thiết kế gặp lỗi khiến việc xóa không thực hiện một lần, mà thực hiện trong mỗi vòng sau đó, khiến mô hình dần mất đi ngữ cảnh suy luận trước đó, thể hiện qua việc ngày càng lơ đãng, lặp lại thao tác, gọi công cụ bị lỗi. Lỗi này còn gây ra việc mỗi yêu cầu đều bị cache miss, làm tiêu hao hạn mức của người dùng nhanh hơn. Nhóm cho biết hai thử nghiệm nội bộ không liên quan đã che giấu điều kiện tái hiện, việc điều tra mất hơn một tuần, đã sửa vào ngày 10 tháng 4. Sau đó, dùng Opus 4.7 để kiểm tra lại mã của PR gặp lỗi, Opus 4.7 có thể phát hiện lỗi này, trong khi Opus 4.6 thì không.

Thứ ba là thay đổi được đưa vào ngày 16 tháng 4 cùng với Opus 4.7. Nhóm đã thêm một chỉ thị hạn chế độ dài đầu ra trong hệ thống prompt: “Văn bản giữa các công cụ gọi không quá 25 từ, phản hồi cuối cùng không quá 100 từ, trừ khi nhiệm vụ yêu cầu nhiều chi tiết hơn.” Thử nghiệm nội bộ kéo dài nhiều tuần không thấy phản hồi, nhưng sau khi ra mắt, khi kết hợp với các prompt khác đã làm giảm chất lượng mã, ảnh hưởng đến Sonnet 4.6, Opus 4.6 và Opus 4.7. Sau khi mở rộng đánh giá, phát hiện Opus 4.6 và 4.7 đều giảm 3%, đã quay lại ngày 20 tháng 4.

Ba thay đổi này ảnh hưởng đến các nhóm người dùng khác nhau, có hiệu lực tại các thời điểm khác nhau, cộng hưởng tạo thành sự giảm chất lượng rộng rãi nhưng không đồng nhất, làm tăng độ khó trong việc điều tra. Anthropic cho biết sẽ yêu cầu nhiều nhân viên nội bộ sử dụng phiên bản xây dựng công khai giống hệt người dùng, chạy toàn bộ bộ kiểm thử đánh giá mô hình mỗi lần chỉnh sửa hệ thống prompt và thiết lập giai đoạn thử nghiệm mờ nhạt.

Như một biện pháp bù đắp, Anthropic đã đặt lại hạn mức sử dụng cho tất cả người dùng đăng ký.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim