Windsurf đã sử dụng RL để huấn luyện một mô hình nhỏ chuyên bắt lỗi, đã đạt điểm đánh giá nội bộ ngang bằng với Claude Opus 4.6

robot
Đang tạo bản tóm tắt

Tin tức ME News, ngày 15 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, công cụ lập trình AI Windsurf của công ty mẹ Cognition AI hợp tác với công ty huấn luyện AI Applied Compute đã huấn luyện một mô hình phát hiện lỗi mã nguồn đặc biệt tên là SWE-Check thông qua học tăng cường. Mô hình này phân tích các thay đổi mã hiện tại của người dùng (diff), tự động đánh dấu các lỗi có thể gây ra và đưa ra đề xuất sửa chữa. Trong đánh giá cùng phân phối dữ liệu huấn luyện, điểm F1 của SWE-Check đã sánh bằng Claude Opus 4.6 (khoảng cách giảm từ 0.09 xuống 0); trong đánh giá chéo phân phối, khoảng cách giảm từ 0.49 xuống còn 0.29, vẫn kém hơn các mô hình tiên tiến nhưng đã có tiến bộ rõ rệt. Ưu điểm chính là tốc độ và chi phí: tốc độ chạy của SWE-Check nhanh hơn một cấp độ so với các mô hình hàng đầu, chi phí suy luận cũng giảm đáng kể, do đó có thể thực hiện kiểm tra lỗi ngay lập tức và miễn phí trong IDE, điều mà các mô hình lớn như Opus 4.6 không thể làm được. Hai phương pháp huấn luyện đáng chú ý là: 1. Hợp tuyến thưởng (reward linearization): nhóm muốn tối ưu hóa chỉ số F-beta toàn cục, nhưng chỉ số này không thể trực tiếp phân tích thành từng mẫu. Họ đã chuyển đổi chỉ số toàn cục thành hàm thưởng có thể tính theo từng mẫu bằng cách xấp xỉ bậc nhất, giúp quá trình huấn luyện nâng cao chỉ số toàn cục hiệu quả. Phiên bản ban đầu có tỷ lệ báo động sai quá cao, nhóm đã điều chỉnh beta từ 1 xuống 0.5 để nhấn mạnh độ chính xác. 2. Huấn luyện sau hai giai đoạn: giai đoạn đầu tối đa hóa khả năng phát hiện lỗi mà không phạt độ trễ; giai đoạn thứ hai thêm phần phạt độ trễ dựa trên phân phối thống kê thời gian thực người dùng thực sự chuyển đổi sau khi kích hoạt kiểm tra. Phương pháp phân giai đoạn này tốt hơn so với tối ưu đồng thời hai mục tiêu, vì mục tiêu sau dễ bị mắc kẹt ở cực tiểu cục bộ, ví dụ như học cách phát hiện nhanh nhưng phân tích nông cạn. Phiên bản xem trước của SWE-Check đã ra mắt trong Windsurf Next (phím tắt cmd+U), sau đó sẽ chính thức ra mắt trong Windsurf. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim