Windsurf đã sử dụng RL để huấn luyện một mô hình nhỏ chuyên bắt lỗi, đã đạt điểm đánh giá nội bộ ngang bằng với Claude Opus 4.6

robot
Đang tạo bản tóm tắt

Tin tức ME News, ngày 15 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, công cụ lập trình AI Windsurf của Cognition AI, công ty mẹ của Windsurf, hợp tác với công ty huấn luyện AI Applied Compute để huấn luyện một mô hình phát hiện lỗi mã đặc biệt tên là SWE-Check thông qua học tăng cường. Mô hình này phân tích các thay đổi mã hiện tại của người dùng (diff), tự động đánh dấu các lỗi có thể gây ra và đưa ra đề xuất sửa chữa. Trong các đánh giá phân phối cùng với dữ liệu huấn luyện, điểm F1 của SWE-Check đã sánh bằng Claude Opus 4.6 (khoảng cách giảm từ 0.09 xuống 0); trong các đánh giá phân phối chéo, khoảng cách giảm từ 0.49 xuống còn 0.29, vẫn kém hơn các mô hình tiên tiến nhưng đã có tiến bộ rõ rệt. Ưu điểm chính là về tốc độ và chi phí: tốc độ chạy của SWE-Check nhanh hơn một cấp độ so với các mô hình hàng đầu, chi phí suy luận cũng giảm đáng kể, do đó có thể thực hiện kiểm tra lỗi ngay lập tức và miễn phí trong IDE, điều mà các mô hình lớn như Opus 4.6 trực tiếp gọi không thể làm được.

Có hai phương pháp huấn luyện đáng chú ý trong thiết kế:

  1. Cổ vũ tuyến tính (reward linearization): Nhóm muốn tối ưu hóa chỉ số F-beta toàn cục, nhưng chỉ số này không thể trực tiếp phân tích thành từng mẫu. Họ đã chuyển đổi chỉ số toàn cục thành hàm thưởng có thể tính theo từng mẫu bằng cách xấp xỉ bậc nhất, giúp quá trình huấn luyện nâng cao chỉ số toàn cục một cách hiệu quả. Phiên bản ban đầu có tỷ lệ báo động sai quá cao, nhóm đã điều chỉnh beta từ 1 xuống còn 0.5 để nhấn mạnh độ chính xác.
  2. Huấn luyện sau hai giai đoạn: Giai đoạn đầu tập trung tối đa hóa khả năng phát hiện lỗi, không phạt độ trễ; giai đoạn thứ hai thêm vào phạt độ trễ dựa trên phân phối thống kê thời gian thực người dùng thực sự chuyển đổi sau khi kích hoạt kiểm tra. Phương pháp phân giai đoạn này vượt trội hơn so với tối ưu đồng thời hai mục tiêu, vì mục tiêu thứ hai dễ bị mắc kẹt ở cực tiểu cục bộ, ví dụ như học cách phản hồi cực nhanh nhưng phân tích nông cạn.

Phiên bản xem trước của SWE-Check đã ra mắt trong Windsurf Next (phím tắt cmd+U), sau đó sẽ chính thức ra mắt trong Windsurf.
(Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim