Opus 4.7 với mức độ suy nghĩ thấp vượt qua giá trị tối đa của Sonnet 4.6, Anthropic phát hành hướng dẫn tinh chỉnh điều khiển tác nhân đầu tiên.

robot
Đang tạo bản tóm tắt
Tin tức AIMPACT, ngày 20 tháng 5 (UTC+8), theo giám sát của 动察 Beating, Anthropic đã phát hành hướng dẫn phát triển chính thức đầu tiên, tiết lộ chi tiết về giới hạn độ phân giải, tỷ lệ độ sâu suy nghĩ và cơ chế giảm chi phí bộ nhớ đệm của Claude 4.6 và Opus 4.7 trong các kịch bản điều khiển máy tính và trình duyệt. Độ phân giải màn hình trực tiếp quyết định độ chính xác của các cú nhấp chuột của tác nhân thông minh. Claude 4.6 có giới hạn trên của cạnh dài khi phân tích ảnh chụp màn hình là 1568 pixel, Opus 4.7 là 2576 pixel. Khi ảnh chụp màn hình vượt quá giới hạn, máy chủ API sẽ tự động thu nhỏ hình ảnh theo tỷ lệ, điều này sẽ gây ra sự lệch tọa độ giữa tọa độ nhấp chuột do mô hình tạo ra và ảnh gốc của máy khách. Do đó, nhà phát triển phải thu nhỏ ảnh chụp màn hình trong máy khách trước về 1280x720 (khuyến nghị cho Claude 4.6) hoặc 1080p (khuyến nghị cho Opus 4.7). Thao tác giao diện chủ yếu phụ thuộc vào nhận thức thị giác và định vị phần tử, không yêu cầu suy luận logic chuỗi dài. Các bài kiểm tra cho thấy, Opus 4.7 với độ sâu suy nghĩ thấp (low) đã có thể theo kịp hiệu suất điều khiển của Sonnet 4.6 ở độ sâu suy nghĩ tối đa (max), và chi phí token chỉ bằng một phần mười của mô hình sau. Nhà phát triển khuyến nghị đặt tùy chọn suy nghĩ ở mức high, so với độ sâu max không chỉ giảm một nửa mức tiêu thụ token mà tỷ lệ thành công cũng hoàn toàn ngang bằng. Nên tránh bật max để tránh mô hình suy nghĩ quá mức dẫn đến hóa đơn tăng gấp đôi. Vì một ảnh chụp màn hình tiêu tốn tối đa 1800 token trong ngữ cảnh, nhà phát triển đã đưa ra giải pháp giảm chi phí ba lớp: thường trực 1 điểm dừng bộ nhớ đệm cấp hệ thống, và phân bổ động 3 điểm dừng còn lại cho kết quả thực thi của các công cụ trong vài vòng gần đây; thực hiện cắt tỉa cuộn trong máy khách, chỉ giữ lại 3 ảnh chụp màn hình gần nhất trong ngữ cảnh, các ảnh còn lại thay thế bằng trình giữ chỗ; kích hoạt nén tóm tắt khi độ sâu ngữ cảnh tiến gần 90%. Ngoài ra, API đã giới thiệu công cụ hàng loạt computer_batch, hỗ trợ thực hiện nhiều thao tác không phụ thuộc thị giác trong một lần gọi; và cung cấp cơ chế cố vấn tác nhân (Advisor Tool), cho phép mô hình chính triệu tập trực tiếp mô hình Opus cấp cao ở chế độ nền để kiểm tra các bước thực thi. Các nhà phát triển cũng có thể nâng cao đáng kể tỷ lệ thành công của nhiệm vụ thông qua chế độ hướng dẫn ghi lại (Teach Mode, tức là ghi lại quỹ đạo thao tác thực tế của người dùng và sử dụng làm tài liệu tham khảo hướng dẫn khi phát lại). (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận