Opus 4.7 với mức độ suy nghĩ thấp vượt qua giá trị tối đa của Sonnet 4.6, Anthropic phát hành hướng dẫn tinh chỉnh điều khiển tác nhân thông minh đầu tiên.

robot
Đang tạo bản tóm tắt

AIMPACT tin tức, ngày 20 tháng 5 (UTC+8), theo giám sát của Động Sát Beating, Anthropic đã phát hành hướng dẫn phát triển chính thức đầu tiên, tiết lộ sâu về giới hạn độ phân giải, tỷ lệ độ sâu suy nghĩ và cơ chế giảm chi phí bộ nhớ đệm của Claude 4.6 và Opus 4.7 trong các kịch bản điều khiển máy tính và trình duyệt.

Độ phân giải màn hình trực tiếp quyết định độ chính xác khi nhấp chuột của tác nhân thông minh. Giới hạn cạnh dài của ảnh chụp màn hình mà Claude 4.6 phân tích là 1568 pixel, Opus 4.7 là 2576 pixel. Khi ảnh chụp màn hình vượt quá giới hạn, máy chủ API sẽ tự động thu nhỏ ảnh theo tỷ lệ, dẫn đến tọa độ nhấp chuột do mô hình tạo ra bị lệch so với ảnh gốc trên máy khách. Do đó, nhà phát triển phải thu nhỏ ảnh chụp màn hình trên máy khách xuống 1280x720 (khuyến nghị cho Claude 4.6) hoặc 1080p (khuyến nghị cho Opus 4.7).

Thao tác giao diện chủ yếu dựa vào nhận thức thị giác và định vị phần tử, yêu cầu suy luận logic chuỗi dài không cao. Thử nghiệm cho thấy, Opus 4.7 ở độ sâu suy nghĩ thấp (low) đã có thể đạt được hiệu suất thao tác ngang bằng với Sonnet 4.6 ở độ sâu suy nghĩ tối đa (max), và chi phí token chỉ bằng một phần mười. Nhà phát triển được khuyến nghị đặt tùy chọn suy nghĩ ở mức high, so với độ sâu max không chỉ giảm một nửa mức tiêu thụ token mà tỷ lệ thành công cũng hoàn toàn tương đương, nên tránh bật max để ngăn mô hình suy nghĩ quá mức dẫn đến hóa đơn tăng gấp đôi.

Do mỗi ảnh chụp màn hình tiêu thụ tối đa 1800 token trong ngữ cảnh, nhà phát triển đưa ra giải pháp giảm chi phí ba lớp: duy trì 1 điểm ngắt bộ nhớ đệm cấp hệ thống cố định, và phân bổ động 3 điểm ngắt còn lại cho kết quả thực thi của vài vòng công cụ gần nhất; thực hiện cắt tỉa cuộn trên máy khách, chỉ giữ lại 3 ảnh chụp màn hình gần nhất trong ngữ cảnh, phần còn lại thay thế bằng trình giữ chỗ; kích hoạt nén tóm tắt khi độ sâu ngữ cảnh tiến gần 90%.

Ngoài ra, API đã giới thiệu công cụ hàng loạt computer_batch, hỗ trợ đóng gói và thực thi nhiều thao tác không phụ thuộc vào thị giác trong một lần gọi; và cung cấp cơ chế cố vấn tác nhân (Advisor Tool), cho phép mô hình chính triệu tập trực tiếp mô hình Opus cấp cao ở chế độ nền để kiểm tra các bước thực thi. Nhà phát triển cũng có thể cải thiện đáng kể tỷ lệ thành công của tác vụ thông qua chế độ ghi hướng dẫn (Teach Mode, tức là ghi lại quỹ đạo thao tác thực tế của người dùng và sử dụng làm tham chiếu hướng dẫn khi phát lại).

(Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận