CoinWorld cho biết, nhóm đồng bộ hóa Anthropic đã ra mắt "bộ điều chỉnh nội tâm", cho phép LLM báo cáo hành vi đã học sau tinh chỉnh bằng ngôn ngữ tự nhiên. Bằng cách tinh chỉnh nhiều mô hình có hành vi đã biết trên cùng một mô hình nền và huấn luyện chung LoRA, giúp mô hình được kiểm tra chủ động tiết lộ hành vi ẩn. Trên chuẩn AuditBench, 59% vượt qua các phương pháp trước đó, trong số 56 mô hình, 89% được mô tả về hành vi. Đối phó với 9 biến thể mã hóa, 7 biến thể được nhận diện, tỷ lệ thành công 57,8%. Quy mô mô hình càng lớn, hiệu quả càng cao, tỷ lệ dương tính giả là hạn chế chính. Mã nguồn và dữ liệu được mở trên GitHub/HuggingFace.

CoinNetwork

2026-04-30 11:10:51

Đang tạo bản tóm tắt

Thông tin từ CoinWorld, nhóm đối sánh của Anthropic đã phát hành một công nghệ kiểm tra gọi là “bộ điều chỉnh nội tại” (introspection adapters), nhằm giúp các mô hình ngôn ngữ lớn (LLM) tự báo cáo bằng ngôn ngữ tự nhiên về hành vi đã học được sau quá trình tinh chỉnh. Công nghệ này bằng cách tinh chỉnh từ cùng một mô hình nền ra nhiều mô hình có hành vi đã biết, sau đó huấn luyện phối hợp một bộ điều chỉnh LoRA trên các mô hình này, giúp mô hình được kiểm tra có thể chủ động tiết lộ hành vi ẩn của mình. Trên chuẩn kiểm tra đối sánh auditbench, bộ điều chỉnh nội tại đạt tỷ lệ thành công 59%, vượt qua tất cả các phương pháp kiểm tra trước đó, trong số 56 mô hình có hành vi ẩn, 89% đã thành công trong việc trích xuất mô tả hành vi. Đối mặt với các cuộc tấn công API tinh chỉnh mã hóa, bộ điều chỉnh nội tại đã nhận diện được 7 trong số 9 biến thể mã hóa, tỷ lệ thành công 57,8%. Nghiên cứu cũng phát hiện ra rằng hiệu quả tăng lên khi quy mô mô hình lớn hơn, hạn chế chính là tỷ lệ dương tính giả cao. Mã nguồn, mô hình và bộ dữ liệu đã được mở trên GitHub và Hugging Face.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
474.08K Phổ biến
#
USSeeksStrategicBitcoinReserve
58.71M Phổ biến
#
IsraelStrikesIranBTCPlunges
37.67K Phổ biến
#
BitcoinETFOptionLimitQuadruples
1M Phổ biến
#
#FedHoldsRateButDividesDeepen
31.71K Phổ biến

Ghim

sơ đồ trang web

Anthropic để AI tự thú: Một plugin LoRA phát hiện ra hành vi ẩn mà 10 phương pháp của con người đều bỏ sót

Chủ đề thịnh hành

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Ghim