Các nhà nghiên cứu đề xuất phương pháp biểu trưng kỹ thuật, bằng cách kiểm soát các vector can thiệp để can thiệp vào hành vi của mô hình

MeNews · 2026-04-04T05:22:21+00:00

Một phương pháp nghiên cứu có tên gọi "Kỹ thuật đặc trưng hóa" đã đề xuất "vector kiểm soát", nhằm nâng cao độ minh bạch và khả năng kiểm soát của mô hình AI. Phương pháp này bằng cách thêm vector vào mô hình, trực tiếp thay đổi đầu ra, thể hiện lợi thế so với kỹ thuật prompt engineering. Nghiên cứu đã khám phá ứng dụng của nó trong mô phỏng đặc tính và phát hành các bộ công cụ liên quan. Tuy nhiên, cơ chế bên trong vẫn chưa hoàn toàn rõ ràng, cần tiếp tục nghiên cứu thêm.

MeNews

2026-04-04 05:22:21

Đang tạo bản tóm tắt

Tin tức ME, ngày 4 tháng 4 (UTC+8). Gần đây, một phương pháp nghiên cứu có tên “Characterization Engineering” đã được đề xuất, nhằm cung cấp cho các mô hình AI một cơ chế minh bạch và kiểm soát theo hướng từ trên xuống. Cốt lõi của phương pháp này là tính toán một “vector điều khiển” có thể được đọc trong quá trình suy luận của mô hình hoặc được thêm vào các giá trị kích hoạt của mô hình để giải thích hoặc kiểm soát hành vi của mô hình; toàn bộ quá trình không cần phụ thuộc vào kỹ thuật prompt engineering hay fine-tuning mô hình. Các nhà nghiên cứu đã tìm hiểu việc vector điều khiển có thể được ứng dụng như thế nào để mô phỏng các đặc tính như “trạng thái say thuốc ảo giác”, “lười biếng” và “chăm chỉ”, đồng thời đã phát hành một bộ công cụ PyPI tương ứng. Vector điều khiển là một tập hợp các vector (mỗi lớp một vector); bằng cách áp dụng lên trạng thái ẩn của mô hình, nó có thể thay đổi trực tiếp đầu ra của mô hình. Ví dụ, khi áp dụng một vector “vui vẻ” lên mô hình Mistral-7B-Instruct, câu trả lời cho câu hỏi “Bạn cảm thấy AI như thế nào?” sẽ chuyển từ câu trả lời “Tôi không có cảm giác hay trải nghiệm” của phiên bản nền tảng sang một phản hồi đầy phấn khích. Quan điểm trong bài cho rằng, so với prompt engineering, vector điều khiển cung cấp một cách can thiệp hành vi trực tiếp và ở tầng thấp hơn, có thể được dùng để chống lại các cuộc tấn công jailbreak hoặc tăng cường khả năng chống nhiễu của mô hình. Tuy nhiên, cơ chế hoạt động nội bộ của nó vẫn chưa hoàn toàn rõ ràng, ví dụ như liệu các vector có tương ứng với một khái niệm ngữ nghĩa đơn lẻ hay không—đây là hướng nghiên cứu trong tương lai. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích