Các nhà nghiên cứu đề xuất phương pháp biểu trưng kỹ thuật, bằng cách kiểm soát các vector can thiệp để can thiệp vào hành vi của mô hình

MeNews · 2026-04-04T10:36:21+00:00

Một phương pháp nghiên cứu có tên gọi "Kỹ thuật đặc trưng hóa" đã đề xuất "vector kiểm soát", nhằm nâng cao độ minh bạch và khả năng kiểm soát của mô hình AI. Phương pháp này bằng cách thêm vector vào mô hình, trực tiếp thay đổi đầu ra, thể hiện lợi thế so với kỹ thuật prompt engineering. Nghiên cứu đã khám phá ứng dụng của nó trong mô phỏng đặc tính và phát hành các bộ công cụ liên quan. Tuy nhiên, cơ chế bên trong vẫn chưa hoàn toàn rõ ràng, cần tiếp tục nghiên cứu thêm.

MeNews

2026-04-04 10:36:21

Đang tạo bản tóm tắt

Tin tức ME, ngày 4 tháng 4 (UTC+8). Gần đây, một phương pháp nghiên cứu có tên “Representation Engineering” đã được đề xuất, với mục tiêu cung cấp cho các mô hình AI một cơ chế minh bạch và kiểm soát theo hướng từ trên xuống. Điểm cốt lõi của phương pháp này là tính toán một “vector điều khiển”, có thể được đọc trong suy luận của mô hình hoặc được thêm vào các giá trị kích hoạt của mô hình để giải thích hoặc kiểm soát hành vi của mô hình; toàn bộ quá trình không cần phụ thuộc vào kỹ thuật prompt engineering hoặc tinh chỉnh mô hình. Các nhà nghiên cứu đã khảo sát việc vector điều khiển có thể được áp dụng để mô phỏng các đặc tính như “trạng thái phê ảo giác”, “lười biếng” và “siêng năng”, đồng thời phát hành một bộ công cụ PyPI tương ứng.

Vector điều khiển là một tập hợp các vector (mỗi lớp một), bằng cách áp dụng vào trạng thái ẩn của mô hình để trực tiếp thay đổi đầu ra của nó. Ví dụ, khi áp dụng một vector “vui vẻ” cho mô hình Mistral-7B-Instruct, câu trả lời cho câu hỏi “Làm thế nào để bạn cảm nhận về AI?” sẽ chuyển từ câu trả lời của phiên bản cơ sở “Tôi không có cảm giác hay trải nghiệm” sang một câu trả lời đầy phấn khích. Quan điểm trong bài cho rằng, so với prompt engineering, vector điều khiển cung cấp một cách can thiệp hành vi trực tiếp và ở tầng thấp hơn, có thể được dùng để chống các cuộc tấn công vượt rào (jailbreak) hoặc tăng cường khả năng chống nhiễu của mô hình. Tuy nhiên, cơ chế hoạt động bên trong của nó vẫn chưa hoàn toàn rõ ràng; ví dụ, liệu các vector có tương ứng với một khái niệm ngữ nghĩa đơn lẻ hay không, đó là hướng nghiên cứu trong tương lai. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.