Trước người phụ trách tin tức mới của Meta, Campbell Brown, đã thành lập Forum AI, dành 17 tháng để đánh giá hệ thống chất lượng thông tin của các mô hình AI chính thống, phát hiện Gemini từng trích dẫn thông tin từ trang web chính thức của Đảng Cộng sản Trung Quốc khi xử lý các báo cáo không liên quan đến Trung Quốc, và hầu hết các mô hình thử nghiệm đều có xu hướng chính trị thiên về phía trái.
（Tiểu sử: AI phá hủy truyền thống 133 năm của Đại học Princeton: Khi " gian lận " dần trở thành kiến thức phổ biến）
（Bổ sung bối cảnh: 97.895 cuộc trò chuyện trên diễn đàn ngầm cho thấy: cộng đồng hacker thực ra cũng ghét AI）

Mục lục bài viết

Chuyển đổi

Vấn đề không ai thử nghiệm
Sai lầm trôi chảy, khó phát hiện hơn im lặng
Pháp luật thúc đẩy, không phải đạo đức tự giác

Brown xuất thân là nhà báo, từng làm phát thanh viên tại CNN, sau đó chuyển sang làm người phụ trách tin tức của Meta, trực tiếp quản lý chính sách trình bày tin tức của Facebook trước 3 tỷ người dùng toàn cầu.

Vị trí này giúp cô nhìn rõ toàn cảnh “cách nền tảng định hình luồng thông tin”. Cách đây 17 tháng, cô rời Meta và thành lập Forum AI tại New York, chuyên làm một việc mà các công ty mô hình nền tảng thường bỏ qua: đánh giá hệ thống xem thông tin AI đưa ra có chính xác, công bằng, và đa chiều hay không.

Vấn đề không ai thử nghiệm

Sản phẩm cốt lõi của Forum AI là một “khung chuẩn về các sự kiện địa chính trị”.

Cách hoạt động là: Forum AI mời một nhóm cố vấn hàng đầu có các quan điểm chính trị và nền tảng khác nhau: Niall Ferguson, Fareed Zakaria, cựu Ngoại trưởng Mỹ Tony Blinken, cựu Lãnh đạo phe thiểu số Hạ viện Kevin McCarthy, cựu Cố vấn An ninh Quốc gia Mỹ Anne Neuberger… để đánh giá từng câu trả lời của các mô hình AI chính thống về cùng một sự kiện địa chính trị phức tạp.

Hiện tại, Forum AI đã đạt ngưỡng đồng thuận khoảng 90% với các chuyên gia con người, giúp kết quả đánh giá của Forum AI có thể biện hộ được, chứ không chỉ là quan điểm của một người.

Brown nhận thấy vấn đề có ba cấp độ, mỗi cấp độ đều khó sửa chữa hơn về mặt kỹ thuật so với cấp độ trước.

Cấp độ đầu là lỗ hổng trong logic lựa chọn nguồn tin. Gemini khi xử lý các báo cáo không liên quan đến Trung Quốc đã trích dẫn nội dung từ trang web chính thức của Đảng Cộng sản Trung Quốc. Đây không phải là lỗi thực tế thông thường, mà là vấn đề trong logic lọc nguồn của mô hình: AI chỉ đánh giá “đây là văn bản, đây là liên kết”, không đánh giá “quan điểm của nguồn này là gì, độ tin cậy ra sao, có mang mục đích chính trị rõ ràng không”.

Chính tính chính trị của nguồn tin bản thân nó trong quá trình xuất ra của AI là không thể thấy được.

Cấp độ hai là thiên lệch chính trị mang tính cấu trúc. Hầu hết các mô hình chính thống mà Brown thử nghiệm đều thể hiện xu hướng chính trị thiên về phía trái. Đây không phải là thuyết âm mưu, mà là kết quả tự nhiên của phân phối dữ liệu huấn luyện. AI học từ các văn bản nào, thì có xu hướng sao chép giọng điệu và khung quan điểm của những văn bản đó.

Nội dung chính thống trên internet tiếng Anh — báo chí chính thống, bài báo học thuật, bài đăng mạng xã hội — đều mang đặc điểm chính trị nhất định, và mô hình huấn luyện ra sẽ thừa hưởng xu hướng này, mà không nhận thức được rằng mình đang làm như vậy.

Điều phức tạp hơn là, xu hướng này không phải là một lỗi có thể tìm ra và sửa chữa, mà là một phần trong logic xuất ra của mô hình ở mọi lần.

Cấp độ ba là thiếu bối cảnh và đa chiều. Brown cho biết các mô hình hiện tại phổ biến thiếu “ngữ cảnh nền, đa chiều và minh bạch luận cứ”. Các câu trả lời của AI là câu khẳng định, chứ không phải dạng “Trong phe A, sự việc này được xem là như thế này, trong phe B, là như thế kia, điểm mấu chốt của sự khác biệt là…”.

Nó cung cấp cho bạn một câu trả lời, nhưng không cho biết câu trả lời đó xuất phát từ góc nhìn nào.

Sai lầm trôi chảy, khó phát hiện hơn im lặng

Brown chỉ ra một điểm mù mang tính cấu trúc: các công ty mô hình nền tảng khi đánh giá và xếp hạng mô hình, ưu tiên khả năng toán học, mã hóa và suy luận logic, còn độ chính xác thông tin và đa dạng chính trị gần như chưa từng xuất hiện trong danh sách tiêu chuẩn đánh giá chính thống.

Nguyên nhân không khó hiểu. Mã có đúng sai, chạy thử là biết. Các câu toán có đáp án chuẩn, độ chính xác có thể tính toán. Nhưng “thế nào là một bài báo địa chính trị chính xác và công bằng” thì ai sẽ quyết định? Cần bao nhiêu người có các quan điểm khác nhau để đi đến đồng thuận? Câu hỏi này không có giải pháp kỹ thuật.

Trong quy trình phát triển sản phẩm do kỹ sư dẫn dắt, dựa trên xếp hạng tiêu chuẩn để xác định thị trường, nó đã bị bỏ qua một cách hệ thống. Kết quả là, độ chính xác của thông tin gần như trở thành một chỉ số ẩn trong hệ thống đánh giá năng lực của AI.

Chi phí của việc bỏ qua này có thể thấy rõ qua một ví dụ cụ thể. Năm ngoái, thành phố New York đã tiến hành kiểm tra tuân thủ hệ thống tuyển dụng AI, nhằm kiểm tra xem các công cụ sàng lọc của nhà tuyển dụng có vi phạm luật chống phân biệt đối xử hay không. Theo kết quả kiểm tra, hơn một nửa các trường hợp không phát hiện ra vi phạm.

Vấn đề của con số này không phải là “tỷ lệ vi phạm thấp”, mà là nó có thể phản ánh rằng: các công cụ AI thực thi kiểm tra đó không đủ chính xác, đến mức không thể phát hiện ra vấn đề, chứ không phải là vấn đề thực sự không tồn tại.

Đây là luận điểm cốt lõi của Brown: Vấn đề của AI không chỉ là cung cấp thông tin sai lệch, mà còn khiến người dùng tin vào những thông tin sai lệch đó. Một người biết mình không biết điều gì, ít nhất còn có cơ hội tra cứu. Nhưng khi AI dùng giọng nói trôi chảy, tự tin, không do dự để đưa ra một câu trả lời sai, phần lớn người dùng không có lý do nào để nghi ngờ.

Sai lầm trôi chảy, khó phát hiện hơn im lặng, và cũng khó sửa chữa hơn.

Pháp luật thúc đẩy, không phải đạo đức tự giác

Brown nhận định thẳng thắn: Thay đổi sẽ không đến từ áp lực đạo đức hay dư luận công chúng, mà từ rủi ro pháp lý và áp lực thương mại của các doanh nghiệp.

Lập luận của cô dựa trên thực tế: Trong cấu trúc thúc đẩy của ngành AI hiện tại, không ai có lý do đủ mạnh để chủ động giải quyết vấn đề này cho đến khi chi phí của nó trở nên không thể bỏ qua. Các lĩnh vực như tín dụng, bảo hiểm, tuyển dụng đều bị ràng buộc bởi pháp luật hiện hành.

Một khi kết quả AI có tính phân biệt hoặc không chính xác, các doanh nghiệp sử dụng AI sẽ phải chịu trách nhiệm pháp lý. Áp lực này cuối cùng sẽ truyền lên các nhà cung cấp mô hình, yêu cầu họ cung cấp đầu ra có thể kiểm tra, xác minh và đảm bảo độ chính xác. Không phải vì họ nghĩ rằng làm vậy là đạo đức, mà vì hợp đồng của khách hàng doanh nghiệp bắt đầu yêu cầu như vậy.

Lerer Hippeau năm ngoái đã dẫn đầu vòng gọi vốn hạt giống 3 triệu USD cho Forum AI. Con số này nhỏ trong lĩnh vực AI, nhưng nó thể hiện một nhận định: “Đánh giá AI” là một ngành kinh doanh, và nhu cầu của ngành này có thể tăng trưởng nhanh hơn những gì hiện tại ta thấy.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.75M Phổ biến
#
CLARITYActPassesSenateCommittee
3.48M Phổ biến
#
IsraelStrikesIranBTCPlunges
46.79K Phổ biến
#
#DailyPolymarketHotspot
946.71K Phổ biến
#
BitcoinVShapedReversalBack
226.96M Phổ biến

Đã ghim

sơ đồ trang web

Tin tức mới từ cựu trưởng bộ phận tin tức của Meta: hầu hết các mô hình AI đều thiên về chính trị cánh tả, Gemini từng trích dẫn phương tiện truyền thông chính thức của Đảng Cộng sản Trung Quốc

Vấn đề không ai thử nghiệm

Sai lầm trôi chảy, khó phát hiện hơn im lặng

Pháp luật thúc đẩy, không phải đạo đức tự giác

Chủ đề thịnh hành

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Đã ghim