Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Cô ấy đã viết 14 trang luận văn bị Google sa thải, năm năm sau tất cả các dự đoán về rủi ro AI đều chính xác
Năm 2020, Timnit Gebru bị sa thải khỏi Google vì từ chối rút một bài báo cảnh báo về rủi ro của hệ thống AI. Năm năm sau, năm dự đoán cốt lõi trong bài viết 14 trang đó, về ảo giác, thành kiến, phát thải carbon, ô nhiễm dữ liệu, trung tâm hóa ngôn ngữ, đều đã trở thành hiện thực.
(Trích đoạn: Tại sao AI và ChatGPT ngày càng kém đi? Nghiên cứu của Nature: Mô hình càng lớn, càng không có lợi ích)
(Bổ sung nền: Báo cáo Stanford: Tiêu thụ điện của AI bằng một nửa khai thác Bitcoin, chênh lệch mô hình Trung-Mỹ chỉ còn 2,7%)
Mục lục bài viết
Toggle
Một bài báo học thuật dài 14 trang đã khiến cô mất việc… Vào tháng 12 năm 2020, Timnit Gebru vẫn đang trong kỳ nghỉ, nhưng đã nhận được email thông báo bị sa thải khỏi Google. Lúc đó, cô là đồng trưởng nhóm đạo đức AI của Google.
Nguyên nhân bị sa thải là Google yêu cầu cô rút hoặc gỡ tên tác giả khỏi một bài báo. Bài báo này, sau khi cô nghỉ việc ba tháng, đã chính thức xuất bản vào tháng 3 năm 2021 tại hội thảo ACM FAccT. Tiêu đề là “Nguy hiểm của loài vẹt ngẫu nhiên: Mô hình ngôn ngữ có quá lớn không?”, trong số sáu tác giả, có bốn là nhân viên Google, người còn lại dùng bút danh “Shmargaret Shmitchell”, tên thật Margaret Mitchell, sau này cũng bị Google sa thải.
Nhìn lại sau năm năm, từng cảnh báo cốt lõi trong bài viết đều đã xuất hiện trong thực tế.
14 trang, năm loại rủi ro hệ thống
Chủ đề chính của bài báo “Vẹt ngẫu nhiên” là, các mô hình ngôn ngữ lớn (LLM) về cấu trúc tồn tại năm loại rủi ro hệ thống: ảo giác và hiểu biết hạn chế, phóng đại thành kiến, chi phí môi trường, dữ liệu huấn luyện không thể kiểm chứng, và trung tâm hóa ngôn ngữ dẫn đến suy giảm các ngôn ngữ ít tài nguyên. Nhưng luận điểm sâu sắc nhất của bài báo chính là nguyên nhân căn bản khiến năm vấn đề này khó giải quyết.
Bài báo rõ ràng chỉ ra: các công ty phát triển LLM về mặt tài chính và động lực cạnh tranh về cấu trúc không thể để “an toàn và đạo đức” làm chậm tiến độ ra sản phẩm. Nói cách khác, chỉ cần thị trường cạnh tranh đủ khốc liệt, áp lực vốn đủ lớn, mọi công ty đều sẽ ưu tiên “phát hành nhanh” hơn “làm an toàn đủ”.
Vụ Gebru bị sa thải chính là minh chứng rõ ràng nhất. Cô đưa ra một tập tài liệu nghiên cứu có trích dẫn; phản hồi của Google là yêu cầu cô gỡ tên tác giả hoặc rút bài. Cô từ chối, rồi trong kỳ nghỉ nhận được thông báo sa thải.
Năm dự đoán, năm thực tế đối chiếu
Dự đoán 1: Trôi chảy nhưng không hiểu
Bài báo đã mô tả từ năm 2021 hiện tượng sau này gọi là “ảo giác”: LLM chỉ dựa theo xác suất ghép các dạng ngôn ngữ, “không có bất kỳ tham chiếu ý nghĩa nào”. Nghe có vẻ trôi chảy, nhưng không có nghĩa là đúng, đó chính là vấn đề mà mọi người dùng AI ngày nay đều gặp phải.
Dự đoán 2: Phóng đại thành kiến
Bài báo cảnh báo, mô hình huấn luyện trên dữ liệu lịch sử sẽ hệ thống sao chép thành kiến sẵn có. Ví dụ, công cụ tuyển dụng AI của Amazon phát triển từ 2014, đến 2018 bị loại bỏ vì phân biệt giới tính trong tuyển dụng, mô hình học theo hồ sơ lịch sử chủ yếu là nam giới, dẫn đến việc hồ sơ có từ khóa “women’s” bị trừ điểm tự động.
Nghiên cứu của Obermeyer và cộng sự năm 2019 đăng trên Science tiết lộ, một thuật toán dự đoán rủi ro y tế phổ biến dùng “chi phí y tế” thay vì “mức độ nghiêm trọng bệnh”, khiến bệnh nhân da đen có nguy cơ thực tế nặng hơn cùng điểm rủi ro; sau chỉnh sửa, tỷ lệ bệnh nhân da đen cần chăm sóc thêm tăng từ 17.7% lên 46.5%.
Dự đoán 3: Chi phí môi trường
Bài báo trích dẫn nghiên cứu của Strubell năm 2019, cảnh báo chi phí huấn luyện bị đánh giá thấp. Sau này, lan truyền thành “huấn luyện một mô hình tương đương phát thải 5 chiếc xe hơi suốt đời”, nhưng cần làm rõ: đó là trong tình huống cực đoan dùng tìm kiếm kiến trúc thần kinh (NAS), khoảng 284 tấn CO₂e, không phải là tình trạng chung của mọi mô hình.
Thực tế, các phát triển sau này còn đáng lo hơn. Báo cáo môi trường của Google năm 2024 cho biết, lượng khí nhà kính phát thải năm 2023 đạt khoảng 14,3 triệu tấn CO₂e, tăng 48% so với năm 2019, chủ yếu do điện năng tiêu thụ của trung tâm dữ liệu tăng mạnh, đe dọa mục tiêu trung hòa carbon của Google vào năm 2030.
Dự đoán 4: Dữ liệu huấn luyện không thể kiểm chứng
Bài báo cảnh báo, quy mô dữ liệu trên mạng quá lớn, nội dung độc hại dễ bị trộn lẫn mà không phát hiện ra. Tháng 12 năm 2023, Viện quan sát mạng Stanford phát hiện 3,226 mẫu nội dung khả nghi về lạm dụng trẻ em (CSAM) trong tập dữ liệu LAION-5B, trong đó 1,008 mẫu đã được xác nhận bởi các tổ chức bên ngoài. LAION-5B là tập dữ liệu công khai gồm 5,8 tỷ cặp hình ảnh và văn bản, từng được dùng để huấn luyện Stable Diffusion, sau khi bị phát hiện đã bị gỡ xuống. Quy mô càng lớn, điểm yếu càng nhiều.
Dự đoán 5: Trung tâm hóa ngôn ngữ
Bài báo chỉ ra, các dữ liệu chủ yếu bằng tiếng Anh sẽ gây ra chênh lệch năng lực ngôn ngữ. Dự đoán này sau đó bị bóp méo thành câu “57% trang web tiếng Anh mới là do AI tạo ra”, điều này sai. Nghiên cứu của Thompson năm 2024 phân tích 6,38 tỷ câu trong dữ liệu ngôn ngữ mạng, phát hiện 57.1% là tập hợp song song đa ngôn ngữ, rất có thể là nội dung dịch máy chất lượng thấp, đặc biệt nhiều trong các ngôn ngữ ít tài nguyên.
Tình cảnh của các ngôn ngữ ít tài nguyên không chỉ bị bỏ quên, mà còn đang bị nhiễm bẩn bởi nội dung dịch máy kém chất lượng, chính là dự đoán ban đầu của Gebru.
Dự đoán sâu nhất, đã thành hiện thực từ ngày đầu tiên
Năm dự đoán, mỗi cái đều đã xuất hiện trong thực tế, từ 2018 đến 2024. Nhưng điểm cốt lõi của bài báo không phải là “AI sẽ gặp vấn đề” trong dạng cảnh báo mơ hồ, mà là “toàn hệ thống được thiết kế để không thể tự sửa chữa”.
Động cơ quyết định hành vi. Khi áp lực cạnh tranh yêu cầu ra sản phẩm nhanh, khi việc đưa ra các lo ngại về an toàn công khai có thể khiến toàn bộ nhóm bị đình trệ, thì lựa chọn hợp lý là im lặng. Vụ của Gebru để lại trong cộng đồng AI một tín hiệu rõ ràng: việc công khai đặt câu hỏi về an toàn có thể hủy hoại sự nghiệp. Hiệu ứng bồ câu này chính là cơ chế cảnh báo của bài báo đang vận hành.
Vấn đề không phải là cô ấy đoán đúng từng chi tiết. Mà là hệ thống cô mô tả, với động cơ cạnh tranh vượt qua các tiêu chuẩn đạo đức, quy mô vượt qua khả năng kiểm chứng, tốc độ vượt qua an toàn, đã không có sự thay đổi căn bản trong năm năm qua. Và dự đoán sâu nhất này, từ khoảnh khắc cô nhận email sa thải, đã được xác nhận là đúng.