Khi lưu lượng AI vượt qua con người, làm thế nào để chứng minh bạn là người thật?

Viết bài: Vaidik Mandloi

Dịch: Luffy, Foresight News

Đến cuối năm 2022, ChatGPT đã phát triển thành một hệ sinh thái trí tuệ nhân tạo khổng lồ. Hiện tại, tổng lượng lưu lượng mạng do các chương trình này tạo ra đã vượt quá tất cả người dùng trên toàn cầu. Hành vi truy cập mạng của AI hoàn toàn khác biệt so với con người: chúng không duyệt quảng cáo, không nhấp vào liên kết, cũng không mua sắm trực tuyến, chỉ lấy dữ liệu mạng để hoàn thành nhiệm vụ, nhiệm vụ xong thì rời đi ngay.

Kiến trúc ban đầu của internet và logic kinh doanh đều xoay quanh hành vi và thói quen sử dụng của con người. Nhưng ngày nay, phần lớn các hành vi truy cập mạng không phải từ người thật, điều này khiến các trang web lớn gặp nhiều phiền toái. Hiện đã có 2,5 triệu trang web bắt đầu chặn các chương trình thu thập dữ liệu của AI, các nền tảng như Perplexity cũng bị kéo vào các vụ kiện liên quan. Nhà cung cấp dịch vụ đám mây Cloudflare còn xây dựng “ mê cung mật ong”, dùng văn bản rối rắm, vô nghĩa do AI tạo ra để tạo ra các trang vòng lặp vô hạn, nhằm giữ chân các loại trình thu thập dữ liệu.

Tuy nhiên, một số AI cao cấp đã có khả năng vượt qua các biện pháp phòng thủ này. Trước tình hình đối đầu giữa người và máy ngày càng gay gắt, toàn ngành bắt đầu phát triển một hệ thống xác thực danh tính con người đáng tin cậy hơn. Hệ thống này cần chính xác nhận diện xem người điều khiển phía bên kia màn hình có phải là con người hay không: khi con người thao tác, sẽ xuất hiện sự do dự, lỗi chính tả, di chuyển con trỏ cũng có những rung động nhỏ đặc trưng của hệ thần kinh con người. Bài viết này sẽ phân tích nguyên nhân của cuộc cách mạng này, hai phương án công nghệ chính và những lựa chọn mà mọi người sẽ phải đối mặt: chấp nhận giám sát sinh trắc học tập trung hay sử dụng công nghệ chứng minh không kiến thức mã hóa để xác thực danh tính ẩn danh.

AI làm thay đổi mô hình kinh doanh internet

Các trang web bắt đầu chặn các chương trình AI, nguyên nhân là AI đã phá vỡ cả hai nền tảng kinh doanh của internet. Logic kiếm tiền truyền thống dựa trên sự chú ý của người dùng: người dùng truy cập trang, xem quảng cáo, nhà phát hành nội dung sẽ thu lợi. Nếu để AI mua sắm thay, nó sẽ truy cập hàng nghìn trang cùng lúc, còn người bình thường chỉ duyệt vài trang.

Tốc độ đọc của AI vượt xa con người, chỉ trong vài phút có thể so sánh giá toàn mạng hoặc đặt hàng trực tiếp, toàn bộ quá trình không tạo ra lượt xem quảng cáo nào. Điều này có nghĩa là các trang web phải gánh chi phí vận hành máy chủ mà không thu được lợi nhuận gì.

Song song đó, tìm kiếm của AI cũng đang phân tán lưu lượng truy cập. Sau khi Google thêm phần tóm tắt thông minh AI vào đầu kết quả tìm kiếm, chỉ có 8% người dùng nhấp vào trang gốc, các trang nội dung lớn giảm lượng truy cập từ Google đi thẳng 33%. Chức năng này mới ra mắt một năm đã có hơn 1 tỷ người dùng hoạt động hàng tháng, lượng truy vấn mỗi quý đều tăng gấp đôi kể từ khi ra mắt.

Chắc hẳn mọi người còn nhớ nền tảng hỏi đáp Chegg. Ban đầu dựa vào xếp hạng tìm kiếm để chủ yếu làm dịch vụ hỏi đáp học thuật, nay đã chính thức đóng cửa phần hỏi đáp, nguyên nhân chính là do tác động của ChatGPT. Các nhà sáng tạo nội dung đang rơi vào thế tiến thoái lưỡng nan: một mặt, các trình thu thập dữ liệu tự do lấy nội dung trong trang; mặt khác, các tóm tắt AI đã chặn luồng truy cập của người dùng trước khi họ vào trang.

Khoảng cách dữ liệu còn gây sốc hơn: mỗi lần AI của OpenAI mang lại lượt chuyển hướng cho một trang hợp tác, trước đó phải lấy dữ liệu của 400 trang; tỷ lệ này của Anthropic còn lên tới 38000:1. Các doanh nghiệp này sử dụng dữ liệu công khai toàn mạng để huấn luyện mô hình AI mà không trả phí, rồi dùng sản phẩm hoàn chỉnh để phân tán lưu lượng vốn thuộc về các trang web.

Trong các ngành khác, hành vi thu thập dữ liệu kiểu cướp bóc này đã bị kiện tụng vô số, nhưng trong lĩnh vực AI, các doanh nghiệp này vẫn có giá trị ước tính hàng nghìn tỷ USD.

Cơ thể bạn chính là mật khẩu mới

Trong 25 năm qua, internet chủ yếu dựa vào CAPTCHA để phân biệt người và máy. Người dùng cần nhận diện biển báo giao thông, nhập ký tự bị méo mó, cơ chế này hiệu quả vì trong thời kỳ đầu, khả năng nhận diện hình ảnh của máy còn kém xa con người.

Hiện tại, tình hình đã hoàn toàn đảo ngược. Các chương trình trí tuệ của OpenAI trong hệ thống xác thực của Google có thể mô phỏng con người vượt xa con người, có thể chính xác nhấp vào giao diện, sao chép dán nội dung; ảnh do AI tạo ra có thể qua mặt hệ thống xác thực danh tính, video giả mạo sâu còn được các tội phạm dùng để thực hiện chuyển khoản ngân hàng. Các phương pháp xác thực truyền thống—giả định rằng máy móc yếu hơn con người—đã không còn phù hợp nữa.

Ngành công nghiệp hiện chỉ có thể tập trung vào các lĩnh vực mà AI tạm thời chưa thể sao chép. Đó chính là đặc điểm hành vi sinh học của con người khi thao tác thiết bị điện tử, còn gọi là công nghệ nhận dạng hành vi sinh học. Các công ty như IBM, BioCatch đang phát triển hệ thống liên quan, công nghệ này không chỉ xác thực danh tính khi đăng nhập mà còn theo dõi toàn bộ trạng thái người dùng, thu thập các dữ liệu như tốc độ di chuyển con trỏ, cách lướt trang, nhịp điệu gõ, lực nhấn phím, thói quen chỉnh sửa văn bản, góc cầm điện thoại, cảm biến gia tốc của điện thoại đều ghi lại liên tục.

Hệ thống còn có thể nhận diện tay thuận của người dùng, đường đi của ngón tay khi trượt. IBM chỉ cần thu thập tám lần dữ liệu sử dụng để xây dựng hồ sơ hành vi riêng của từng người, sau đó so sánh từng thao tác theo thời gian với dữ liệu chuẩn.

Công nghệ của BioCatch còn có thể nhận diện các tình huống lừa đảo mạng. Khi nạn nhân theo hướng dẫn của kẻ lừa đảo đọc to tên đăng nhập, mật khẩu qua điện thoại, tốc độ gõ lo lắng, gián đoạn sẽ bị hệ thống phát hiện chính xác. Trong vòng một năm, hệ thống này đã giúp 257 ngân hàng phát hiện khoảng 2 triệu tài khoản rửa tiền. Hiện nay, Liên minh châu Âu cũng bắt đầu thử nghiệm công nghệ nhận diện dáng đi. Mới chỉ hơn ba năm kể từ khi thời đại AI bắt đầu mở ra, các nhân viên biên phòng EU đã bắt đầu thu thập dáng đi của người dân.

Các nghiên cứu còn kết hợp hiệu ứng Stroop: khi chữ “xanh” được viết bằng màu xanh lá, não bộ con người sẽ phản ứng chậm hơn do xung đột giữa ý nghĩa chữ và màu sắc thị giác, trong khi AI không bị ảnh hưởng gì. Nghiên cứu còn phát hiện, sự nhiễu nhận thức này thể hiện rõ qua hành vi gõ phím. Các nền tảng thậm chí không cần đặt câu hỏi kiểm tra riêng, chỉ dựa vào nhịp gõ để xác định người thao tác có phải là con người hay không; thói quen gõ còn chứa đựng đặc trưng xử lý thông tin của não bộ con người.

Trước đây, theo dõi mạng chủ yếu ghi lại hành vi duyệt web, nhấp chuột, tiêu dùng của người dùng, nhưng người dùng có thể tránh bằng cách chặn Cookie, dùng VPN, tắt định vị. Nhưng nhận dạng hành vi sinh học thu thập đặc điểm phản xạ tự nhiên của cơ thể: cách di chuyển con trỏ, nhịp gõ khó mà con người có thể thay đổi.

Mỗi người có đặc điểm hành vi như dấu vân tay duy nhất. Khác với mật khẩu, chìa khóa, hồ sơ sinh trắc học này không thể thay thế, đặt lại. Khi công nghệ này phổ biến, các nền tảng lớn sẽ buộc phải thích nghi. Hiện nay, công nghệ mô phỏng giọng nói đã có thể giả mạo trong cuộc gọi, công nghệ giả mạo video cũng theo sau. Nếu đây là tương lai, câu hỏi then chốt sẽ nổi lên: dữ liệu sinh trắc của con người cuối cùng sẽ do ai kiểm soát?

Ai sẽ kiểm soát hệ thống xác thực con người

Hiện tại, ngành đã phân thành hai phe chính, đều đang khám phá các phương án xác thực danh tính con người.

Phe thứ nhất là World của Sam Altman (trước đây gọi là Worldcoin). Người dùng cần đến trước thiết bị quét võng mạc hình cầu, thiết bị sẽ thu thập dữ liệu võng mạc và tạo chứng thư mã hóa để xác nhận người dùng là cá nhân duy nhất. Hiện đã có 18 triệu người tại 160 quốc gia đăng ký võng mạc. Đến tháng 4 năm 2026, World đã ký hợp tác xác thực người dùng với Tinder, Zoom, DocuSign; còn hợp tác với Coinbase để ra mắt công cụ AgentKit, cho phép người dùng liên kết AI thông minh của mình với danh tính thực, vừa xác nhận có người thật phía sau, vừa không tiết lộ thông tin cá nhân.

Tuy nhiên, công nghệ quét võng mạc bị cấm rõ ràng tại nhiều quốc gia. Người dân không rõ việc cấp phép thu thập dữ liệu sinh trắc sẽ gây ra những rủi ro gì, đó là lý do chính các quốc gia phản đối. Nghiên cứu của MIT Technology Review còn phát hiện, World trong khi chưa có phép hợp lệ đã thu thập cả nhịp tim, hô hấp và nhiều chỉ số sinh tồn khác của con người.

Phe thứ hai dựa trên công nghệ mã hóa chứng minh không kiến thức (Zero-Knowledge Proof), cho phép bạn chứng minh mình là con người mà không tiết lộ danh tính, vị trí hay diện mạo thật. Vitalik Buterin đã đề xuất ý tưởng này từ năm 2023. Ông cho rằng, nếu không xây dựng được hệ thống xác thực danh tính con người phi tập trung, internet cuối cùng sẽ đi theo hướng tập trung hóa danh tính. Quyền xác thực sẽ bị các doanh nghiệp hoặc chính phủ kiểm soát, cơ chế giám sát sẽ ăn sâu vào nền tảng mạng.

Các hệ thống xác thực danh tính phi tập trung đã từng có nhiều thử nghiệm quy mô lớn, cuối cùng đều thất bại. Idena là dự án chuỗi công khai đầu tiên tập trung vào “một người một danh tính”, chỉ sau hai năm hoạt động, 40% tài khoản toàn mạng và 48% phần thưởng đều do 23 tổ chức kiểm soát. Các nhóm vận hành tại Ấn Độ, Nga thuê người bình thường mượn danh tính với mức lương chưa tới một đô la một giờ, kiếm lợi gấp 55 lần. Các nhà nghiên cứu còn phát hiện, thậm chí có cả trẻ em bị dùng làm tài khoản bù nhìn.

Vitalik đã dự đoán trước các rủi ro này. Ông nói, đối với hệ thống xác thực danh tính con người, phương thức tấn công ít tốn kém nhất không phải là giả mạo sâu hoặc hacker cao cấp, mà là thuê người thu nhập thấp mượn danh tính cá nhân. Bất kỳ hệ thống xác thực nào cũng cần có nguồn vốn: thiết bị quét võng mạc, nút xác thực trên chuỗi đều cần đầu tư liên tục.

Nhưng khi chứng thực danh tính có giá trị kinh tế, thị trường cho thuê danh tính đen sẽ hình thành. Trong thế giới thực có bất bình đẳng giàu nghèo, các nhà đầu tư mạnh sẽ kiểm soát thị trường này.

“Trong hệ thống có động lực kinh tế thực, việc ép buộc quy tắc một người một phiếu cuối cùng sẽ dẫn đến thất bại như các thử nghiệm xã hội của thế kỷ XX.”

Xét khách quan, cả hai hướng phát triển đều có những điểm yếu rõ ràng. Phương án tập trung có thể mở rộng quy mô, nhưng dữ liệu sinh trắc của người dùng sẽ do các doanh nghiệp thu thập quá mức và quản lý, trong khi các doanh nghiệp này lại có thể kiếm lợi từ tình trạng robot tràn lan. Phương án mã hóa về lý thuyết có thể bảo vệ quyền riêng tư, nhưng khó tránh khỏi vấn đề mất cân bằng kinh tế trong thực tế, cuối cùng sẽ bị các ngành công nghiệp đen lợi dụng.

Nếu phải đặt cược, tôi vẫn sẽ chọn phương án mã hóa. Bởi công nghệ nhận dạng hành vi sinh học và quét võng mạc tập trung sẽ vĩnh viễn ghi lại thông tin cơ thể của bạn, và quyền sở hữu dữ liệu đó thuộc về người vận hành hệ thống. Một khi họ kiểm soát dữ liệu của bạn, bạn không thể xóa hoặc chuyển nhượng; dữ liệu này sẽ bị khóa trong tay công ty thu thập.

Dù biết rõ chứng minh không kiến thức có thể bị khai thác, nhưng vẫn đáng để phát triển, vì chứng minh này có thể xác nhận bạn là con người mà không cần tiết lộ thêm thông tin. Ngược lại, nếu từ bỏ con đường này, trong tương lai, khi chúng ta truy cập bất kỳ trang web nào, đối phương đều sẽ lưu trữ dữ liệu hành vi thể chất của chúng ta. Hiện nay, hệ thống tập trung có khả năng giám sát này đã phát triển nhanh hơn nhiều so với công nghệ mã hóa.

WLD-2,25%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim