Perceptron đang biến băng thông nhàn rỗi thành dữ liệu đào tạo AI

Ngành công nghiệp trí tuệ nhân tạo hiện đang đối mặt với một nút thắt nghiêm trọng về dữ liệu huấn luyện, đặc biệt khi các tập đoàn công nghệ tập trung đang khóa chặt các nhà phát triển giai đoạn đầu khỏi các đường ống thông tin chất lượng cao. Nền tảng cơ sở hạ tầng dữ liệu phi tập trung Perceptron đang cố gắng giải quyết nút thắt cấu trúc này bằng cách triển khai một lớp cơ sở hạ tầng phi tập trung thu thập thông tin web thông qua các thiết bị của người dùng hàng ngày.

Tóm tắt

  • Perceptron đang sử dụng băng thông tiêu dùng nhàn rỗi để thu thập dữ liệu web công khai và cung cấp các tập dữ liệu huấn luyện AI chi phí thấp hơn.
  • Nền tảng cho biết mạng lưới của họ trải dài hơn 150 quốc gia và thưởng cho những người đóng góp trong khi xác minh chất lượng dữ liệu trước khi cung cấp cho khách hàng doanh nghiệp.
  • Perceptron đã ra mắt Quỹ Dữ liệu AI trị giá 10 triệu đô la để giúp các nhà phát triển tiếp cận cơ sở hạ tầng dữ liệu và đẩy nhanh quá trình phát triển các mô hình AI.

Truyền thông hiện đại hoàn toàn tập trung vào việc nêu bật cách các tên tuổi hàng đầu trong lĩnh vực trí tuệ nhân tạo liên tục triển khai các hệ thống phần cứng thế hệ tiếp theo để tăng cường sức mạnh tính toán thô của họ. Nhưng một trong những hạn chế vận hành ít được nhắc đến nhất là chất lượng của dữ liệu huấn luyện tạo nên nền tảng cốt lõi của bất kỳ mô hình AI chức năng nào.

Vấn đề là với phần lớn nội dung web mở đã được thu thập triệt để, việc kiểm soát doanh nghiệp mạnh mẽ đối với các giao diện lập trình ứng dụng công khai đã khóa các nền tảng thu thập tập dữ liệu còn lại đằng sau các bức tường phí nhiều triệu đô la cắt cổ. Về cơ bản, nó đã trở thành một đặc quyền độc quyền cực kỳ đắt đỏ cho một số ít các tập đoàn công nghệ lớn.

Đối với các gã khổng lồ công nghệ hiện đang dẫn đầu cuộc đua AI, việc đảm bảo các đường ống thông tin chi phí cao này không phải là thách thức tài chính lớn, nhưng còn những nhà đổi mới thiếu vốn thì sao? Nếu không có ngân sách cần thiết, các công ty khởi nghiệp giai đoạn đầu phải vật lộn để xây dựng các sản phẩm cạnh tranh.

“OpenAI trả khoảng 60 triệu đến 100 triệu đô la mỗi năm cho các công ty như Reddit và Twitter để có thể truy cập dữ liệu thông qua API,” Đồng sáng lập & CEO của Perceptron, Peter Anthony, nói với crypto.news trong một cuộc phỏng vấn gần đây.

“Nhiều dự án AI mới ngoài kia không có ngân sách để chi 60 triệu đến 100 triệu đô la để có thể truy cập dữ liệu. Nếu bạn xây dựng mô hình tốt nhất thế giới, nó khá vô dụng nếu không có quyền truy cập vào dữ liệu chất lượng tốt. Bạn có thể là đứa trẻ thông minh nhất trường, nhưng nếu bạn không thể truy cập bất kỳ cuốn sách nào, bạn thực sự không có nhiều thông tin để trình bày.”

Anthony nhận ra rằng sự bất đối xứng thị trường này để lại chỗ cho cơ sở hạ tầng thay thế phục vụ phân khúc thị trường độc lập, điều này cuối cùng đã dẫn anh đến việc đồng sáng lập Perceptron, một nền tảng có kế hoạch sử dụng băng thông tiêu dùng nhàn rỗi để giải quyết “vấn đề nút thắt dữ liệu” mà AI đang gặp phải hiện nay.

“Phần lớn dữ liệu của thế giới đã được truy cập và cào, nhưng có rất nhiều dữ liệu bị ẩn đằng sau những nơi khác nhau chưa thể truy cập được, vì vậy chúng tôi đang thu thập dữ liệu và định vị bản thân để có thể cung cấp dữ liệu cho các công ty AI với chi phí giảm,” Anthony giải thích.

Khai thác băng thông nhàn rỗi

Nhưng băng thông nhàn rỗi mà Perceptron có kế hoạch tận dụng là gì? Anthony giải thích rằng đây là tài sản kinh tế không được công nhận mà người dùng hàng ngày liên tục tạo ra thông qua việc duyệt web kỹ thuật số thông thường, chỉ để nhìn các tập đoàn lớn khai thác và hưởng lợi từ nó.

“Ngay bây giờ, mỗi khi bạn và tôi sử dụng internet trên điện thoại, máy tính của mình, chúng ta đang tạo ra dữ liệu. Dữ liệu đó được thu thập, đóng gói thành các tập dữ liệu lớn bởi các công ty như Google và được bán với giá hàng triệu, đôi khi hàng tỷ đô la. Tuy nhiên, bạn và tôi không bao giờ thấy một xu nào từ giá trị đó.”

Điều Perceptron đã làm là hoàn toàn lật ngược mô hình khai thác này. Họ đã xây dựng một mạng lưới trải dài hơn 150 quốc gia bao gồm khoảng 800.000 nút, và các nút này được hỗ trợ bởi những người dùng cá nhân chỉ đơn giản là chạy một tiện ích mở rộng trình duyệt trên Chrome hoặc một ứng dụng trên thiết bị Android của họ.

Mặc dù các cài đặt điểm cuối này không cào các tệp kỹ thuật số riêng tư hoặc cung cấp cho công ty các phép đo từ xa cá nhân nhạy cảm, nhưng nó thay vào đó bảo đảm các góc nhìn địa lý, mà Anthony mô tả là “các điểm thuận lợi khác nhau” trên web mở, sau đó có thể được trích xuất thành các mảnh nhỏ và kết hợp thành một tập dữ liệu có ý nghĩa.

“Điều rất quan trọng là chúng tôi tập trung vào thực tế rằng nó không sử dụng dữ liệu của cá nhân, nó không khai thác dữ liệu và thông tin cá nhân của bạn, nhưng giả sử bây giờ bạn đang ở Malawi. Khi bạn đang xem một trang web cụ thể, tôi có thể đi và xem cùng một trang web, nhưng rất có thể, vì tôi ở Dubai, chúng ta sẽ thấy một loạt kết quả khác nhau. Tất cả những gì chúng tôi thu được từ tình huống này là có thể sử dụng máy tính của bạn để xem một thứ gì đó như một trang web thông thường, hoặc bất cứ thứ gì có thể.”

Để minh họa, Anthony lưu ý rằng nếu một khách hàng doanh nghiệp yêu cầu một tập dữ liệu về các bài đăng trên mạng xã hội liên quan đến chăm sóc sức khỏe từ Hoa Kỳ, Perceptron có thể phối hợp trên toàn bộ mạng lưới nút toàn cầu của mình để trích xuất các bài đăng công khai riêng lẻ mà không cần giao tiếp với các API doanh nghiệp hạn chế.

Bởi vì dữ liệu này đã có thể truy cập công khai miễn phí qua bất kỳ trình duyệt web tiêu chuẩn nào, việc định tuyến thu thập thông qua các nút đầu cuối cá nhân sẽ hợp pháp vượt qua các bức tường phí thương mại. Khi các gói dữ liệu nhỏ này được truy xuất, mạng lưới chuyển dữ liệu chưa qua xử lý trở lại máy chủ tập trung, nơi các mô hình trí tuệ nhân tạo chuyên dụng sẽ làm sạch và kiểm tra thông tin để kiểm soát chất lượng.

“Bằng cách này, chúng tôi có thể giảm đáng kể chi phí hiện đang bị tính bởi nhiều công ty tập trung lớn như Google.”

Được hỗ trợ bởi một vòng kinh tế khuyến khích những người tham gia mạng lưới chất lượng

Câu hỏi tiếp theo là tại sao bất kỳ ai lại tình nguyện phần cứng của họ cho một mạng lưới như thế này, và câu trả lời rất đơn giản, một vòng chia sẻ giá trị đảm bảo rằng các nút này kiếm được điểm cho kết nối thụ động của họ, dự kiến sẽ chuyển đổi thành token tiền điện tử gốc sau này.

Theo Anthony, mô hình phân tán này “sẽ cho phép họ kiếm điểm” hoạt động như một thước đo trực tiếp về đóng góp mạng của họ, và do đó “bất cứ khi nào doanh nghiệp tạo ra doanh thu, token sẽ được đưa trở lại hệ sinh thái” để duy trì một vòng kinh tế tuần hoàn.

“Cũng sẽ có token được dành riêng để mua lại token,” ông nói thêm.

Tuy nhiên, không phải ai chạy một nút cũng đủ điều kiện nhận phần thưởng nhất quán, vì có thách thức thường trực về kiểm soát chất lượng, có thể làm tổn hại tính toàn vẹn của tập dữ liệu nếu không được kiểm soát.

Perceptron giải quyết điều này bằng cách định tuyến các gói thu thập được trở lại máy chủ tập trung, nơi các thuật toán tự động đánh giá có hệ thống các đầu vào so với các điểm chuẩn mục tiêu trước khi giải phóng bất kỳ khoản bồi thường nào.

Hơn nữa, Anthony nói rằng công ty khởi nghiệp gần đây đã mua lại một công ty chuyên về phần mềm xác minh giao dịch và thanh toán để tự động hóa quy trình xác thực này về mặt cấu trúc.

Để thu hút thêm những người tham gia mạng lưới đồng thời thúc đẩy việc tạo ra các tập dữ liệu, Perceptron cũng có kế hoạch ra mắt một nền tảng Data Questing có cấu trúc, cho phép những người đóng góp biến nỗ lực của con người thành các đầu vào huấn luyện độc đáo.

“Chúng tôi nhằm mục đích có thể xây dựng các tập dữ liệu và tạo ra các tập dữ liệu hiện không có sẵn thông qua các quy trình tập trung,” Anthony nói thêm.

Mục tiêu cuối cùng

Về lâu dài, Anthony cho biết ông muốn thấy mạng lưới chuyển đổi sang mô hình tập trung vào thông tin kinh doanh có thể cung cấp phân tích sâu cho khách hàng doanh nghiệp.

“Sự khác biệt là các tập dữ liệu truyền thống là tĩnh, chúng được thu thập một lần và nhanh chóng trở nên lỗi thời. Nhưng có một lượng lớn dữ liệu được tạo ra mỗi khi bạn tương tác với bất kỳ thứ gì trực tuyến, và hiện tại, hầu hết nó chỉ đơn giản là bị lãng phí,” Anthony nói.

“Một máy chủ duy nhất cố gắng giám sát tất cả những người dùng khác nhau này thực sự không thể thu thập thông tin tình báo có ý nghĩa ở quy mô đó. Những gì chúng tôi cần là một sự chuyển dịch hướng tới thông tin kinh doanh phân tán, để chúng tôi thực sự có thể cải thiện các dịch vụ trên các lĩnh vực như thương mại điện tử, giao dịch và nhiều hơn nữa.”

Perceptron cũng đã ra mắt Quỹ Dữ liệu AI trị giá 10 triệu đô la, thông qua đó nền tảng dự kiến sẽ tài trợ cho các nhà phát triển độc lập và hỗ trợ triển khai “các dự án thực tế đang cung cấp dịch vụ thực.” Theo các điều khoản của chương trình, các nhóm kỹ thuật được chọn nhận năm tuần hỗ trợ cơ sở hạ tầng dữ liệu chuyên dụng và tới 5 TB dữ liệu thực tế miễn phí để đẩy nhanh quá trình tối ưu hóa các mô hình AI giai đoạn đầu.

“Mục tiêu là hỗ trợ các dự án khi chúng phát triển và nhu cầu dữ liệu của chúng tăng lên. Chúng tôi có thể trở thành một trong những nhà cung cấp chính của họ, đó vừa là một khoản đầu tư vào hệ sinh thái rộng lớn hơn vừa là một cách để chúng tôi xây dựng doanh thu ổn định, lâu dài,” Anthony lưu ý.

Tính đến thời điểm công bố, Anthony cho biết Perceptron đã chủ động cung cấp các sản phẩm dữ liệu đa dạng cho nhiều doanh nghiệp thương mại. Mạng lưới cung cấp các tập dữ liệu hình ảnh mở rộng cho các nền tảng tạo video từ văn bản, bao gồm một công ty có tên Everlyn AI, để huấn luyện các mô hình tổng hợp nội dung hình ảnh một cách chính xác.

Ngoài ra, dự án cũng đang tiến xa hơn việc tổng hợp hình ảnh tiêu chuẩn, vì nền tảng đã bước vào lĩnh vực phân tích cảm xúc bằng cách theo dõi diễn ngôn công khai trên Twitter, YouTube và thị trường tài sản kỹ thuật số. Phân tích cảm xúc công khai này giúp các công ty và sàn giao dịch tiền điện tử xây dựng các công cụ theo dõi đưa ra các tín hiệu sớm để ngăn chặn các biến động giá đột ngột.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim