Perceptron 正在將閒置頻寬轉化為 AI 訓練數據

人工智能領域目前正面臨嚴峻的訓練數據瓶頸,尤其是當中心化科技壟斷企業將早期開發者鎖定在優質資訊管線之外。去中心化數據基礎設施平台 Perceptron 正試圖透過部署去中心化基礎設施層來解決這個結構性瓶頸,該層透過日常使用者設備收集網路資訊。

摘要

  • Perceptron 利用閒置的消費者頻寬收集公開可用的網路數據,並提供成本更低的 AI 訓練數據集。
  • 該平台表示其網路遍佈超過 150 個國家,並在向企業客戶提供數據前獎勵貢獻者並驗證數據品質。
  • Perceptron 已啟動一項 1000 萬美元的 AI 數據基金,以幫助開發者獲取數據基礎設施,並加速 AI 模型的開發。

現代媒體完全聚焦於強調人工智慧領域的領先品牌如何不斷部署新一代硬體系統來提升其原始運算能力。但最不常被討論的營運限制之一,是構成任何功能型 AI 模型核心基礎的訓練數據品質。

問題在於,隨著絕大多數開放網路內容已被徹底收割,企業對公共應用程式介面的侵略性控制已將剩餘的數據集收集基礎鎖在高昂的數百萬美元付費牆之後。這基本上已成為少數大型科技壟斷企業才能負擔的獨家特權。

對於目前主導 AI 競賽的科技巨頭來說,確保這些高成本的資訊管線並非財務上的挑戰,但那些資金不足的創新者呢?缺乏必要預算的早期新創公司只能在構建競爭性產品時苦苦掙扎。

「OpenAI 每年支付約 6000 萬到 1 億美元給 Reddit 和 Twitter 等公司,以便能夠透過 API 存取數據,」Perceptron 共同創辦人兼執行長 Peter Anthony 在最近一次接受 crypto.news 採訪時表示。

「許多新興的 AI 專案沒有預算能夠花費 6000 萬到 1 億美元來存取數據。如果你打造了世界上最好的模型,但卻無法取得優質數據,那它幾乎毫無用處。你可能是學校裡最聰明的孩子,但如果你無法接觸任何書籍,就沒有太多資訊可以呈現。」

Anthony 意識到這種市場不對稱為替代性基礎設施留下了空間,以服務獨立市場區塊,這最終促使他共同創立了 Perceptron,一個計劃利用閒置消費者頻寬來解決 AI 目前所面臨的「數據瓶頸問題」的平台。

「世界上大部分數據都已經被存取和爬取,但還有很多數據隱藏在不同地方,尚未被取得,因此我們正在收集數據,並定位自己以能夠以較低成本為 AI 公司提供數據,」Anthony 解釋道。

收割閒置頻寬

但 Perceptron 計劃利用的這種閒置頻寬是什麼?Anthony 解釋說,這是日常使用者透過例行數位瀏覽不斷產生的未被認可的經濟資產,卻只能看著大企業從中提取並獲利。

「現在,每當你和我使用手機或電腦上網時,我們都在產生數據。這些數據被 Google 等公司收集、打包成大型數據集,並以數百萬甚至數十億美元的價格出售。然而你和我從未從中獲得一分錢。」

Perceptron 所做的就是完全翻轉這種剝削模式。他們建立了一個遍佈超過 150 個國家、約 80 萬個節點的網絡,這些節點由僅在 Chrome 上運行瀏覽器擴充功能或在 Android 裝置上運行應用程式的個別使用者驅動。

這些終端安裝不會爬取私人數位檔案或向公司提供敏感的個人遙測數據,而是確保在地理視角——Anthony 將其描述為開放網路上「不同的觀點」——這些觀點可以以小片段提取並組合成一個有意義的數據集。

「我們必須非常專注於這不是使用個人的數據,也不是存取你個人的數據和資訊,但假設你現在在馬拉威。當你查看某個特定網站時,我可以去看同一個網站,但很可能因為我在杜拜,我們會看到不同的結果集。我們從這種情況中獲得的只是能夠使用你的電腦來查看像是普通網頁之類的東西。」

為了說明,Anthony 指出,如果企業客戶需要來自美國的醫療相關社群媒體貼文數據集,Perceptron 可以協調其全球節點網格來提取個別公開貼文,而無需與限制性的企業 API 介接。

由於這些數據已透過任何標準網路瀏覽器對公眾免費開放,透過個別終端節點進行收集路由在法律上規避了商業付費牆。一旦這些小數據包被取回,網路會將未經處理的數據傳回中央伺服器,在那裡專門的人工智慧模型會針對品質控制進行清理和審核。

「透過這樣做,我們可以大幅降低目前 Google 等大型中心化公司所收取的成本。」

由激勵優質網路參與者的經濟循環驅動

下一個問題是,為什麼有人會自願將他們的硬體貢獻給這樣的網路?答案很直接:一個共享價值循環確保這些節點因其被動連線而獲得積分,這些積分預計在未來會轉換為原生加密代幣。

根據 Anthony 的說法,這種分散式模型「將使他們能夠賺取積分」,積分作為他們網路貢獻的直接衡量標準,因此「每當公司產生收入時,代幣就會被回饋到生態系統中」,以維持一個循環經濟迴圈。

「還會有預留的代幣用於回購代幣,」他補充道。

然而,並非每個運行節點的人都基本上符合持續獎勵的資格,因為存在始終存在的品質控制挑戰,如果放任不管,可能會損害數據集的完整性。

Perceptron 透過將收集到的數據包路由回中央伺服器來解決這個問題,在那裡自動化演算法系統性地根據目標基準評估輸入,然後才發放補償。

此外,Anthony 表示,該新創公司最近收購了一家專門從事交易和支付驗證軟體的公司,以在結構上自動化此驗證過程。

為了進一步吸引網路參與者並推動數據集的創建,Perceptron 還計劃啟動一個結構化的數據探索平台,讓貢獻者將主動的人類努力轉化為獨特的訓練輸入。

「我們的目標是有效地構建數據集,並創建目前透過中心化流程無法獲得的數據集,」Anthony 補充道。

最終目標

長遠來看,Anthony 表示他希望看到該網路轉變為以商業智慧為中心的模型,能夠為企業客戶提供深層分析。

「不同之處在於傳統數據集是靜態的,它們被收集一次後很快就會過時。但每次你與線上任何內容互動時,都會產生大量數據,而目前大部分數據都被浪費掉了,」Anthony 說。

「單一伺服器試圖監控所有這些不同使用者,根本無法在這種規模下收集有意義的智慧。我們需要的是轉向分散式商業智慧,這樣我們才能真正改善電子商務、交易等領域的服務。」

Perceptron 還啟動了一項 1000 萬美元的 AI 數據基金,透過該基金,該平台預計將資助獨立開發者,並支援「提供實際服務的實際專案」的部署。根據該計畫的條款,選定的工程團隊將獲得五週的專用數據基礎設施支援,以及最多 5 TB 的真實世界數據,以加速早期 AI 模型的優化。

「目標是支持專案隨著成長和數據需求的增加。我們可以成為他們的首選供應商之一,這既是對更廣泛生態系統的投資,也是我們建立穩定長期收入的方式,」Anthony 指出。

截至發稿時,Anthony 表示 Perceptron 已經積極向各種商業企業提供多樣化的數據產品。該網路為文字轉影片生成平台(包括一家名為 Everlyn AI 的公司)提供廣泛的圖像數據集,以訓練模型準確合成視覺內容。

除此之外,該專案也超越了標準的圖像彙編,因為該平台已進入情緒分析領域,追蹤 Twitter、YouTube 和數位資產市場的公共討論。分析這些公眾情緒有助於加密貨幣公司和交易所建立追蹤工具,以提供早期訊號來預測突然的價格波動。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆