Perceptron 正在将闲置带宽转化为AI训练数据

人工智能行业目前正面临着严重的训练数据瓶颈,尤其是当中心化技术垄断企业将早期开发者拒之于高质量信息管道之外时。去中心化数据基础设施平台 Perceptron 正试图通过部署一个去中心化的基础设施层来解决这一结构性瓶颈,该层通过日常用户设备众包网络信息。

摘要

  • Perceptron 利用闲置的消费者带宽来收集公开可用的网络数据,并提供成本更低的 AI 训练数据集。
  • 该平台表示其网络覆盖超过 150 个国家,并在向企业客户提供数据之前对贡献者进行奖励并验证数据质量。
  • Perceptron 已推出一个 1000 万美元的 AI 数据基金,帮助开发者访问数据基础设施并加速 AI 模型的开发。

现代媒体完全聚焦于人工智能领域的领军企业如何不断部署下一代硬件系统来提升原始计算能力。但最不常被提及的运营约束之一是构成任何功能性 AI 模型核心基础的训练数据的质量。

问题在于,随着绝大多数开放网络内容已被彻底收割,企业对公共应用编程接口的激进控制已将数据集收集的剩余基础锁定在了高昂的数百万美元付费墙之后。这实际上已成为少数大型科技垄断企业才能负担得起的独家特权。

对于目前引领 AI 竞赛的科技巨头来说,获取这些高成本信息管道并非财务上的大挑战,但那些资金不足的创新者呢?由于缺乏必要预算,早期创业公司只得在构建竞争性产品上苦苦挣扎。

“OpenAI 每年向 Reddit 和 Twitter 等公司支付约 6000 万至 1 亿美元,以便能够通过 API 访问数据,” Perceptron 联合创始人兼首席执行官 Peter Anthony 最近在接受 crypto.news 采访时表示。

“许多新的 AI 项目没有预算去花 6000 万到 1 亿美元来访问数据。如果你构建了世界上最好的模型,但无法获取高质量数据,那它几乎毫无用处。你可以是学校里最聪明的孩子,但如果无法接触任何书籍,你实际上没有太多信息可以展示。”

Anthony 意识到这种市场不对称为服务于独立细分市场的替代基础设施留下了空间,这最终促使他联合创立了 Perceptron,一个计划利用闲置消费者带宽来解决 AI 当前面临的“数据瓶颈问题”的平台。

“世界上大部分数据已被访问和抓取,但仍有大量数据隐藏在尚未可访问的不同地方,因此我们正在收集数据,并定位自己能够以更低成本为 AI 公司提供数据,” Anthony 解释道。

利用闲置带宽

但 Perceptron 计划利用的这种闲置带宽是什么呢?Anthony 解释说,这是日常用户通过常规数字浏览持续产生的未被认识到的经济资产,却只能眼睁睁看着大公司提取并从中获利。

“现在,每次你和我用手机或电脑上网时,我们都在生成数据。这些数据被谷歌等公司收集、打包成大型数据集,并以数百万甚至数十亿美元的价格出售。然而,你和我从未从中看到一分钱的价值。”

Perceptron 所做的就是完全颠覆这种提取模式。他们构建了一个覆盖超过 150 个国家、约 80 万个节点的网络,这些节点由个人用户驱动,他们只需在 Chrome 上运行一个浏览器扩展或在 Android 设备上运行一个应用。

这些终端安装不会抓取私人数字文件或向公司提供敏感的个人遥测数据,而是获取本地化的地理视角,Anthony 将其描述为开放网络上的“不同观察点”,这些视角可以被分解成小块并组合成一个有意义的数据集。

“我们必须强调一点:它不会使用个人数据,不会接入你的个人数据和信息,但假设你现在在马拉维。当你查看某个特定网站时,我也可以查看同一个网站,但由于我在迪拜,我们很可能会看到不同的结果集。我们从这个场景中得到的仅仅是能够利用你的电脑查看类似普通网页的东西,或者其他什么。”

为了说明这一点,Anthony 指出,如果企业客户需要一组美国医疗相关的社交媒体帖子数据集,Perceptron 可以协调其全球节点网格,提取单个公开帖子,而无需与限制性的企业 API 交互。

由于这些数据已经通过任何标准网络浏览器对公众自由开放,通过个人终端节点进行路由收集在法律上绕过了商业付费墙。一旦这些微小的数据包被检索到,网络会将未处理的数据传输回中央服务器,在那里专门的人工智能模型会对信息进行清洗和审核以进行质量控制。

“通过这种方式,我们可以大幅降低目前许多大型中心化公司(如谷歌)收取的成本。”

由激励高质量网络参与者的经济循环驱动

下一个问题是,为什么有人会自愿将自己的硬件提供给这样的网络?答案很简单:一个共享价值循环确保这些节点因其被动连接而获得积分,这些积分将按计划在未来转换为原生加密货币代币。

据 Anthony 称,这种分布式模式“将使他们能够赚取积分”,积分作为其网络贡献的直接衡量标准,因此“当公司产生收入时,代币将回馈到生态系统中”,以维持一个循环经济。

“还会有专门用于回购代币的代币,”他补充道。

然而,并非每个运行节点的人都自动有资格获得持续奖励,因为始终存在质量控制的挑战,如果不加检查,可能会损害数据集的完整性。

Perceptron 通过将收集的数据包路由回中央服务器来解决这个问题,在那里自动算法在释放任何补偿之前系统地根据目标基准评估输入。

此外,Anthony 表示,这家初创公司最近收购了一家专门从事交易和支付验证软件的公司,以便在结构上自动化这一验证过程。

为了进一步吸引网络参与者并推动数据集的创建,Perceptron 还计划推出一个结构化的数据探索平台,允许贡献者将主动的人力投入转化为独特的训练输入。

“我们的目标是能够有效地构建目前通过中心化流程无法获得的数据集,”Anthony 补充道。

最终目标

从长远来看,Anthony 表示他希望看到网络过渡到以商业智能为核心的模型,能够为企业客户提供深层次的分析。

“区别在于传统数据集是静态的,它们被收集一次后很快就会过时。但每次你在网上互动时都会产生大量数据,而目前这些数据大部分都被浪费了,”Anthony 说。

“单台服务器试图监控所有这些不同的用户,无法真正大规模收集有意义的智能。我们需要转向分布式商业智能,这样我们才能真正改善电子商务、交易等领域的服务。”

Perceptron 还推出了一个 1000 万美元的 AI 数据基金,该平台期望通过该基金资助独立开发者,并支持“提供实际服务的实际项目”的部署。根据该计划的条款,选定的工程团队将获得五周专门的数据基础设施支持以及高达 5 TB 的免费真实世界数据,以加速早期 AI 模型的优化。

“目标是在项目成长且数据需求增加时提供支持。我们可以成为他们的首选供应商之一,这既是对更广泛生态系统的投资,也是我们建立一致、长期收入的一种方式,”Anthony 指出。

截至发稿时,Anthony 表示 Perceptron 已积极向多家商业企业提供多样化的数据产品。该网络为文本到视频生成平台提供大量图像数据集,包括一家名为 Everlyn AI 的公司,以训练模型准确合成视觉内容。

除此之外,该项目还超越了标准图像编译,进入了情感分析领域,通过追踪 Twitter、YouTube 和数字资产市场的公共讨论。分析这些公共情感有助于加密货币公司和交易所构建跟踪工具,为应对突发价格波动提供早期信号。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论