泰特的Paolo Ardoino为小型设备上的翻译模型辩护

Tether 首席执行官 Paolo Ardoino 将焦点转向人工智能的一个截然不同的角落:完全在设备上进行的翻译,而无需将敏感文本发送到云端。

在最近的一篇文章中,Ardoino 将问题围绕隐私、速度和实用性进行框架。他的观点很简单,但涉及到每天有数百万用户遇到的问题。当有人通过云服务翻译医疗笔记、私人消息、法律合同,甚至个人日记条目时,该文本会离开设备,进入他人的基础设施。

在许多情况下,用户并不完全知道数据去向、保留时间或谁可能访问它。Ardoino 认为,这不仅仅是一个理论上的担忧,而是一个真实存在的问题,尤其是在保密性至关重要的使用场景中。

据 Ardoino 说,答案不是依赖越来越大的通用人工智能模型。相反,他认为翻译是那些小型、专用模型可以击败“巨人”的任务之一。

在他看来,如果任务是将一种语言翻译成另一种语言,就没有必要使用一个可以写诗、总结文章和执行十几项无关任务的庞大模型。对于翻译来说,为特定目的构建的专业模型可以更小、更快、更可靠。

优于更大的大型语言模型

Ardoino 指出,通用语言模型在手机和笔记本电脑等边缘设备上的局限性。即使是相对较小的模型,也可能占用大量存储空间,加载时间长,仍然无法为用户提供流畅的体验。

相比之下,专用的神经机器翻译模型可以大大减轻负担,通常只有几十兆字节大小,几毫秒内即可加载,并能更快地产生翻译。在 Ardoino 看来,这种差异不仅仅是技术琐事。它改变了真实用户在真实设备上的可能性。

这种以隐私为先的观点是通过他在帖子中讨论的项目 QVAC 推动的方法的核心。这个想法是让翻译完全本地化,使整个过程在用户的手机、笔记本或嵌入式硬件上完成。不需要云端请求。

没有第三方需要看到文本。对于关心合规性的用户和开发者来说,这也意味着更少的数据处理麻烦、更少的跨境传输担忧和更少的安全问题。Ardoino 还概述了团队如何走到这一步。

他们早期的翻译工作依赖于 Opus-MT 模型,效果不错,但比他们希望的移动端使用的模型更大、更慢。覆盖范围也是一个问题。如果某个语言对尚未支持,训练新模型将需要大量额外工作。

转向 Bergamot 后,他描述其为更小、更快、覆盖范围更广,似乎解决了许多这些问题。帖子还明确表示,QVAC 并不局限于一种翻译引擎。虽然专用的 NMT 模型是长期目标,但系统也可以在此期间支持基于大型模型的翻译。

实用的桥接策略

Ardoino 将其描述为一种实用的桥接策略。如果需要快速部署新的语言对,可以先部署更大的模型,同时并行训练专用翻译模型。这样,用户可以立即获得支持,随着较小模型取代临时备用方案,体验也会逐步改善。

帖子中的另一个主题是批量翻译。Ardoino 表示,一旦团队超越演示阶段,开始考虑文档、聊天记录和多句输入等生产用例,批量处理就变得尤为重要。

一次翻译一句话对于简单界面可能还可以,但在实际应用中,批处理会带来巨大差异。团队表示,规模化后吞吐量大约提高了2.5倍,句子处理的延迟也明显改善。

该提案最雄心勃勃的部分是覆盖范围。QVAC 不试图为每个可能的语言对构建单独的模型,而是以英语为枢纽。这意味着,比如西班牙语到意大利语的翻译路径,可以通过串联西班牙语到英语和英语到意大利语的模型来实现。

在实际操作中,这将所需模型的数量从庞大的数目大大减少到更易管理的数量。Ardoino 建议,支持26种语言大约需要50个模型,而不是650个,从而使广泛的本地翻译系统变得更加现实。

他还分享了基准测试数据,说明为什么这种方法在真实硬件上很重要。在一台 Linux 笔记本电脑上,Bergamot 的英语到意大利语模型加载时间刚刚超过100毫秒,且翻译质量很高。

在一台直接在设备上运行的 Pixel 10 Pro XL 上,模型加载时间不到80毫秒,在批处理模式下表现尤为出色。Ardoino 表示,移动端的结果明显优于顺序翻译,批处理带来了更快的响应体验。

展望未来,团队表示将通过 IndicTrans 扩展到印地语等印度语言,并通过 AfriqueGemma 支持更多非洲语言,同时还在探索直播聊天和字幕生成的流式翻译。帖子传达的更广泛信息是,本地 AI 不必是妥协。在翻译方面,至少,Ardoino 认为更小的模型不仅足够,而且更优。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论