泰达币推出设备端医疗人工智能，在基准测试中优于谷歌的模型

2026-05-09 15:47:51

Tether 的 AI 研究团队发布了 QVAC MedPsy-1.7B 和 MedPsy-4B。这两款专门的纯文本医疗语言模型可直接运行在诸如智能手机和可穿戴设备等低功耗设备上。

据团队介绍，这些模型在多个基准测试中优于一些大型医疗 AI 系统（包括谷歌的系统），并且在医疗推理和知识类任务上与更大规模的系统表现相当，同时实现了完整的本地执行与隐私保护。

医疗领域的传统 AI 系统依赖于大型云端托管模型，需要将诸如患者病历和诊断输入等敏感数据传输到外部服务器，从而带来隐私与合规风险。随着医疗 AI 产业预计从目前约 360 亿美元增长到 2033 年可能超过 5000 亿美元，这一架构正承受越来越大的压力。

Tether 团队表示，QVAC MedPsy 通过聚焦效率，向“规模扩展”的范式发起挑战。

1.7B 模型对智能手机友好。研究人员称，这个体量很小的版本在七个标准医疗基准测试中得分为 62.62，尽管其体积少于后者的一半，却仍比谷歌的 MedGemma-1.5-4B-it 高出超过 11 分。它在实际临床任务（如 HealthBench Hard）中也优于 MedGemma 27B。

4B 版本模型在相同测试中的得分为 70.54，超越了 MedGemma-27B——后者的规模几乎大了将近 7 倍。它在 HealthBench、HealthBench Hard 和 MedXpertQA 等方面都展现出强劲表现。

这些结果覆盖了八组基准测试，包括 MedQA、MedMCQA、MMLU Health、PubMedQA、AfriMedQA、MedXpertQA 和 HealthBench。这些成果由分阶段的医疗训练驱动，训练过程结合了监督学习、精心策划的临床推理数据以及强化学习。

“使用 QVAC MedPsy，我们的重点是在模型层面提升效率，而不是扩大模型规模，”Tether 首席执行官 Paolo Ardoino 在发布时表示。

这些模型不仅聪明，而且非常实用。研究人员指出，它们能快速给出简短但仍完整的答案，从而节省时间并延长电池续航。它们以易于使用的压缩格式提供，在不显著损失质量的情况下，能在移动设备上轻松运行。

从技术角度看，4B 模型生成的回复大约为 909 tokens，而类似系统约为 2,953 tokens，这意味着减少了 3.2x。1.7B 模型的平均输出约为 1,110 tokens，而为 1,901 tokens，输出减少了 1.7x。

这两款模型均以量化的 GGUF 格式发布。压缩版本的大小分别约为 1.2 GB 和 2.6 GB。

“这种组合之所以重要，是因为它能直接降低算力需求、延迟和成本。它让模型能够在标准硬件上本地运行，而不必依赖远程基础设施，”Ardoino 补充道。“在医疗领域，这会完全改变约束条件：你可以在数据已经存在的地方——医院系统内部或设备上——运行医疗推理，而无需将敏感信息通过云端传输，或等待外部处理。”

目前，这些模型已在 Hugging Face 上以开源许可证免费提供。

                    **披露：** 本文由 Vivian Nguyen 编辑。有关我们如何创建和审阅内容的更多信息，请参阅我们的编辑政策。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论

热门话题