2025-01-31 05:31:01

#Deepseek Goes Viral#

DeepSeek，一家位于中国杭州的人工智能初创公司，凭借2024年12月下旬推出的大型语言模型DeepSeek-V3，在全球人工智能行业引起了广泛关注。该模型拥有6710亿个参数，但仅用了约两个月的时间进行训练，成本为558万美元，远低于其他主要技术公司的投资。
DeepSeek-V3在开源模型中取得了最佳性能，并与世界上最先进的模型进行了比较。该公司已经优化了训练过程，以最小化成本，在中国生产的Nvidia H800 GPU上使用了约278万小时。这表明，尽管受到美国对获取AI训练所需先进半导体的限制，中国的人工智能公司取得了显著进展。
DeepSeek的成功引起了美国科技行业的担忧，英伟达和其他科技公司的股票大幅下挫。专家认为，得益于采用开源技术和有效的培训方法，DeepSeek以比美国同行更低的成本实现了高性能。
此外，DeepSeek已发布了模型的源代码和详细的技术解释，使全球的研究人员和开发人员能够访问和改进这项技术。这种透明度与美国主要人工智能公司更加神秘的方法形成鲜明对比，可能会改变未来大型科技公司开发模型的方式。

DEEPSEEK-1.42%

MAJOR5.25%

S4.54%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论