OpenAI 发现将推理成本减半的新方法

robot
摘要生成中
根据熟悉讨论的消息人士透露,此前未公开的消息是:本月早些时候,OpenAI的工程师告知一些同事,依靠几项新开发的优化技术,他们找到了能将模型推理成本降低一半以上的解决方案。将这项新技术应用于免费/付费账户访问者使用ChatGPT的场景后,所需的英伟达图形处理器(GPU)数量减少到仅几百个——这是一个极低的数字。目前尚不清楚OpenAI使用何种具体技术手段实现这一计算效率的显著提升。行业内常见的优化方法通常包括:量化压缩、键值缓存、将用户查询批量处理而非逐一计算,以及将部分请求重定向至低功耗轻量级模型或模型分片进行响应。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论