10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
AI扩散局面…胜负关键并非‘GPU竞争’,而是成本高效的推理基础设施
随着企业引入人工智能(AI)超越实验阶段,进入全面扩散阶段,市场的胜负关键也在发生变化。如今,竞争的核心不再是简单地堆积更大的模型和更多的图形处理器(GPU),而是谁能更好地构建在控制预算的同时稳定运行的“可扩展型AI推理系统”。
红帽(Red Hat)和英特尔(Intel)正顺应这一趋势,加速扩展基于开源技术的AI推理基础设施。红帽的AI推理工程总负责人塔尼姆·易卜拉欣(Taneem Ibrahim)和英特尔数据中心与AI部门副总裁比尔·皮尔森(Bill Pearson)在“红帽峰会 2026”现场指出,大规模AI服务运营的现实挑战在于成本效益以及基础设施组合的优化。
从GPU单一倾向转向CPU并行策略
在初期生成式AI扩散阶段,自ChatGPT和开放权重模型兴起后,主流做法是尽可能将大型模型部署在庞大的GPU集群上。然而,在实际企业环境中,运营成本与可控性变得与性能同等重要,此时,如何在红帽企业Linux(RHEL)和OpenShift等平台上高效扩展模型,已成为主要课题。
易卜拉欣表示,红帽越来越多地在思考如何在大规模环境中运营其贡献最多的开源项目之一“vLLM”。他指出,核心挑战在于降低“每个token的成本”,以便将AI应用于实际业务,同时在保持治理能力的前提下,实现大规模部署。
近期,基础设施的优先次序也在发生变化。皮尔森解释说,与初期以GPU为中心的应用阶段不同,随着“代理型AI”的扩散,中央处理器(CPU)的角色再次凸显。这意味着并非所有AI工作都需要GPU,根据处理的工作负载类型,合理组合CPU与GPU变得更为重要。
红帽与英特尔扩大基于至强的vLLM支持
基于这种判断,两家公司在“红帽AI 3.4”版本中集成了在英特尔至强(Xeon)环境下完全支持vLLM的功能。其核心并非采用“一刀切”的方式向所有客户推荐相同的配置,而是根据各企业的业务性质及期望的结果,来设计硬件与软件的组合。
皮尔森分析称,许多企业此前一直以“手里有锤子,看什么都像钉子”的方式,采取以GPU为中心的方案。但他解释说,如果重新评估数据中心已大规模部署的CPU资源,转而采用按需添加GPU的方式,则可以同时实现更优的性能和更低的成本。
特别是,像工具调用、数据编排这类代理型AI工作,有不少无需GPU即可处理。英特尔方面认为,让CPU承担这类推理任务,可以使GPU专注于更繁重的运算,从而提升整个系统的效率。
AI基础设施竞争:“运营效率”日益比“性能”更重要
此次讨论表明,AI市场如今已超越单纯的模型性能竞争,转向运营阶段的经济性竞争。对企业而言,与尽可能获取最多顶级性能设备相比,如何更好地利用现有数据中心资产,同时实现“低token成本”与稳定服务,已成为更为现实的课题。
最终,下一代AI竞争的胜者,很可能不是拥有最强大硬件的公司,而是基于适当的CPU-GPU组合与开源软件,能够最大化“成本效益比”的企业。红帽与英特尔此次的合作,也被视为顺应这一市场趋势的举措。
TP AI 提示 本文基于TokenPost.ai的语言模型进行摘要。正文主要内容可能存在遗漏或与事实不符的情况。