防止AI扩散的不是模型而是基础设施……Kubernetes的“统一运营”作用日益凸显

robot
摘要生成中

AI扩散的瓶颈不在模型,而在“基础设施”——这一诊断正日益扩大。

在最近举行的“KubeCon+CloudNativeCon欧洲”大会上,人工智能(AI)竞争的核心已不再仅仅是模型性能这一点变得清晰。分析指出,企业在将AI实际部署到服务的过程中,最大的卡点在于无法将分散在云端、边缘和本地部署的系统像单一整体一样运营的结构性限制。

新研究表明,绝大多数AI项目未能达到实际运营阶段,失败原因也更多地集中在集成和运营执行问题上,而非模型本身。TheCube Research首席分析师保罗·纳沙瓦蒂指出:“AI正在揭示企业基础设施的根本缺陷”,“云、边缘和本地部署的全面碎片化已成为运营型AI的最大障碍”。

“主权”问题使AI基础设施更加复杂

这种碎片化最近被冠以“主权”之名。这是因为数据主权、地区法规和企业内部政策相互交织,使得数据和 workloads 难以集中在一处。其结果,AI系统正被迫转变为并非单一堆栈,而是跨多个环境进行分布式运营的结构。

红帽的混合平台部门副总裁兼总经理迈克·巴雷特以各业务部门使用不同大型语言模型的情况为例,解释说企业客户想要的是并非针对特定环境的工具,而是企业层面的“水平平台”。为解决此问题,红帽正专注于构建一个基于Kubernetes的、跨所有环境统一管理AI workloads 的控制层,即“AI控制平面”。

Kubernetes正超越编排,演变为“运营一致性”工具

Kubernetes原本并非为AI推理而设计的技术。其原始角色更接近于容器的部署和管理。但随着AI推理迁移至实际服务环境,地域间一致性不足、延迟波动、资源争用以及策略漂移等“日常运营”问题开始全面显现。

红帽工程总监罗伯特·肖提到了开源推理框架“llm-d”,并解释说用户不仅希望构建尖端性能系统,还希望一并解决后续运营阶段的复杂性。这意味AI系统出现不稳的时机,并非训练阶段,而是实际服务运营阶段。

云原生计算基金会(CNCF)管理委员会副主席扬·梅伦也提出了类似的问题意识。他分析指出,虽然云原生已发展为全球性开源协作,但AI正使得建立在“全球一致性”之上的系统与地区性法规和分布式环境的现实发生冲突。

TheCube Research首席分析师罗布·斯特雷查伊评价道:“代理型AI的本质不是模型问题,而是平台架构问题”,未来竞争力将更多地取决于构建更好的基础设施,而非选择更好的模型。

平台工程正崛起为AI运营的现实解决方案

问题在于,Kubernetes对于所有团队而言过于复杂,难以直接处理。红帽AI部门首席技术官布莱恩·史蒂文斯表示,目前有不少创建AI的数据科学家需要同时承担执行基础设施的责任。弥合这一差距的方式正是平台工程。

斯特雷查伊解释说,随着碎片化工具、人员能力差距和运营复杂性成为实际瓶颈,业界正转向以平台工程和Kubernetes为中心的统一控制结构。在这种趋势下,红帽OpenShift AI肩负着以可重复的方式,跨越混合环境抽象化学习、部署、服务和推理的职责。

虚拟机也正在进入Kubernetes

企业基础设施不会一次性全部现代化。像计费系统、数据库等核心遗留资产,常因风险管理而留在原有环境。这导致虚拟机(VM)和容器长期以二元化方式运营。

调查显示,84%的IT决策者在单独管理虚拟机和容器环境方面遇到困难。红帽的丹尼尔·梅塞尔表示:“虚拟化和容器不应保持孤岛状态,它们应该位于同一个平台之上”。在CNCF内已进入成熟阶段的KubeVirt,是一个允许在Kubernetes内同时运行虚拟机和容器的扩展项目。

这被解读为一种并非消除遗留系统,而是将现有系统也纳入同一控制层,整合运营界面的战略。

也有人指出,“便利性”并不等同于控制权

尽管主权型AI看似一种替代方案,但也有观点指出它实际上伴随着更多限制。各国法规限制数据移动,企业政策阻碍集中化。其结果是,无论企业是否做好准备,都不得不将 workloads 分配到云端、本地部署和边缘。

EnterpriseDB的加布里埃尔·巴尔托利尼强调,如果不保证数据库的可移植性,就没有真正的主权。他特别划清界限,指出托管服务的“便利性”并不意味控制权。扬·梅伦同样表示,在主权讨论中需区分“代码主权”和“部署主权”,代码可以作为全球开源资产存在,但实际部署直接受法律和政策影响。

在这一点上,Kubernetes的角色变得更加明确:它将全球共享的代码,连接成一种能够适应具有不同地区性限制的运行环境的形式进行运营。

胜负最终取决于生态系统

单一企业无法独自承担AI基础设施。要使AI用Kubernetes控制平面发挥作用,需要的不是替换多种系统,而是连接它们。使这成为可能的是由标准、API和上游开源项目构成的“生态系统”。

纳沙瓦蒂评价称,红帽不仅是商业平台提供商,更是CNCF整个生态系统中贡献最活跃的企业之一。这种上游工作不仅仅是简单的镜像管理,更是防止各厂商的Kubernetes实现出现差异、维持一致性的核心机制。红帽还与英伟达合作推进“红帽AI工厂”,着手构建结合OpenShift与英伟达加速计算的可扩展企业级AI基础设施。

纳沙瓦蒂表示:“考虑到高达75%的企业因碎片化系统而经历两位数的AI失败率,瓶颈已经转移到了基础设施。”这意味着问题不在于功能不足,而在于系统之间无法协同工作的结构性难题。

Kubernetes作为AI时代的生产层崛起

与其说AI是击垮某个特定点,不如说

TP AI注意事项 使用TokenPost.ai基础语言模型对文章进行了摘要。本内容的主要部分可能被遗漏或与事实不符。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论