📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
华为中科大联手突破英伟达垄断,昇腾A3跑大模型专家计算提速58%
昇腾 A3 拥有两类核心,AIC 负责矩阵乘法,AIV 则处理向量计算与通信。但在传统的算子串行调度下,两类核心只能交替工作、轮流闲置。实测数据显示,在 256 节点集群跑 671B 的 DeepSeek 风格大模型时,AIC 利用率仅为 67%,且 39% 的专家路由通信延迟暴露在关键计算路径上。
HyperParallel-MoE 核心改动有三项。第一,设计 AIV 驱动的单边写原语,使数据瓦片到达即触发计算,无需等待整批到齐。第二,引入依赖感知瓦片任务生成,将通信与计算算子统一抽象。第三,以静态调度器预生成任务序列,在单个 kernel 内驱动两类核心并行,并利用高速 L2 缓存共享中间结果,减少回写与读取 HBM 慢速内存的延迟。
测试显示,在 64 节点平衡路由下,负责专家计算的核心模块(MoE-FFN)延迟缩短约 36%,相当于数据处理速度最高提升了 58%(即提速 1.49 至 1.58 倍)。在整机端到端运行中,单步训练速度也同步提升了 8% 至 9%。这说明,昇腾的实际能效不只取决于硬件规格,更在编译器与运行时能否把 AIC/AIV 核心高效调度起来。