近年来,大模型技术发展迅猛,成为推动人工智能产业进步的关键力量。在此背景下,华为推出的昇腾大EP方案,为大模型的应用和发展提供了强大的算力支持,引发行业广泛关注。
据业内AI技术领域从业者向记者介绍,当下大模型发展呈现出“技术摸高”和“工程创新”两条清晰路径。一条是头部科技企业持续探索技术极限,对算力需求不断攀升;另外一条就是以DeepSeek为代表开辟的工程创新之路。
该技术人员表示,“DeepSeek的大模型不仅模型性能卓越,还遵循MIT协议开源,大幅降低业界部署门槛。通过创新训练模式,利用基础模型生成高质量合成数据,结合少量行业数据就能训练模型,突破了数据限制。同时,降低了单个模型使用的算力门槛,将推理资源池的门槛降至百卡/千卡范围,并且开源模型,推动了整个行业的普及。这使得大模型从少量大专家模式向大量小专家模式演进,两种模式并存发展。在这个过程中,大规模跨节点专家并行(EP)成为趋势,它能减少每张卡权重加载时延和显存占用,提升单卡并行能力,实现更大吞吐和更低时延,但也带来了负载均衡和卡间通信等挑战 。”
华为昇腾大EP推理方案正是为应对这些挑战而生。该方案可通过交换机进行参数面互联,基于现有组网架构进行软件升级,就能从之前的一体机平滑过渡而来,实现了单卡性能提升3倍的极致吞吐。在提升性能的同时,它还降低了单卡显存占用,使单卡并发提升到3倍,有效降低了客户部署成本,Decode(大模型逐词生成阶段)时延降低50%以上,显著提升了用户体验。
据了解,昇腾大EP方案之所以能取得如此出色的效果,得益于多项关键技术。在MoE负载均衡方面,通过自动寻优、自动配比、自动预测、自动降解等技术,实现了备份节点和副本专家的灵活可扩展、高可用和极致均衡,避免了专家负载不均的问题。比如在实际应用中,就像医院会诊时能自动为患者匹配最合适的专家,保证每个专家的工作量合理分配。
PD(Prefill和Decode)分离部署技术上,华为突破了传统同节点部署计算访存资源竞争的局限,以及业界静态分离方案不够灵活的问题。其创新的autoPD分离部署方案,能自动感知负载变化,无需人工介入即可自动伸缩P、D实例,结合多级缓存内存资源池化,使系统有效吞吐提升50%以上。这就好比根据不同时段的交通流量自动调整道路的使用方式,让资源得到更合理的利用。
双流/**混合并行技术也为性能提升做出重要贡献。在Prefill(预填充)阶段,通过拆分Batch实现计算和通信相互掩盖;MoE expert专家双流并行利用Cube和Vector计算单元,实现两条Stream并行计算;Weight预取双流并行则利用L2 Cache大容量,降低权重加载时间,平均性能提升30%。
MLAPO融合算子技术将MLA预处理阶段的小算子融合成单一算子,使Vector和Cube计算并行处理,减少了资源开销,降低计算耗时70%,让算力得到更高效的发挥。
华为昇腾大EP方案在满足不同行业需求方面表现出色。无论是互联网、运营商、金融、政务,还是电力、教育、医疗等行业,都能提供全面支持。对于互联网行业,面对大规模用户并发访问,该方案强大的并发处理能力和低时延特性,能够确保服务稳定高效;在教育和医疗行业,虽然用户规模相对较小,但对数据安全和隐私保护要求较高,昇腾大EP方案可以通过本地部署的方式,满足这些行业的需求,同时保证数据安全。
从产业生态角度来看,华为凭借全自研的优势,能够快速适应大模型技术发展带来的新需求。其软件开源开放,兼容主流框架,如PyTorch,同时拥有自己的昇思深度学习框架和MindIE推理引擎,也支持vLLM等业界框架,为用户提供了丰富的选择,便于用户进行自主训练和创新。此外,华为积极与众多伙伴合作,共同打造完善的解决方案,推动整个产业生态的繁荣发展。
随着大模型技术在各行各业的深入应用,对算力的需求将持续增长。华为昇腾大EP方案凭借其卓越的性能、创新的技术和完善的生态,有望在未来的人工智能算力市场中占据重要地位,为推动人工智能产业发展、加速大模型落地发挥关键作用。(发布)