全国首批!润和软件AIRUNS训推一体化平台完成与昇腾910C芯片的深度兼容性认证

发布时间:2025-12-15浏览次数:913

 

 

近日,在江苏鲲鹏・昇腾生态创新中心的全程支持下,江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的AIRUNS训推一体化平台完成与搭载昇腾910C芯片的Atlas 800T A3训练服务器的深度兼容性认证。同时,润和软件成为全国首批完成基于“910C昇腾加速库”开发与适配认证的企业,充分彰显了公司在昇腾AI加速技术上的先进性与全面性。

 

 

 

润和软件AIRUNS训推一体化平台完成与搭载昇腾910C芯片的Atlas 800T A3训练服务器的深度兼容性认证

 

测试结果表明,AIRUNS训推一体化平台在模型接入、推理调度、底层加速等多个关键环节全面适配昇腾硬件特性,能够在昇腾910C平台上稳定释放大模型推理性能,实现高吞吐、低时延与强稳定性的统一,进一步夯实了平台在智算场景中的工程化与规模化能力。

 

润和软件AIRUNS推理能力和昇腾原生框架mindIE性能对比

 

AIRUNS训推一体化平台的推理能力,由模型网关、模型服务及模型引擎三大子系统协同提供。其模型服务与模型引擎通过与昇腾910C芯片的深度适配,不仅充分释放了底层算力,更使平台的整体推理效能获得了大幅增强。

 

润和软件AIRUNS训推一体化平台推理能力架构示意图

 

1

模型服务

围绕昇腾异构加速特性及高速互联特性,对昇腾算力体系进行了深度适配,是对“模型即服务”的工程化抽象。

 

核心技术

  • 模型实例编排器:支持在昇腾910C上动态启动单卡、多卡、多机、流水线并行实例。

  • 混合解耦调度架构:将Encode、Prefill与Decode分配到不同的昇腾计算实例上执行,减少资源竞争,实现资源灵活分配。

  • 动态PD分离:根据KV占用、Sequence Length、自回归速率动态调整策略。

  • 在线、离线协同:支持在同一910C计算卡上同时存在推理实例与离线微调任务,通过算力卸载和隔离实现兼容运行。

  • 全局KV缓存协同:模型服务层通过智能化缓存调度框架,将分布式KV状态在多节点间高效组织。

     

价值体现:通过服务化治理与智能调度,显著提升模型部署效率、服务可靠性与集群整体吞吐能力。

 

2

模型引擎

负责在昇腾芯片算子级、图级、内存级的极致性能优化,是AIRUNS训推一体化平台与昇腾深度适配的核心能力。

 

核心技术:

  • 图级并行融合:整合昇腾芯片计算路径与通信链路,使通信与算子执行自然重合,减少图执行的等待窗口。

  • 关键算子专项加速:结合昇腾硬件特性,适配PageAttention、AllReduce等关键算子,使动态形态推理保持稳定高效。

  • 计算图流水化调度:基于事件驱动对请求、计算图和算子级执行的多级拆分与异步化编排。

  • MoE模型优化:通过‌专家复制和‌预测策略实现多NPU间专家处理‌token不均的问题。

 

价值体现:依托深度图优化与硬件级加速,全面释放昇腾算力潜能,实现推理性能的倍级增强与资源利用最优化。

 

作为昇腾生态的紧密合作伙伴,润和软件依托开源鸿蒙和开源欧拉双重技术基座优势,构建了从操作系统、中间件到AI大模型的全栈能力。通过自主研发昇腾行业AI解决方案、昇腾算子加速库、DeepSeek全场景“云-边-端”智能生态体系等,润和软件在金融、电网、能源、工业等重点领域确立了技术领先地位,此前已获得“最佳昇腾原生开发伙伴”殊荣。

 

此次完成与昇腾910C芯片的深度兼容性认证,展现了AIRUNS训推一体化平台在快速适配新型号芯片方面的卓越能力。未来,润和软件将持续携手昇腾以安全可靠的技术架构与持续优化的性能,助力各行业客户实现智能化升级。