江苏润和软件股份有限公司

热点新闻

视频中心

润和软件发布StackRUNS异构分布式推理框架，释放算力效能

编辑：发布时间：2025-06-11浏览次数：785

当下，AI模型规模持续膨胀、多模态应用场景日益复杂，企业正面临异构算力资源碎片化带来的严峻挑战。为应对行业痛点，江苏润和软件股份有限公司（以下简称“润和软件”）正式发布自主研发的StackRUNS异构分布式推理框架，高效融合异构算力，精细化配置算力资源，释放算力效能。

润和软件发布StackRUNS异构分布式推理框架

StackRUNS是基于“异构算力建模+动态调度优化+统一通信接口+模型分层加载”核心技术打造的轻量级分布式推理框架，可实现多类型AI设备的资源整合与大模型的协同高效推理，广泛适用于对推理能力有高要求但资源异构、预算受限的实际应用场景，如多节点异构硬件的老旧部署环境、突发性大模型任务需求、高校或科研机构低成本模型实验场景。目前，StackRUNS已在教育、安防、能源等行业落地，通过智能调度算力、分钟级快速部署、分布式协同等能力，加快大模型落地进程。

功能架构

StackRUNS功能架构图

1. 框架适配层：统一接入主流推理框架

通过统一的框架适配能力，StackRUNS可有效屏蔽上层差异，提升系统的灵活性与兼容性，支持主流框架与模型组件的即插即用，大幅缩短模型部署与迁移周期。

支持PyTorch、TensorFlow、MindSpore等主流AI框架；
无缝集成llama.cpp、vLLM等主流推理引擎；
插件化架构，支持多模型统一推理入口，便于快速上层接入与复用。

2.调度层：智能调度与自动并行优化

通过异构设备资源的智能感知与动态调度，StackRUNS可最大化利用系统整体算力，并通过推理场景的深度优化，显著提升大模型多设备协同推理的效率与可控性。

异构资源感知与建模，实现不同设备算力精准识别；
自动并行策略生成与模型切分，支持切片并行、专家路由等；
涵盖精度控制与任务生命周期管理，保障精度性能双优；
通信图优化与算子融合，提升跨设备数据流通效率。

3. 通信适配层：统一通信接口与性能反馈机制

StackRUNS具备统一通信能力适配的异构平台，可有效消除设备间通信瓶颈，为分布式推理提供高效、稳定的通信支撑，提升跨设备协同性能。

提供统一通信算子接口，适配 HCCL、NCCL、RCCL等多种通信协议；
支持通信运行时、拓扑管理与性能建模，为调度策略提供反馈依据；
深度学习框架通信插件化集成，增强生态兼容性。

4. 硬件支持层：兼容多种AI算力平台

StackRUNS全面兼容主流AI硬件平台，涵盖Ascend、NVIDIA、AMD、ARM、Intel、Mac等，实现算力资源的灵活组合与无缝协同，推动AI应用从“专用单机”迈向“异构集群”，释放硬件潜能。

核心技术

StackRUNS架构图

1. 异构算力识别与建模

通过自动识别和建模不同类型的计算资源，StackRUNS建立了统一的资源抽象层，确保在异构环境下的资源统一管理和高效利用。

资源抽象与建模：对各类计算设备的性能、内存、带宽等关键参数进行建模，形成统一的资源描述；
动态资源感知：实时监控资源的使用情况，支持动态调整和优化。

2. 调度层

调度层根据任务需求和资源状况，可根据计算任务智能分配算力资源，实现资源的高效利用和任务执行效率。

任务划分与分配：将大模型分解为多个子任务，合理分配到不同的计算节点；
负载均衡：根据资源使用情况，动态调整任务分配，避免资源瓶颈；
容错与恢复：在节点故障时，能够快速重新调度任务，确保系统稳定性。

3. 通信适配层

通信适配层提供统一的通信接口，支持多种通信协议，实现高效的数据传输，确保在分布式环境下的统一、可靠通信。

协议适配：支持如NCCL、HCCL、RCCL等多种通信协议，确保在不同硬件平台上的兼容性；
通信优化：通过通信图优化、算子融合等技术，减少通信开销，提高数据传输效率。

4. 大模型分层加载通讯

针对超大规模模型，StackRUNS采用分层加载和通信策略，优化模型的加载和推理过程，保持模型性能的同时，显著降低通信成本，提升整体推理效率。

分层加载：通过结构感知的模型切分，需考虑各层之间的依赖关系和数据传输量；
通信与计算重叠执行：采用流水线并行策略，在模型推理过程中，采用异步通信策略，提高并行度和效率；
通信内容优化：采用混合精度传输策略，在不影响模精度的前提下，减少通信数据量是降低通信成本的直接方式；
拓扑感知的通信策略：根据硬件拓扑结构，优化通信路径和方式，提升通信效率。

核心优势

1. 异构兼容与灵活部署：适用于多种硬件架构，结合底层统一通信适配器，可在混合平台中实现透明部署与调用；

2. 轻量级推理服务端：将推理能力解耦为服务端组件，便于调度层动态调配计算任务，按需分发至合适节点运行，实现推理资源的弹性扩展与动态负载均衡；

3. 通信优化与统一适配：通过“统一通信算子接口”与“深度学习框架插件”，支持异构资源统一调度、模型分布式执行与通信图优化；

4. 分布式与边云协同支持：结合通信适配层实现跨节点协同推理，亦支持边缘侧模型分片部署，打造边云协同的智能推理能力；

5. 混合精度与策略支持：结合调度层的混合精度策略支持，充分利用不同设备的计算与内存资源，在资源受限环境下依然保障推理效率与响应速度。

适用场景

1. 多节点异构硬件的老旧部署环境：支持不同类型设备按性能分配模型层或批次任务，实现“以最小代价释放最大算力”；

2. 临时性、突发性大模型任务需求：临时调用空闲设备组成协同集群，按需启用、任务后回收，资源零浪费；

3. 多精度模型混合部署场景：在内存、算力受限环境下使用INT4、INT8等低精度模型提升吞吐与响应；

4. 边缘设备能力有限边云协同：模型分层部署、分片推理、流水线式协同处理，保障复杂分析任务顺利完成；

5. 资源弹性调度与负载均衡场景：多节点集群中按需调度模型推理任务，提升整体资源利用率；

6. 高校、科研机构低成本模型实验场景：利用分布式异构环境拼接起完整的推理通路，推动教学与研究实际落地。

用户价值

1. 智能调度算力，整体成本最高可降低60%成本

通过智能调度异构资源，打破设备之间的“算力孤岛”，实现资源池化管理；
无需新增昂贵硬件投入，充分利用现有 GPU、NPU、CPU 组合，即可完成大模型部署；
原有设备基础上部署大模型后，设备成本可节省约60%。

2. 分钟级快速部署，推理任务响应能力提升超5倍

弹性部署机制支持模型“即需即调、即跑即收”，无需长时间准备资源环境；
针对高峰期或突发任务，可在5分钟内完成大模型分布式加载与推理启动；
部署周期相比传统方案缩短70%+，显著提升AI应用上线效率。

3.跨设备协同，让原本“跑不动”的大模型轻松可落地

支持在多设备之间按层或专家模块切分模型，实现“拼接式协同计算”；
即使单设备显存不足，亦可通过分布式推理完整运行数百亿/千亿参数模型；
32B多模态模型部署在两台低配设备上推理延迟可控制在1s以内。

4.不中断原有业务，系统兼容性与可控性双优

推理任务调度与原有业务计算负载物理隔离，不影响日常业务稳定运行，推理任务可灵活穿插执行；
支持Linux、Windows、MacOS等多操作系统与NVIDIA、Ascend、AMD等主流硬件平台。

5.边云协同优化推理链路，体验更优、响应更快

推理过程中自动判断本地与远程计算资源的最优分配路径，降低核心推理延迟；
智能事件响应任务整体时延下降30%-50%，有效提升边缘智能体验。

6.促进AI普惠，加速智能化落地

高校与科研机构可在现有设备上部署百亿级模型，用于课程教学与实验研究；
中小企业可按业务需求灵活部署模型任务，降低模型接入门槛；
在未采购新设备条件下，超大模型教学实训场景部署成功率超95%。

往期回顾

润和软件首获WIND ESG评级AA级，积极践行可持续发展理念

润和软件StackRUNS异构分布式推理框架行业应用案例

业务

产品类型

行业解决方案

技术解决方案

热点新闻

视频中心

润和软件发布StackRUNS异构分布式推理框架，释放算力效能