近日,京东云对其JoyBuilder模型开发平台完成重要技术升级,成功支撑业界领先的具身智能模型GR00T N1.5完成了千卡规模的高效训练。
通过此次升级,JoyBuilder成为业内首个支持基于LeRobot开源框架进行千卡级具身智能模型训练的一体化开发平台,并将训练效率提升至开源社区基准的3.5倍。平台基于软硬件协同优化与算法创新,显著提升了大规模训练的稳定性和执行速度,原本需耗时约15小时的亿级数据千卡训练任务,现可在22分钟内完成,有力推动了具身智能技术向规模化应用迈进。
为实现这一突破,京东云AI基础设施及相关技术团队围绕具身智能训练场景,对JoyBuilder进行了全链路深度优化:
- 数据链路优化:重构数据预处理与加载流程,实现CPU端数据处理与GPU计算的异步执行,减少设备空闲等待。针对海量小文件场景,自研的高性能并行文件系统云海JPFS通过分布式元数据管理与智能预取机制,在1024卡集群中提供超过400GB/s的读取带宽,确保训练过程中数据持续稳定供给。
- 计算架构优化:针对当前主流的视觉-语言-动作模型的计算特性,在注意力机制层、令牌裁剪策略及训练后量化等多个维度实施专项优化,提升单卡计算效率。
- 通信与调度优化:搭建3.2T RDMA高速互联网络,结合多路径优化、拓扑感知调度与智能震荡抑制技术,保障千卡集群在集合通信中的高吞吐与低延迟。通过云原生AI数据湖架构,优化数据调度与训练流水线,提升端到端的任务执行效率。
凭借上述全栈技术提升,JoyBuilder平台已完整支持当前主流的LeRobot训练数据协议,进一步巩固了其在具身智能模型开发与训练平台领域的技术领先地位。
© 版权声明
文章版权归作者所有,未经允许请勿转载。