全站搜索

最高提速30%!高性能数据存储加速大模型训练

新闻资讯 63

面对智算应用的大规模部署,用户的IT开支正在向GPU倾斜。在大模型训练的成本构成中,硬件投资包括算力、运力、存力,其中算力相关硬件投资占比80%。一个千亿级参数的大模型,往往需要上万颗GPU的算力,可在实际训练过程中,GPU的平均利用率却不足50%。制约因素包括大模型参数需要频繁调优、训练中断后恢复周期长、数据加载速度慢等等。如何确保智算系统高效运行?加速算力的同时,提升数据供给能力,或许是当下应对智算挑战的最优解。

大模型需要什么样的存储性能?

一次完整的AI大模型训练流程,通常分为数据集准备、模型开发、模型训练、模型推理几个阶段。其中每个阶段对数据存储的性能需求并不十分一致,属于混合复杂异构的工作负载,要求数据存储系统提供强大的综合性能表现。

举例来说,数据集准备阶段,涉及到不同终端、不同来源的大量数据,来源丰富且规模巨大,这些数据都需要存储到系统中,需要数据存储提供较大的带宽性能和高吞吐能力;此外,在长时间训练模型时,需要定期将阶段性的训练成果写入硬盘,这个过程即Checkpoint,这个过程对存储系统的小文件读写性能和带宽性能都要求非常高,如果存储系统性能不足,就会出现加载效率低,GPU空等的情况,从而拉低整个训练效率。

强悍存力,提升智算系统算力利用率

基于新一代傲擎平台的新华三AI数据存储平台H3C UniStor Polaris X20000系列,通过对存储软件栈进行重构和优化,大幅精简系统无效IO,优化数据读写路径,单节点性能就可实现80GB带宽和200万IOPS,大幅提升不同阶段的数据加载效率,可以减少30%的训练等待时间,保障智算系统的有效算力供给。

descript

Polaris X20000系列通过多项技术革新提升在智算场景下的性能体验,包括:

元数据性能优化

对高性能智算存储来说,元数据管理是至关重要的部分,将直接影响到文件系统的性能、可扩展性和可靠性。Polaris X20000系列创新性地针对分布式kv数据库进行了优化,来支撑整个元数据读写需求;同时设计了多级的元数据缓存,对元数据缓存结构做了针对性精简,减少内存占用,对元数据访问具有极大的加速效果。此外,采取多MDS、元数据打散、元数据协程化免锁等多种元数据性能优化手段,提升Polaris X20000系列的性能表现。

CPU智能分组

Polaris X20000系列针对AI/HPC 场景做了深度分析和软件优化设计,对CPU实现智能分组、绑核处理,实现专核专用,避免资源抢占,减少核间调度,最大程度发挥CPU性能。

高性能EPC客户端

同时,通过独有的高性能EPC客户端,Polaris X20000系列可同时连接多个存储节点,对上层应用提供标准POSIX和MPI-IO接口,获得更好的兼容性和更优的性能,多存储节点实现IO级负载均衡,最大程度发挥单节点性能。

AI训练综合负载能力提升

高带宽:通过RDMA、内存零拷贝、EPC、400G网络(结合硬件交换机)提升系统并行访问能力,实现高带宽性能;

IOPS通过Dcache技术,在小IO读写时,先写入高速缓存层,并通过ROW写时重定向快照,将多个小IO聚合成为大IO再一次性落盘,提升IOPS性能表现;

混合负载优化:在 EC逻辑层之上引入加速引擎层,对不同IO实现分组与流控调度,可同时满足大IO高带宽、小IO高IOPS与低时延的“混合负载”需求。

当前,大模型参数从千亿向万亿演进,更大的模型参数需要更大规模的算力供给。新华三基于对智算场景的深入理解,对数据存储产品实现持续优化。面向未来,新华三集团将秉持“精耕务实,为时代赋智慧”的理念,不断深化“内生智能·成就智慧存储”技术战略,充分发挥自身在数字领域的创新优势,持续推动产品的智能进化,携手百行百业激发数据潜能,迈向智能新未来。

上一篇:

相关推荐

展开更多