全站搜索

最高提速30%!高性能数据存储加速大模型训练

新闻资讯 540

面对智算应用的大规模部署,用户的IT开支正在向GPU倾斜。在大模型训练的成本构成中,硬件投资包括算力、运力、存力,其中算力相关硬件投资占比80%。一个千亿级参数的大模型,往往需要上万颗GPU的算力,可在实际训练过程中,GPU的平均利用率却不足50%。制约因素包括大模型参数需要频繁调优、训练中断后恢复周期长、数据加载速度慢等等。如何确保智算系统高效运行?加速算力的同时,提升数据供给能力,或许是当下应对智算挑战的最优解。

大模型需要什么样的存储性能?

一次完整的AI大模型训练流程,通常分为数据集准备、模型开发、模型训练、模型推理几个阶段。其中每个阶段对数据存储的性能需求并不十分一致,属于混合复杂异构的工作负载,要求数据存储系统提供强大的综合性能表现。

举例来说,数据集准备阶段,涉及到不同终端、不同来源的大量数据,来源丰富且规模巨大,这些数据都需要存储到系统中,需要数据存储提供较大的带宽性能和高吞吐能力;此外,在长时间训练模型时,需要定期将阶段性的训练成果写入硬盘,这个过程即Checkpoint,这个过程对存储系统的小文件读写性能和带宽性能都要求非常高,如果存储系统性能不足,就会出现加载效率低,GPU空等的情况,从而拉低整个训练效率。

强悍存力,提升智算系统算力利用率

基于新一代傲擎平台的新华三AI数据存储平台H3C UniStor Polaris X20000系列,通过对存储软件栈进行重构和优化,大幅精简系统无效IO,优化数据读写路径,单节点性能就可实现80GB带宽和200万IOPS,大幅提升不同阶段的数据加载效率,可以减少30%的训练等待时间,保障智算系统的有效算力供给。

descript

Polaris X20000系列通过多项技术革新提升在智算场景下的性能体验,包括:

元数据性能优化

对高性能智算存储来说,元数据管理是至关重要的部分,将直接影响到文件系统的性能、可扩展性和可靠性。Polaris X20000系列创新性地针对分布式kv数据库进行了优化,来支撑整个元数据读写需求;同时设计了多级的元数据缓存,对元数据缓存结构做了针对性精简,减少内存占用,对元数据访问具有极大的加速效果。此外,采取多MDS、元数据打散、元数据协程化免锁等多种元数据性能优化手段,提升Polaris X20000系列的性能表现。

CPU智能分组

Polaris X20000系列针对AI/HPC 场景做了深度分析和软件优化设计,对CPU实现智能分组、绑核处理,实现专核专用,避免资源抢占,减少核间调度,最大程度发挥CPU性能。

高性能EPC客户端

同时,通过独有的高性能EPC客户端,Polaris X20000系列可同时连接多个存储节点,对上层应用提供标准POSIX和MPI-IO接口,获得更好的兼容性和更优的性能,多存储节点实现IO级负载均衡,最大程度发挥单节点性能。

AI训练综合负载能力提升

高带宽:通过RDMA、内存零拷贝、EPC、400G网络(结合硬件交换机)提升系统并行访问能力,实现高带宽性能;

IOPS通过Dcache技术,在小IO读写时,先写入高速缓存层,并通过ROW写时重定向快照,将多个小IO聚合成为大IO再一次性落盘,提升IOPS性能表现;

混合负载优化:在 EC逻辑层之上引入加速引擎层,对不同IO实现分组与流控调度,可同时满足大IO高带宽、小IO高IOPS与低时延的“混合负载”需求。

当前,大模型参数从千亿向万亿演进,更大的模型参数需要更大规模的算力供给。新华三基于对智算场景的深入理解,对数据存储产品实现持续优化。面向未来,新华三集团将秉持“精耕务实,为时代赋智慧”的理念,不断深化“内生智能·成就智慧存储”技术战略,充分发挥自身在数字领域的创新优势,持续推动产品的智能进化,携手百行百业激发数据潜能,迈向智能新未来。

上一篇: 下一篇:

相关推荐

  • 新华三荣获中国标准创新贡献奖

    1074

    在首届中国标准创新贡献奖颁奖仪式上,由紫光股份旗下新华三集团完成的国家标准GB/T 22239-2019《信息安全技术 网络安全等级保护基本要求》荣获中国标准创新贡献奖。 据官方介绍,中国标准创新贡献奖由国家市场监督管理总局和国家标准化管理委员会共同设立,是我国...

    查看全文
  • 新华三服务器,蝉联中国第二!

    1051

    近日,IDC发布了《2022年第四季度中国服务器市场跟踪报告Prelim》。2022年全年紫光股份旗下新华三集团服务器整体市场份额17.2%,同比增长7.5%,蝉联中国市场第二。其中,x86服务器市场份额增至18.0%,高于市场平均增速近一倍;刀片服务器以54.8%的市场份额连续四年蝉...

    查看全文
  • 深入场景,融合创新:新华三工业交换机亮相工博会

    736

    近日,第二十四届中国工博会在上海隆重开幕。本届大会以“工业聚能 新质领航”为主题,聚焦新型工业化高质量发展的核心技术和重点领域,为产业转型升级提供良好的示范样板。紫光股份旗下新华三集团亮相本届盛会,全面展示了在工业互联网、TSN技术领域的前沿创新与实践...

    查看全文
  • 紫光股份一季度净利润增长35.26%,2022年开局势头强劲

    1038

    2022年4月29日,紫光股份发布2022年第一季度报告,数字化解决方案持续落地应用带动了收入和利润快速增长,云与智能领域业务增长态势良好,盈利质量不断提升。公司2022年一季度营业收入153.42亿元,同比增长13.58%;实现归属于上市公司股东的净利润3.72亿元,同比增...

    查看全文
展开更多