MLPerf Storage v1.0 AI存储基准测试成绩公布,浪潮信息AS13000G7在五项测试中斩获冠军

北京时间10月8日,*消息,捷克网球名将、中网女单亚军穆霍娃因身体疲劳选择退出WTA1000武汉网球公开赛。根据此前签表,穆霍娃原本是郑钦文第三轮可能会碰到的对手。

不管什么样的数据类型,都能实现稳定;不管什么时候需要数据存储,都能快速提供;不管客户在哪里要,都能给到。这是浪潮信息给自家存储产品定下的三个目标。

MLPerf Storage v1.0 AI存储基准测试成绩公布,浪潮信息AS13000G7在五项测试中斩获冠军

AI在赋能千行百业的过程中,离不开数据这一关键生产要素,它让物理世界和数字世界实现了连接。而作为数据载体的存储,则是未来智能化转型的关键基础设施。尤其是在生成式AI时代,针对万卡算力集群、万亿参数规模的大模型训练,存储的带宽必须达到TB级,每秒读写次数也要达到百万级。同时,在数据跨域调度、数据安全、数据可持续性访问等方面,存储也要达到相应的要求。这些都说明,存储系统性能的重要性已毋庸置疑。

那么,在这样一个AI存储挑战来临的当下,浪潮信息又是怎样应对的呢?

日前, Commons协会发布 Perf™ Storage v1.0 AI存储基准 成绩。浪潮信息分布式存储 AS13000G7表现优异,在3D-UNet和Co oFlow两个模型共计8项 中,取得5项性能全球 。

浪潮信息认为,自2022年以来,存储与AI相结合的过程,体现在三个阶段。

阶段是2022年下半年至2023年,在大模型爆发初期,国内大模型厂商展开“百模大战”,希望通过加速模型训练,来抢占市场先机。在万卡算力集群和万亿参数的大模型训练过程中,要想实现小于1分钟的断点续训,需要存储提供TB级的带宽。

第二阶段是2023年底至2024年初,在大模型与千行百业结合的过程中,要基于各行业内部的专业化数据对其进行辅助训练。这会给存储带来一个新的挑战,即必须先把汇聚起来的行业数据储存下来。

第三阶段是2024年下半年迄今,在大模型真正走向落地时,对数据质量的要求变得更高。比如,目前国内一些语料公司,正在对汇集之后的数据进行语料上的精加工,以形成高质量数据,并进一步实现模型与应用的精准结合。

浪潮信息存储产品线副总经理刘希猛表示:“在这三个阶段里,我们总结了一些存储要求。一开始,更多关注的是性能、高带宽和低时延;第二阶段更关注数据的汇聚流动;第三阶段是对数据安全性和业务连续性有一些新要求。”

对于浪潮信息而言,目前其存储 主要包含两大产品线,分别是软件定义存储和阵列存储。

前者主要面向AI大模型中海量、多模态非结构化数据,能用一套架构支持块、文件、对象和大数据四种服务,后台一份数据就能对应前台多种服务,能帮助客户降低采购和维护成本。

后者主要面向AI推理及生产应用中极高安全性和极低时延的存储需求,能并行处理更多存储进程,并通过盘控协同进一步提升存储系统性能。

目前,针对上述两大 的技术演进方向,浪潮信息正朝以下三个方面进行。

其一,高性能。 混合AI负载对存储读写带宽、每秒读写次数和低时延的要求。

其二, 率。通过存储支持文件、对象、大数据等非结构化协议融合互通等,来减少多份数据重复存储,和数据跨协议、跨区域、跨系统调度检索的问题。

其三,高韧性。在通过故障快速恢复、故障前的精准预测降低系统异常时的性能影响和服务连续性的同时,强化数据保护与安全防护能力,从而保证数据的完整、一致和可持续访问。

业内人士指出,上述两大产品线和对应的三大技术演进方向,为浪潮信息在 Perf™ Storage v1.0 AI存储基准 中取得多项性能冠军,奠定了重要基础。

如开头所说,在本次 中,浪潮信息采用3台AS13000G7搭建分布式存储集群,搭载ICFS自研分布式文件系统,在3D-UNet和Co oFlow两大评测任务中,共获得五项性能全球 。

具体来说,在图像分割3D-UNet多客户端2评测任务中,服务于10个客户端264个加速器,集群聚合带宽达到360GB/s,单个存储节点的带宽高达120GB/s;在宇宙学分析Co oFlow单客户端2和多客户端2评测任务中,分别提供了18和52 GB/s的带宽最佳成绩。

(来源:资料图)

据介绍, Perf™是 Commons协会下属的一个项目,是业内影响力最广泛的国际AI性能基准评测,由图灵奖得主大卫·帕特森(David P terson)联合谷歌、斯坦福大学、哈佛大学等顶尖学术机构共同发起,包含训练、推理、安全、存储等AI的方方面面。2022年末大模型爆发之后,业内发现大模型、大数据、大算力能够给AI带来颠覆式的提升,同时也对存储提出了很大需求。在此背景下, Commons在2023年首次推出了 Perf 存储基准 0.5版本,而浪潮信息本次参与的是2024年基于 1.0版本的评测。

那么,相较于0.5版本,1.0版本都有哪些主要变化?

浪潮信息分布式存储方案架构师Lance SUN表示:“ 个就是提交规则的改变,在1.0版本的提交过程中,出现了单客户端和多客户端支撑的最大卡数。第二个是应用场景的增加。在0.5版本中只有两个应用场景,1.0版本增加到三个应用场景,保留原本的3D-UNet场景的同时,增 图像分类和宇宙学的参数预测。”

另外,Lance SUN也指出,该基准是由所有的存储厂商共同参与构建而成,浪潮信息在整个1.0版本 规则的制定上发挥了重要作用。

本次存储基准 ,对于真实场景而言都有哪些意义呢?

首先, Commons协会的影响力 大,成员几乎囊括国内外所有计算、存储和网络方面的公司,还包括一些新型科研机构。 Perf™则是以公平性和可重复性为基准进行的,能在公平和可复现结果的情况下,证明参与者的存储产品或计算产品的能力。

其次,该存储基准 在存储阶段完全采用AI适配场景,在该场景下,所有存储厂商都可以快速评估自己的软硬件以及相应的产品性能。也就是说,无论是从 阶段,还是客户角度,都能直观体现出每一家存储厂商的设备,对于真正AI应用接口的性能表现。

当下,浪潮信息存储基于核心技术和产品方案,已经成功帮助多家客户 其在存储上的需求。

例如:

其一,某互联网客户在训练自家大模型时,每次断点恢复都超过10分钟,每2至4小时一次续训,就会导致GPU近10%的时间在等待,进而造成算力浪费。为 这一问题,浪潮信息针对该客户的模型特点和存储所需性能做了方案的优化升级,通过增加全闪提升性能,将断点续训时间降低到分钟级别。由于新增了20台全闪存储提升的效率,相当于新增10多台GPU服务器。

其二,某大型AI算力中心主要为科研院所、企业等服务,所涉及的应用场景包含智能驾驶、医药开发、模型训练等。面向不同用户提供算力服务,涉及多业务、多模型的资源分发,因此不同用户在模型业务执行的过程中不能相互影响。为 这一问题,浪潮信息通过存储多租户功能,来实现存储资源的隔离和性能保障。而该算力中心则在采用容器云部署的同时,部署浪潮信息的AISt ion来实现算力资源的调度分配。在此前提下,当存储和网络发生异常时,就可以通过容器的快速迁移来实现业务的零中断。

那么,在目前产品布局的基础上,浪潮信息接下来又有哪些规划呢?

浪潮信息分布式存储研发部总经理张在贵表示:“从本次 结果可以看到,现在更多的是带宽上的需求,所以目前在架构支撑上完全没有问题。但也要看到,我们在硬件上和某些友商还是存在一定 ,虽然我们用了很大力气去调优,但硬件本身的卡数量还是取决于带宽瓶颈。”

为此,浪潮信息计划继续优化核心技术。在硬件上,根据输入/输出的流向、卡、盘和 处理器(CPU,Central Processing Unit),实现更好的均衡。同时,充分利用CPU的局域网,减少一些不必要的链的使用,让每个CPU接出来的卡数更多,带宽也能更高。在软件上,进行协同化改造,包括远程直接数据存取、网络协议卸载等方面,来进一步降低时延。

浪潮信息分布式存储产品部副总经理安祥文表示:“除了技术上的布局,产品也具有市场导向,聚焦到模型训练的过程中,我们未来计划让整个存储更好地支撑大模型的训练。”

这主要体现在两个方面。一是横向上,在作业流程过程中,实现数据的 流动,并保证每一阶段都是连贯的,这样提供给CPU的等待时间就更少,实现更充分的计算;二是纵向上,结合业务性能支撑,在全闪上做模型训练的高带宽和高每秒读写次数,在混闪上 大模型标注和采集阶段的并发问题。

如果上述计划能够完成,浪潮信息的存储产品将能实现文章开头的三个“不管”目标。也恰如安祥文所言:“Anytype、Anytime、Anywhere,我们(正是)要实现这样一个目标。”