首页 > 生活 > 正文
Qzone
微博
微信

华为周跃峰:以AI SSD打破性能和容量瓶颈,让AI真正商业正循环

生活 极客网 2025-08-27 21:33

在上海举行的华为数据存储AISSD新品发布会上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布面向AI时代的高端SSD——Huawei OceanDisk EX/SP/LC系列化新品,旨在打破传统AI存储器当前的性能和容量瓶颈,提升AI训练效率和推理体验,树立AI存储器领域新标杆。

周跃峰博士指出,近年来业界在投入大量的AI基础设施之后,才发现仍然存在很多困难和挑战,包括训练数据量太大、推理体验差、token成本居高不下等。AI未来要能够实现商业正循环,需要从整体系统的效率以及性价比综合考虑、综合优化。而在效率方面,业界又碰到两个大瓶颈:一是内存墙(行业有时也叫显存墙),二是容量墙。华为在业界率先定义AI SSD并发布系列新品,就是希望通过AI SSD打破性能和容量的瓶颈,让AI真正商业正循环。

华为周跃峰:以AI SSD打破性能和容量瓶颈,让AI真正商业正循环

以下是周跃峰博士演讲全文:

谢谢各位现场和线上的嘉宾、专家。

我们几周前发布UCM之后,今天我们发布AI SSD,实际上这两个产品一软一硬,协同使用,效果一定会更好。

大家知道在AI时代,我们这几年方方面面都在讨论,都在投入AI基础设施,在投入大量的AI基础设施之后,我们发现很多困难和挑战。

第一,数据量实在太大了。训练越多参数的模型,我们需要越多的语料数据,这些数据如何存得下,用得好,而且效率很好,成本很低,这对我们来说是一个挑战。

同时,今天我们越来越意识到AI生产过程就是推理,推理的体验也是巨大的挑战。过去我们只是简单的问答,短序列推理,现在,越来越多的多模态融合长序列的推理,推理首token的时延成为非常重要的体验指标,很多时候我需要等很长时间,才有结果。同时当很多人使用的时候,并发性就是说每秒一定时间内能处理的token数也是很重要的指标,恰恰我们碰到了一些困难。今天我们很多模型的网站,一些APP使用,发现体验很差。

另外token成本居高不下。今天我听国家数据局一个统计,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,所以说token数的消耗,应该越来越多,对我们基础设施的成本是巨大的考验。

因此,AI未来要能够实现商业的正循环,我们要从整体系统的效率以及性价比综合考虑和综合优化。大家知道今天我们在效率方面,碰到两个很大的困难:第一内存墙,行业有时也叫显存墙;另外一个是容量墙。这已经成为我们主要的瓶颈。

比如在某些国产大模型训推一体机里,有8张卡,往往它的显存或者HBM大小是一定的,我们今天发现参数量很大的模型,推不动。这当中也训练不了,大家知道我们要微调一个671B的模型,显存容量需要超过13.4 TB,在很多一体机我们训练不动,我们该怎么办?因为一个盒子里面的资源毕竟有限,同时我们看到推理的首token时延,中国大量APP比西方领先模型,时延是他们的两倍,我们每秒的token数量,以及所能处理能力的数量也是他们的1/10左右,主要差别在于我们基础设施的投资和效率。

我们在训练大模型的时候,需要大量的数据。大家知道训练一个671B大模型,我们需要的原始语料数据是3.5PB,因此越来越多的语料消耗了我们大量存储空间,这意味着空间和电力的消耗。

在今年上海人工智能大会当中,AI之父杰弗里·辛顿谈到一个观点,他说“人类智能无法超越或者战胜机器智能,原因是机器拥有永久的记忆”,可见AI的能力不仅仅取决于处理系的思考能力,也取决于我们整个系统的记忆能力,因此存储在整个AI系统当中,以及它的优化是非常的至关重要。

今天我们在业界率先定义AI SSD,相对过去普遍的SSD,它的区别就在于它的高性能和大容量,我们希望通过AI SSD打破性能和容量的瓶颈。

我们定义AI SSD有两类:第一类AI SSD是助力扩展HBM,对我们高带宽、高性能的内存进行相关的扩展,在推理的数据当中可以分级缓存。它的特征就是带宽大于14.4GB/s,同时时延小于10微秒,这是高性能这块。

第二类AI SSD主要助力打破容量瓶颈,替换HDD,就是替代机械硬盘在过去AI数据中心当中的使用,它的特征就是单盘容量大于30TB,同时带宽大于14.4GB/s,意味着它不仅要有巨大的容量密度,同时性能还不至于太低。

这两类SSD,我们统称为AI SSD,我们希望这两类SSD能够帮助我们突破显存墙和容量墙。今天我们将发布三款产品:

前两款是高性能的AI SSD,用于突破内存墙,对HBM进行更好的扩展:一是我们的OceanDisk EX 560,这是极致性能AI SSD盘。它的IOPS将达到1500k,它随机写时延是7微秒,它的DWPD是60,这是一个性能极其强大的SSD盘。同时,我们在很多场景,为了让系统更加经济,我们也推出高性能盘,就是我们OceanDisk SP 560,它是高性能盘,在很多推理系统当中,性能足够了。它的IOPS是600k,它的随机写时延7微秒,DWPD是1,因此这个盘在很多推理系统当中可能更为经济。第一类OceanDisk EX 560计划年底提供商用,OceanDisk SP 560现在已经具备批量商用的能力,事实上我们很多客户,包括互联网、医疗、金融客户已经在使用这类产品,得到了很好的效果。

第三款产品是OceanDisk LC 560系列具备超大容量盘,而且它的带宽并不低,单盘物理容量有61/122/245 TB,其中61TB的重构时间,从过去一般的1.5天可以缩短至8小时,另外它的顺序读写带宽达到了14.7GB/s。这是既具备很好性能又具备超高容量密度的盘,单盘容量可以达到245TB,是业界最大的单盘容量。我们希望这类盘能够普遍用于集群训练中心当中去,帮助解决语料数据存不下,用不好的问题。

接下去我列举几个场景,如何让AI SSD,帮助我们AI系统有更好的商业正循环。首先我们看一下集群训练场景,这个场景我们需要大量的语料,作为我们训练的数据,不仅仅要存得下,同时要避免GPU、NPU不至于一直在等待过程中,快速能够给它提供数据,让我们操作更加高效,我们认为在这个场景当中,我们OceanDisk LC系列的盘,可以很好解决容量的问题。

举个例子,假设在一个训练系统当中,我们需要250PB的数据集容量,那么用普遍的机械硬盘,要超过10000块的24TB机械硬盘。如果我们用122TB每单盘容量的AI SSD盘,我们只需要大概超过2000块就可以了。但是,不仅仅是这个盘的数量、空间,更为重要的是我们数据预处理的效率可以提升6.6倍,我们空间占用将减少85.2%,我们能耗将减少38.6%,这是一个巨大的成本节约。当然这里面,我们没有考虑SSD盘相对机械硬盘,它的寿命这个因素,以及在运维等人力上的节省(编辑注:如果考虑进去SSD盘的优势更明显)。

第二个场景我们想举例的是集群推理场景,尤其在大型AI数据中心,比如说互联网和运营商他们所构建的。在这个过程当中,我们希望引入超高性能的AI SSD,倍数级的提升推理效率。我们在这里面也举个例子,这个过程当中,我们使用OceanDisk SP 560 AI SSD盘,我们可以看到,可推理序列的长度将提升2.5倍,我们有效扩展了HBM的能力,而且是低成本。

除此之外,首token的时延也可以减少73%,token的吞吐率提升2.7倍,这些数据都在我们实验室和客户真实商业场景当中得到了印证。

大家知道,很多中小企业并不构建AI的集群,往往是训推一体机,在训推一体机这样的小盒子,往往最多只有8张卡的情况下,能不能让我们小的系统可以微调,更多参数的模型,让我们的推理序列,长序列越来越长,而且可以有更多的商业场景适用,不仅仅是简单的问答,让各个公司单位花的这点钱,物有所值。

我们认为,在模型微调的场景,我们建议应该配一些超快性能的AI SSD,在我们例子当中,8个算力卡的情况下,我们配2张3.2TB的AI SSD,我们可以看到单机可用内存直接扩充到11倍,同时我们可以看到单机可微调模型的参数也提升了6.3倍,就是说进一步提升了一体机微调模型的种类和它使用的场景。

在这个一体机当中,当然它很重要的过程是推理,我们建议在推理场景下,用SP系列的AI SSD,我们也做了尝试。我们发现,如果使用OceanDisk SP 560可以进一步扩展有限的HBM,让我们的序列长度增加一倍,同时首token时延下降75%,token的单位时间吞吐量提升了一倍。这意味着我们单位买了一体机之后,可以极大扩展我的商业场景,当然我们知道这是训推一体机,所以我们觉得在这样一个一体机当中,如果把极致性能盘和我们的高性能盘,就是EX系列和SP系列混合使用,将获得更好的性能。

以上是这四个场景,我们认为今天作为例子,跟大家介绍一下AI SSD突出的性能和应用场景。我们希望今天发布的这三款产品,就是我们OceanDisk EX 560、SP 560以及大容量的LC 560,能够用于超大AI集群中心和相应的训推一体机场景当中,结合相关的软件,尤其是结合上一次发布的UCM,可以更加高效地对于推理当中高性能需要短时间进行缓存的数据和相对来说时延可容忍数据,进行分级缓存,效果一定会很不错的。

在千行万业落地过程中,我们希望AI SSD和它们持续的演进,能够为整个AI经济——当然我们相信AI刚刚开始,通过我们持续的演进,可以贡献我们的力量,让AI真正商业正循环。

微信图片_20250827195340.jpg

 

【以上内容转自“极客网”,不代表本网站观点。如需转载请取得极客网许可,如有侵权请联系删除。】

 

延伸阅读:

 

 

责任编辑: fjq4191

责任编辑: fjq4191
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 新飞网版权所有