对话曙光存储何振: 中国AI的最大瓶颈, 可能不全在GPU身上
- 2025-08-06 00:06:27
- 718
经济观察报记者郑晨烨
近日,中科曙光存储科技有限公司(下称“曙光存储”)联合中国移动研究院,正式发布了面向“东数西算”的存算一体化调度平台,其目标是解决“东数西算”工程中的一个具体难题——存放在西部的数据,东部的算力用不上、用不好,数据调度效率低下。
这一合作的背后,是中国AI投资领域一个特殊的现状:曙光存储副总裁张新凤在与记者的交流中介绍,国内市场在算力与存力上的投资配比约为40:1,而国外市场这一数字通常在10:1之内。
巨大的投资倾斜于以GPU为代表的算力,但效率的瓶颈却出现在了另一端。
“存储无论在哪个层面都是瓶颈,”曙光存储总裁何振对经济观察报记者表示,“数据跟不上,我们前面跑得再快都没有用。”在何振看来,这种因数据流转不畅导致的“算力空等”,代价是昂贵的。其团队测算,在存力上每投入1元,或可为算力节省10元成本。
解决这一效率问题,需要深厚的技术能力,而该领域曾长期由国外厂商主导,国内厂商具备提供解决方案的能力,是近些年才发生的变化。中科曙光(603019.SH)旗下的曙光存储,是其中的一家国内厂商,经过21年的研发投入,按照其总裁何振的说法,该公司已经走完了一个从研发是“负担”到研发是“护城河”的阶段。当市场环境变化,原先的国外厂商逐步退出,这使得曙光存储有机会凭借其技术积累直接面向市场,其集中式存储产品,近年在SPC-1国际基准评测(一项国际公认的存储性能权威测试)中,性能排名全球第一。
这种从追赶到提供解决方案的角色变化,也反映了中国科技产业格局的变迁。8月1日,围绕中国存储及AI产业的现状、瓶颈与未来,经济观察报与曙光存储总裁何振展开了对话。
|对话|
AI基建的三大难题
经济观察报:当前行业在AI算力上投入巨大,但你似乎认为,真正的瓶颈并不在算力本身,而是在更基础的数据层面,具体是指什么?
何振:我们现在能看到,无论是国外的英伟达还是国内的一众AI芯片厂商,大家都在追求每秒钟提供多少算力。其实他们假定数据可以持续地喂给GPU卡,这个实际上是一个很有挑战的事儿。
全国一体化大数据中心的建设这个大课题,最近几年我们一直在和运营商合作。其中我们主要发挥的作用,是通过他们把这些数据中心连通以后,构建一个全网数据统一管理、跨域流动的大的基础设施。曙光存储截至今年,已经做了20多年了,针对以往的数据中心采用传统的分布式文件系统,要想实现存得下、流得动、用得好,还是要解决以下几个问题。
第一,数据看不全的问题。现在的数据中心都是存在一个壁垒里面,相互之间数据是不通的,同时每一个数据中心里面采用的不同厂家的系统又不兼容,导致数据很难统一管理,形成统一的目录。所以对企业来说,这是看不全的。
第二,理不顺。我们一直说现在的数据,不管是从上百TB(计算机存储容量单位,1TB等于1024GB)或者上千TB,特别是随着AI技术的发展,对这些数据的价值如何深度和快速的定位,以及数据跨域之间如何可以快速地流通,这是我们目前面临最重要的问题。
第三个问题,是我们一直提到的数据用不好。在“东数西存”的战略下,把一些冷的数据存到西部,热的数据跟算力中心离得近一些。当然这个过程是在传统数据中心里面一直没有解决的问题,数据存那以后,我存到西部,东部的一些业务系统调用这个数据的话,延迟比较长,比较慢,所以这也是我们一直说用得不好的主要原因。就是使用的感受不是很好。
经济观察报:你认为存储是瓶颈,但这似乎与行业当下“大力出奇迹”的算力竞赛相悖,为什么会出现这种情况?
何振:围绕着人工智能市场的发展,这两年提出来的是性能,我们要追求更高的天花板。因为传统的系统里面,我们可以看到,整个IT系统建设,底层是存储,中层是网络,再上面是计算,再往外就是我们的各种移动终端和最终用户。这三层建设里面,存储无论在哪个层面都是瓶颈。
AI芯片厂商都在追求每秒钟提供多少算力,他们假定数据可以持续地喂给GPU卡,这个实际上是一个很有挑战的事儿。一方面,网络本身要非常强大,现在,200G、400G乃至800G带宽的高速网卡,已经应用到服务器上;另一方面,这些原始数据所在的存储平台,是不是能支撑?
这就是我们说的IOPS(每秒读写操作次数),带宽,单流的带宽,这个层面的挑战越来越大。因为前面的算力,无论是英伟达为主的,还是国内的一众厂商,大家都在追求这件事儿,存储要跟得上才能不拖后腿。永远会有一个存储瓶颈,达到天花板的时候,前面跑得再快都没有用,因为数据跟不上。
经济观察报:这些存在于底层的数据难题,在具体的商业场景中如何体现,AI的出现又带来了哪些新变化?
何振:这些问题是一直存在的。比如自动驾驶,路测车每天每辆车是几TB到十几TB的数据,这些采集的数据,首先会集中到一个中心处理,然后进行脱敏、标注,再到数据训练,是这么一个流程。以往我们的用户需要买不同厂家、不同类型的存储,每个数据处理完了以后,还要把数据挪到下一个存储里面去,这些过程对于用户的投资,还有数据流动的效率,都是非常大的挑战。
到了AI时代,这个问题就更严重了。比如大数据的训练,对IOPS的性能要求提高了数十倍到百倍,这是大家可以感受到的变化。我们以前做大规模的存储系统,可能说几百Gb的带宽就很高了,现在基本是十几个TB。
经济观察报:与中国移动合作落地国家级战略,这个项目的契机是什么?
何振:我们做的这个平台是中国移动主动提出来的。这个方向我们之前,应该说是至少十年之前,我们都考虑过统一存储调度平台的事儿,因为存储要解决的问题就那几个方面:容量、性能、数据的流动。如果我们要解决数据流动的问题,做一个类似全球统一的空间,这是必然要走的路线。
但是我们也关注投入产出比,如果市场上没有看到有实际的需求,能把我们的投入转化为收益,我们可能也就是做一些技术的预判,但是不会那么快投入。我们投入这个,确实是中国移动看到有具体的落地场景和需求了。
他们当时给我们提出这个事儿的背景有两个。第一个,移动自己有业务需要。他们从2020年开始就成为我们的客户,现在已经合作6年了。我们在中国移动上线了上千套的存储,分布在多个子公司和资源池。现在这么多的数据,到底有多少数据资产他们是不清楚的,因为都是数据存储的孤岛。
第二个问题,当时我们国家在提“东数西算”,希望把西部的能源资源优势充分利用起来。而像移动这样的运营商,他们的身份,是特别适合帮国家落地这个战略的。
他们为什么找到曙光存储?因为这个事情是比较复杂的,我们要跨异构、跨地域实现数据流动,这里面有很多问题需要解决。这是困扰很多厂商的问题,要解决这个问题,必须找一个有全栈技术自研沉淀的厂商才能做。
多年自研沉淀为护城河
经济观察报:在一个更看重“短平快”的商业环境中,曙光存储为什么会选择全栈自研路径?
何振:存储和其他产品不一样,是有一定技术门槛的。曙光存储成立到今年是整整21年,我们现在整个团队的规模大概是1千多人,在国内存储领域我们是排到第一或者第二的规模。我们一千多人里面,90%以上都是研发人员。
人工智能的市场,本身就是从高性能计算领域演化出来的,我们长期的技术积累,最终等来了两个变化。第一是(我们自身)厚积薄发到一定程度,优势就凸显了,形成了护城河;第二是中美科技领域的斗争越来越激烈,原来代表高性能的EMC(易安信,美国信息存储资讯公司)等等,已经全面地退出了中国的市场,这个时候我们的优势就凸显出来了,因为代码是自己写的,性能又不比他们差,所以我们的机会也就来了。
特别是像国内部分知名的头部厂商,他们原来都是基于国外的内核做了优化和调整,但是在国产化的浪潮下,或者是国内对于存储的安全性和数据安全越来越重视的情况下,他们的优势已经没有了,反而我们的自研变成了护城河,他们开始找我们合作,要我们的产品。
不管是我们的分布式产品,还是集中式产品,现在都已经领先于国外的任何一款产品了。特别是以集中式存储来说,我们的产品在今年的打榜中,以3千万的IOPS,0.202毫秒的延迟,登顶世界第一,打破了国外存储在性能上对我们一直碾压的势头。
我们现在的产品,性能上去了,但是成本也要比国外的便宜很多。为什么我们现在一直敢说曙光存储一定要成为中国的EMC?因为我们这么多年自研的沉淀,变成了护城河。
“存算协同”的技术进步
经济观察报:过去都说AI是“亿元投入”的游戏,现在这个门槛降低了吗?新的瓶颈又出现在哪里?
何振:2024年之前,我们做大模型的时候,做的都是大模型的训练,如果要建一个大模型训练平台,几亿元都有点少,基本是十几亿元,甚至几十亿元的投入。在这个时候确实是不太有企业或者客户具备这个能力来投入。
但是2024年DeepSeek出来以后,极大地降低了进入AI的门槛,从训练转到推理逻辑,这个对整体的算力和存力,要求都没那么高了。目前来说,到大数据推理应用的阶段,其实是国内自己有了更多的机会,也降低了大众接触AI的门槛。
但到了推理阶段,所面向的用户群体五花八门,随之而来的新瓶颈,就是隐私计算和可信计算的问题——这也是国家层面的明确要求。
实际上,数据安全是我们从一开始就考虑到的核心问题。在曙光存储的体系中,我们能做到数据的隔离、加密和校验。从架构上看,无论是底层的国产化芯片、中间的通讯链路,还是前端的网络接口,我们都实现了全链路的安全加密,能够随时对接国家的相关政策与安全标准。
未来随着人工智能在各行各业的进一步发展,信息安全将是所有用户都更加关注的问题。
经济观察报:要实现AI普惠,除了降低入口门槛,更关键的是要让AI用得起,从存储技术角度看,降低AI运行成本的关键是什么?
何振:对于我们做存储的厂商来说,最核心的一点,是提升GPU资源的利用率。我们不能让GPU等数据,要把数据以最短的路径运到离GPU最近、最快的介质上。
我们有一个测算,在存力上每投入一块钱,算力可以节约10块钱。这背后有一套完整的计算链路和数据可以支撑。
具体来说,我们针对这个做了很多事情。比如我们做了GDS(一项旨在优化GPU与存储设备之间数据传输效率的技术),从存储到GPU的时候,不需要CPU和内存的参与,可以通过一个专门通道过去。目前我们支持国外的(芯片),也支持国内的芯片,我们有自己的研发能力,他们提供接口,我们就可以建立联系,快速推送数据。
另外一块,是在推理时对行业数据的利用。无论是我们对上下文的存储,还是用向量数据库来存行业积累的高质量的数据,其实都是在存储层面,让训练时间更短更高效,让推理的用户体验会更好,每秒生成的token(AI处理语言的基本单位)数量更多,问题和想要答案的关联性也会更高。
现在评价一个大模型系统的推理能力,上下文长度是很重要的指标,这也考验存储的能力。如果上下文长度不够,一个token用完了就马上扔了,下一个问题和上一个有关,就得重新算,这会造成大量的GPU资源浪费。
我们现在的方法是,把上下文产生的结果都存储下来,还会存到GPU本地。通过这种方式,可以把上下文的窗口做得非常长,token之间的(生成)都会有很大的加速。
我们看到,经过优化的系统每秒可生成2000到3000个token。这种高速生成并非只靠GPU单方面的算力进步,而是后台存力向前端GPU持续释放数据处理能力的结果,是“存算协同”的技术进步。
(作者郑晨烨)
- 上一篇:龚俊古装仪态王者再临
- 下一篇:范玮琪合伙人肖然心曾是歌手观众