官方网站-首页官方网站-首页

支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统

2025-09-08 12:02:02 291

【导语】2025重庆世界智能产业博览会(9月5日至8日)上,中科曙光重磅发布国内首个基于AI计算开放架构设计的曙光AI超集群系统,该系统以GPU为核心实现全链路一体化紧耦合设计,兼具高效性能与开放生态,在算力规模、能效比、可靠性及兼容性上实现全面突破,为万亿参数大模型等前沿AI场景提供强有力支撑。

支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统

  在 9 月 5 日至 8 日的 2025 重庆世界智能产业博览会上(shàng),中(zhōng)科(kē)曙(shǔ)光(guāng)发(fā)布(bù)了(le)国内首个基于 AI 计算开放架构设计的产品 ——曙光 AI 超集群系统

  该系统以 GPU 为核心,实现了“算、存、网、电、冷、管、软”一体化紧耦合设计,可为万亿参数大模型训练推理、行业大模型微调、多模态大模型开发、AI4S 等场景提供算力底座。

  相比封闭系统,曙光 AI 超集群系统除了通过紧耦合设计像一台计算机般高效工作外,还支持多品牌 AI 加速(sù)卡(kǎ)以(yǐ)及(jí)兼(jiān)容(róng) CUDA 等(děng)主流(liú)软(ruǎn)件(jiàn)生(shēng)态(tài),为(wèi)用(yòng)户(hù)提(tí)供(gōng)更(gèng)多(duō)开(kāi)放(fàng)性(xìng)选(xuǎn)择(zé),并(bìng)降(jiàng)低(dī)硬(yìng)件(jiàn)成(chéng)本(běn)和(hé)软(ruǎn)件(jiàn)开(kāi)发(fā)适(shì)配(pèi)成(chéng)本(běn),保(bǎo)护(hù)前(qián)期(qī)投(tóu)资(zī)。

  附(fù)曙(shǔ)光(guāng) AI 超(chāo)集群(qún)系(xì)统(tǒng)技(jì)术(shù)特(tè)点(diǎn):

  •   单(dān)机(jī)柜(guì)可搭载 96 张 GPU 卡、算力规模达百 P 级、访存总带宽超 180TB/s;支持多精度、混合精度运算;支持百万卡超大集群扩展

  •   千卡集群大模型训练推理性能达到业界主流水平 2.3 倍、开发效率提升 4 倍、人天投入减少 70%;存算传协同,提升 GPU 计算效率 55%;先进冷板液冷,394 项节能设计 PUE 低于 1.12。

  •   121 项设备和链路 RAS 可靠性设计;平均无故障时间(MTBF)提高 2.1 倍;平均故障修复时间(MTTR)降低 47%;超 30 天长稳运行集群可靠性测试;实现百万级部件故障自动分析与秒级隔离。

  •   基于 AI 计算开放架构设计;硬件适配多品牌 AI 加速卡;软件兼容主流 AI 计算生态;多项技术能力开放与共享。