超算系统可靠性与弹性模拟研究
立即解锁
发布时间: 2025-10-21 00:47:06 阅读量: 26 订阅数: 34 AIGC 

面向未来的可执行科研论文
### 超算系统可靠性与弹性模拟研究
在当今科技飞速发展的时代,超级计算机在科学研究、工程计算等众多领域发挥着至关重要的作用。然而,随着系统规模的不断扩大和硬件组件数量的急剧增加,超级计算机的可靠性和弹性问题变得愈发突出。本文将深入探讨超级计算机系统的故障数据以及未来百亿亿次计算系统的弹性模拟框架。
#### 超级计算机系统故障数据
在对超级计算机系统的研究中,收集了来自十个跨越多个Cray硬件代际系统的故障数据。这些数据涵盖了不同机器的机柜数量、浮点运算能力(TFLOPS)、每月重启次数以及平均故障间隔时间(MTBF)等信息,具体如下表所示:
| 机器 | 站点 | 机柜数量 | TFLOPS | 每月重启次数 | MTBF(天) |
| --- | --- | --- | --- | --- | --- |
| JaguarPF XT5 | ORNL | 200 | 2331 | 11.4 | 2.6 |
| Franklin XT4 | NERSC | 102 | 356 | 5.2 | 5.7 |
| Kraken XT5 | NICS | 88 | 1029 | 4.5 | 6.6 |
| Jaguar XT4 | ORNL | 84 | 260 | 6.8 | 4.4 |
| Hopper XE6 | NERSC | 68 | 1289 | 3.8 | 8.0 |
| Athena XT4 | NICS | 48 | 165 | 2.8 | 10.7 |
| Kraken XT4 | NICS | 48 | 165 | 3.0 | 10.0 |
| Raptor XE6 | AFRL | 30 | 410 | 3.0 | 10.0 |
| Hexagon XT4 | NOTUR | 15 | 51 | 0.6 | 52.1 |
| Gaea XT6 | NCRC | 14 | 260 | 2.6 | 11.7 |
从这些数据中可以看出,随着机器规模和复杂性的增加,故障发生的可能性呈线性增长。并且,故障发生率与组件数量的相关性高于峰值性能评级,即单个组件性能提升时,其故障率并未显著增加。例如,Hexagon XT4由于机柜数量少、组件少,每月重启次数仅为0.6次,MTBF达到52.1天;而JaguarPF XT5机柜数量多、组件复杂,每月重启次数高达11.4次,MTBF仅为2.6天。
平均故障间隔时间(MTBF)的计算方法如下:假设每月30天,通过公式$MTBF_{days} = \frac{30 \times 数据月数}{所有故障数}$来计算。
#### 未来百亿亿次计算系统的挑战与需求
随着科技的发展,预计在本十年末之前将出现百亿亿次计算系统。虽然目前难以准确预测其具体形态,但可以做出一些合理推测。
##### 未来系统特点
- **多核趋势**:预计将有大约512到1024个核心每插槽,每个核心性能相对较弱以降低功耗,便于在单个芯片上集成更多核心。例如,当前Top500榜单第一名的系统使用548,352个核心实现8 petaflops,未来为达到百亿亿次计算,核心数量和每个CPU的核心数都将增加。
- **复杂缓存层次**:核心之间通过片上网络(NoC)连接,可能存在复杂的缓存层次结构。同一“邻域”的一些核心共享L2等低级缓存,核心组共享L3缓存,且这些核心共享的内存可能不具有一致性。
- **非易失性内存和SSD普及**:部分或全部主内存将变为非易失性(NVRAM),SSD将广
0
0
复制全文


