并行有限元实现的性能评估:多核集群与CUDAGPU对比
立即解锁
发布时间: 2025-10-24 00:56:32 阅读量: 24 订阅数: 48 AIGC 

高性能计算前沿探索
# 并行有限元实现的性能评估:多核集群与CUDA GPU对比
## 1. 硬件环境
在本次实验评估中,使用了两种不同的硬件平台来运行并行有限元实现:
- **多核集群(Multi - Core Cluster)**:在UFES的高性能计算实验室(LCAD)的Enterprise 3集群上运行。Enterprise 3是一个由24个四核Intel 2 Q6600机器组成的24节点集群(共96个核心),时钟频率为2.4GHz,具有4MB的L2缓存和4GB的DRAM,通过48端口4200G 3COM千兆以太网交换机互连。
- **C + CUDA实现**:在LCAD的BOXX个人超级计算机上运行。这是一台四核AMD Phenon X4 9950,时钟频率为2.6GHz,具有2MB的L2缓存和8GB的DRAM,并且配备了四块NVIDIA Tesla C1060 PCIE GPU板,每块板有240个1.3GHz的CUDA核心和4GB的DRAM。
| 硬件平台 | CPU信息 | 缓存 | DRAM | 其他 |
| --- | --- | --- | --- | --- |
| Enterprise 3集群 | 24个四核Intel 2 Q6600(96核),2.4GHz | 4MB L2 | 4GB | 48端口4200G 3COM千兆以太网交换机互连 |
| BOXX个人超级计算机 | 四核AMD Phenon X4 9950,2.6GHz | 2MB L2 | 8GB | 四块NVIDIA Tesla C1060 PCIE GPU板,每块240个1.3GHz CUDA核心,4GB DRAM |
## 2. 旋转锥问题
实验中解决了一个标准的瞬态主导对流流动测试问题,即旋转锥问题。该问题考虑了一个余弦山丘轮廓在二维旋转流场中的平流情况。具体条件如下:
- **边界条件**:在外部边界上施加齐次狄利克雷边界条件,即边界值处处为零。
- **初始条件**:初始条件为山丘轮廓。
- **参数设置**:速度场 $\beta = (-y, x)^T$,扩散率 $\kappa = kI$,其中 $k = 10^{-6}$。
- **精确解**:精确解是一个圆锥在正方形域 $[-5, 5] \times [-5, 5]$ 中心的刚性旋转。
为了评估机器在解决大规模问题时的时间性能,考虑在一个1024×1024单元的规则网格上的旋转锥问题,总共有2,097,152个元素、1,050,625个节点和1,046,529个未知数,时间步长 $\Delta t = 10^{-2}$,最终时间 $t_{final} = 7$,GMRES和预测 - 多校正容差等于 $10^{-3}$,GMRES的重启向量数量等于10。每个校正的GMRES迭代次数约为15。
```mermaid
graph LR
A[旋转锥问题] --> B[设置边界条件: 齐次狄利克雷]
A --> C[设置初始条件: 山丘轮廓]
```
0
0
复制全文


