设计工具
应用程序

使用美光DDR5和第四代AMD EPYC处理器提升HPC工作负载 

克里希纳Yalamanchi, Sudharshan Vazhkudai | 2022年11月

沙巴体育结算平台的处理器都已经发货了.

\r\n

高性能计算(HPC)工作负载历来是一些世界上最快的超级计算机的领域. 这些都是大规模的, 数据密集型工作负载分为数百万个并行运行的操作,并使用tb级的数据. These complex workloads are dedicated to solving some of humankind’s most challenging problems — weather and climate simulations; seismic modeling; chemical, physics and biological analysis; and more.

\r\n

随着计算机体系结构的进步, 这些工作负载越来越多地托管在非常大的高性能服务器“向外扩展”集群中. 这些集群需要最新最好的计算, 织物, 内存和存储基础设施来解决可伸缩性问题, 此类关键工作负载的低延迟和性能需求. 虽然服务器cpu在性能和吞吐量方面有所提高, 在过去的几年中,DDR4内存提供的带宽已经成为瓶颈. 没有足够的内存带宽来提供越来越多的高性能内核.

\r\n"}}' id="text-9cd33482d3">

AMD和美光合作的目标是在客户端和数据中心平台上提供一流的 用户体验. 为此目的, 这两家公司在奥斯汀有一个联合服务器实验室, 努力确保我们减少验证服务器内存的时间,并在验证和发布过程中执行联合工作负载测试. 在这个博客中, 我们来看一些使用微米 DDR5数据中心内存和4的常见hpc工作负载基准测试结果th Gen和EPYCTM 这两种沙巴体育结算平台的处理器都已经发货了.

高性能计算(HPC)工作负载历来是一些世界上最快的超级计算机的领域. 这些都是大规模的, 数据密集型工作负载分为数百万个并行运行的操作,并使用tb级的数据. These complex workloads are dedicated to solving some of humankind’s most challenging problems — weather and climate simulations; seismic modeling; chemical, physics and biological analysis; and more.

随着计算机体系结构的进步, 这些工作负载越来越多地托管在非常大的高性能服务器“向外扩展”集群中. 这些集群需要最新最好的计算, 织物, 内存和存储基础设施来解决可伸缩性问题, 此类关键工作负载的低延迟和性能需求. 虽然服务器cpu在性能和吞吐量方面有所提高, 在过去的几年中,DDR4内存提供的带宽已经成为瓶颈. 没有足够的内存带宽来提供越来越多的高性能内核.

微米ddr5信息

美光DDR5内存和全新的AMD Zen 4服务器架构th 新一代AMD EPYC处理器改变了这一点. 现在, 服务器cpu和内存可以更好地平衡,为最苛刻的工作负载释放性能和效率. DDR5内存可帮助组织更快地获得这些见解,无论是在本地还是在云中. 考虑使用最新的AMD Zen 4 96核CPU和行业标准的HPC工作负载基准测试微米 DDR5时产生的一些证明点. 我们所有的测试结果都显示了两倍的性能改进. 

两倍的内存带宽与美光DDR5 + 4 代AMD EPYC处理器使用流

1 是一个简单的,众所周知的基准,用于测量HPC计算机中的内存带宽. 它为HPC系统捕获峰值内存带宽

用于此工作负载的软件堆栈

  • Alma 9 Linux内核5.14
  • 流.f  11-29-2021版本
微米 ddr5提供更多带宽,显示条形图

测试设置

  • DDR4系统rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
  • DDR5系统th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM

测试结果

  • 是单插槽DDR5系统378 GB/s内存带宽的两倍
  • 这意味着客户可以运行更大的人工智能/机器学习(AI/ML)项目,或者使用DDR5增加的内存带宽进行更多的HPC计算.
柱状图显示相对增益ddr5与ddr4
沙巴体育结算平台设计到航空航天设计等应用中的物理交互. 数据集中包含的一个模拟以摩托车湍流模拟为特征. 对于这个模型,OpenFOAM计算了摩托车和骑手周围的稳定气流. OpenFOAM根据用户指定的进程数对计算进行负载平衡, 然后将网格分解成各个部分进行求解. 求解完成后,将网格和解重组为单个域.

\n

用于此工作负载的软件堆栈

\n
    \n
  • OpenFOAM CFD软件 (v8)摩托车网格尺寸为600 x 240 x 240
  • \n
  • Alma 9 Linux内核5.14 
  • \n
  • 打开MPI v4.1.1
  • \n
\n

测试设置

\n
    \n
  • DDR4系统rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
    \n
  • \n
  • DDR5系统th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM
  • \n
\n

测试结果

\n

我们的测试显示是2.4倍于OpenFOAM相对增益, 哪个被视为拥有大型开源社区的前五大HPC软件平台. 广泛应用于高校和科研院所&D中心, 软件的高并行性同时利用了内存(增加的带宽)和CPU特性(如更密集的内核).

\n

分子动力学6 搭载美光DDR5的芯片运行速度快了两倍

\n

CP2K是一个开源的量子化学工具,可用于许多应用程序, 包括固态生物系统的模拟. CP2K为不同的建模方法提供了一个通用框架,例如 DFT ,使用混合 高斯和平面波方法 GPW和GAPW. 我们看的例子是水(H2O)的线性缩放密度泛函理论(DFT),它由6144个原子组成,在一个39立方埃的盒子里(总共2048个水分子).

\n

用于此工作负载的软件堆栈

\n
    \n
  • H2O-DFT-LS.NREP4 & H2O-DFT-LS
  • \n
  • Alma 9 Linux内核5.14
  • \n
\n

测试设置

\n
    \n
  • DDR4系统rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
    \n
  • \n
  • DDR5系统th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM
  • \n
\n

测试结果

\n

我们的测试显示是2.分子动力学的相对增益为1倍, 它可以很好地扩展更多的内核和更多的内存带宽.

\n

Summary

\n

上面的结果只是一个开始—并且只是HPC工作负载的几个示例. 更好地匹配高性能的能力, 高带宽内存与新服务器处理器(如第四代AMD EPYC处理器)提供的令人难以置信的性能将成为HPC客户的分水岭. 我们可以期待看到更多这样的证明点,展示企业数据中心和云运营商如何在这些新平台上使用美光DDR5来解锁新的性能和效率水平. 我们期待在接下来的几个月里与你分享这些. 要了解有关微米 DDR5和数据中心工作负载优势的更多信息,请访问 微米.com/ddr5.

\n"}}' id="text-31413e043b">

天气研究及预报(WRF)4 采用美光DDR5运行速度快两倍

这个HPC工作负载代码被天气和气候社区使用, 该模型被广泛应用于气象领域. WRF通常在支持高浮点处理的传统HPC架构上表现良好, 高内存带宽和低延迟网络. 对于这一努力,美国大陆(CONUS)在2.横向分辨率选择5km.

用于此工作负载的软件堆栈 

  • Alma 9 Linux内核5.14 
  • WRF 2.3.5 & 4.3.3 
  • 打开MPI v4.1.1

测试设置

  • DDR4系统rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
  • DDR5系统th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM

测试结果

  • 我们能够执行1.使用美光DDR5和第四代AMD EPYC处理器 与2相比,每秒3567个时间步.每秒8533个时间步.
  • 更快的执行时间意味着天气预报员可以选择更大的数据集或运行更多的模型. 这两项努力都改善了预测.

OpenFOAM5 搭载美光DDR5的芯片运行速度快了两倍

OpenFOAM是用于计算流体动力学(CFD)的开源HPC工作负载。, 广泛用于各种行业,以减少开发时间和成本. 它模拟了从消费沙巴体育结算平台设计到航空航天设计等应用中的物理交互. 数据集中包含的一个模拟以摩托车湍流模拟为特征. 对于这个模型,OpenFOAM计算了摩托车和骑手周围的稳定气流. OpenFOAM根据用户指定的进程数对计算进行负载平衡, 然后将网格分解成各个部分进行求解. 求解完成后,将网格和解重组为单个域.

用于此工作负载的软件堆栈

  • OpenFOAM CFD软件 (v8)摩托车网格尺寸为600 x 240 x 240
  • Alma 9 Linux内核5.14 
  • 打开MPI v4.1.1

测试设置

  • DDR4系统rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
  • DDR5系统th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM

测试结果

我们的测试显示是2.4倍于OpenFOAM相对增益, 哪个被视为拥有大型开源社区的前五大HPC软件平台. 广泛应用于高校和科研院所&D中心, 软件的高并行性同时利用了内存(增加的带宽)和CPU特性(如更密集的内核).

分子动力学6 搭载美光DDR5的芯片运行速度快了两倍

CP2K是一个开源的量子化学工具,可用于许多应用程序, 包括固态生物系统的模拟. CP2K为不同的建模方法提供了一个通用框架,例如 DFT ,使用混合 高斯和平面波方法 GPW和GAPW. 我们看的例子是水(H2O)的线性缩放密度泛函理论(DFT),它由6144个原子组成,在一个39立方埃的盒子里(总共2048个水分子).

用于此工作负载的软件堆栈

  • H2O-DFT-LS.NREP4 & H2O-DFT-LS
  • Alma 9 Linux内核5.14

测试设置

  • DDR4系统rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
  • DDR5系统th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM

测试结果

我们的测试显示是2.分子动力学的相对增益为1倍, 它可以很好地扩展更多的内核和更多的内存带宽.

Summary

上面的结果只是一个开始—并且只是HPC工作负载的几个示例. 更好地匹配高性能的能力, 高带宽内存与新服务器处理器(如第四代AMD EPYC处理器)提供的令人难以置信的性能将成为HPC客户的分水岭. 我们可以期待看到更多这样的证明点,展示企业数据中心和云运营商如何在这些新平台上使用美光DDR5来解锁新的性能和效率水平. 我们期待在接下来的几个月里与你分享这些. 要了解有关微米 DDR5和数据中心工作负载优势的更多信息,请访问 微米.com/ddr5.

1. 我们的流基准 设置为2.50亿矢量大小流基准- AMD 运行与1个CPU系统
2. AMD DDR4系统是AMD EPYC 7763 64核DDR4-3200 MHz完全填充64GB rdimm
3. AMD DDR5系统是AMD EPYC 9654 96核DDR5-4800 MHz完全填充64GB rdimm
4. 带12的WRF.在计算存储I/O时,5km CONUS在DDR4系统上运行929秒,在DDR5系统上运行287秒. 上面的例子来自WRF 2.5公里CONUS跑了2公里.每秒8533步,1.每秒3567步.
5. 对于OpenFOAM,我们运行了三个变体:
5a. 1004040运行时间=在DDR4系统上1144秒,在DDR5系统上478秒
5b. 1084646运行时间= DDR4系统上的1633秒,DDR5系统上的698秒
5c. 1305252运行时间=在DDR4系统上为2,522秒,在DDR5系统上为1,091秒
6. 分子动力学工作负载运行为2,在DDR4系统上为519秒,在DDR5系统上是242秒

高级经理,生态系统实现

克里希纳Yalamanchi

Krishna是高级生态系统开发经理,专注于DDR5和CXL解决方案. 以前, Krishna领导英特尔IT的SAP HANA迁移, 通过他们的SI合作伙伴生态系统推出了针对SAP工作负载的第三代和第四代英特尔至强, OEM和云服务提供商.

工作量分析总监

Sudharshan Vazhkudai

Dr. Sudharshan年代. Vazhkudai是美光公司系统架构/工作负载分析总监. 他带领的团队遍布奥斯汀和海德拉巴, 印度, 专注于理解内存/存储(DDR)的可组合性, CXL, HBM和NVMe)沙巴体育结算平台层次结构,并针对数据中心工作负载优化系统架构.