【小巧強勁】PCIE版安培計算卡亮相,更適合高性能計算服務器定制
NVIDIA A100 Tensor Core GPU可針對AI、數據分析和高性能計算(HPC),在各種規模上實現出色的加速,應對極其嚴峻的計算挑戰。前不久,基于標準PCIe形態的A100計算卡也終于登場了,更適合主流標準服務器。我們詳細對比了兩種不同形態的A100,一起來看看區別吧。
NVIDIA A100 GPU性能對比
我們自然語音處理用PyTorch的BERT預訓練吞吐量包括(2/3)階段1和(1/3)階段2。階段1序列長度=128,階段2序列長度=512,做一下訓練測試比對。
硬件環境:采用DGX-1 8塊 V100(32G)使用FP32精度計算 VS DGX A100 8塊A100(40G)使用TF32精度計算。
訓練測試最終結果可以看到,A100采用TF32進行訓練,最高可提供6倍性能提升。
另外我們拿HPC高性能應用程序,測試硬件采用雙CPU,4卡P100/V100 16G/V100 32G / V100S 32G /A100 ,做吞吐量測試。
技術總結
目前在高性能計算中大量使用GPU去做計算,這些在物理化學、分子動力學、冷凍電鏡、氣象、流體仿真、藥物篩選等領域,隨著數據的遞增對算力的精度的準確度提高,不得不使得我們的硬件也要做新的革新,此次新的Ampere 架構的A100新技術的引入,讓我們的運算吞吐量實現了更高的提升。
PCIe版本A100加速卡已發布
從P100時代開始,NVIDIA就會發布兩種不同形態的頂級加速卡,一種形態是NVIDIA自家開發出的SXM,需要配合自家的HGX主板使用,價格較為昂貴,但是可以提高整體的集成度,在一套系統里面集成更多的加速卡。另一種形態就是傳統的Add-in-Card,用的是PCIe的接口,可以裝載到傳統系統中使用。
PCIe A100仍然基于GA100核心,規模保持不變,還是臺積電7nm工藝、826平方毫米、542億個晶體管,提供6912個FP32 CUDA核心,最高加速頻率也是1.41GHz,因此峰值性能相同:單精度19.5TFlops、雙精度9.7TFlops、INT8推理1248Tops、INT8張量624Tops、FP16張量312TFlops、FP32張量156TFlops、FP32訓練312TFlops、FP64高性能計算19.5TFlops。
NVIDIA宣稱,相比于上代Volta伏特架構的V100計算卡,INT8推理性能、FP32訓練性能都實現了20倍的提升,FP64高性能計算也提升了2.5倍,是歷史上進步最大的一次。
▲PCIe 版 NVIDIA A100
PCIe形態的A100使用了完全的被動散熱設計,很明顯是要服務器系統內部的暴力風扇來輔助散熱的,采用被動散熱設計也有利于安排系統內部的風道,達成更為高效的散熱。
由于它的散熱空間有限,NVIDIA將其功耗限制在250W,SXM4版本則為400W,PCIe版本的A100在持續性能輸出上面是不如SXM4版本的,官方給出了90%的相對性能數據,也算不上有太多的損失。
另外一點不同就是多卡并聯,SMX4版本支持最多八塊并行,PCIe則只能兩塊并行,NVLink互連總線顯然做了精簡,但具體未披露,可能從12條砍半至6條。
最后給大家分享一下A100在2種平臺上技術指標:
Cloudhin?云軒是英偉達戰略合作伙伴
專業為AI、數據科學和科學計算加速
Cloudhin?云軒專注Deep learning和高性能計算服務器定制,針對主要深度學習框架(如TensorFlow、Caffe 2、Theano或Torch)進行了優化和設置,在桌面上即可提供強大的深度學習功能。
Cloudhin?云軒GS4288-P4采用Intel C612最高速芯片組,性能穩定,把握十足。其支持兩顆E5-2600 v4/v3(24核48線程),內存最大支持3TB內存。
最高可搭載8個NVIDIA圖形處理器,RTX 2080/S/TI、RTX TITAN/V、TESLA T4/P100/V100,均支持按需定制。它可以讓你輕松應對分子動力學模擬、排序,生命科學與醫療分析、石油天然氣勘探、GPU虛擬化服務器,是復雜模型計算的理想選擇。
專業勤修,銳意進取。云軒技術工程師畢業于NVIDIA深度學習研究所,豐富經驗,值得信賴。更多定制方案請聯系客服,我們將實時響應您的定制需求。