NVIDIA? Tesla? A40
產品亮點:NVIDIA Ampere 架構 CUDA? 核心速度提升一倍的單精度浮點 (FP32) 運算處理和改善的能效可顯著提高圖形和模擬工作流程的性能,例如復雜的 3D 計算機輔助設計 (CAD) 和計算機輔助工程 (CAE)。第二代 RT Core第二代 RT Core 的吞吐量是上一代的 2 倍,并能同時運行光線追蹤和著色或降噪功能,從而大幅加快工作負載的運行速度,例如電影內容的逼真渲染、
產品亮點:NVIDIA Ampere 架構 CUDA? 核心速度提升一倍的單精度浮點 (FP32) 運算處理和改善的能效可顯著提高圖形和模擬工作流程的性能,例如復雜的 3D 計算機輔助設計 (CAD) 和計算機輔助工程 (CAE)。第二代 RT Core第二代 RT Core 的吞吐量是上一代的 2 倍,并能同時運行光線追蹤和著色或降噪功能,從而大幅加快工作負載的運行速度,例如電影內容的逼真渲染、
產品亮點:
NVIDIA Ampere 架構 CUDA? 核心
速度提升一倍的單精度浮點 (FP32) 運算處理和改善的能效可顯著提高圖形和模擬工作流程的性能,例如復雜的 3D 計算機輔助設計 (CAD) 和計算機輔助工程 (CAE)。
第二代 RT Core
第二代 RT Core 的吞吐量是上一代的 2 倍,并能同時運行光線追蹤和著色或降噪功能,從而大幅加快工作負載的運行速度,例如電影內容的逼真渲染、建筑設計評估和產品設計的虛擬原型創建。這項技術還可加速渲染具有光線追蹤效果的動態模糊畫面,從而更快更準確的獲得視覺呈現。
第三代 Tensor Core
新的 Tensor Float 32 (TF32) 精度提供的訓練吞吐量達到上一代的 5 倍,而且無需更改代碼即可加速 AI 和數據科學模型的訓練。從硬件上支持結構稀疏度使推理吞吐量提升一倍。 Tensor Core 還通過 DLSS、AI 降噪等功能將 AI 引入到圖形處理中,并增強了特定應用程序的編輯功能。
48 GB 的 GPU 顯存
超高速 GDDR6 顯存可通過 NVLink 擴展到高達 96 GB,為數據科學家、工程師和創意專業人士提供所需的大容量顯存,讓他們能夠處理大型數據集以及數據科學和模擬等工作負載。
第三代 NVIDIA NVLink?
可連接多達兩個 A40 GPU,從而將 GPU 顯存從 48 GB 擴展至 96 GB。更高的 GPU 到 GPU 互聯帶寬提供了一體式可擴展顯存,可加速圖形和計算工作負載,并能處理更大的數據集。更緊湊的新型 NVLink 連接器可在更多型號的服務器中實現互聯功能。
虛擬化就緒
NVIDIA 虛擬 GPU (vGPU) 軟件帶來的新一代改進能為遠程用戶提供更大、功能更強的虛擬工作站實例,從而支持高端遠程設計、AI 和計算工作負載。
PCI Express 第 4 代
PCI Express 第 4 代將 PCIe 第 3 代的帶寬增加了一倍,因而提升了從 CPU 內存傳輸數據的速度,能更好地支持 AI、數據科學和 3D 設計等數據密集型任務。更快的 PCIe 性能還能加速 GPU 直接顯存訪問 (DMA) 傳輸,這在 GPU 與支持 GPUDirect? for Video 的設備之間提供了更快的視頻數據 I/O 通信速度,從而帶來強大的直播解決方案。A40 向后兼容 PCI Express 第 3 代,這提供了部署靈活性。
數據中心效率和安全性
NVIDIA A40 采用雙插槽、高能效設計,與上一代相比能效提升 2 倍,這點已經過全球 OEM 出品的各種 NVIDIA 認證系統的驗證。NVIDIA A40 還通過硬件可信根功能進行安全的測量式引導,確保固件未被篡改或損壞。
規格參數
GPU架構 | NVIDIA Ampere 架構 |
GPU顯存 | 帶有 ECC 的 48 GB GDDR6 |
顯存帶寬 | 696 GB/秒 |
互聯接口 | NVIDIA ? NVLink ? 112.5 GB/s (雙向) PCIe 4.0 31.5 GB/s(雙向) |
基于 NVIDIA Ampere 架構的 CUDA 核心 | 10752 |
NVIDIA 第二代 RT Core | 84 |
NVIDIA 第三代 Tensor Core | 336 |
FP32 TFLOPS 峰值 (非 Tensor) | 37.4 |
使用 FP16 累加的 FP16 Tensor TFLOPS 峰值 | 149.7| 299.4* |
TF32 Tensor TFLOPS 峰值 | 74.8| 149.6* |
RT Core 性能 TFLOPS | 73.1 |
使用 FP32 累加的 BF16 Tensor TFLOPS 峰值 | 149.7| 299.4* |
INT8 Tensor TOPS 峰值 INT4 Tensor TOPS 峰值 | 299.3| 598.6* 598.7 | 1197.4* |
外形規格 | 4.4"(高)x 10.5"(長)雙插槽 |
顯示端口 | 3 個 DisplayPort 1.4**;支持 NVIDIA Mosaic 和 Quadro ? Sync 4 |
功耗 | 300 W |
散熱解決方案 | 被動式 |
虛擬 GPU (vGPU) 軟件支持 | NVIDIA vPC/vApp、NVIDIA RTX 虛擬工作站、NVIDIA 虛擬計算服務器 |