選擇GPU服務器的N項基本原則,加速深度學習訓練不再迷茫
GPU擅長處理大規模深度學習訓練以及部分典型HPC任務。經常有朋友在咨詢如何配置用于深度學習或計算加速的GPU服務器,今天就與大家分享一下選擇GPU服務器的基本原則。以下我們通過NVIDIA的主流產品進行實例講解。
常見GPU服務器分類 首先介紹下常見的GPU和GPU服務器。以NVIDIA Tesla系列GPU為例,按總線接口類型可以分為NV-Link接口以及傳統PCI-e總線兩種。 1.NV-Link接口類型的GPU 典型代表是NVIDIA V100,采用SXM2接口,在DGX-2上有SXM3的接口。 NV-Link總線標準的GPU服務器 典型代表是NVIDIA公司設計的DGX超級計算機。DGX超級計算機不僅僅提供硬件,還有相關的軟件和服務。 2.傳統PCI-e總線接口的GPU 目前主流用于專業計算加速的NVIDIA Tesla GPU主要有:P4/P40(P開頭指的是上一代PASCAL架構)、P100、V100以及圖靈架構Tesla T4這幾款。其中比較薄和只占一個槽位的P4和T4,通常用于Inference,目前也已經有成熟的模型進行推理和識別。 傳統PCI-e總線的GPU服務器分為兩類: 一類是OEM服務器,經過NVIDIA官方測試認證的廠商。比如我們寬泛科技不僅是NVIDIA的合作伙伴,同時已成為NVIDIA潛力AI公司加速計劃成員; 另一類是非OEM的服務器,也包括很多種類。 選擇GPU服務器的基本原則 選擇GPU服務器時首先要考慮業務需求來選擇適合的GPU型號。在HPC高性能計算中還需要根據精度來選擇,比如有的高性能計算需要雙精度,這時如果使用P40或者P4就不合適,只能使用V100或者P100;同時也會對顯存容量有要求,比如石油或石化勘探類的計算應用對顯存要求比較高;還有些對總線標準有要求,因此選擇GPU型號要先看業務需求。 GPU服務器人工智能領域的應用也比較多。在教學場景中,對GPU虛擬化的要求比較高。根據課堂人數,一個老師可能需要將GPU服務器虛擬出30甚至60個虛擬GPU,因此批量Training對GPU要求比較高,通常用V100做GPU的訓練。模型訓練完之后需要進行推理,因此推理一般會使用P4或者T4,少部分情況也會用V100。 當GPU型號選定后,再考慮用什么樣GPU的服務器。這時我們需要考慮以下幾種情況: 第一、 在邊緣服務器上需要根據量來選擇T4或者P4等相應的服務器,同時也要考慮服務器的使用場景,比如火車站卡口、機場卡口或者公安卡口等;在中心端做Inference時可能需要V100的服務器,需要考慮吞吐量以及使用場景、數量等。 第二、 需要考慮客戶本身使用人群和IT運維能力,對于BAT這類大公司來說,他們自己的運營能力比較強,這時會選擇通用的PCI-e服務器;而對于一些IT運維能力不那么強的客戶,他們更關注數字以及數據標注等,我們稱這類人為數據科學家,選擇GPU服務器的標準也會有所不同。 第三、 需要考慮配套軟件和服務的價值。 第四、 要考慮整體GPU集群系統的成熟程度以及工程效率,選擇有非常成熟的從底端的操作系統驅動Docker到其他部分都是優化過的服務器,這時效率就比較高。 專業深度學習解決方案加速AI研究 綜上所述,選擇服務器時除了分類,還要考慮性能指標,比如精度、顯存類型、顯存容量以及功耗等,同時也會有一些服務器是需要水冷、降噪或者對溫度、移動性等等方面有特殊的要求,就需要特殊定制的服務器。 寬泛科技旗下Cloudhin?云軒支持Deep learning和高性能計算服務器定制,針對主要深度學習框架(如TensorFlow、Caffe 2、Theano或Torch)進行了優化和設置,在桌面上即可提供強大的深度學習功能。 Cloudhin?云軒GS4288-P4采用Intel C612最高速芯片組,性能穩定,可搭載兩顆E5-2600 v4/v3(24核48線程),內存最大支持3TB內存。 最高可搭載8個NVIDIA圖形處理器,RTX 2080/S/TI、RTX TITAN/V、TESLA T4/P100/V100,均支持按需定制。讓您輕松應對分子動力學模擬、排序,生命科學與醫療分析、石油天然氣勘探、GPU虛擬化服務器,是復雜模型計算的理想選擇。 專業勤修,銳意進取。云軒技術工程師畢業于NVIDIA深度學習研究所,豐富經驗,值得信賴。更多定制方案請聯系客服,我們將實時響應您的定制需求。