NVIDIA英偉達(dá)H100人工智能服務(wù)器為各類數(shù)據(jù)中心提供出色的性能、可擴(kuò)展性和安全性。
加速計(jì)算的數(shù)量級(jí)飛躍
通過 NVIDIA H100 Tensor Core GPU,在每個(gè)工作負(fù)載中實(shí)現(xiàn)出色性能、可擴(kuò)展性和安全性。使用 NVIDIA® NVlink® Switch 系統(tǒng),可連接多達(dá) 256 個(gè) H100 來加速百億億級(jí) (Exascale) 工作負(fù)載,另外可通過專用的 Transformer 引擎來處理萬億參數(shù)語言模型。與上一代產(chǎn)品相比,H100 的綜合技術(shù)創(chuàng)新可以將大型語言模型的速度提高 30 倍,從而提供業(yè)界**的對(duì)話式 AI。
準(zhǔn)備好迎接企業(yè) AI 了嗎?
企業(yè)采用 AI 現(xiàn)已成為主流,企業(yè)組織需要端到端的 AI 就緒型基礎(chǔ)架構(gòu),加快自身邁向新時(shí)代的步伐。
適用于主流服務(wù)器的 H100 隨附五年期 NVIDIA AI Enterprise 軟件套件訂閱(包括企業(yè)支持),能夠以強(qiáng)大的性能簡(jiǎn)化 AI 的采用。這可確保組織能夠訪問構(gòu)建 H100 加速的 AI 工作流所需的 AI 框架和工具,例如 AI 聊天機(jī)器人、推薦引擎和視覺 AI 等。
NVIDIA英偉達(dá)H100人工智能服務(wù)器GPU算力租賃配置參數(shù):
項(xiàng)目 |
標(biāo)準(zhǔn)配置 |
框架 |
8U 機(jī)架式服務(wù)器 |
處理器 |
2 顆至強(qiáng) Platinum 8468 48 核/3.8GHz 主頻/105MB 緩存 |
內(nèi)存 |
DDR5 4800MHz ECC 內(nèi)存容量 1TB |
GPU |
NVIDIA HGX H100 GPU 模組 |
系統(tǒng)硬盤 |
M.2 NVMe PCIe 接口 2TB SSD |
數(shù)據(jù)硬盤 |
2*10TB 企業(yè)級(jí) SATA 硬盤 RAID 10 陣列配置 |
InfiniBand 網(wǎng)絡(luò) |
200G/雙端口/QSFP56 |
Ethernet 網(wǎng)卡 |
OCP 網(wǎng)卡/雙電口/10G |
PICE 插槽 |
9 個(gè) PCIe 5.0 擴(kuò)展插槽 |
電源 |
6*3000W,2*2700W,AC220 輸入 |
風(fēng)扇 |
10 個(gè) 54V 風(fēng)扇組 |
操作系統(tǒng) |
Windows Server/RedHat Enterprise Linux/SUSE Linux Enterprise Server/CentOS/Ubuntu/Vmware EXSi |
工作溫度 |
+5°~+35° |
其他接口 |
機(jī)箱后部:1 個(gè) RJ45 管理接口,2 個(gè) USB 3.0,1 個(gè) VGA 機(jī)箱前部:2 個(gè) USB 3.0,1 個(gè) VGA |
整機(jī)凈重 |
120KG(以實(shí)際配置為準(zhǔn)) |
NVIDIA H100 TENSOR CORE GPU 規(guī)格 (SXM4 和 PCIE 外形規(guī)格)
外形規(guī)格 |
H100 SXM4 |
H100 PCIE |
FP64 |
34 teraFLOPS |
26 teraFLOPS |
FP64 Tensor Core |
67 teraFLOPS |
51 teraFLOPS |
FP32 |
67 teraFLOPS |
51 teraFLOPS |
TF32 Tensor Core |
989 teraFLOPS* |
756teraFLOPS* |
BFLOAT16 Tensor Core |
1979 teraFLOPS* |
1,513 teraFLOPS* |
FP16 Tensor Core |
1979 teraFLOPS* |
1,513 teraFLOPS* |
FP8 Tensor Core |
3958 teraFLOPS* |
3026 teraFLOPS* |
INT8 Tensor Core |
3958 TOPS* |
3026 TOPS* |
GPU 顯存 |
80GB |
80GB |
GPU 顯存帶寬 |
3.35TB/s |
2TB/s |
解碼器 |
7 NVDEC/7 JPEG |
7 NVDEC/7 JPEG |
最大熱設(shè)計(jì)功率 (TDP) |
高達(dá) 700 瓦(可配置) |
300-350 瓦(可配置) |
多實(shí)例 GPU |
最多 7 個(gè) MIG @每個(gè) 10GB |
|
外形規(guī)格 |
SXM |
PCIe雙插槽風(fēng)冷式 |
安全地加速?gòu)钠髽I(yè)級(jí)到百億億次級(jí)規(guī)模的工作負(fù)載
實(shí)時(shí)深度學(xué)習(xí)推理:AI 正在利用一系列廣泛的神經(jīng)網(wǎng)絡(luò)解決范圍同樣廣泛的一系列商業(yè)挑戰(zhàn)。出色的 AI 推理加速器不僅要提供非凡性能,還要利用通用性加速這些神經(jīng)網(wǎng)絡(luò)。
H100 進(jìn)一步擴(kuò)展了 NVIDIA 在推理領(lǐng)域的市場(chǎng)**地位,其多項(xiàng)**技術(shù)可將推理速度提高 30 倍,并提供**的延遲。第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8)。Transformer 引擎可結(jié)合使用 FP8 和 FP16 精度,減少內(nèi)存占用并提高性能,同時(shí)仍能保持大型語言模型的準(zhǔn)確性。
超大模型的 AI 推理性能提升高達(dá) 30 倍
HPC 應(yīng)用的性能提升高達(dá) 7 倍
百億億次級(jí)高性能計(jì)算:NVIDIA 數(shù)據(jù)中心平臺(tái)性能持續(xù)提升,超越摩爾定律。H100 的全新突破性 AI 性能進(jìn)一步加強(qiáng)了 HPC+AI 的力量,加速科學(xué)家和研究人員的探索,讓他們?nèi)硇耐度牍ぷ鳎鉀Q世界面臨的重大挑戰(zhàn)。
H100 使雙精度 Tensor Core 的每秒浮點(diǎn)運(yùn)算 (FLOPS) 提升 3 倍,為 HPC 提供 60 teraFLOPS 的 FP64 浮點(diǎn)運(yùn)算。融合 AI 的高性能計(jì)算應(yīng)用可以利用 H100 的 TF32 精度實(shí)現(xiàn) 1 petaFLOP 的吞吐量,從而在不更改代碼的情況下,實(shí)現(xiàn)單精度矩陣乘法運(yùn)算。
H100 還采用 DPX 指令,其性能比 NVIDIA A100 Tensor Core GPU 高 7 倍,在動(dòng)態(tài)編程算法(例如,用于 DNA 序列比對(duì) Smith-Waterman)上比僅使用傳統(tǒng)雙路 CPU 的服務(wù)器快 40 倍。
加速數(shù)據(jù)分析:在 AI 應(yīng)用開發(fā)過程中,數(shù)據(jù)分析通常會(huì)消耗大部分時(shí)間。原因在于,大型數(shù)據(jù)集分散在多臺(tái)服務(wù)器上,由僅配備商用 CPU 服務(wù)器組成橫向擴(kuò)展式的解決方案缺乏可擴(kuò)展的計(jì)算性能,從而陷入困境。
搭載 H100 的加速服務(wù)器可以提供相應(yīng)的計(jì)算能力,并利用 NVlink 和 NVSwitch 每個(gè) GPU 3 TB/s 的顯存帶寬和可擴(kuò)展性,憑借高性能應(yīng)對(duì)數(shù)據(jù)分析以及通過擴(kuò)展支持**的數(shù)據(jù)集。通過結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™,NVIDIA 數(shù)據(jù)中心平臺(tái)能夠以出色的性能和效率加速這些大型工作負(fù)載。
為企業(yè)提高資源利用率:IT 經(jīng)理設(shè)法更大限度地提高數(shù)據(jù)中心計(jì)算資源的利用率(峰值和平均值)。他們通常會(huì)通過動(dòng)態(tài)重新配置來合理調(diào)整計(jì)算資源,從而滿足正在處理的工作負(fù)載的需求。
H100 中的第二代多實(shí)例 GPU (MIG) 技術(shù)通過安全地將每個(gè) GPU 分為 7 個(gè)獨(dú)立實(shí)例,更大限度地提高每個(gè) GPU 的利用率。憑借機(jī)密計(jì)算支持,H100 可實(shí)現(xiàn)端到端多租戶的安全使用,非常適合云服務(wù)提供商 (CSP) 環(huán)境。
使用支持 MIG 技術(shù)的 H100,基礎(chǔ)架構(gòu)管理員可對(duì)其 GPU 加速的基礎(chǔ)架構(gòu)作標(biāo)準(zhǔn)化處理,同時(shí)能夠靈活地為 GPU 資源配置更精細(xì)的粒度,從而安全地為***提供正確的加速計(jì)算量,并確保其所有 GPU 資源得到充分利用。
內(nèi)置機(jī)密計(jì)算:當(dāng)今的機(jī)密計(jì)算解決方案基于 CPU,對(duì)于 AI 和 HPC 等計(jì)算密集型工作負(fù)載來說,這些解決方案遠(yuǎn)遠(yuǎn)無法滿足需求。NVIDIA 機(jī)密計(jì)算是 NVIDIA Hopper™ 架構(gòu)的內(nèi)置安全功能,該功能使 H100 成為 NVIDIA 率先推出的具有機(jī)密計(jì)算功能的加速器。用戶可以在獲取 H100 GPU 出色加速功能的同時(shí),保護(hù)使用中的數(shù)據(jù)和應(yīng)用的機(jī)密性和完整性。它創(chuàng)建了基于硬件的可信執(zhí)行環(huán)境 (TEE),用于保護(hù)并隔離在單個(gè) H100 GPU、節(jié)點(diǎn)內(nèi)多個(gè) H100 GPU 或單個(gè) MIG 實(shí)例上運(yùn)行的整個(gè)工作負(fù)載。在 TEE 內(nèi),GPU 加速應(yīng)用的運(yùn)行可以保持不變,且不必對(duì)其進(jìn)行分區(qū)。用戶可以將適用于 AI 和 HPC 的 NVIDIA 軟件的強(qiáng)大功能與 NVIDIA 機(jī)密計(jì)算提供的硬件信任根的安全性相結(jié)合。
為大規(guī)模 AI 和高性能計(jì)算提供出色的性能:Hopper Tensor Core GPU 將為 NVIDIA Grace Hopper CPU+GPU 架構(gòu)提供支持,該架構(gòu)專為 TB 級(jí)加速計(jì)算而構(gòu)建,可為大型 AI 和 HPC 提供 10 倍的性能。NVIDIA Grace CPU 利用 Arm® 架構(gòu)的靈活性來創(chuàng)建 CPU 和服務(wù)器架構(gòu),該架構(gòu)是專門針對(duì)加速計(jì)算而從頭開始設(shè)計(jì)的。Hopper GPU 與 Grace CPU 搭配,使用 NVIDIA 超快速的芯片間互連技術(shù),可提供 900GB/s 的帶寬,比 PCIe 5.0 快 7 倍。與當(dāng)今運(yùn)行最快的服務(wù)器相比,這種創(chuàng)新設(shè)計(jì)將 GPU 的聚合系統(tǒng)顯存帶寬提高 30 倍,并且會(huì)將運(yùn)行數(shù)萬億字節(jié)數(shù)據(jù)的應(yīng)用性能提高 10 倍。