快速回答:AI GPU 伺服器的功耗遠超一般伺服器:4x GPU 伺服器約 3-5kW,8x H100 伺服器可達 10kW(一般伺服器僅 0.5-1kW)。機房電力規劃需考慮:IT 設備功耗 + 冷卻功耗(PUE 通常 1.3-1.5 倍)+ 30-50% 未來擴充預留。10 台 GPU 伺服器的小型 AI 叢集年電費約 50-80 萬元。
前言:電力是 AI 機房最容易被低估的成本
企業在規劃 AI 訓練環境時,往往聚焦於 GPU 選型與軟體框架,卻忽略了電力基礎建設的準備。一個規劃不足的電力系統,輕則跳電影響訓練進度,重則損壞設備。本文提供系統性的電力計算方法,幫助您在建置前就確認機房電力是否足夠。
一、主流 GPU 的功耗規格
| GPU 型號 | TDP(熱設計功耗) | 建議電源規格 | 互連方式 |
|---|---|---|---|
| NVIDIA B300 (Blackwell Ultra) | 1,400W | 1,800W/卡(含系統,需液冷) | NVLink 5.0 |
| NVIDIA B200 (Blackwell) | 1,000W | 1,400W/卡(含系統,建議液冷) | NVLink 5.0 |
| NVIDIA H200 | 700W | 1,000W/卡(含系統) | NVLink 4.0 |
| NVIDIA H100 SXM | 700W | 1,000W/卡(含系統) | NVLink 4.0 |
| NVIDIA H100 PCIe | 350W | 600W/卡(含系統) | PCIe 5.0 |
| NVIDIA A100 SXM | 400W | 650W/卡(含系統) | NVLink 3.0 |
| NVIDIA RTX 4090 | 450W | 700W/卡(含系統) | PCIe 4.0 |
| AMD MI300X | 750W | 1,100W/卡(含系統) | PCIe 5.0 |
二、整機功耗計算
以 8×NVIDIA H100 SXM GPU 伺服器為例,逐步計算整機功耗:
GPU 功耗
8 × 700W(H100 TDP)= 5,600W
系統其他元件功耗
- CPU(雙路 Xeon/EPYC):約 400W
- 記憶體(16×DDR5 64GB):約 300W
- NVMe SSD(8×):約 100W
- 網路卡(2×100GbE):約 50W
- 風扇與其他:約 200W
整機 TDP 估算
5,600W(GPU)+ 1,050W(其他)≈ 6,650W
電源供應器(PSU)規劃
PSU 容量 = 整機 TDP ÷ PSU 效率(通常 92%)× 冗餘係數。建議採用 N+1 冗餘設計:
6,650W ÷ 0.92 × 1.2 ≈ 8,674W → 選用 2×5,000W 白金牌 PSU(N+1)
三、機架負載計算
一個標準機架(42U)通常容納 1~2 台 AI 伺服器(DGX H100 高度為 10U)。
機架功耗密度
4 台 8×H100 伺服器 / 機架 × 8,000W = 32,000W/機架(32kW)
32kW 的機架功耗密度遠超傳統機房(通常設計為 3~10kW/機架),需要特殊的高密度機架電力分配單元(High-Density PDU)與液冷支援。
電力引入規劃
- 每機架建議配置 2 條 32A 三相電源(A 路 + B 路冗餘)
- 機房主電力:依機架數 × 每機架功耗計算,預留 20% 餘量
- 確認台電合約容量是否足夠,並申請獨立計量電表
四、UPS 容量規劃
UPS 保護 AI 伺服器免受電力瞬斷影響,並在市電中斷時提供短暫的備援時間。
UPS 容量計算
UPS 容量(kVA)= 總負載(kW)÷ 功率因數(PF ≈ 0.9)× 安全係數(1.25)
以 10 台 8×H100 伺服器(每台 8kW)為例:
10 × 8kW = 80kW → 80kW ÷ 0.9 × 1.25 ≈ 111kVA → 選用 125kVA UPS
電池備援時間
AI 訓練環境的 UPS 主要目的是「爭取時間」,讓自備發電機或儲能系統啟動。建議備援時間:
- 有自備發電機:15 分鐘(等待發電機暖機接手)
- 無發電機(純 UPS 備援):至少 30 分鐘(讓訓練任務完成 checkpoint 後關機)
五、空調 BTU 計算
機房散熱需求以 BTU/hr(英熱單位)表示。電力消耗全部轉化為熱能,因此:
散熱需求(BTU/hr)= 總功耗(W)× 3.412
以前述 10 台伺服器(總功耗 80kW)為例:
80,000W × 3.412 = 272,960 BTU/hr ≈ 80 噸空調(1 噸 ≈ 3,412 BTU/hr)
液冷解決方案
傳統氣冷空調難以應對 >20kW/機架 的高密度需求。建議考量:
- 直接液冷(DLC):透過冷板直接帶走 GPU 產生的熱能,冷卻效率提升 3~5 倍
- 浸沒式液冷(Immersion Cooling):整台伺服器浸入冷卻液,最高可處理 100kW/機架,適合超大規模 AI 叢集
六、預留 20% 安全餘量
所有電力與散熱規格計算完成後,一律預留 20% 的安全餘量,理由如下:
- AI 訓練工作負載在特定階段可能超出平均 TDP,達到瞬間峰值功耗
- 未來可能新增伺服器或升級至更高功耗的 GPU 世代
- 電力設備(UPS、PDU)長時間在接近滿載狀態下運行,壽命會大幅縮短
- 電網電壓波動可能造成實際功耗略高於標稱值
重點摘要
- GPU 伺服器功耗是一般伺服器的 5-10 倍
- 電力規劃:IT 功耗 × PUE(1.3-1.5) + 30-50% 擴充預留
- 單台 4x A100 伺服器年電費約 20 萬(含冷卻)
- 機房電力不足是部署 AI 伺服器最常見的瓶頸
有任何問題,歡迎與我們討論。
預約免費架構盤點 →