AI 訓練環境電力規劃：GPU 機房耗電計算指南

AI/GPU · 2025 年 6 月 · 凱茂資訊技術團隊 · 閱讀時間 8 分鐘

快速回答：AI GPU 伺服器的功耗遠超一般伺服器：4x GPU 伺服器約 3-5kW，8x H100 伺服器可達 10kW（一般伺服器僅 0.5-1kW）。機房電力規劃需考慮：IT 設備功耗 + 冷卻功耗（PUE 通常 1.3-1.5 倍）+ 30-50% 未來擴充預留。10 台 GPU 伺服器的小型 AI 叢集年電費約 50-80 萬元。

前言：電力是 AI 機房最容易被低估的成本

企業在規劃 AI 訓練環境時，往往聚焦於 GPU 選型與軟體框架，卻忽略了電力基礎建設的準備。一個規劃不足的電力系統，輕則跳電影響訓練進度，重則損壞設備。本文提供系統性的電力計算方法，幫助您在建置前就確認機房電力是否足夠。

一、主流 GPU 的功耗規格

GPU 型號	TDP（熱設計功耗）	建議電源規格	互連方式
NVIDIA B300 (Blackwell Ultra)	1,400W	1,800W/卡（含系統，需液冷）	NVLink 5.0
NVIDIA B200 (Blackwell)	1,000W	1,400W/卡（含系統，建議液冷）	NVLink 5.0
NVIDIA H200	700W	1,000W/卡（含系統）	NVLink 4.0
NVIDIA H100 SXM	700W	1,000W/卡（含系統）	NVLink 4.0
NVIDIA H100 PCIe	350W	600W/卡（含系統）	PCIe 5.0
NVIDIA A100 SXM	400W	650W/卡（含系統）	NVLink 3.0
NVIDIA RTX 4090	450W	700W/卡（含系統）	PCIe 4.0
AMD MI300X	750W	1,100W/卡（含系統）	PCIe 5.0

二、整機功耗計算

以 8×NVIDIA H100 SXM GPU 伺服器為例，逐步計算整機功耗：

GPU 功耗

8 × 700W（H100 TDP）= 5,600W

系統其他元件功耗

CPU（雙路 Xeon/EPYC）：約 400W
記憶體（16×DDR5 64GB）：約 300W
NVMe SSD（8×）：約 100W
網路卡（2×100GbE）：約 50W
風扇與其他：約 200W

整機 TDP 估算

5,600W（GPU）+ 1,050W（其他）≈ 6,650W

電源供應器（PSU）規劃

PSU 容量 = 整機 TDP ÷ PSU 效率（通常 92%）× 冗餘係數。建議採用 N+1 冗餘設計：

6,650W ÷ 0.92 × 1.2 ≈ 8,674W → 選用 2×5,000W 白金牌 PSU（N+1）

三、機架負載計算

一個標準機架（42U）通常容納 1～2 台 AI 伺服器（DGX H100 高度為 10U）。

機架功耗密度

4 台 8×H100 伺服器 / 機架 × 8,000W = 32,000W/機架（32kW）

32kW 的機架功耗密度遠超傳統機房（通常設計為 3～10kW/機架），需要特殊的高密度機架電力分配單元（High-Density PDU）與液冷支援。

電力引入規劃

每機架建議配置 2 條 32A 三相電源（A 路 + B 路冗餘）
機房主電力：依機架數 × 每機架功耗計算，預留 20% 餘量
確認台電合約容量是否足夠，並申請獨立計量電表

四、UPS 容量規劃

UPS 保護 AI 伺服器免受電力瞬斷影響，並在市電中斷時提供短暫的備援時間。

UPS 容量計算

UPS 容量（kVA）= 總負載（kW）÷ 功率因數（PF ≈ 0.9）× 安全係數（1.25）

以 10 台 8×H100 伺服器（每台 8kW）為例：

10 × 8kW = 80kW → 80kW ÷ 0.9 × 1.25 ≈ 111kVA → 選用 125kVA UPS

電池備援時間

AI 訓練環境的 UPS 主要目的是「爭取時間」，讓自備發電機或儲能系統啟動。建議備援時間：

有自備發電機：15 分鐘（等待發電機暖機接手）
無發電機（純 UPS 備援）：至少 30 分鐘（讓訓練任務完成 checkpoint 後關機）

五、空調 BTU 計算

機房散熱需求以 BTU/hr（英熱單位）表示。電力消耗全部轉化為熱能，因此：

散熱需求（BTU/hr）= 總功耗（W）× 3.412

以前述 10 台伺服器（總功耗 80kW）為例：

80,000W × 3.412 = 272,960 BTU/hr ≈ 80 噸空調（1 噸 ≈ 3,412 BTU/hr）

液冷解決方案

傳統氣冷空調難以應對 >20kW/機架的高密度需求。建議考量：

直接液冷（DLC）：透過冷板直接帶走 GPU 產生的熱能，冷卻效率提升 3～5 倍
浸沒式液冷（Immersion Cooling）：整台伺服器浸入冷卻液，最高可處理 100kW/機架，適合超大規模 AI 叢集

六、預留 20% 安全餘量

所有電力與散熱規格計算完成後，一律預留 20% 的安全餘量，理由如下：

AI 訓練工作負載在特定階段可能超出平均 TDP，達到瞬間峰值功耗
未來可能新增伺服器或升級至更高功耗的 GPU 世代
電力設備（UPS、PDU）長時間在接近滿載狀態下運行，壽命會大幅縮短
電網電壓波動可能造成實際功耗略高於標稱值

重點摘要

GPU 伺服器功耗是一般伺服器的 5-10 倍
電力規劃：IT 功耗 × PUE(1.3-1.5) + 30-50% 擴充預留
單台 4x A100 伺服器年電費約 20 萬（含冷卻）
機房電力不足是部署 AI 伺服器最常見的瓶頸

不確定現況或下一步該怎麼做？凱茂資深工程師用實戰經驗，協助您釐清問題、找出最適合貴公司的做法。

預約免費架構盤點 →

相關方案：AI · GPU 伺服器整合

凱茂資訊為您提供完整的規劃、建置與維運服務，歡迎諮詢。

瞭解我們的 AI 伺服器方案 → 索取報價

常見問題

AI 伺服器需要多少電力？

主流配置功耗：4x NVIDIA L4 伺服器約 1.5-2kW、4x A100 伺服器約 3-4kW、8x H100 伺服器約 8-10kW。對比一般 2U 伺服器僅 0.5-1kW。規劃時需加上冷卻功耗（IT 功耗 × PUE 1.3-1.5），並預留 30-50% 未來擴充。機房電力不足是企業部署 AI 伺服器最常遇到的瓶頸。

AI 伺服器一年電費多少？

以台灣工業用電費率（約 3.5-4.5 元/kWh）計算：單台 4x A100 伺服器（4kW × 24h × 365d × 4 元 = 約 14 萬元/年）。加上冷卻（PUE 1.4 倍）= 約 20 萬元/年。10 台 GPU 伺服器的 AI 叢集年電費約 50-80 萬元，電費佔 TCO 的 15-25%。