首頁 / IT 趨勢洞察 / AI 機房電力規劃
技術洞察 / AI/GPU

AI 訓練環境電力規劃:GPU 機房耗電計算指南

AI/GPU · 2025 年 6 月 · 凱茂資訊技術團隊 · 閱讀時間 8 分鐘
分享: LINE 分享
快速回答:AI GPU 伺服器的功耗遠超一般伺服器:4x GPU 伺服器約 3-5kW,8x H100 伺服器可達 10kW(一般伺服器僅 0.5-1kW)。機房電力規劃需考慮:IT 設備功耗 + 冷卻功耗(PUE 通常 1.3-1.5 倍)+ 30-50% 未來擴充預留。10 台 GPU 伺服器的小型 AI 叢集年電費約 50-80 萬元。

前言:電力是 AI 機房最容易被低估的成本

企業在規劃 AI 訓練環境時,往往聚焦於 GPU 選型與軟體框架,卻忽略了電力基礎建設的準備。一個規劃不足的電力系統,輕則跳電影響訓練進度,重則損壞設備。本文提供系統性的電力計算方法,幫助您在建置前就確認機房電力是否足夠。

一、主流 GPU 的功耗規格

GPU 型號 TDP(熱設計功耗) 建議電源規格 互連方式
NVIDIA B300 (Blackwell Ultra)1,400W1,800W/卡(含系統,需液冷)NVLink 5.0
NVIDIA B200 (Blackwell)1,000W1,400W/卡(含系統,建議液冷)NVLink 5.0
NVIDIA H200700W1,000W/卡(含系統)NVLink 4.0
NVIDIA H100 SXM700W1,000W/卡(含系統)NVLink 4.0
NVIDIA H100 PCIe350W600W/卡(含系統)PCIe 5.0
NVIDIA A100 SXM400W650W/卡(含系統)NVLink 3.0
NVIDIA RTX 4090450W700W/卡(含系統)PCIe 4.0
AMD MI300X750W1,100W/卡(含系統)PCIe 5.0

二、整機功耗計算

以 8×NVIDIA H100 SXM GPU 伺服器為例,逐步計算整機功耗:

GPU 功耗

8 × 700W(H100 TDP)= 5,600W

系統其他元件功耗

  • CPU(雙路 Xeon/EPYC):約 400W
  • 記憶體(16×DDR5 64GB):約 300W
  • NVMe SSD(8×):約 100W
  • 網路卡(2×100GbE):約 50W
  • 風扇與其他:約 200W

整機 TDP 估算

5,600W(GPU)+ 1,050W(其他)≈ 6,650W

電源供應器(PSU)規劃

PSU 容量 = 整機 TDP ÷ PSU 效率(通常 92%)× 冗餘係數。建議採用 N+1 冗餘設計:

6,650W ÷ 0.92 × 1.2 ≈ 8,674W → 選用 2×5,000W 白金牌 PSU(N+1)

三、機架負載計算

一個標準機架(42U)通常容納 1~2 台 AI 伺服器(DGX H100 高度為 10U)。

機架功耗密度

4 台 8×H100 伺服器 / 機架 × 8,000W = 32,000W/機架(32kW)

32kW 的機架功耗密度遠超傳統機房(通常設計為 3~10kW/機架),需要特殊的高密度機架電力分配單元(High-Density PDU)與液冷支援。

電力引入規劃

  • 每機架建議配置 2 條 32A 三相電源(A 路 + B 路冗餘)
  • 機房主電力:依機架數 × 每機架功耗計算,預留 20% 餘量
  • 確認台電合約容量是否足夠,並申請獨立計量電表

四、UPS 容量規劃

UPS 保護 AI 伺服器免受電力瞬斷影響,並在市電中斷時提供短暫的備援時間。

UPS 容量計算

UPS 容量(kVA)= 總負載(kW)÷ 功率因數(PF ≈ 0.9)× 安全係數(1.25)

以 10 台 8×H100 伺服器(每台 8kW)為例:

10 × 8kW = 80kW → 80kW ÷ 0.9 × 1.25 ≈ 111kVA → 選用 125kVA UPS

電池備援時間

AI 訓練環境的 UPS 主要目的是「爭取時間」,讓自備發電機或儲能系統啟動。建議備援時間:

  • 有自備發電機:15 分鐘(等待發電機暖機接手)
  • 無發電機(純 UPS 備援):至少 30 分鐘(讓訓練任務完成 checkpoint 後關機)

五、空調 BTU 計算

機房散熱需求以 BTU/hr(英熱單位)表示。電力消耗全部轉化為熱能,因此:

散熱需求(BTU/hr)= 總功耗(W)× 3.412

以前述 10 台伺服器(總功耗 80kW)為例:

80,000W × 3.412 = 272,960 BTU/hr ≈ 80 噸空調(1 噸 ≈ 3,412 BTU/hr)

液冷解決方案

傳統氣冷空調難以應對 >20kW/機架 的高密度需求。建議考量:

  • 直接液冷(DLC):透過冷板直接帶走 GPU 產生的熱能,冷卻效率提升 3~5 倍
  • 浸沒式液冷(Immersion Cooling):整台伺服器浸入冷卻液,最高可處理 100kW/機架,適合超大規模 AI 叢集

六、預留 20% 安全餘量

所有電力與散熱規格計算完成後,一律預留 20% 的安全餘量,理由如下:

  • AI 訓練工作負載在特定階段可能超出平均 TDP,達到瞬間峰值功耗
  • 未來可能新增伺服器或升級至更高功耗的 GPU 世代
  • 電力設備(UPS、PDU)長時間在接近滿載狀態下運行,壽命會大幅縮短
  • 電網電壓波動可能造成實際功耗略高於標稱值

重點摘要

  • GPU 伺服器功耗是一般伺服器的 5-10 倍
  • 電力規劃:IT 功耗 × PUE(1.3-1.5) + 30-50% 擴充預留
  • 單台 4x A100 伺服器年電費約 20 萬(含冷卻)
  • 機房電力不足是部署 AI 伺服器最常見的瓶頸

有任何問題,歡迎與我們討論。

預約免費架構盤點 →

相關方案:AI · GPU 伺服器整合

凱茂資訊為您提供完整的規劃、建置與維運服務,歡迎諮詢。

瞭解我們的 AI 伺服器方案 → 預約諮詢
IT 技術電子報

覺得這篇文章有幫助?

訂閱電子報,每月收到最新 IT 趨勢與實務文章

專業顧問諮詢

讀完這篇文章,是否有更多問題?

凱茂資訊提供 30 分鐘免費架構評估,由專業顧問針對您的企業現況給出具體建議,不推銷、不強迫。

預約 30 分鐘免費諮詢 預約諮詢

✓ 免費諮詢,無義務購買 ✓ 中部地區可現場拜訪 ✓ 一般於 1 個工作天內回覆

凱茂
安裝凱茂資訊 App
快速存取報修、報價與 IT 資源
需要 IT 顧問協助?
30 分鐘免費評估 · 一般 1 個工作天內回覆