企業要怎麼規劃 AI 伺服器的硬體？

依序決定四件事：(1) 界定工作負載（推論或訓練、模型多大）→ 決定 GPU 等級、張數與機型（PCIe 插卡式或 SXM 平台）；(2) 依 GPU 數量配比主機資源——每張 GPU 約 8–16 個 CPU 核心、系統記憶體至少為 GPU 總 VRAM 的 2 倍、加本地 NVMe 快取；(3) 規劃儲存與網路（單機 25GbE 起步，跨節點分散式訓練才需要 RDMA）；(4) 確認機房電力與散熱能否支撐。建議先小規模驗證再擴展。

AI 伺服器要選 PCIe 插卡式還是 SXM 平台？

看 GPU 之間的資料交換量。單卡或少量多卡的推論、微調，選 PCIe 插卡式即可——功耗較低、可用一般機架伺服器、可逐卡擴充。多卡並行的大型模型訓練選 SXM 平台——GPU 間以 NVLink 直接互連（H100 世代達 900GB/s），頻寬遠高於 PCIe 5.0 x16 對主機端的約 128GB/s，多卡擴展效率好，但整機功耗高，通常需要液冷或高密度機櫃配套。

AI 伺服器需要什麼網路配置？

AI 訓練（多 GPU 分散式）需要高頻寬低延遲：節點間建議 InfiniBand（200-400Gbps）或至少 100GbE 搭配 RoCE。AI 推論（服務部署）一般 10-25GbE 即可。資料傳輸層（從儲存載入訓練資料）建議至少 25GbE，避免 GPU 閒置等待資料。RDMA 網路只有跨節點分散式訓練才真正必要，單機作業（含單機多卡）不需要為此投資。

AI 伺服器的 CPU 和記憶體要怎麼配？

常見配比原則：每張 GPU 配 8–16 個實體 CPU 核心（供資料載入與前處理）；系統記憶體至少為 GPU 總 VRAM 的 2 倍（NVIDIA 公版 DGX H100 為 640GB VRAM 配 2TB RAM，約 3 倍）；本地 NVMe 建議放得下常用資料集與 checkpoint（訓練機常見 8TB 以上）。配比失衡最常見的症狀是 GPU 使用率上不去——瓶頸在資料餵不進去，不是算力不足。

企業 AI 伺服器硬體規劃指南：機型、配比與機房配套

AI/GPU · 2025 年 6 月發布／2026 年 7 月更新 · 凱茂資訊技術團隊 · 閱讀時間 7 分鐘

快速回答：地端 AI 伺服器的硬體規劃有四個層面：機型（單卡推論用 PCIe 插卡式即可，多卡並行訓練選 NVLink 互連的 SXM 平台）、主機配比（每張 GPU 約配 8–16 個 CPU 核心、系統記憶體至少為 GPU 總 VRAM 的 2 倍、加本地 NVMe 快取）、儲存與網路（單機 25GbE 起步，跨節點分散式訓練才需要 RDMA）、機房配套（電力與散熱往往是最先卡住的瓶頸）。

前言：AI 伺服器規劃不只是買 GPU

許多企業在決定導入 AI 運算能力時，第一個念頭往往是「買幾張 GPU 就好」。然而，真正讓 AI 專案成功落地的關鍵，在於完整的基礎建設規劃——從電力供給、散熱設計、儲存架構到網路頻寬，每一個環節都環環相扣。

本文聚焦在「已決定自建之後，硬體規格怎麼定」：機型分類、主機配比、儲存與網路、機房配套。若您還在評估該不該投資 AI 算力、自建與租用雲端怎麼選，建議先閱讀企業導入 AI 算力的 4 個評估重點與 GPU Server 與公有雲的三年 TCO 成本比較，確認決策方向後再回來定義硬體。

一、先界定工作負載：訓練還是推論

在選購任何硬體之前，首先必須清晰定義使用場景與規模需求——同樣是「一台 AI 伺服器」，服務兩百人內部問答機器人跟訓練一個產業專用大型模型，所需要的硬體規格可以完全不同。

模型類型與工作負載

不同的 AI 應用對硬體的要求差異極大。大型語言模型（LLM）的推論服務需要大量 GPU 記憶體；影像辨識訓練則需要高吞吐量的 GPU 計算核心；而強化學習任務對 CPU 也有相當要求。明確定義工作負載類型，是選型的第一步。簡單來說，推論服務的瓶頸通常在記憶體頻寬與延遲；訓練則同時吃重運算吞吐量與 GPU 間的互連頻寬，這也是為什麼兩者在機型選擇上會走向不同答案。

GPU 數量與記憶體需求估算

以下是幾個粗抓 GPU 記憶體需求量級的經驗法則，實際仍須依模型量化方式與批次大小微調：

模型參數量（以 Billion 計）×2 ≈ 推論所需 GPU 記憶體（FP16）
訓練通常需要推論的 3～4 倍記憶體
建議預留 20% 的記憶體餘量作為緩衝

訓練與推論對硬體的要求差異，遠比多數人想像的大——兩者在 GPU 記憶體、互連、儲存與網路上幾乎是兩套架構，完整差異可參考AI 推論與訓練的硬體需求與架構差異解析。

二、機型分類：PCIe 插卡式 vs SXM/NVLink 平台

GPU 伺服器大致分成兩類：PCIe 插卡式，將 GPU 以標準 PCIe 插槽裝進一般機架伺服器；以及 SXM 模組平台，GPU 直接焊在專用主機板上、以 NVLink／NVSwitch 互連，通常以 4 卡或 8 卡一體出貨。兩者的效能特性、功耗與採購彈性差異很大，選錯機型往往要等到擴充時才發現代價。值得注意的是，同一代 GPU 晶片的 PCIe 版與 SXM 版，核心運算能力其實相近，兩者的主要差異在於功耗上限與互連方式而非算力本身——這也是選型時容易被誤解的地方。

面向	PCIe 插卡式	SXM／NVLink 平台
互連頻寬	PCIe 5.0 x16，約 128GB/s（對主機端頻寬，非兩卡直連實測值）	NVLink，GPU 間直連達 900GB/s（H100 世代）
單卡功耗	較低（H100 PCIe、L40S 皆為 350W）	較高（H100 SXM 最高 700W）
伺服器型態	一般 2U/4U 機架伺服器	專用 8 卡（或 4 卡）平台整機
散熱	氣冷可支撐	高密度氣冷或液冷
採購彈性	可逐卡增購、分期擴充	整機一次到位
適用場景	推論、微調、少量多卡	多卡並行的大型模型訓練

實務上可以用三個判斷準則快速定位：

推論或小模型微調 → 選 PCIe 插卡式，成本與機房門檻都低一個量級
需要多卡「當一張大卡用」跑大型訓練 → 卡間頻寬就是瓶頸，選 NVLink 互連的 SXM 平台
猶豫不決時從 PCIe 起步 → 多數企業第一個 AI 工作負載是推論，SXM 平台的電力與散熱前置成本很容易被低估

進一步細看 SXM 平台內部，4 卡與 8 卡的互連拓樸也不同：4 卡通常以點對點 NVLink 全連接，8 卡則需要透過 NVSwitch 晶片做交換式全連接，確保任兩張卡之間都能以全頻寬通訊，這也是 8 卡整機比同樣張數的 PCIe 插卡式伺服器貴上不少的原因之一。

單機 8 卡的 SXM 平台已能滿足絕大多數企業的訓練需求；只有當單機算力不足、需要跨機擴展成多節點叢集時，才會引入並行檔案系統與 RDMA 網路的複雜度，詳見第四、五節。

三、主機配比原則：GPU、CPU、記憶體、NVMe 怎麼配

GPU 選好之後，主機的其他資源如果沒有跟著配平，再強的 GPU 也可能被閒置等待——以下是幾個常見的配比原則。

CPU：每張 GPU 配 8–16 個核心

資料載入、解碼、前處理（例如影像的 augmentation、文字的 tokenize）都是在 CPU 上執行，核心數不足時，GPU 常常在空等資料而非真正在算。NVIDIA 公版 DGX H100 以雙顆 Xeon 共 112 核心搭配 8 張 GPU，換算下來每張 GPU 約配 14 核，可作為規劃時的參考基準。除了核心數，CPU 平台能提供的 PCIe 通道數也要一併確認——每張 GPU 若以 PCIe 5.0 x16 全速運作，8 張 GPU 再加上網卡、儲存控制器，對主機板與 CPU 的 PCIe lane 數量會是不小的負擔，選型時建議直接向伺服器廠商確認拓樸圖，而非只看 CPU 型號的規格表。

系統記憶體：至少為 GPU 總 VRAM 的 2 倍

DGX H100 的公版配置為 640GB VRAM 搭配 2TB 系統記憶體，約為 3 倍。資料集快取、pinned memory 暫存區與 checkpoint 組裝都會佔用主記憶體，記憶體不足時同樣會拖慢資料餵入的速度。多 GPU 主機通常採用雙路 CPU 設計，記憶體與 GPU 之間會存在 NUMA（非一致記憶體存取）關係——同一顆 CPU 底下的記憶體通道與 GPU 之間的存取延遲，會比跨 CPU 存取來得低，訓練框架若沒有正確做 NUMA 綁定，同樣的硬體規格可能跑出明顯落差的效能。

本地 NVMe：訓練機建議 8TB 起跳

訓練用主機建議配置至少 8TB 的本地 NVMe（公版規格約 30TB），作為訓練資料集與 checkpoint 的高速暫存區——資料集需要本地快取才不用每個 epoch 都打網路儲存，checkpoint 的高頻寫入也需要足夠的 IOPS 支撐。

配比失衡最常見的表現是「GPU 使用率上不去」——問題往往不是算力不夠，而是資料餵不進去。加購 GPU 之前，建議先確認 CPU、記憶體與儲存管線是否已經是瓶頸。

四、儲存與資料管線

熱層：本地 NVMe 快取

訓練過程中，資料讀取速度往往是效能瓶頸。做法是先把訓練資料 staging 到本地 NVMe 快取，再開始訓練，避免每個 epoch 都重新打網路儲存。建議配置 8TB 以上的 NVMe 作為熱資料快取。本地 NVMe 通常以 RAID 0 或直通模式使用，追求最大讀寫吞吐量；由於資料在溫層或冷層仍有正本，熱層即使故障，重新同步即可，不需要犧牲效能去換取這一層的資料保護。

溫層：共享儲存（NAS／並行檔案系統）

單機作業使用一般高效能 NAS 即可滿足需求；只有多節點同時讀取同一份訓練資料集時，才需要並行檔案系統（如 Lustre、GPFS）——這類方案屬於超大規模場景，多數中型企業其實用不到。以影像資料集估算，每百萬張 1080p 圖片約需 500GB～1TB 的原始儲存空間，可作為規劃容量時的參考基準。

冷層：物件儲存

原始資料湖與長期歸檔建議放在 S3 相容的物件儲存，成本最低；真正要訓練時，再把需要的部分拉進溫層或熱層。實務上建議搭配儲存生命週期政策，資料在熱層停留的時間以訓練週期為單位自動下修到溫層或冷層，避免熱層被閒置資料佔滿、影響下一批訓練任務的可用空間。

如果是大規模分散式訓練，NVIDIA GPUDirect Storage 技術可以讓資料從 NVMe 或儲存直接送進 GPU 記憶體、略過 CPU 中轉，但這屬於大規模訓練的最佳化手段，一般單機部署不需要為此特別設計。

備援與災難復原

訓練 checkpoint 應定期備份至異地或物件儲存
模型倉庫建議採 3-2-1 備份策略
考量 RPO/RTO 需求，規劃資料復原流程

定期演練還原流程同樣重要——備份存在不代表復原得了，建議至少每季執行一次還原測試，驗證 checkpoint 與模型版本確實可用。

五、網路規劃：什麼時候才需要 RDMA

AI 伺服器的網路需求，取決於工作負載是單機還是跨節點，判斷準則如下：

單機推論：25GbE（小流量甚至 10GbE）即可，瓶頸多半在模型載入與併發請求處理，不在網路。
單機多卡訓練：卡間流量走機內的 NVLink 或 PCIe，不經過外部網路——對外只需要 25/100GbE 供資料載入即可。
跨節點分散式訓練：才真正需要 RDMA——InfiniBand（HDR/NDR，200–400Gbps）或在 100/200GbE 上跑 RoCEv2。

叢集網路規格

節點間通訊：建議 100G 乙太網路（RoCE）或 InfiniBand HDR（200Gbps）
儲存網路：獨立的 25G 或 100G 儲存網路，避免與訓練流量競爭頻寬
管理網路：獨立的 1G IPMI/BMC 管理網路

若確定要建置多節點叢集，交換器的拓樸設計同樣重要：訓練流量建議走非阻塞（non-blocking）的 fat-tree 或 rail-optimized 拓樸，確保任兩個節點之間的頻寬不會因為交換器內部瓶頸而打折扣，儲存與管理流量則應該實體隔離，避免互相干擾。值得留意的是，分散式訓練對延遲比對頻寬更敏感——同步梯度更新的過程中，任何一個節點的延遲都會拖慢整體訓練速度，這也是為什麼跨節點訓練寧可多花預算在 InfiniBand，也不建議用一般乙太網路硬撐。

多數企業的第一套 AI 伺服器是單機——別為還不存在的叢集預先投資 RDMA 交換器。

六、機房配套：電力與散熱

耗電量計算

以 8 張 H100 SXM 的公版系統（NVIDIA DGX H100）為例，整機最大功耗約 10.2kW；相較之下 PCIe 插卡式伺服器（如 4 張 L40S）整機約 2–3kW，機房門檻低得多。建議以 TDP 的 1.2 倍作為電力規劃基準，確保餘量充足。

機櫃負載規劃

標準機櫃的電力供應上限通常為 10kW 或 20kW（需確認資料中心規格）。高密度 AI 伺服器可能需要液冷機櫃，其冷卻能力可達 60kW 以上。規劃時應確認機房的機櫃功率密度上限，避免超載。

空調容量

散熱需求（BTU/hr）= 電力消耗（W）× 3.412。一台 10kW 的 AI 伺服器需約 34,120 BTU/hr 的冷卻能力。建議與空調廠商確認機房的 PUE（電源使用效率）指標，理想值應低於 1.4。

除了電力與散熱，供電的備援層級也要一併確認：AI 伺服器一旦訓練中斷，重新排隊等待資源可能損失數小時甚至數天的進度，建議至少配置 N+1 的 UPS 冗餘，並確認機房是否有備援發電機；機房的濕度與粉塵控制也不能忽略，高密度機櫃對環境穩定度的要求比一般機房更高。

電力迴路、UPS 容量、散熱方案的逐項計算方法與電費估算，我們在AI 訓練環境的 GPU 機房電力規劃指南中有完整拆解。

結論：硬體規劃是系統工程，不是採購清單

AI 伺服器的規格不是逐項挑最好的，而是讓 GPU、CPU、記憶體、儲存、網路、機房互相配平——任何一環失衡，最貴的 GPU 都只能等資料。舉例來說，一台配滿 8 張頂規 GPU 的伺服器，如果本地 NVMe 只有 2TB、CPU 只有 32 核，實際訓練吞吐量可能連硬體帳面算力的一半都發揮不出來。

凱茂資訊具備 GPU 伺服器建置與 AI 運算環境整合經驗，提供從需求盤點、架構規劃、設備採購到安裝調校的一站式服務，協助企業以最短時間、最低風險完成 AI 基礎建設部署。

重點摘要

單卡推論選 PCIe 插卡式，多卡並行訓練才需要 SXM/NVLink 平台
配比原則：每 GPU 約 8–16 CPU 核心、RAM ≥ 2 倍總 VRAM、本地 NVMe 快取
RDMA 只有跨節點分散式訓練才需要；單機推論 25GbE 即可
機房電力與散熱是最常被低估的前置成本，8 卡 SXM 整機可達 10kW 級

不確定現況或下一步該怎麼做？凱茂資深工程師用實戰經驗，協助您釐清問題、找出最適合貴公司的做法。

預約免費架構盤點 →

相關方案：AI · GPU 伺服器整合

凱茂資訊為您提供完整的規劃、建置與維運服務，歡迎諮詢。

瞭解我們的 AI 伺服器方案 → 索取報價

企業 AI 伺服器硬體規劃指南：機型、配比與機房配套

前言：AI 伺服器規劃不只是買 GPU

一、先界定工作負載：訓練還是推論

模型類型與工作負載

GPU 數量與記憶體需求估算

二、機型分類：PCIe 插卡式 vs SXM/NVLink 平台

三、主機配比原則：GPU、CPU、記憶體、NVMe 怎麼配

CPU：每張 GPU 配 8–16 個核心

系統記憶體：至少為 GPU 總 VRAM 的 2 倍

本地 NVMe：訓練機建議 8TB 起跳

四、儲存與資料管線

熱層：本地 NVMe 快取

溫層：共享儲存（NAS／並行檔案系統）

冷層：物件儲存

備援與災難復原

五、網路規劃：什麼時候才需要 RDMA

叢集網路規格

六、機房配套：電力與散熱

耗電量計算

機櫃負載規劃

空調容量

結論：硬體規劃是系統工程，不是採購清單

重點摘要

相關方案：AI · GPU 伺服器整合

常見問題

讀完這篇文章，是否有更多問題？

企業 AI 伺服器硬體規劃指南：機型、配比與機房配套

前言：AI 伺服器規劃不只是買 GPU

一、先界定工作負載：訓練還是推論

模型類型與工作負載

GPU 數量與記憶體需求估算

二、機型分類：PCIe 插卡式 vs SXM/NVLink 平台

三、主機配比原則：GPU、CPU、記憶體、NVMe 怎麼配

CPU：每張 GPU 配 8–16 個核心

系統記憶體：至少為 GPU 總 VRAM 的 2 倍

本地 NVMe：訓練機建議 8TB 起跳

四、儲存與資料管線

熱層：本地 NVMe 快取

溫層：共享儲存（NAS／並行檔案系統）

冷層：物件儲存

備援與災難復原

五、網路規劃：什麼時候才需要 RDMA

叢集網路規格

六、機房配套：電力與散熱

耗電量計算

機櫃負載規劃

空調容量

結論：硬體規劃是系統工程，不是採購清單

重點摘要

相關文章

GPU vs 雲端成本比較

AI 推論 vs 訓練

製造業 AI 基礎建設

相關方案：AI · GPU 伺服器整合

訂閱 IT 技術電子報

常見問題

讀完這篇文章，是否有更多問題？