AI 推論 vs 訓練：硬體需求與架構差異完整解析

AI/GPU · 2025 年 7 月發布 · 2026 年 7 月更新 · 凱茂資訊技術團隊 · 閱讀時間 15 分鐘

快速回答：AI 訓練是用大量資料「教會」模型，需要 GPU 叢集（H100/B200 級），是超大型雲端與模型廠的賽局；微調（LoRA/QLoRA）是用自有資料調整既有模型，2026 年單卡即可完成；推論是用訓練好的模型「回答」問題，對延遲敏感、需持續運行，從 L4（24GB）、L40S（48GB）到單卡 96GB 的 RTX PRO 6000 即可涵蓋多數企業需求。2026 年推論已佔全部 AI 算力約三分之二——多數台灣企業真正需要的是一台規劃得當的推論機，而不是訓練叢集。

前言：訓練與推論是兩回事

許多企業在導入 AI 時，將「訓練」與「推論」視為同一件事，用相同的硬體配置來處理兩種截然不同的工作負載。事實上，訓練（Training）是讓模型「學習」的過程，推論（Inference）是讓訓練好的模型「工作」的過程。兩者在運算特性、硬體需求與架構設計上有本質差異。

2026 年還有一個關鍵變化：推論已佔全部 AI 算力約三分之二，超越訓練成為主要工作負載——企業 AI 支出的重心，已經從「怎麼訓練模型」轉向「怎麼又快又省地跑模型」。同時，微調技術（LoRA/QLoRA）讓企業能用單卡等級的硬體客製開源模型，訓練與推論之間出現了第三種值得認識的負載型態。本文以 2026 年的硬體行情與軟體生態為基準，協助您把預算花在對的地方。

一、訓練、微調、推論：三種負載的本質差異

過去談 AI 硬體只分「訓練」與「推論」兩類，但 2026 年必須加上第三類——微調（Fine-tuning，含 LoRA/QLoRA）：用自有資料調整既有開源模型的行為。微調的資源需求介於兩者之間，而且拜參數高效技術之賜，門檻已降到單卡可行，是中小企業最容易誤判（高估）成本的一類負載。

比較項目	訓練（Training）	微調（LoRA/QLoRA）	推論（Inference）
目的	讓模型從零學習規律	用自有資料調整既有模型	用學好的模型產出結果
運算類型	大量矩陣運算 + 反向傳播	反向傳播，但只更新少量附加參數	前向傳播為主
資料量	TB 級訓練資料集	GB 級（數千～數萬筆領域資料）	單筆或小批次輸入
頻率	一次或極低頻	專案性（數小時～數天一輪）	持續不間斷
關鍵指標	吞吐量（Throughput）	VRAM 容量與訓練時長	延遲（Latency）
精度要求	FP32 / BF16	BF16（QLoRA 用 4-bit 量化基底）	FP16 / FP8 / INT8 / INT4
批次大小	大批次（64-4096）	中小批次	小批次（1-32）
硬體門檻	多卡叢集起跳	單卡～數卡	單卡起

推論的兩個階段：prefill 吃算力、decode 吃記憶體頻寬

要看懂推論的硬體需求，得先理解大型語言模型推論分成兩個特性完全不同的階段。Prefill（預填）階段一次吃進整段提示詞（prompt），是高度平行的矩陣運算，瓶頸在 GPU 算力，決定「第一個字多快出現」（TTFT）；Decode（解碼）階段則逐一生成 token，每產生一個字都要把模型權重從 VRAM 完整讀過一遍，瓶頸在記憶體頻寬而非算力，決定「之後每個字出現的速度」。

解碼階段還有一個常被忽略的記憶體大戶——KV cache：模型為了不重複計算前文，會把每一層注意力機制的中間結果（Key/Value）快取在 VRAM 中，容量隨「上下文長度 × 同時服務的並發數」成長。這解釋了推論選型最常見的誤解：推論的第一瓶頸通常不是算力，而是 VRAM 裝不裝得下「模型權重 + KV cache」。這也是為什麼後文的選卡建議會反覆強調 VRAM 容量與記憶體頻寬，而非 FLOPS 數字。

二、訓練的硬體需求

GPU

訓練需要最大化「平行運算能力」與「記憶體容量」。大型語言模型的訓練通常需要多顆高階 GPU 協同運算。

建議 GPU：Blackwell 架構 B200（192GB HBM3e）已是新建案最普及的選項，B300／Blackwell Ultra（288GB HBM3e）自 2025 下半年起出貨、2026 年放量；H200（141GB HBM3e）/ H100 仍是既有部署主力。NVIDIA 宣稱 Blackwell 對 Hopper 訓練快 4 倍、推論最高 30 倍——這是原廠行銷標稱值，實際增益依工作負載而定
為什麼選 SXM：NVLink 互連頻寬約為 PCIe Gen5 的 7 倍（900 GB/s vs 128 GB/s），多 GPU 協同效率更高
GPU 數量：大型模型通常需要 8-64 顆 GPU；超大規模可採機櫃級方案，如 GB300 NVL72（單櫃 72 顆 B300，FP4 算力約 1.1 ExaFLOPS）

互連網路

多 GPU 訓練的瓶頸往往在 GPU 之間的通訊速度：

節點內：NVLink / NVSwitch（Hopper 世代 900 GB/s；Blackwell 的 NVLink 5 提升至 1.8 TB/s）
節點間：InfiniBand NDR 400G 或 RoCEv2

通訊瓶頸公式：訓練效率 = 運算時間 / (運算時間 + 通訊時間)

記憶體與儲存

為什麼訓練這麼吃記憶體：訓練除了模型權重，還要保存梯度與優化器狀態，總記憶體需求約為權重的 3-4 倍——這是訓練門檻遠高於推論的根本原因
系統記憶體：至少 GPU 記憶體的 2 倍（如 8×80GB GPU → 至少 1.28TB RAM）
儲存：高速 NVMe SSD 暫存 + 大容量 NAS 存放訓練資料集
頻寬：訓練資料載入速度需匹配 GPU 運算速度，避免 I/O bottleneck

企業會做到哪一層？工作負載金字塔

「訓練的硬體需求」聽起來嚇人，但企業該先問的是：我們到底會做到哪一層？依算力門檻由高至低排成金字塔：

從頭訓練（Pre-training）：動輒數千至數萬顆 GPU、耗時數月——這是超大型雲端與模型廠的賽局，一般企業不會、也不需要參與
持續預訓練（Continued pre-training）：在開源模型上灌入大量領域語料，仍需數十至數百卡叢集，僅適合大型研發單位
微調（LoRA/QLoRA）：用數千～數萬筆自有資料調整模型行為，2026 年單卡～數卡即可完成，中型企業做得到
推論 + RAG：直接部署現成模型，配合檢索增強生成餵入企業知識——這是多數企業的實際落點

微調資源需求對照：單卡就能微調 70B 的時代

模型規模	全參數微調	LoRA	QLoRA
8B 級	約 69GB VRAM（需 80GB 級以上）	約 16GB（一張 24GB 卡可行）	約 6GB（幾乎任何現代 GPU）
70B 級	數百 GB（需多卡叢集）	約 160GB（需多卡）	約 46-48GB（一張 96GB 卡可行）
品質（相對全參數微調）	100%	約 90-95%	約 80-90%

關鍵落點：一張 96GB 的 RTX PRO 6000 Blackwell，就能單卡 QLoRA 微調 70B 級模型——微調已經不需要訓練叢集。對多數內部應用（客服語氣、領域術語、輸出格式規範），QLoRA 的品質已經足夠，真正需要全參數微調的場景反而少見。

三、推論的硬體需求

2026 企業推論 GPU 選型

推論強調「延遲」與「成本效率」，不需要最頂級的 GPU。選卡的第一準則是 VRAM 裝不裝得下「模型權重 + KV cache」，其次才是吞吐：

GPU	VRAM	定位	價位帶（約）	適用模型規模
L4	24GB	小型服務、邊緣推論、影像分析	NT$7-10 萬/卡	8B 級 FP16、13B 級量化
L40S	48GB	中階推論主力，VRAM／吞吐／價格平衡佳	購入採專案詢價；雲租約 US$0.5-7.6/hr（依供應商）	30B 級量化、多模型並行
RTX PRO 6000 Blackwell	96GB	企業自建甜蜜點：70B 量化推論 + 單卡 QLoRA 微調	台灣通路約 NT$42-43 萬（含 3 年保固）	30B 級 FP16、70B 級 4/8-bit
RTX 5090	32GB	POC／開發機；消費卡不建議 24/7 多用戶生產環境	MSRP US$2,000，2026 年因 DRAM 短缺街價約 US$3,000-5,000 且持續波動	32B 級量化；70B Q4 約需 40GB，單卡 32GB 裝不下（需雙卡或 CPU offload，速度大減）
H100 / H200	80GB / 141GB	高並發多用戶服務、訓練推論兼用	H100 約 NT$80-130 萬/卡；H200 單卡約 US$30,000-40,000	70B+ 高並發、百 B 級多卡

PCIe 版即可：純推論不需要 NVLink 多卡互連，PCIe 版更具性價比
T4 已退場：T4 是 2018 年 Turing 架構、僅 16GB VRAM，在 LLM 世代已不建議採購，僅適合小型影像辨識或傳統 ML 推論
RTX PRO 6000 分兩版：Workstation 與 Server Edition，機架伺服器部署應選 Server Edition

VRAM 怎麼估：一條夠用的公式

推論 VRAM ≈ 模型權重（參數量 × 每參數位元組）＋ KV cache（隨上下文長度 × 並發數成長）＋ 20-30% 餘裕

每參數位元組依精度而定：FP16 為 2 bytes、FP8/INT8 為 1 byte、4-bit 量化約 0.5 byte。實際例算：70B 模型以 4-bit 量化部署，權重約 70B × 0.5 ≈ 35GB。一張 48GB 卡裝得下權重，但留給 KV cache 的空間有限，只適合短上下文、低並發；換成 96GB 卡，才有長上下文（例如 RAG 要塞入大量檢索內容）與數十人並發的餘裕。這就是「表面上裝得下」與「實際上跑得動」的差別。

模型優化技術

透過模型優化，可用更少的硬體資源達到相近的推論品質：

量化（Quantization）：FP16 → FP8/INT4，模型大小縮減 2-4 倍、吞吐倍增，2026 年已是 LLM 部署的預設動作而非選配（格式怎麼選見第六節）
蒸餾（Distillation）：用小模型模仿大模型的行為，換取更低的部署成本
剪枝（Pruning）：移除不重要的神經元連接
推論引擎：LLM 用 vLLM／TensorRT-LLM，傳統 CV/ML 模型用 TensorRT / ONNX Runtime，自動選擇最佳運算路徑

這些技術在 2026 年已從「加分項」變成「標配」，完整的技術棧與選用優先順序，見下方第六節。

四、架構建議

訓練架構

集中式高密度 GPU 叢集，放置於專用機房
高速互連網路（InfiniBand / RoCEv2）
高速共享儲存（平行檔案系統如 Lustre、GPFS）
批次排程系統（Slurm、Kubernetes + GPU Operator）

推論架構

多台中低階 GPU 伺服器分散部署
負載平衡器分配推論請求
自動縮放：根據請求量動態增減推論節點
邊緣部署：對延遲敏感的場景可在邊緣節點部署推論

三組可直接參考的配置（Reference Build）

通用原則之外，以下是 2026 年台灣企業最常見的三種情境對應配置：

入門 RAG 知識庫機（數十人內部並發）：1× RTX PRO 6000 Blackwell 96GB ＋ 128GB 系統記憶體＋ NVMe SSD，軟體棧用 vLLM 跑 70B 級量化（或 30B 級 FP16）模型，搭配向量資料庫。這是「資料不出門的內部 AI 問答」最具性價比的單機答案
推論＋微調兩用機（有客製需求的團隊）：1-2× RTX PRO 6000 96GB——上班時間跑 vLLM 推論服務，離峰時段用同一批卡做 QLoRA 微調 70B 級模型，一機兩用，不必另購訓練設備
POC／開發工作站（驗證階段）：RTX 5090 32GB 工作站＋ Ollama，讓工程師在桌邊快速驗證模型與應用可行性；驗證通過後再上伺服器級配置，切勿直接拿消費卡上 24/7 生產環境

Ollama 還是 vLLM？單人或小團隊、單卡、對吞吐不敏感——用 Ollama，幾分鐘就能跑起來；要服務多用戶的正式服務、追求吞吐與並發——用 vLLM，continuous batching 帶來的吞吐差距是數倍級。更完整的伺服器規格規劃可參考企業 AI 伺服器規劃完整指南；GPU 機房的電力與散熱是另一個常被低估的環節，見 GPU 機房耗電計算指南。

五、成本比較：雲端 API、雲租 GPU、自建三條路

訓練級（一次性投資）：8×H100 SXM 伺服器 ≈ NT$800-1,300 萬（單卡約 NT$80-130 萬）
推論級（自建）：1×RTX PRO 6000 96GB 主機（卡約 NT$42-43 萬）可服務數十人內部並發；4×L4 伺服器 ≈ NT$80-120 萬
雲租參考價：H100 on-demand 均價約 US$3.2/hr、H200 約 US$3.7-10.6/hr、L4 約 US$0.44-0.80/hr

訓練的成本高但頻率低，推論的單次成本低但需要 24/7 運行——這兩種成本結構要分開計算。而取得推論算力，2026 年實際上有三條路可走：

比較項目	雲端 API（按 token 計費）	雲租 GPU	自建推論機
前期投資	零	零	數十萬～數百萬
變動成本	隨用量線性成長	按時計費，閒置也在燒錢	電費＋維運為主
維運人力	幾乎不需要	低～中	需要（最常被低估的隱性成本）
資料主權	資料出門（可靠區域選擇與合約約束降低風險）	資料在雲端	資料完全不出門
適合階段	試驗期、低用量	POC、微調專案、峰值擴充	用量穩定＋資料敏感

Break-even 門檻：多少用量才值得自建？

以 2026 年行情粗估：若對標的是頂級雲端 API 模型，大約月用量 500-1,000 萬 tokens 起自建才開始有感，穩定日用 50 萬 tokens 以上是常見的評估門檻；但若對標的是低價 API（如 DeepSeek 級定價），則需要月 5,000 萬到 1 億以上 tokens 才划算——而且以上都還沒計入維運人力這筆隱性成本，小規模場景的帳面節省很容易被它吃掉。

因此實務上的誠實結論是：多數台灣企業自建推論機的真正驅力不是省錢，而是資料不出門——設計圖、客戶合約、病歷、財務資料等不能上雲的場景，自建是滿足合規要求的直接解法，成本反而是次要考量。完整的三年 TCO 拆解可參考 GPU Server 與公有雲成本比較；若評估部署開源模型，DeepSeek 企業內部部署一文有更深入的實作面討論。

六、推論優化技術棧：2026 年哪些已是企業標配

同一張卡，用不用對軟體棧，吞吐可以差好幾倍。以下依「標配 → 建議 → 進階」排出優先順序，協助您判斷哪些該一開始就上、哪些等有明確需求再說。

推論引擎：vLLM 已是預設【標配】

2026 年生產環境的 LLM 推論引擎，vLLM 已是事實上的預設（版本迭代極快，以官方最新穩定版為準）。三項關鍵能力皆已內建：continuous batching——動態把新請求插進正在跑的批次，GPU 不空轉，多用戶吞吐比逐批處理高出數倍；PagedAttention——把 KV cache 像作業系統分頁一樣管理，大幅減少 VRAM 碎片浪費；prefix caching——重複的前綴只算一次。多卡部署所需的 tensor parallel 也是標配功能。Ollama 依然有其位置——單機、小團隊、快速試驗；但要服務多用戶的正式服務，vLLM 才是正解。

量化格式怎麼選【標配～建議】

格式	硬體需求	效益	品質損失	建議場景
FP8	Hopper（H100 起）/ Blackwell 原生支援	約 2 倍 FP16 吞吐	最小	Hopper 世代首選【標配】
AWQ（INT4）	各世代 GPU 皆可	權重約縮至 1/4	小	VRAM 吃緊時的 INT4 首選【建議】
GPTQ（INT4）	各世代 GPU 皆可	權重約縮至 1/4	略高於 AWQ	既有生態相容需求【備選】
NVFP4	僅 Blackwell（A100/H100/L40S/4090 無原生 FP4 資料路徑）	約 FP8 的 1.5-2 倍吞吐	小	Blackwell 新機隊【進階】

Prefix caching：RAG 場景的隱藏紅利【建議】

企業內部 AI 最常見的形態是 RAG 知識庫問答，而這類應用的請求有個共同特徵：每一次都帶著同一段很長的 system prompt 與知識模板。Prefix caching 讓這段重複前綴只需 prefill 一次，之後的請求直接命中快取——system prompt 越長、越固定，首字延遲（TTFT）改善越有感。vLLM 已內建此功能，確認開啟即可，幾乎是免費的效能。

投機解碼（Speculative Decoding）【進階選配】

用一個小的 draft model 先快速猜出多個 token，再由大模型一次驗證。當 draft model 的接受率夠高（約 0.6-0.7 以上），可獲得約 1.3-2 倍的解碼加速；但要注意它加速的是逐字生成的階段，首字延遲（TTFT）由 prefill 決定、投機解碼無法改善。適合輸出偏長、有嚴格延遲 SLA 的對外服務。但它需要挑選並調校合適的 draft model，屬於進階選配——先把 vLLM、量化、prefix caching 這三件標配做好，多數場景已經足夠。

七、台灣中小企業判斷準則：多數公司只需要一台推論機

把前面六節收斂成一份可以直接拿去開會的判斷清單：

1. 你要「用 AI」還是「造 AI」？——絕大多數企業是前者。部署現成開源模型＋RAG 就能解決內部知識問答、文件摘要、客服輔助等主流需求，完全不涉及訓練
2. 資料能不能出門？——能，先用雲端 API 最省事；不能（設計圖、合約、個資、財務資料），自建推論機是合規解，這時成本不是第一考量
3. 用量到門檻了嗎？——先實際量測月 tokens 用量再決策。未達第五節的 break-even 區間，「自建純為省錢」並不成立
4. 需要模型「懂你們公司」嗎？——先試 RAG（不改模型、成本最低）；RAG 真的不夠，再考慮 QLoRA 微調——一張 96GB 卡就能微調 70B 級模型，門檻已不在硬體而在資料整理
5. 有人維運嗎？——自建推論機是 24/7 服務，模型更新、監控、備援都要有人負責；沒有專職 IT 人力，建議在建置階段就把長期維運一併納入規劃

對應到採購決策的速查：只想試試→雲端 API；要驗證可行性→雲租 GPU 或一台 RTX 5090 工作站；資料不出門＋數十人使用→一台 RTX PRO 6000 96GB 推論機（這是多數台灣中小企業的答案）；高並發對外服務或常態微調→多卡 L40S / H100 級配置，此時建議連同機房電力、散熱與網路一起做整體規劃。

重點摘要

訓練 = 教模型（叢集級、超大廠賽局）；微調 = 校模型（2026 年單卡可行）；推論 = 用模型（多數企業的實際落點）
2026 年推論已佔 AI 算力約 2/3；推論的第一瓶頸是 VRAM（權重 + KV cache），不是 FLOPS
選卡速查：L4 24GB（小型）、L40S 48GB（中階）、RTX PRO 6000 96GB（70B 量化推論＋單卡 QLoRA，約 NT$42-43 萬）；H100 級（約 NT$80-130 萬/卡）留給高並發與訓練
軟體棧標配：vLLM＋量化（FP8/AWQ）＋prefix caching——同一張卡吞吐可差數倍
自建的真正驅力常是資料不出門；純省錢要先過月 tokens break-even 門檻，建議先雲端 POC 再自建

不確定現況或下一步該怎麼做？凱茂資深工程師用實戰經驗，協助您釐清問題、找出最適合貴公司的做法。

預約免費架構盤點 →

相關方案：AI · GPU 伺服器整合

凱茂資訊為您提供完整的規劃、建置與維運服務，歡迎諮詢。

瞭解我們的 AI 伺服器方案 → 索取報價

常見問題

AI 訓練跟推論有什麼差別？

訓練是「教模型學習」——輸入大量資料調整模型參數，需要大量 GPU 算力（H100/A100），耗時數天到數週，是一次性或低頻的工作。推論是「用模型回答」——把使用者輸入丟給訓練好的模型產生結果，對延遲敏感（要快速回應），算力需求較低但需持續運行。類比：訓練像讀書考試，推論像用學到的知識回答問題。

企業要做 AI 一定要買 H100 嗎？

不一定。多數企業是部署或微調現有開源模型（如 Llama 4、Qwen3 世代）做內部知識問答，推論用 L4（約 NT$7-10 萬/卡）到 RTX PRO 6000 96GB（台灣通路約 NT$42-43 萬/卡）即可涵蓋。H100 級 GPU（2026 年約 NT$80-130 萬/卡、8 卡整機約 NT$800-1,300 萬）主要用於從頭訓練或高並發多用戶服務。建議先用公雲 GPU 做 POC，確認需求後再決定是否自建。

中小企業想微調自己的 AI 模型，需要什麼等級的硬體？

微調已不需要訓練叢集。使用 QLoRA 技術，8B 級模型約 6GB VRAM、70B 級模型約 46-48GB VRAM 即可微調——一張 96GB 的 RTX PRO 6000 就能單卡微調 70B 模型。品質上 QLoRA 約可達全參數微調的 80-90%、LoRA 約 90-95%，對多數企業內部應用已足夠。建議先確認 RAG（檢索增強生成）無法滿足需求，再投入微調。

自建 AI 推論主機划算，還是繼續用雲端 API？

取決於用量與資料主權。對標頂級雲端 API 模型，約月 500-1,000 萬 tokens 起自建才開始有感；若對標低價 API，需月 5,000 萬到 1 億以上 tokens 才划算，且要計入維運人力等隱性成本。實務上多數企業自建的主因不是省錢，而是資料不出門與合規要求。建議先用雲端 POC 驗證，用量與資料敏感度都到位再自建。