前言:為什麼企業想自建 LLM?
DeepSeek V3.2/R1、Meta Llama 4、Alibaba Qwen3、Mistral、Microsoft Phi-4 等開源大型語言模型的快速發展(多數採 MIT 或寬鬆商用授權),讓企業自建私有 LLM 成為可行選項。相較於呼叫 OpenAI/Azure OpenAI API,企業自建的主要動機有三:資料不出境(醫療、金融、政府等法規要求)、長期成本可控(大量 Token 呼叫後自建更划算)、客製化微調(Fine-Tuning/RAG 整合內部知識庫)。
本文將帶您評估硬體需求、推論框架選型、資安隔離設計,以及適合台灣中大型企業的導入路線。
一、主流開源 LLM 模型概覽
| 模型 | 參數量 | 開發者 | 最低 VRAM (Q4) | 適用場景 |
|---|---|---|---|---|
| Phi-4-mini | 3.8B | Microsoft | 4 GB | 邊緣裝置、輕量 PoC |
| Qwen3 8B | 8B | Alibaba | 6 GB | 小型部門、PoC 測試 |
| Mistral Small / Gemma 3 27B | 7-27B | Mistral / Google | 6-18 GB | 部門級應用、多語言 |
| DeepSeek-R1-Distill 70B | 70B | DeepSeek | 48 GB (2×24G) | 企業級高品質推論 |
| DeepSeek V3.2 / Llama 4 Maverick (MoE) | 400B-685B | DeepSeek / Meta | 多卡或量化 | 大型機構旗艦、長上下文 |
以上模型均為開源或開放授權(多為 MIT 或寬鬆商用條款)。其中 DeepSeek、Qwen 由中國機構發布——可放心使用其開源權重「自建」(資料不出公司、權重經社群審視),但切勿直接呼叫其官方雲端 API(流量會送往中國境內,受監管產業屬違規)。
二、硬體規劃指引
GPU 選型建議
推論不需要訓練等級的高頻寬互連,重點在 VRAM 容量與推論吞吐(Token/s)。
| 用途規模 | 推薦 GPU | VRAM | 預估 Token/s (Q4) |
|---|---|---|---|
| 部門 PoC | RTX 5090(或性價比 4090) | 32 GB | ~90 (8B Q4) |
| 中型企業 | RTX 6000 Ada / Blackwell × 2 | 96 GB | ~35 (70B Q4) |
| 大型企業單節點 | H100 / H200 PCIe | 80-141 GB | ~90 (70B FP8) |
| 多節點叢集 | H100/H200 SXM × 8 或 Blackwell B200 | 640 GB+ | DeepSeek V3.2 / Llama 4 Maverick FP8 可跑 |
CPU + RAM + Storage
- VRAM 不足時可用 CPU offload(llama.cpp),速度約降 5-10×
- 系統 RAM 建議 ≥ 2× 模型量化大小(buffer + KV cache)
- 儲存:NVMe SSD,模型載入速度直接影響冷啟動時間
三、推論框架選型
| 框架 | 適合對象 | 特色 | API 相容性 |
|---|---|---|---|
| Ollama | 個人/小型團隊 | 一鍵安裝、GUI 友善 | OpenAI-compatible REST |
| vLLM | 企業級高並發 | PagedAttention、高吞吐 | OpenAI-compatible REST |
| llama.cpp | CPU/低資源環境 | GGUF 量化、可跑 CPU | CLI + server mode |
| LMDeploy | 大模型專用 | TurboMind 引擎、支援 FP8 | OpenAI-compatible REST |
| TGI (HuggingFace) | 開發者友善 | 容器化、支援多模型 | 自有 REST API |
企業推薦:vLLM + Docker Compose
vLLM 提供 OpenAI 相容 API,現有串接 GPT API 的應用幾乎零改動即可切換。搭配 Docker Compose 管理容器,加上 Nginx 做反向代理與 API Key 驗證,是目前企業落地最成熟的方案。而這套推論底座接下來要服務的,往往不只是問答應用,還有會自主呼叫 API 的代理式 AI——建議搭配 企業 AI Agent 落地與風險控管框架,把權限與成本治理一併規劃進去。
四、資安隔離設計
私有 LLM 的資安設計比模型本身更重要。以下是三層防護架構:
1. 網路隔離
- LLM 推論主機放置於獨立 VLAN,禁止直接對外存取
- 只允許內部應用伺服器透過 API Gateway 呼叫
- 禁止 GPU 主機連線至外部 LLM API(防止資料洩漏)
2. 存取控制
- API Key 管理:每個應用程式使用獨立 API Key,並設置呼叫量配額
- 使用者層級:整合企業 SSO(Entra ID / LDAP),確保只有授權人員可呼叫
- Prompt 稽核日誌:記錄所有 Prompt 與回應(注意:日誌本身也可能含敏感資料,需加密儲存)
3. 模型供應鏈安全
- 從 HuggingFace 下載模型時驗證 SHA256 雜湊值
- 建立內部 Model Registry(如 Gitea LFS 或 S3 相容儲存)
- 模型更新需經 IT 審查,禁止開發者自行拉取未審查模型
五、RAG 整合:讓 LLM 讀懂企業資料
裸模型的知識截止日期固定,且不了解企業內部資料。RAG(Retrieval-Augmented Generation)是解法:
- 文件向量化:將企業文件(PDF、Word、HTML)透過 Embedding 模型轉為向量
- 向量資料庫:Milvus、Qdrant、Weaviate 或 pgvector
- 檢索 + 生成:使用者提問 → 相似度搜尋 → 相關段落注入 Prompt → LLM 回答
六、導入路線圖
| 階段 | 時程 | 目標 | 產出 |
|---|---|---|---|
| PoC 驗證 | 第 1 個月 | 選定模型、建立單機環境 | 效能基準報告 |
| 部門試行 | 第 2-3 個月 | 1-2 個部門使用案例 | 使用者回饋、Prompt 優化 |
| RAG 整合 | 第 3-5 個月 | 知識庫向量化、問答系統 | 內部 AI 助理 v1 |
| 企業推廣 | 第 6 個月起 | 擴展用戶、多模型管理 | 企業 AI 平台 |
重點摘要
- 開源 LLM(DeepSeek V3.2/R1、Llama 4、Qwen3、Phi-4)可私有化部署在企業 GPU 伺服器
- 核心優勢:資料不出公司、無 API 費用、可微調;DeepSeek/Qwen 用開源權重自建可避開官方 API 走中國的合規問題
- 8B 級入門:RTX 5090 32GB(或性價比 4090),70B 模型:多張 A100/H100
- 搭配 RAG 可讓模型回答企業內部知識
不確定現況或下一步該怎麼做?凱茂資深工程師用實戰經驗,協助您釐清問題、找出最適合貴公司的做法。
預約免費 LLM 部署評估 →常見問題
企業可以自己架 ChatGPT 嗎?
可以,但不是用 ChatGPT 本身(OpenAI 不開源),而是用效能接近的開源模型(如 DeepSeek V3.2/R1、Meta Llama 4、Alibaba Qwen3、Microsoft Phi-4)部署在企業自有 GPU 伺服器上。搭配 RAG(檢索增強生成)可讓模型回答企業內部知識。優點:資料不出公司、無 API 費用、可微調。
自建 LLM 需要什麼硬體?
視模型大小:8B 級模型(如 Qwen3 8B、Llama 3.3 8B)需 1x RTX 5090(32GB VRAM,約 8-11 萬元;或性價比選 RTX 4090 24GB)。30B 級模型需單張 A100/H100(40-80GB VRAM)。70B 模型 Q4 約需 40GB 以上,建議雙卡或 H100/H200。推薦入門:Ollama + RTX 5090 跑 8B 模型,十萬元內即可起步。
訂閱 IT 技術電子報
每月精選 IT 趨勢與實務文章,直接送到你的信箱