Case Study · 教育研究機構

大學 HPC算力叢集建置

NVIDIA A100 GPU 叢集，AI 研究算力提升 200%，15 個研究計畫同步推進。

返回所有案例

教育機構 HPC NVIDIA GPU AI 研究導入完成：2026 Q1

機構類別

研究型大學

使用者規模

研究生 500+ 人

服務地區

台灣中部

導入週期

4 個月

200%

研究算力
提升幅度

15個

研究計畫
同步並行

72%

模型訓練
時間縮短

⚠ BEFORE

運算排隊等待時間 2-3 天，研究產出受限

✓ AFTER

HPC 叢集 + GPU 加速 + 作業排程最佳化

★ IMPACT

運算等待時間降至 < 2 小時、論文產出增加 40%、獲國科會計畫

BACKGROUND

客戶背景與面臨挑戰

中部某研究型大學資訊工程學院與生醫工程學系近年研究重心快速向 AI 與大數據分析領域轉移，涵蓋自然語言處理、醫學影像分析與分子動力學模擬等多個前沿研究方向。然而，學院現有算力基礎設施以傳統 CPU 叢集為主，建置時間超過 10 年，無法支撐深度學習模型的訓練需求。

研究生被迫使用個人筆電訓練模型，動輒需等待數週，嚴重拖延研究進度。部分計畫甚至因算力不足而無法參與國際競賽或投稿頂級期刊，影響學院整體研究能量。

CPU 叢集算力嚴重不足，排隊等待時間長

舊有 CPU 叢集無法執行 GPU 加速訓練，研究生提交作業後平均等待超過 48 小時，模型迭代速度極慢，嚴重影響研究效率。

多研究室算力資源搶奪，管理混亂

各研究室自行採購工作站，資源孤立無法共享，高峰期算力嚴重不足，低峰期資源閒置浪費，缺乏統一排程與資源配額管理。

研究資料儲存分散，協作困難

訓練資料集分散於各研究生個人電腦，跨研究室資料共享依賴實體硬碟傳遞，版本管理混亂，研究重現性低。

SOLUTION

凱茂資訊提供的解決方案

凱茂資訊依據學院研究需求，規劃以 NVIDIA A100 GPU 為核心的 HPC 叢集架構，搭配高速互連網路與集中儲存，提供研究人員一致的算力使用體驗。

研究需求訪談與叢集架構設計

與各研究室 PI 進行深度訪談，分析模型規模、資料集大小、並行訓練需求，確認 GPU 型號（A100 80GB）、節點數量與互連網路規格（InfiniBand HDR）。

NVIDIA A100 GPU 叢集建置

部署 4 台配備 8× NVIDIA A100 80GB 的 GPU 伺服器（共 32 顆 GPU），搭配 100GbE 乙太網路與 InfiniBand HDR 高速互連，提供多節點分散式訓練能力。

Slurm 作業排程系統部署

建置 Slurm 工作負載管理器，支援 GPU 資源細粒度分配（單顆 GPU 到整節點）、公平份額排程與研究室配額管理，資源利用率平均達 87%。

共享高速儲存與環境容器化

建置 Lustre 平行儲存系統提供 2PB 研究資料空間，並整合 Singularity 容器平台，研究生可自行管理軟體環境，系統管理員負擔大幅降低。

RESULTS

導入成效

HPC 叢集正式啟用後，學院研究能量顯著提升。以大型語言模型微調任務為基準，訓練時間由原本的 72 小時縮短至 20 小時，縮短 72%；整體算力相較舊有 CPU 叢集提升超過 200%。

Slurm 排程系統上線後，同時有 15 個研究計畫在叢集上並行執行，資源爭搶問題完全消除。共享儲存讓跨研究室資料協作成為日常，數據集版本管理規範化，研究可重現性大幅提升。

學院已憑借更強的研究產出，成功申請 2 項國科會大型計畫，並有 3 篇研究論文投稿至頂級 AI 會議，研究競爭力顯著提升。

POST-DEPLOYMENT · 導入後追蹤

87%

GPU 平均使用率

2PB

共享儲存容量

3篇

頂會論文投稿

學院已規劃於下一期計畫擴充至 64 顆 GPU，並評估導入 NVIDIA DGX SuperPOD 架構，凱茂資訊持續提供維運與擴充顧問服務。

「以前同學們要跑個模型，等兩天是常有的事，大家都在搶資源。現在有了這套叢集，不只速度快很多，Slurm 的排程讓大家都能公平使用。最重要的是，我們終於有能力去挑戰以前根本想都不敢想的大型實驗。」

— 計算基礎設施組 IT 主管，中部某研究型大學

RELATED SERVICES

此案例涉及的核心服務

Start Here

想為研究團隊或企業建置 GPU 算力平台？

凱茂資訊顧問將在 1 個工作天內與您聯繫，提供免費需求評估與選型建議。

預約免費 IT 健檢預約算力規劃諮詢