首頁 / 成功案例 / 大學 HPC 算力叢集建置
Case Study · 教育研究機構

大學 HPC 算力叢集建置

NVIDIA A100 GPU 叢集,AI 研究算力提升 200%,15 個研究計畫同步推進

返回所有案例
教育機構 HPC NVIDIA GPU AI 研究 導入完成:2026 Q1
機構類別
研究型大學
使用者規模
研究生 500+ 人
服務地區
台灣中部
導入週期
4 個月
200%
研究算力
提升幅度
15個
研究計畫
同步並行
72%
模型訓練
時間縮短
⚠ BEFORE
運算排隊等待時間 2-3 天,研究產出受限
✓ AFTER
HPC 叢集 + GPU 加速 + 作業排程最佳化
★ IMPACT
運算等待時間降至 < 2 小時、論文產出增加 40%、獲國科會計畫

客戶背景與面臨挑戰

中部某研究型大學資訊工程學院與生醫工程學系近年研究重心快速向 AI 與大數據分析領域轉移,涵蓋自然語言處理、醫學影像分析與分子動力學模擬等多個前沿研究方向。然而,學院現有算力基礎設施以傳統 CPU 叢集為主,建置時間超過 10 年,無法支撐深度學習模型的訓練需求。

研究生被迫使用個人筆電訓練模型,動輒需等待數週,嚴重拖延研究進度。部分計畫甚至因算力不足而無法參與國際競賽或投稿頂級期刊,影響學院整體研究能量。

CPU 叢集算力嚴重不足,排隊等待時間長
舊有 CPU 叢集無法執行 GPU 加速訓練,研究生提交作業後平均等待超過 48 小時,模型迭代速度極慢,嚴重影響研究效率。
多研究室算力資源搶奪,管理混亂
各研究室自行採購工作站,資源孤立無法共享,高峰期算力嚴重不足,低峰期資源閒置浪費,缺乏統一排程與資源配額管理。
研究資料儲存分散,協作困難
訓練資料集分散於各研究生個人電腦,跨研究室資料共享依賴實體硬碟傳遞,版本管理混亂,研究重現性低。

凱茂資訊提供的解決方案

凱茂資訊依據學院研究需求,規劃以 NVIDIA A100 GPU 為核心的 HPC 叢集架構,搭配高速互連網路與集中儲存,提供研究人員一致的算力使用體驗。

01
研究需求訪談與叢集架構設計
與各研究室 PI 進行深度訪談,分析模型規模、資料集大小、並行訓練需求,確認 GPU 型號(A100 80GB)、節點數量與互連網路規格(InfiniBand HDR)。
02
NVIDIA A100 GPU 叢集建置
部署 4 台配備 8× NVIDIA A100 80GB 的 GPU 伺服器(共 32 顆 GPU),搭配 100GbE 乙太網路與 InfiniBand HDR 高速互連,提供多節點分散式訓練能力。
03
Slurm 作業排程系統部署
建置 Slurm 工作負載管理器,支援 GPU 資源細粒度分配(單顆 GPU 到整節點)、公平份額排程與研究室配額管理,資源利用率平均達 87%。
04
共享高速儲存與環境容器化
建置 Lustre 平行儲存系統提供 2PB 研究資料空間,並整合 Singularity 容器平台,研究生可自行管理軟體環境,系統管理員負擔大幅降低。

導入成效

HPC 叢集正式啟用後,學院研究能量顯著提升。以大型語言模型微調任務為基準,訓練時間由原本的 72 小時縮短至 20 小時,縮短 72%;整體算力相較舊有 CPU 叢集提升超過 200%

Slurm 排程系統上線後,同時有 15 個研究計畫在叢集上並行執行,資源爭搶問題完全消除。共享儲存讓跨研究室資料協作成為日常,數據集版本管理規範化,研究可重現性大幅提升。

學院已憑借更強的研究產出,成功申請 2 項國科會大型計畫,並有 3 篇研究論文投稿至頂級 AI 會議,研究競爭力顯著提升。

POST-DEPLOYMENT · 導入後追蹤
87%
GPU 平均使用率
2PB
共享儲存容量
3篇
頂會論文投稿

學院已規劃於下一期計畫擴充至 64 顆 GPU,並評估導入 NVIDIA DGX SuperPOD 架構,凱茂資訊持續提供維運與擴充顧問服務。

「以前同學們要跑個模型,等兩天是常有的事,大家都在搶資源。現在有了這套叢集,不只速度快很多,Slurm 的排程讓大家都能公平使用。最重要的是,我們終於有能力去挑戰以前根本想都不敢想的大型實驗。」

— 計算基礎設施組 IT 主管,中部某研究型大學

想為研究團隊或企業建置 GPU 算力平台?

凱茂資訊顧問將在 1 個工作天內與您聯繫,提供免費需求評估與選型建議。

預約算力規劃諮詢
凱茂
安裝凱茂資訊 App
快速存取報修、報價與 IT 資源
需要 IT 顧問協助?
30 分鐘免費評估 · 一般 1 個工作天內回覆