大學 HPC 算力叢集建置
NVIDIA A100 GPU 叢集,AI 研究算力提升 200%,15 個研究計畫同步推進
提升幅度
同步並行
時間縮短
客戶背景與面臨挑戰
中部某研究型大學資訊工程學院與生醫工程學系近年研究重心快速向 AI 與大數據分析領域轉移,涵蓋自然語言處理、醫學影像分析與分子動力學模擬等多個前沿研究方向。然而,學院現有算力基礎設施以傳統 CPU 叢集為主,建置時間超過 10 年,無法支撐深度學習模型的訓練需求。
研究生被迫使用個人筆電訓練模型,動輒需等待數週,嚴重拖延研究進度。部分計畫甚至因算力不足而無法參與國際競賽或投稿頂級期刊,影響學院整體研究能量。
凱茂資訊提供的解決方案
凱茂資訊依據學院研究需求,規劃以 NVIDIA A100 GPU 為核心的 HPC 叢集架構,搭配高速互連網路與集中儲存,提供研究人員一致的算力使用體驗。
導入成效
HPC 叢集正式啟用後,學院研究能量顯著提升。以大型語言模型微調任務為基準,訓練時間由原本的 72 小時縮短至 20 小時,縮短 72%;整體算力相較舊有 CPU 叢集提升超過 200%。
Slurm 排程系統上線後,同時有 15 個研究計畫在叢集上並行執行,資源爭搶問題完全消除。共享儲存讓跨研究室資料協作成為日常,數據集版本管理規範化,研究可重現性大幅提升。
學院已憑借更強的研究產出,成功申請 2 項國科會大型計畫,並有 3 篇研究論文投稿至頂級 AI 會議,研究競爭力顯著提升。
學院已規劃於下一期計畫擴充至 64 顆 GPU,並評估導入 NVIDIA DGX SuperPOD 架構,凱茂資訊持續提供維運與擴充顧問服務。
「以前同學們要跑個模型,等兩天是常有的事,大家都在搶資源。現在有了這套叢集,不只速度快很多,Slurm 的排程讓大家都能公平使用。最重要的是,我們終於有能力去挑戰以前根本想都不敢想的大型實驗。」