手機過熱是一個令民眾感到不悅的問題,有時甚至影響民眾對品牌的信任。為了解決多核心晶片運行的溫度挑戰,電機學院電子研究所陳坤志副教授帶領的Ceres Lab研究團隊開發出創新的晶片內網路溫度預測及溫控技術,此技術能顯著增強多核晶片的散熱性能。
多核心晶片近年廣泛應用在個人電腦、手機、伺服器等設備。隨著處理器核心數量的增加,多核心晶片內連線的挑戰也逐漸提高,使得晶片內網路(Network on Chip, NoC)連線結構成為熱門的技術議題。同時,隨著運算核心的時脈頻率提高,造成多核心晶片上的功率密度增加,帶來嚴重的溫度挑戰,大大影響晶片的運作效能及可靠度。
電機學院 電子研究所陳坤志副教授帶領Ceres Lab研究團隊,由碩士生廖元豪、陳政廷、王蕾期共同提出低成本線上學習機制進行晶片內網路系統的準確溫度預測,並透過可適性強化式學習(adaptive reinforcement learning)技術進行動態的主動式溫度管理,改善多核心晶片(multi-core chip)的溫度挑戰,大幅提升系統溫度管理效能。這項創新的研究成果獲選2024 IEEE TVLSI最佳論文獎,為台灣首度獲此殊榮。
研究團隊解釋,NoC系統的熱問題必須在運行時監控系統溫度。當系統溫度達到危險水平時,動態熱管理機制將被觸發,以防止系統過熱。動態的主動式溫度管理(PDTM)會根據溫度預測訊息提前控制系統溫度,透過部分節流方案,在溫度控制期間減少性能影響,相較於傳統的反應式動態熱管理更為有效。
而NoC系統的溫度行為因各種工作負載分佈而異,增加了運行時準確捕捉電容、電阻、功率等物理參數值的難度,導致較大的溫度預測誤差。近年機器學習的預測方法能夠動態滿足物理系統行為的超平面。然而,機器學習方法高度依賴訓練數據的品質,因此在NoC系統中仍存在較大的誤差。
陳坤志表示,研究團隊所提出的這項基於機器學習的主動式溫度管理,採用最小均方可適性濾波理論優化模型,動態調整溫度預測,提高預測準確性,以應對不同工作負載和溫度變化。並引入自適應強化學習方法,透過即時反饋當前溫度、預測溫度和系統吞吐量動態調整節流比例,達到最佳的熱管理效果,同時最大化保證系統性能。研究結果顯示,相較於傳統方法,研究提出的自適應強化學習方法顯著減少溫度預測誤差同時提升系統性能。
這項創新研究成果不僅並獲選今年 IEEE TVLSI最佳論文獎,也創下30年來台灣首度有團隊獲此殊榮。這不僅是對實驗室研究團隊給予最大肯定,也顯示本校的卓越研究貢獻與前瞻技術研發能量。