科技日報記者 陸成寬
記者8日從中國科學院自動化研究所獲悉,來自該所等單位的科研人員,首次在國產GPU算力平臺上,完成原生類腦脈沖大模型“瞬悉”1.0的全流程訓練和推理,并正式開源了70億參數版本大模型,同時開放了760億參數版本大模型的測試網址。這是全球首款類腦脈沖大模型,實現了全流程國產化,標志著我國在類腦計算與大模型融合創新方面取得重要突破。
當前,基于Transformer架構的大模型主要依賴簡單“點神經元”與大規模算力提升智能,但其訓練和推理成本隨文本長度急劇增加,嚴重制約超長文本處理能力的提升。
在這項研究中,研究團隊另辟蹊徑,借鑒大腦神經元的工作機制,提出了一種新的“基于內生復雜性”的具有線性復雜度的類腦脈沖大模型架構,成功打造出“瞬悉”1.0。“這個模型不僅在理論上揭示了新型計算路徑,還構建了適配國產算力的訓練推理框架,為構建更高效、更復雜且性能更強的新型大模型開辟了新路徑。”中國科學院自動化研究所研究員李國齊說。
相比傳統模型,“瞬悉”1.0展現出四大核心優勢:首先,在極低數據量下實現了高效訓練,顯著提升了長序列訓練效率;其次,推理效率得到數量級提升,特別是在超長序列處理上展現出顯著優勢;再次,構建了國產自主可控的類腦大模型生態,支持將現有Transformer模型高效轉換為類腦脈沖架構;最后,設計了多尺度稀疏機制,為低功耗的類腦大模型運行提供了有力支撐。
李國齊表示,這項成果不僅是我國在類腦脈沖大模型架構和國產算力全流程建設上的重大突破,更為法律、醫療、科學模擬等超長序列應用場景提供了更高效的建模工具,也將啟迪下一代神經形態計算理論和芯片設計。
(中國科學院自動化研究所供圖)