阿里云機器學習平臺PAI論文入選IJCAI 2022會議
近日,阿里云機器學習平臺PAI主導的論文《Parameter-Efficient Sparsity for Large Language Models Fine-Tuning》,大模型參數高效稀疏訓練算法PST被IJCAI(International Joint Conference on Artificial Intelligence)2022錄取。論文通過減少模型稀疏訓練過程中需要更新的參數量,從而減少大模型稀疏訓練的時間以及資源開銷。
IJCAI(International Joint Conference on Artificial Intelligence)是人工智能領域的頂級國際會議之一,涉及機器學習,計算機視覺,自然語言處理等多個方向。本年度會議投稿超過4500篇,錄用率僅為15%,會議于7月在奧地利維也納召開。此次入選意味著阿里云機器學習平臺PAI在大模型優化方向上的研究達到了全球業界先進水平,獲得了國際學者的認可,展現了中國深度學習技術在國際上的競爭力。
首個大模型參數高效的稀疏訓練算法PST
論文核心內容是通過減少模型稀疏訓練過程中需要更新的參數量,從而減少大模型稀疏訓練的時間以及資源開銷。近幾年,越來越多的大模型被提出,這些模型的參數量從百億到千億甚至萬億,雖然它們可以達到很高的模型精度,但是過大的模型體積限制了這些大模型的實際落地應用。稀疏作為一個有效的模型壓縮手段,可以將大模型壓縮到較小的體積,使得它們能夠以較少的資源較快的速度運行起來。然而,稀疏訓練本身會引入額外的參數,從而使得大模型的稀疏訓練需要占用更多的訓練資源以及導致訓練速度更慢。
針對這一問題,PST提出了一種參數高效的稀疏訓練算法,通過分析權重的重要性指標,得出了其擁有兩個特性:低秩性和結構性。根據這一結論,PST算法引入了兩組小矩陣來計算權重的重要性,相比于原本需要與權重一樣大的矩陣來保存和更新重要性指標,稀疏訓練需要更新的參數量大大減少。對比常用的稀疏訓練算法,PST算法可以在僅更新1.5%的參數的情況下,達到相近的稀疏模型精度。
PST技術已經集成在阿里云機器學習PAI的模型壓縮庫,以及Alicemind平臺大模型稀疏訓練功能中。為阿里巴巴集團內部落地使用大模型帶來了性能加速,在百億大模型PLUG上,PST相比于原本的稀疏訓練可以在模型精度不下降的情況下,加速2.5倍,內存占用減少10倍。目前,阿里云機器學習PAI已經被廣泛應用于各行各業,提供AI開發全鏈路服務,實現企業自主可控的AI方案,全面提升機器學習工程效率。
論文名字:
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning
論文作者:
李與超、羅福莉、譚傳奇、王夢娣、黃松芳、李深、白俊杰
論文鏈接:https://arxiv.org/pdf/2205.11005.pdf
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com