久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

摩爾線程開源音頻理解大模型MooER:38小時訓練5000小時數據

來源:快科技 編輯:非小米 時間:2024-08-23 20:00人閱讀

快科技8月23日消息,摩爾線程官方宣布,音頻理解大模型“MooER”(摩耳)已經正式開源,并公布在GitHub上:https://github.com/MooreThreads/MooER

目前開源的內容包括推理代碼,以及5000小時數據訓練的模型,后續還將開源訓練代碼,以及基于8萬小時數據訓練的模型。

摩爾線程希望,能夠在語音大模型的方法演進和技術落地方面為社區做出貢獻。

MooER是業界首個基于國產全功能GPU進行訓練和推理的大型開源語音模型,依托摩爾線程的夸娥(KUAE)智算平臺,并得益于自研的創新算法和高效計算資源的結合,僅用38個小時,就完成了5000小時音頻數據和偽標簽的訓練。

MooER不僅支持中文和英文的語音識別,還具備中譯英的語音翻譯能力,并在多個語音識別領域的測試集中,展現出了領先或至少持平的優異表現。

摩爾線程開源音頻理解大模型MooER:38小時訓練5000小時數據

MooER的模型結構包括Encoder、Adapter、Decoder(LLM)三個部分。

其中,Encoder對輸入的原始音頻進行建模,提取特征并獲取表征向量。

Encoder的輸出會送到Adapter進一步下采樣,使得每120ms音頻輸出一組音頻Embedding。

音頻Embedding和文本的Prompt Embedding拼接后,再送進LLM進行對應的下游任務,如語音識別(ASR)、語音翻譯(AST)等。

在模型訓練階段,融合了語音模態和文本模態的數據會按以下形式輸入到LLM:

摩爾線程開源音頻理解大模型MooER:38小時訓練5000小時數據

摩爾線程使用開源的Paraformer語音編碼器、Qwen2-7B-instruct大語言模型,初始化Encoder和LLM模塊,并隨機初始化Adapter模塊。

訓練過程中,Encoder始終固定參數,Adapter和LLM會參與訓練和梯度更新。

利用自研的夸娥智算平臺,摩爾線程使用DeepSpeed框架和Zero2策略,基于BF16精度進行訓練和推理。

經實驗發現,訓練過程中更新LLM參數能夠提升最終音頻理解任務的效果。

為了提升訓練效率,摩爾線程采用了LoRA技術,僅更新2%的LLM參數。具體的模型參數規模如下:

摩爾線程開源音頻理解大模型MooER:38小時訓練5000小時數據

該模型的訓練數據MT5K(MT 5000h)由部分開源數據和內部數據構成,內部數據的語音識別標簽均是由第三方云服務得到的偽標簽。

語音識別的偽標簽經過一個文本翻譯模型后,得到語音翻譯的偽標簽,且沒有對這些偽標簽數據做任何的人工篩選。

具體數據來源和對應的規模如下:

摩爾線程開源音頻理解大模型MooER:38小時訓練5000小時數據

摩爾線程將MooER與多個開源的音頻理解大模型進行了對比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3、SeamlessM4T-v2等。這些模型的訓練規模從幾萬小時到上百萬小時不等。

對比結果顯示,開源模型MooER-5K在六個中文測試集上的CER(字錯誤率)達到4.21%,在六個英文測試集的WER(詞錯誤率)為17.98%,與其它開源模型相比,效果更優或幾乎持平。

特別是在Covost2 zh2en中譯英測試集上,MooER的BLEU分數達到了25.2,顯著優于其他開源模型,取得了可與工業水平相媲美的效果。

基于內部8萬小時數據訓練的MooER-80k模型,在上述中文測試集上的CER達到了3.50%,在英文測試集上的WER到達了12.66%。

與此同時,摩爾線程還得到一些有趣的結論,可以為數據資源和計算資源有限的開發者提供一些建議:

▼Encoder的選擇。

分別對比無監督(Self-Supervised Learning)訓練的W2v-bert 2.0、半監督(Semi-Supervised Learning)訓練的Whisper v3、有監督(Supervised Learning)訓練的Paraformer。

采用無監督訓練得到的Encoder必須參與到訓練過程中,否則模型很難收斂。

綜合考慮模型效果、參數量以及訓練和推理的效率,選擇Paraformer作為Encoder。

▼音頻建模粒度很關鍵。

嘗試使用240ms、180ms和120ms的粒度進行建模,并發現這一參數對音頻與文本的融合效果具有重要影響,同時會影響模型的最終效果和訓練的收斂速度。

經過評估,最終選擇每120ms輸出一個音頻Embedding。

▼快速適應到目標垂類。

僅使用了140h~150h的英文數據進行訓練,可以在6個不同來源的英文的測試集上取得一定效果。

同時嘗試將任務遷移到語音翻譯(AST)領域,取得了很好的效果。

相信這個方法同樣也適用于小語種、方言或其它低資源的音頻理解任務。

▼LLM對音頻理解任務的影響。

在模型訓練過程中采用LoRA技術對LLM參數進行更新,可以使訓練更快收斂,并且最終取得更好的效果。

同時,音頻理解任務上的效果也會隨著基礎LLM效果提升而提升。

更多技術細節,請參考技術文檔:

https://arxiv.org/pdf/2408.05101

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 開源 摩爾線程

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
蜜臀av在线播放一区二区三区| 欧美大片在线观看一区| 国产精品每日更新| 亚洲欧美一区二区精品久久久| 99xxxx成人网| 国产精品每日更新| 久久久97精品| 美女精品一区| 亚洲最新视频在线| 亚洲综合日本| 在线观看日韩一区| 亚洲精品美女久久7777777| 欧美精品观看| 欧美综合二区| 美女黄色成人网| 亚洲欧美另类中文字幕| 欧美自拍偷拍| 日韩视频在线你懂得| 亚洲视频综合在线| 在线观看91精品国产麻豆| 亚洲国产美女| 国产婷婷一区二区| 亚洲国产一区二区三区青草影视 | 久久高清福利视频| 久久久99免费视频| 亚洲视屏在线播放| 久久久久88色偷偷免费| 亚洲午夜av| 久久久精品欧美丰满| 一区二区三区四区五区视频 | 亚洲综合欧美| 亚洲久久成人| 欧美一区二区三区视频| 日韩亚洲在线观看| 久久精品观看| 亚洲在线第一页| 欧美激情片在线观看| 久久久青草婷婷精品综合日韩| 欧美日韩精品是欧美日韩精品| 久久久久久久久久久久久9999| 欧美日韩一二三区| 亚洲国产精品va在线观看黑人| 国产精品一区免费在线观看| 亚洲国产精品嫩草影院| 韩国美女久久| 亚洲欧美视频在线观看| 一区二区三区日韩欧美| 免费观看成人www动漫视频| 久久精品亚洲一区二区| 欧美午夜a级限制福利片| 亚洲福利视频在线| 一区免费在线| 久久不见久久见免费视频1| 午夜精品一区二区三区在线视| 欧美精品一区二区久久婷婷| 农村妇女精品| 在线免费观看日韩欧美| 久久精品国亚洲| 久久久.com| 国产综合欧美在线看| 亚洲欧美日韩在线| 久久成人国产精品| 国产麻豆精品theporn| 在线一区二区三区四区| 中日韩高清电影网| 欧美少妇一区二区| 在线视频你懂得一区| 亚洲亚洲精品三区日韩精品在线视频 | 欧美一区二区大片| 国产精品理论片| 亚洲一二区在线| 欧美亚洲一区| 国产揄拍国内精品对白| 久久福利一区| 欧美激情导航| 一本久道久久综合狠狠爱| 欧美日韩亚洲一区二区| 一区二区三区国产盗摄| 亚洲欧洲av一区二区| 国产欧美1区2区3区| 久久久精品tv| 亚洲人精品午夜在线观看| 一区二区三区福利| 国产精品日韩专区| 久久精品免费观看| 亚洲大胆人体视频| 亚洲少妇自拍| 国产在线成人| 欧美激情精品| 亚洲综合欧美| 欧美成va人片在线观看| 99在线热播精品免费| 国产农村妇女毛片精品久久莱园子| 欧美一区二区三区免费观看 | 亚洲欧美色婷婷| 国产亚洲人成网站在线观看| 久久久一区二区| 99成人精品| 久热精品在线| 亚洲视频成人| 一区二区在线观看视频在线观看| 免费成人网www| 亚洲自拍都市欧美小说| 欧美激情一区二区三区蜜桃视频| 亚洲一区二区欧美日韩| 极品av少妇一区二区| 欧美色123| 免费成人性网站| 午夜精品久久久久久久99樱桃| 欧美不卡视频| 欧美中文字幕视频| 中文网丁香综合网| 激情文学综合丁香| 国产精品视频导航| 欧美高清在线视频| 久久九九精品| 亚洲一区二区网站| 亚洲精品小视频| 欧美h视频在线| 久久久久久成人| 亚洲综合视频在线| 日韩视频在线观看免费| 伊人激情综合| 国产一区二区三区的电影| 欧美日韩一二三区| 欧美韩国在线| 蘑菇福利视频一区播放| 欧美一区二区三区视频在线| 亚洲色诱最新| 一本色道久久综合亚洲二区三区| 欧美成人蜜桃| 免费在线观看精品| 久久久久一区二区三区| 欧美一二区视频| 午夜精品久久久久久久99热浪潮| 99精品国产一区二区青青牛奶| 在线看国产一区| 在线看片一区| 亚洲国内精品| 亚洲激情在线观看| 亚洲人成亚洲人成在线观看图片 | 国产精品麻豆欧美日韩ww| 欧美日韩国产高清| 欧美三级电影精品| 欧美丝袜一区二区三区| 欧美三级电影大全| 国产精品国产三级国产aⅴ无密码| 欧美日韩在线视频一区| 欧美午夜视频一区二区| 欧美性猛交99久久久久99按摩| 欧美视频网站| 国产精品久久久久久亚洲调教 | 欧美日韩视频在线第一区| 欧美激情中文不卡| 欧美日韩综合一区| 国产精品一区二区在线观看网站| 国产精品自拍在线| 极品尤物av久久免费看| 亚洲欧洲综合另类| 一区二区三区欧美激情| 亚欧成人精品| 久热精品在线| 亚洲区第一页| 亚洲午夜女主播在线直播| 亚洲欧美网站| 久热精品视频在线观看| 欧美精品国产| 国产伦精品一区二区三区视频黑人| 国产日韩精品一区二区浪潮av| 狠狠综合久久av一区二区小说 | 国产欧美日韩在线播放| 红桃av永久久久| 亚洲毛片一区二区| 亚洲欧美综合v| 美日韩丰满少妇在线观看| 亚洲国产婷婷| 欧美一区二区三区啪啪| 蜜乳av另类精品一区二区| 欧美天天在线| 伊人狠狠色j香婷婷综合| 夜夜嗨av一区二区三区四区| 欧美在线你懂的| 亚洲国产成人av好男人在线观看| 国产精品99久久久久久久久久久久| 欧美一区深夜视频| 欧美日韩国产综合视频在线| 国产视频在线一区二区| 一区二区三区产品免费精品久久75| 久久成人在线| 亚洲毛片在线观看.| 久久精品人人做人人爽| 国产精品久久久久久久久果冻传媒 | 国产欧美日韩免费看aⅴ视频| 亚洲电影免费观看高清完整版| 在线一区二区三区做爰视频网站| 久久一区二区三区av| 亚洲视频免费在线观看| 欧美成人小视频| 在线电影院国产精品| 久久精品国产久精国产思思|