久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當(dāng)前的位置: 首頁 > 新聞 > 其他

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

來源:快科技 編輯:非小米 時間:2024-08-23 20:00人閱讀

快科技8月23日消息,摩爾線程官方宣布,音頻理解大模型“MooER”(摩耳)已經(jīng)正式開源,并公布在GitHub上:https://github.com/MooreThreads/MooER

目前開源的內(nèi)容包括推理代碼,以及5000小時數(shù)據(jù)訓(xùn)練的模型,后續(xù)還將開源訓(xùn)練代碼,以及基于8萬小時數(shù)據(jù)訓(xùn)練的模型。

摩爾線程希望,能夠在語音大模型的方法演進(jìn)和技術(shù)落地方面為社區(qū)做出貢獻(xiàn)。

MooER是業(yè)界首個基于國產(chǎn)全功能GPU進(jìn)行訓(xùn)練和推理的大型開源語音模型,依托摩爾線程的夸娥(KUAE)智算平臺,并得益于自研的創(chuàng)新算法和高效計算資源的結(jié)合,僅用38個小時,就完成了5000小時音頻數(shù)據(jù)和偽標(biāo)簽的訓(xùn)練。

MooER不僅支持中文和英文的語音識別,還具備中譯英的語音翻譯能力,并在多個語音識別領(lǐng)域的測試集中,展現(xiàn)出了領(lǐng)先或至少持平的優(yōu)異表現(xiàn)。

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

MooER的模型結(jié)構(gòu)包括Encoder、Adapter、Decoder(LLM)三個部分。

其中,Encoder對輸入的原始音頻進(jìn)行建模,提取特征并獲取表征向量。

Encoder的輸出會送到Adapter進(jìn)一步下采樣,使得每120ms音頻輸出一組音頻Embedding。

音頻Embedding和文本的Prompt Embedding拼接后,再送進(jìn)LLM進(jìn)行對應(yīng)的下游任務(wù),如語音識別(ASR)、語音翻譯(AST)等。

在模型訓(xùn)練階段,融合了語音模態(tài)和文本模態(tài)的數(shù)據(jù)會按以下形式輸入到LLM:

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

摩爾線程使用開源的Paraformer語音編碼器、Qwen2-7B-instruct大語言模型,初始化Encoder和LLM模塊,并隨機(jī)初始化Adapter模塊。

訓(xùn)練過程中,Encoder始終固定參數(shù),Adapter和LLM會參與訓(xùn)練和梯度更新。

利用自研的夸娥智算平臺,摩爾線程使用DeepSpeed框架和Zero2策略,基于BF16精度進(jìn)行訓(xùn)練和推理。

經(jīng)實驗發(fā)現(xiàn),訓(xùn)練過程中更新LLM參數(shù)能夠提升最終音頻理解任務(wù)的效果。

為了提升訓(xùn)練效率,摩爾線程采用了LoRA技術(shù),僅更新2%的LLM參數(shù)。具體的模型參數(shù)規(guī)模如下:

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

該模型的訓(xùn)練數(shù)據(jù)MT5K(MT 5000h)由部分開源數(shù)據(jù)和內(nèi)部數(shù)據(jù)構(gòu)成,內(nèi)部數(shù)據(jù)的語音識別標(biāo)簽均是由第三方云服務(wù)得到的偽標(biāo)簽。

語音識別的偽標(biāo)簽經(jīng)過一個文本翻譯模型后,得到語音翻譯的偽標(biāo)簽,且沒有對這些偽標(biāo)簽數(shù)據(jù)做任何的人工篩選。

具體數(shù)據(jù)來源和對應(yīng)的規(guī)模如下:

摩爾線程開源音頻理解大模型MooER:38小時訓(xùn)練5000小時數(shù)據(jù)

摩爾線程將MooER與多個開源的音頻理解大模型進(jìn)行了對比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3、SeamlessM4T-v2等。這些模型的訓(xùn)練規(guī)模從幾萬小時到上百萬小時不等。

對比結(jié)果顯示,開源模型MooER-5K在六個中文測試集上的CER(字錯誤率)達(dá)到4.21%,在六個英文測試集的WER(詞錯誤率)為17.98%,與其它開源模型相比,效果更優(yōu)或幾乎持平。

特別是在Covost2 zh2en中譯英測試集上,MooER的BLEU分?jǐn)?shù)達(dá)到了25.2,顯著優(yōu)于其他開源模型,取得了可與工業(yè)水平相媲美的效果。

基于內(nèi)部8萬小時數(shù)據(jù)訓(xùn)練的MooER-80k模型,在上述中文測試集上的CER達(dá)到了3.50%,在英文測試集上的WER到達(dá)了12.66%。

與此同時,摩爾線程還得到一些有趣的結(jié)論,可以為數(shù)據(jù)資源和計算資源有限的開發(fā)者提供一些建議:

▼Encoder的選擇。

分別對比無監(jiān)督(Self-Supervised Learning)訓(xùn)練的W2v-bert 2.0、半監(jiān)督(Semi-Supervised Learning)訓(xùn)練的Whisper v3、有監(jiān)督(Supervised Learning)訓(xùn)練的Paraformer。

采用無監(jiān)督訓(xùn)練得到的Encoder必須參與到訓(xùn)練過程中,否則模型很難收斂。

綜合考慮模型效果、參數(shù)量以及訓(xùn)練和推理的效率,選擇Paraformer作為Encoder。

▼音頻建模粒度很關(guān)鍵。

嘗試使用240ms、180ms和120ms的粒度進(jìn)行建模,并發(fā)現(xiàn)這一參數(shù)對音頻與文本的融合效果具有重要影響,同時會影響模型的最終效果和訓(xùn)練的收斂速度。

經(jīng)過評估,最終選擇每120ms輸出一個音頻Embedding。

▼快速適應(yīng)到目標(biāo)垂類。

僅使用了140h~150h的英文數(shù)據(jù)進(jìn)行訓(xùn)練,可以在6個不同來源的英文的測試集上取得一定效果。

同時嘗試將任務(wù)遷移到語音翻譯(AST)領(lǐng)域,取得了很好的效果。

相信這個方法同樣也適用于小語種、方言或其它低資源的音頻理解任務(wù)。

▼LLM對音頻理解任務(wù)的影響。

在模型訓(xùn)練過程中采用LoRA技術(shù)對LLM參數(shù)進(jìn)行更新,可以使訓(xùn)練更快收斂,并且最終取得更好的效果。

同時,音頻理解任務(wù)上的效果也會隨著基礎(chǔ)LLM效果提升而提升。

更多技術(shù)細(xì)節(jié),請參考技術(shù)文檔:

https://arxiv.org/pdf/2408.05101

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 開源 摩爾線程

相關(guān)文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
美女日韩欧美| 欧美亚洲一区| 久久综合伊人77777尤物| 亚洲成人在线视频播放 | 在线视频欧美精品| 99这里只有久久精品视频| 欧美揉bbbbb揉bbbbb| 亚洲永久免费av| 欧美中文字幕在线| 亚洲精品久久7777| 亚洲性视频网站| 伊人一区二区三区久久精品| 欧美激情一区二区三区高清视频| 欧美成人午夜激情在线| 亚洲欧美日韩精品久久亚洲区| 亚洲欧美中文在线视频| 亚洲国产精品一区二区www在线| 亚洲国产精品毛片| 国产精品影视天天线| 欧美大片免费久久精品三p | 久久五月激情| 久久aⅴ国产欧美74aaa| 亚洲国产美女| 亚洲综合色激情五月| 亚洲国产精品欧美一二99| 亚洲桃花岛网站| 国产在线精品自拍| 亚洲欧美视频一区| 久久躁狠狠躁夜夜爽| 亚洲在线免费视频| 免费成人毛片| 久久国产一区| 欧美三级视频在线播放| 免费不卡视频| 国产日韩1区| 99精品视频免费在线观看| 在线播放视频一区| 午夜精品久久久久久久白皮肤| 日韩一级大片| 六月丁香综合| 麻豆成人av| 国产一区二区三区四区五区美女 | 亚洲三级视频| 最新日韩欧美| 久久丁香综合五月国产三级网站| 亚洲一区视频| 欧美日韩妖精视频| 亚洲精品黄色| 亚洲精品永久免费精品| 久久综合国产精品台湾中文娱乐网| 午夜精品福利电影| 国产精品观看| 一本色道久久加勒比88综合| 亚洲六月丁香色婷婷综合久久| 久久精品一区二区三区中文字幕| 欧美在线播放一区| 国产精品毛片| 亚洲欧美第一页| 久久精品动漫| 国产综合久久| 久久青草欧美一区二区三区| 美国成人直播| 亚洲国产二区| 欧美国产日韩在线观看| 亚洲国产精品专区久久| 99精品久久久| 国产精品av一区二区| 一区二区av在线| 亚洲欧美在线免费| 国产区精品在线观看| 欧美专区日韩视频| 美国十次成人| 亚洲品质自拍| 欧美日韩国产bt| 亚洲夜晚福利在线观看| 午夜精品在线| 亚洲淫片在线视频| 久久激情综合网| 一区二区三区在线看| 毛片精品免费在线观看| 日韩午夜一区| 久久久久se| 亚洲欧洲三级电影| 欧美视频一区在线| 欧美专区第一页| 亚洲国产精品一区制服丝袜| 亚洲无限av看| 一区二区三区在线观看国产| 欧美成人免费小视频| 亚洲无线视频| 欧美刺激性大交免费视频| 亚洲一级一区| 亚洲高清不卡在线观看| 欧美区二区三区| 麻豆国产精品va在线观看不卡| 亚洲开发第一视频在线播放| 亚洲综合第一| 在线欧美日韩| 国产精品欧美日韩久久| 久久网站免费| 亚洲一区制服诱惑| 亚洲国产视频a| 久久精品免费播放| 一区二区三区四区五区视频| 国语精品中文字幕| 国产精品www994| 欧美1区视频| 欧美一区二区三区婷婷月色| 亚洲人成网站在线观看播放| 久久久久久91香蕉国产| 亚洲尤物在线| 99国产精品久久久久久久| 国语自产偷拍精品视频偷| 国产精品家庭影院| 欧美激情无毛| 欧美a级片一区| 久久久久久999| 欧美一进一出视频| 亚洲一品av免费观看| 亚洲激情中文1区| 免费高清在线视频一区·| 久久国产精品毛片| 亚洲欧美中文字幕| 亚洲调教视频在线观看| 亚洲精品久久久久| 亚洲丁香婷深爱综合| 黄色日韩在线| 国产综合色精品一区二区三区| 国产精品成人一区| 欧美天天视频| 欧美日韩久久| 欧美日韩一区二区三区在线看 | 亚洲国产精品久久久久久女王 | 在线中文字幕一区| 一区二区精品国产| 99riav久久精品riav| 亚洲日韩视频| 欧美一区视频| 亚洲女性喷水在线观看一区| 中文日韩电影网站| 国产精品99久久久久久久久久久久 | 亚洲一区制服诱惑| 亚洲在线观看视频| 午夜精品久久久久久久久久久久 | 欧美亚洲免费电影| 久久不见久久见免费视频1| 欧美在线在线| 免费h精品视频在线播放| 欧美成人a∨高清免费观看| 亚洲电影自拍| 99在线精品观看| 亚洲一区二区三区中文字幕在线| 亚洲免费一级电影| 久久成人一区| 欧美精品麻豆| 国产精品福利在线观看| 国产欧美日韩视频| 尤物精品在线| 在线亚洲自拍| 久久精品国产99| 亚洲电影一级黄| 在线亚洲伦理| 久久激情综合| 久久人人超碰| 欧美成人在线免费视频| 亚洲永久免费| 久久亚洲私人国产精品va| 欧美激情一区二区三区不卡| 日韩一本二本av| 欧美亚洲在线视频| 欧美福利电影网| 国产精品一区一区三区| 亚洲欧洲一区二区天堂久久| 亚洲一区二区三区在线视频| 久久久一区二区| 亚洲人被黑人高潮完整版| 性感少妇一区| 欧美日韩成人综合天天影院| 国产午夜精品福利| 一级日韩一区在线观看| 久久精品综合| 在线一区欧美| 欧美+日本+国产+在线a∨观看| 国产精品日韩精品| 99re6这里只有精品视频在线观看| 午夜亚洲一区| 亚洲欧洲偷拍精品| 久久精品亚洲一区| 欧美日韩国产精品| 亚洲风情亚aⅴ在线发布| 午夜精品网站| 99成人在线| 欧美国产1区2区| 又紧又大又爽精品一区二区| 亚洲欧美日韩综合| 亚洲精品少妇| 免费在线成人av| 狠狠爱www人成狠狠爱综合网| 亚洲专区欧美专区| 99av国产精品欲麻豆|