阿里云 EasyNLP 跨模態(tài)學習能力再升級,電商文圖檢索效果刷新SOTA
近日,阿里云機器學習 PAI 開源框架 EasyNLP進行升級發(fā)布,推出了融合了豐富電商場景知識的CLIP模型,在電商文圖檢索效果上刷新了SOTA結(jié)果,并且將上述模型免費開源,貢獻給開源社區(qū)。
CLIP(Contrastive Language-Image Pre-training)是一種經(jīng)典的文圖跨模態(tài)檢索模型,它在大規(guī)模圖文數(shù)據(jù)集上進行了對比學習預訓練,具有很強的文圖跨模態(tài)表征學習能力。EasyNLP借鑒CLIP的輕量化、易遷移的預訓練架構(gòu),構(gòu)建基于CLIP包含圖像和文本Encoder兩部分的雙流模型,同時基于商品數(shù)據(jù),以優(yōu)化電商場景的文圖檢索優(yōu)化。
Fashion-Gen數(shù)據(jù)集是一個大規(guī)模的時尚場景的圖文數(shù)據(jù)集,以Fashion-Gen數(shù)據(jù)集為例,EasyNLP基于pai-clip-commercial-base-en和pai-clip-commercial-large-en這兩個模型在Fashion-Gen數(shù)據(jù)集上進行了20個epoch的微調(diào)。實驗結(jié)果表明,相比于現(xiàn)公布的SOTA模型(CommerceMM),電商CLIP-large模型在文到圖和圖到文的檢索結(jié)果上均有顯著提升,評測指標最高提升了8.7~15個百分點。
除此之外,電商base模型在文到圖與CommerceMM相當檢索結(jié)果下,使用了更少的參數(shù)量。由此可見,電商CLIP無論在large還是base圖像Encoder的設置下,都取得了有競爭力的電商場景跨模態(tài)檢索能力。
文到圖檢索評測結(jié)果
圖到文檢索評測結(jié)果
目前,電商CLIP可在EasyNLP中直接安裝使用,在未來,EasyNLP框架會集成更多NLP的多模態(tài)的知識模型,覆蓋各個常見領域和任務,同時也將集成更多SOTA模型(特別是中?模型),來?持各種NLP和多模態(tài)任務,共建NLP和多模態(tài)算法庫。
Github地址:https://github.com/alibaba/EasyNLP
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com