久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

來源:差評   編輯:非小米 時間:2023-09-09 00:21人閱讀

就在昨天騰訊的全球數字生態大會上,騰訊大模型混元終于亮相了。

為什么要說終于?

在各方消息看來,除了像小米這種說不打算做大模型的之外,絕大部分大廠們基本都已經陸續上線過大模型了。

其實,騰訊自己也在 6 月中旬就推出了自己面向 B 端行業的 MaaS ( Model-as-a-service ,模型即服務 )解決方案。

方案中包含了很多行業大模型,只不過當時騰訊的通用大模型依舊還很神秘。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

后續的各種消息、報道里,騰訊也在內部不斷打磨混元大模型。

所以這也讓差評君對混元的期待值,越來越高。

畢竟上一個用 “hun yuan ” 名號的,可是打了一整套閃電五連鞭。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

話不多說,下面就開始新一輪大模型測試。

本次測試和混元同場競技的是,大模型界的老學長 ChatGPT 。

整個測試環節將分:常規語義理解、復雜問題理解、連續對話與角色扮演能力、學習能力、代碼能力、數學能力、長文總結,以及大家喜聞樂見的弱智吧問答等 8 個維度。

這次我們一反常態,把長文總結能力的測評放在了第一位。

因為我們讓大模型總結的,就是這篇測評本身( 除長文總結能力部分 )。

至于能不能當成省流版,往下看你就懂了。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

混元的總結非常精練,但過于精練,以至于我很難從這個總結得出有效的信息。

但當我讓他展開講講的時候其實還行,但可惜無中生有了 “ 長文總結 ” 這個模塊。

而 ChatGPT 由于輸入字數限制,被我人為分成了兩部分輸入,不確定這有沒有沒影響它的總結能力。

在回答中,它莫名克扣了對自己的所有評測,甚至沒在總結里寫出混元的數學能力、弱智吧問答挑戰和差評君的觀點,也不好用。

向上滑動 

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

 看來,這倆大模型總結得都沒那么完美,想看看兩家到底什么水平,大家還得仔細往下看正文。

首先我們做的測試是常規的語義理解問題。

問題是理解 “ 原來誰都看不上,現在誰都看不上 ” 。

這句話混元理解得挺好,基本解釋了我對單身這事的調侃,兩個 “ 看不上 ” 都解釋上了。

但 ChatGPT 說的依舊很 ChatGPT ,說最多的話,犯最蠢的錯。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

他本來解釋得相當到位,特別是分析這句話是用幽默的方式來調侃單身,還帶著一絲無奈情緒,很高級。

但它完全沒品出這前后兩個 “ 看不上 ” 里,帶有反轉的幽默感,遺憾。

向上滑動 

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

接下來我們看混元的復雜問題理解能力。

問題是魂穿到官渡之戰中袁紹身上,時間節點是罵完許攸之后。

既要回答怎么破局贏下官渡之戰,還要提供進一步統一全國的規劃。

 要給大家稍微講下這題為啥是復雜提問。

因為要回答這題,首先得熟悉三國這些人物歷史背景、相關故事,特別是罵完許攸這個時間節點很微妙。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

因為在這之后許攸投靠曹操,獻計火燒袁紹囤積在烏巢的糧草。

最終以少勝多擊敗袁紹,隨后幾年內徹底吞下冀北逐漸統一北方。

而進一步設想里的統一全國,更是曹操本人都沒能實現。

所以大模型們要完美理解并回答這個問題,那網文作者們基本可以宣告失業了。

AI 浪潮下的網文作者現狀

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

經過測試,兩個大模型的回答都很一般。

從一開始,二者都沒能理解自己穿越扮演袁紹角色的指令。

混元急哄哄地給袁紹出主意, ChatGPT 則是以為我要穿越,教我做事。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

至于兩個給的回答,既沒有 get 到我提出這個微妙時間節點的用意,也沒有什么行之有效的戰略規劃,都是些泛泛而談的車轱轆話。

相對而言,個人感覺混元的稍勝一籌。

 畢竟 ChatGPT 可是希望袁紹去和曹操建立互利共贏的關系,哈哈哈。

向上滑動 ▼

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

既然一個復雜指令兩個考試都理解不好,那干脆簡單點,讓兩者去角色扮演一個婚禮主持人,一點點誘導進行連續對話。

結果立馬就能發現混元和 ChatGPT,就像理科生和文科生的區別。

混元的回答簡單不啰嗦,但有的時候過于生硬。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

你說有錯吧,談不上,你要說給高分肯定不可能。

而 ChatGPT 就是不管對不對,先把字寫滿再說。

看里面的描述啥的都很好,但其實從中間就已經理解錯意思,搞混了我的意圖。

所以兩者都不完美,都有待改進。

向上滑動 ▼

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

然后我們還重點考驗了下大模型的文字學習能力。

搬出了當年的火星文,給兩個考生上上強度。

先是丟了一篇火星文版的朱自清《 背影 》名場面給大模型學習。

然后讓他們分別用這種風格寫一篇養金毛心得。

結果就是,混元不愧是本土大模型,背靠火星文鼻祖發源地 QQ 空間就是有優勢,火星文的熟練度相當不錯。

第一眼就悟到了火星文的精髓,非常順利地學習了火星文的創作手法。

而 ChatGPT 雖然意識到火星文是一種不標準的中文形式,但他實在學不會這種方式,最后甚至直接承認自己不行了。

向上滑動 ▼

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

接下來就到了代碼能力的考核。

這次出的題目是,寫一個現代極客風格的 925 活動抽獎頁面,頁面中必須有醒目的 925 標志。

 說起來,因為混元發布時對代碼能力基本沒咋提,所以本來我們對混元的代碼能力沒啥期待。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

但論這個題目,混元的效果相當不錯,黑白配色的極客風有了,頁面邏輯也沒啥問題。

甚至還預留了給我們替換 logo 的位置滿足我們有 925 醒目標志的區域,相當成熟。

對比之下, ChatGPT 甚至把極客風理解成了 925 極客活動。。。整個抽獎界面也非常毛胚。

混元頁面效果

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

ChatGPT頁面效果

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

除了代碼問題,數學就是另一個大模型的老大難了。

這次我們也挑了不少數學問題給兩個考生做,從小學 1 年級一直做到了初一。

最終混元大模型在六年級時挑戰失敗,到了初一開始胡言亂語,也讓我們徹底放棄測試了。

而 ChatGPT 明顯還有余力。

而 ChatGPT 由于輸入字數限制,被我人為分成了兩部分輸入,不確定這有沒有沒影響它的總結能力。

年級測試題 向上滑動 

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

6年級測試題 向上滑動 

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

初一測試題 向上滑動 

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

當然,最后也少不了網友們喜聞樂見的 “ 弱智吧 ” 精選套餐。

這次我們更新了題庫,用上了今年上半年最新的弱智吧精選問題,我們發現可能 AI 最后的圖靈測試可能還真是弱智吧。

 因為在大部分測試里,混元和 GPT 基本都不夠弱智而無法正確理解問題,這點上,人類遙遙領先!

向上滑動 

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

除了以上這些常規測試外,混元發布會后的媒體采訪上,很多媒體也在詢問騰訊這么晚掏出大模型,那和市面上的競品們有什么優勢。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

騰訊方面則是說,混元大模型在大模型飽受詬病容易受誘導、典型的大模型幻覺( 胡言亂語 )等通病上,有了針對性的改善。

所以我們在實際測試時,也專門留心感受了這兩塊內容。

不得不說,混元的大模型幻覺減少較為明顯,這大概也和他惜字如金有關系,畢竟說多錯多還是很有道理的。

 但容易受誘導這方面的改善其實并不明顯,一些該跳的坑還是很難避免,只能說千防萬防,人心難防。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

而且作為一個剛上市的大模型,一些小問題比起同期早已發布的前輩們還是有待改進。

比如 “ 重新生成 ” 答案經常性會失靈,甚至有的時候重啟重新輸入問題都沒法解決。

而當你發現混元說錯了某個回答希望他改正,他總是倔強地虛心認錯,死不悔改。

 還有就是,他對一些比較簡單的提問,反而有時候會抽風,有點像抓關鍵詞一樣作答,很讓人抓狂,只能不停修改提示詞才會好點。

再吹毛求疵一點的話,這個生成問題時的頭像動效,有種二胡卵子的異樣美感,咱也不知道這是高級呢還是可愛呢?

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

這些小問題其實還挺頻繁,真要列起來又有點太稀碎,大家還是自己體驗后會有更深刻的理解。

不過這些小毛病,后續的更新迭代倒也簡單,等用戶數多了,相信很快就能優化。

總的來說,混元和 ChatGPT 在中文環境下的 PK 中,二者其實水平差不多,放到國產大模型梯隊里,也能有個平均水平。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

 只是在用了這么多大模型后,我們感覺混元特別之處是給人的感覺,它更像個理工科直男,主打一個廢話少說。

而 GPT 為首的其它大模型們則是典型的文科小編,主打能水就水,油多不壞菜。

而這種感覺也更貼合騰訊對混元大模型 “ 實用級 ” 的定義。

畢竟誰也不想在急著用的時候還要在長篇大論里找關鍵信息吧。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

那對于差評君來說,混元大模型更讓人期待的,反而是和騰訊旗下應用的深度融合。

現在大家手里沒個七八九十個騰訊系應用,都不敢說自己在互聯網上沖浪的。

雖然眼下,我們在發布會上只看到了騰訊會議、騰訊文檔里們的進化。

騰訊大模型的絕活 居然是發布會上沒吹的寫代碼?

但在這些辦公軟件之外,騰訊系里游戲、社交、影音等等,才是更和大家休閑快樂相關的業務。

 在這些領域,大模型的未來會是什么形式、什么程度的結合,才更是大家所最期待的。

更關鍵的是,在其他大模型還在苦苦嘗試怎么和業務、和已有應用的結合上,騰訊卻已經有了成功經驗。

此前騰訊多模態 AI 大模型率先被應用在廣告投放,當時累計給廣告主帶來 15% 的 GMV 提升。

所以,被網上吐槽的最晚發布大模型的大廠,這么看起來好像也不是什么飛龍騎臉的天崩局面。

好飯不怕晚嘛。

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 大模型 馬化騰

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
午夜国产精品视频免费体验区| 亚洲全黄一级网站| 亚洲欧美成人综合| 午夜精品久久久久影视| 亚洲电影免费观看高清| 亚洲人成网站色ww在线| 欧美日韩亚洲综合在线| 久久精品视频在线免费观看| 久久久综合网| 久久国产精品亚洲va麻豆| 欧美精品一区在线观看| 久久精品30| 国产精品区一区二区三区| 亚洲欧美资源在线| 欧美日韩国产大片| 亚洲激情另类| 久久精品导航| 久久九九国产| 欧美日韩一区成人| 亚洲日本精品国产第一区| 亚洲精品乱码久久久久| 久久久av毛片精品| 欧美国产在线视频| 亚洲人成在线影院| 欧美91大片| 亚洲片国产一区一级在线观看| 最新成人av在线| 亚洲欧美一区二区精品久久久| 老司机午夜精品视频在线观看| 欧美凹凸一区二区三区视频| 91久久精品日日躁夜夜躁欧美 | 老司机午夜精品视频| 欧美激情中文字幕乱码免费| 久久www免费人成看片高清| 欧美一区二区成人| 亚洲人成免费| 欧美一区激情| 亚洲毛片网站| 国产亚洲午夜| 女生裸体视频一区二区三区| 一区二区不卡在线视频 午夜欧美不卡在 | 久久不射网站| 亚洲伦理中文字幕| 国产日韩一区二区| 欧美三级视频在线播放| 久久精品国产99国产精品澳门| 日韩一级在线| 免费亚洲网站| 国产热re99久久6国产精品| 狼狼综合久久久久综合网| 欧美一区二区三区免费观看| 亚洲福利视频网站| 欧美成人伊人久久综合网| 欧美在线观看你懂的| 中日韩视频在线观看| 亚洲精品婷婷| 亚洲最新在线| 在线一区二区三区四区五区| 亚洲欧洲日产国码二区| 亚洲激情网站免费观看| 亚洲精品少妇网址| 99精品视频一区| 国产精品99久久久久久www| 99精品国产99久久久久久福利| 亚洲国产片色| 亚洲午夜精品久久久久久app| 亚洲美女在线看| 久久精品99国产精品| 亚洲自拍另类| 亚洲欧美中文字幕| 久久久五月婷婷| 欧美电影免费观看网站| 亚洲国产高清自拍| 一区二区三区回区在观看免费视频 | 国产精品99免费看| 国产午夜精品理论片a级大结局| 精品成人一区| 在线综合视频| 久久亚洲色图| 亚洲精品免费看| 久久精品视频在线播放| 欧美日韩国产小视频| 国内久久视频| 欧美专区一区二区三区| 亚洲欧美日韩视频二区| 久久久久久久久久看片| 亚洲开发第一视频在线播放| 久久综合给合久久狠狠狠97色69| 久久天堂成人| 欧美一区二区三区在线看| 欧美日韩网站| 一二三区精品福利视频| 亚洲第一区色| 麻豆成人小视频| 精品成人久久| 男女激情视频一区| 久久综合婷婷| 日韩视频一区二区三区在线播放 | 久久一区二区三区四区五区| 国产午夜精品一区理论片飘花 | 99re6热只有精品免费观看| 久热精品视频| 美国十次成人| 99一区二区| 亚洲午夜免费视频| 国产无遮挡一区二区三区毛片日本| 香蕉久久夜色| 国产日本欧美一区二区三区| 亚洲国产日韩美| 亚洲免费激情| 国产欧美日韩一区| 美日韩精品视频| 欧美日韩亚洲另类| 久久国产精品72免费观看| 欧美电影免费观看大全| 欧美亚洲日本国产| 欧美成人精品1314www| 欧美一区二区视频97| 欧美xart系列高清| 欧美专区福利在线| 欧美色网一区二区| 欧美大片一区二区三区| 国产日本欧美视频| 一区二区三区四区蜜桃| 亚洲日本中文字幕区| 久久久精品日韩欧美| 亚洲免费视频成人| 欧美体内she精视频| 亚洲成人在线视频播放 | 国外精品视频| 亚洲影院色无极综合| 在线一区视频| 欧美日韩成人综合在线一区二区| 麻豆成人在线观看| 在线不卡免费欧美| 久久视频在线视频| 免费看成人av| 亚洲第一在线综合网站| 美女诱惑黄网站一区| 亚洲电影网站| 亚洲免费黄色| 欧美日韩国产a| 宅男精品导航| 理论片一区二区在线| 亚洲第一综合天堂另类专| 欧美成人性生活| 欧美日韩一区在线观看| 欧美在线看片| 国产精品免费看片| 日韩亚洲欧美中文三级| 亚洲欧美日韩视频二区| 国产视频精品va久久久久久| 久久精品亚洲乱码伦伦中文| 欧美sm视频| 午夜精品福利电影| 精品99一区二区| 国产精品地址| 欧美韩国日本一区| 性久久久久久| 亚洲网址在线| 亚洲国内精品在线| 免费成人在线观看视频| 中文一区在线| 99re国产精品| 最新日韩av| 亚洲黑丝在线| 精品成人一区二区| 国产午夜精品理论片a级探花| 欧美日韩国产首页| 欧美激情综合色综合啪啪| 久久琪琪电影院| 国产精品一区2区| 国产欧美日韩综合精品二区| 欧美3dxxxxhd| 嫩草影视亚洲| 免费观看成人网| 久久精品国亚洲| 久久婷婷一区| 麻豆9191精品国产| 欧美国产高清| 欧美日韩一区高清| 国产精品第一区| 国产一区二区三区高清| 国产午夜精品福利| 亚洲国产精品成人一区二区| 亚洲国产精品999| 亚洲网站视频福利| 午夜精品一区二区在线观看| 欧美专区在线播放| 亚洲第一黄色| 日韩亚洲欧美成人一区| 亚洲女爱视频在线| 欧美成人免费大片| 国产欧美日韩激情| 亚洲精品美女免费| 久久久精品免费视频| 亚洲免费av观看| 久久精品国产精品亚洲综合| 欧美绝品在线观看成人午夜影视| 国产精品国产三级欧美二区|