久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

GPT-4o現(xiàn)貨變期貨 是什么在拖OpenAI的后腿

來源:極客公園   編輯:非小米 時間:2024-07-17 19:15人閱讀

Her,正從電影,走向現(xiàn)實。

今年 5 月,OpenAI 發(fā)布最新 AI 多模態(tài)大模型 GPT-4o。相比此前的 GPT-4 Turbo,GPT-4o 速度快了兩倍,成本低了一半,實時的 AI 語音互動的平均時延,相比此前版本的 2.8 秒 (GPT-3.5) 到 5.4 秒 (GPT-4),更是達到了 320 毫秒——與人類日常對話響應速度幾乎一致。

不僅是效率的提升,對話中的情感分析也成為了此次產(chǎn)品更新的特色之一。在與主持人的對話中,AI 可以聽出他說話時的「緊張」,并且針對性的提出了深呼吸的建議。

OpenAI,正成為大模型時代硅基的「造物主」。

然而,發(fā)布會很震撼,現(xiàn)實卻很骨感。產(chǎn)品落地上,這場大模型技術革命的發(fā)起方 OpenAI,正逐漸變得像一家「期貨」公司。

主打全能、低時延的 GPT-4o 發(fā)布后,實時音視頻功能的上線迄今仍在跳票;視頻多模態(tài)產(chǎn)品 Sora 發(fā)布,同樣遲遲不見開放。

但這不只是 OpenAI 一家企業(yè)的問題——ChatGPT 發(fā)布后,國內(nèi)國產(chǎn)版 ChatGPT 多如過江之鯽,但是真正對標 GPT-4o 的,目前卻只有一個商湯的日日新 5.5,進度也同樣停留在月內(nèi)公測。

為什么發(fā)布會上,實時多模態(tài)大模型距離變革世界只有一步之遙;在真正走向產(chǎn)品化落地的過程中,卻總是「現(xiàn)貨」變「期權」?

一種新的聲音正在浮出水面:在多模態(tài)的世界里,或許(算法)暴力無奇跡。

01 實時語音,一條必經(jīng)的AI 商業(yè)化路線

技術的成熟,正助推一個嶄新的藍海產(chǎn)業(yè)逐漸成型。

硅谷知名風投機構 a16z 數(shù)據(jù)顯示,全球用戶量 Top50 AI 應用中,9 款是陪伴型產(chǎn)品。AI 產(chǎn)品榜數(shù)據(jù)則顯示,今年 5 月 AI 伴侶的訪問量高達 4.32 億,同比增長 13.87%。

高需求、高增速、高市場空間,AI 陪伴,帶來的是商業(yè)模式與人機交互的雙重變革。

商業(yè)的成熟,也在反向倒逼技術的不斷進步。僅以今年上半年為節(jié)點,實時 AI 語音技術在短短六個月,就已經(jīng)發(fā)生了三次迭代。

第一波技術浪潮的代表性產(chǎn)品是 Pi。

今年 3 月,初創(chuàng)企業(yè) Inflection AI 更新了面向個人用戶的情感聊天機器人 Pi。

Pi 的產(chǎn)品界面非常簡潔,文本+對話框是核心交互界面,但也增加了語音讀取,電話等 AI 語音功能的設計。

實現(xiàn)這種語音交互,Pi 依靠的是傳統(tǒng)的 STT(語音識別,Speech-to-Text)-LLM(大模型語義分析)- TTS(文本到語音,Text To Speech)三步走的語音技術。其特點是技術成熟,但反應慢,缺乏對語氣等關鍵信息的理解,無法做到真正的實時語音對話。

與之同期的另一款特色產(chǎn)品是 Call Annie。相比 Pi,Call Annie 有完整的視頻通話體驗設計,除了接掛電話的設計之外,聽話功能還可以最小化之后切入其他 App,并支持四十多種對話角色設定。

然而它們都有著共同的技術問題——高時延與情感色彩缺乏。時延上,即是行業(yè)內(nèi)最先進的 OpenAI,也會出現(xiàn) 2.8 秒(GPT-3.5)到 5.4 秒(GPT-4)的延遲。情感上,則會出現(xiàn)在交互中丟失如音調(diào)、音高、語速等信息,更無法做到輸出笑聲、唱歌聲等高級語音表達

在此之后,新一波技術的代表則是一款名叫 EVI 的產(chǎn)品。

這款產(chǎn)品在今年 4 月由 Hume AI 推出,并為 Hume AI 帶來了 5000 萬美元(約 3.62 億人民幣)的 B 輪融資。

產(chǎn)品設計上,Hume AI 在底層算法環(huán)節(jié)推出了 Playground 功能,用戶可以自己選擇配置選擇大模型,除了官方默認,還可以選擇像 Claude、GPT-4 Turbo 等。但不同之處是語音帶上了情感,因此在表達上,也有了節(jié)奏、語調(diào)的變化。

實現(xiàn)這一功能,主要依靠在傳統(tǒng)的 STT-LLM- TTS 三步走環(huán)節(jié)中,加入新的 SST(semantic space theory,語義空間理論)算法。SST 能通過廣泛的數(shù)據(jù)收集和先進的統(tǒng)計模型,精準繪制人類情感的全譜圖,揭示人類情感狀態(tài)之間的連續(xù)性,使得 EVI 具備很多擬人化的特色功能。

情感進步的代價,則是時延的進一步犧牲,與 EVI 對話,用戶需要等待的時間,相較 Pi 與 Call Annie 進一步增加。

到了 5 月中旬 GPT-4o 發(fā)布,融合多模態(tài)技術成為這一時期的技術方向標。

與過去的三步式語音交互產(chǎn)品相比,GPT-4o 是一款跨文本、視覺和音頻端到端訓練的新模型,這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡處理。

時延問題也因此被極大改善。OpenAI 官宣,GPT-4o 的實時語音交互,可以做到最快 232 毫秒、平均 320 毫秒的響應音頻輸入。情感上,用戶與 AI 的交互也變得越來越有智能屬性,語速變化、情感理解得到實現(xiàn)。

產(chǎn)品層面,人類與 AI 談戀愛、AI 替代盲人看世界也因此成為可能。

前不久推出語音電話功能、2024 年硅谷引人矚目的新星——Character.ai,就成為了這次技術浪潮中的最大受益者。

在 Character.ai,用戶有機會在超逼真的角色扮演中與動漫人物、電視名人和歷史人物的摹本發(fā)短信。新奇的設定帶來了產(chǎn)品用戶數(shù)量的暴增,根據(jù) Similarweb 的數(shù)據(jù),Character.ai 每秒可以處理 20000 個 AI 推理請求,5 月的訪問量高達 2.77 億。

GPT-4o現(xiàn)貨變期貨 是什么在拖OpenAI的后腿

Character.ai 和 perplexity.ai 的流量對比|圖片來源:Similarweb

與之同期,微軟、谷歌等紛紛官宣旗下的大模型將推出實時語音通話功能。

然而滴水不漏的產(chǎn)品設計,在現(xiàn)實執(zhí)行中,卻總是呈現(xiàn)出三峽泄洪的落地效果——第三波浪潮之中,發(fā)布會上幾近「her」式的陪伴產(chǎn)品,在實際落地中,全部變成了「計劃」推出、即將推出、內(nèi)測中。

一個毫無疑問的結論是,實時音視頻有可能成為人機互動終極形態(tài),除了AI陪伴場景外,游戲智能 NPC、AI 口語老師、實時翻譯等場景都有望迎來爆發(fā),但在此之前,如何解決「發(fā)布會」到產(chǎn)品落地的最后一公里,是當下行業(yè)最棘手的難題。

02 AI 實時語音,大力無奇跡

AI實時語音「大力無奇跡」,一個悲觀的說法正在硅谷悄悄蔓延。

阻力則來自技術、監(jiān)管以及商業(yè)的方方面面。

技術上的反對派精神領袖,是「卷積網(wǎng)絡之父」楊立昆(Yann LeCun)。

在他看來:大模型技術,相比過去的各種 AI 算法,最大的特點是「大力出奇跡」。通過大數(shù)據(jù)投喂,以及動輒上億參數(shù)體量與高性能的計算集群硬件支持,算法由此可以用于處理更復雜的問題,以及更高的可擴展性。然而,我們當前對于大模型過于樂觀,尤其是多模態(tài)大模型可能就是世界模型的觀點,更是無稽之談。

比如,人有五感,才組成我們對于世界的真實認知,基于大量互聯(lián)網(wǎng)文本訓練的 LLM,缺乏對物理世界的觀察與互動,也缺乏足夠多的常識。因此生成視頻或者語音的過程中,總是會出現(xiàn)看似天衣無縫的內(nèi)容,運動軌跡,或者聲音情感中,卻缺乏真實感。此外,硬性的物理限制也是問題,面對與日俱增的模型大小以及交互維度,目前的大模型缺乏足夠的帶寬處理如此信息。

監(jiān)管層面,AI實時語音,也就是端到端的語音大模型,面臨的是技術與倫理的博弈。

過去,傳統(tǒng)的 AI 語音產(chǎn)業(yè) STT-LLM- TTS 的三步走,首先是技術不成熟所導致,進化到端到端的語音大模型需要在模型架構、訓練方法和多模態(tài)交互等方面實現(xiàn)額外的技術突破。同時,也是由于語音本身的監(jiān)管難度高于文字,導致 AI 語音極易被用至電話詐騙、色情以及垃圾營銷等場景。為了便于審核,中間的文字環(huán)節(jié),也在一定程度上變得必要。

而在商業(yè)層面,端到端的音視頻大模型訓練,在訓練階段,需要大量 YouTube 以及播客的數(shù)據(jù),成本是過去文字訓練模型的幾十倍甚至更高,一次訓練成本千萬美金起步。

而這種成本,對于此時的普通 AI 企業(yè)來說,天上掉錢都已經(jīng)沒用,還得一起掉下英偉達高端 AI 算卡、千兆存儲還有取之不盡的無風險音視頻版權。

當然,無論是楊立昆的技術判斷,還是可能的監(jiān)管難題,亦或是商業(yè)化的成本困境,這些對 Open AI 來說,都算不上最核心的問題。

真正讓 GPT-4o 類實時AI語音交互類產(chǎn)品現(xiàn)貨變期貨的根本原因,出在工程落地層面。

03 插著網(wǎng)線演示的 GPT-4o,還差一個好用的 RTC 助攻

一個業(yè)內(nèi)心照不宣的秘密是,GPT-4o 類AI實時語音產(chǎn)品,在工程層面,只成功了一半。

GPT-4o 的發(fā)布會上,宣稱低延時的同時,有眼尖的用戶發(fā)現(xiàn),演示視頻中的手機,還插著網(wǎng)線。這也就意味著:GPT-4o 官宣的平均 320ms 時延,很可能是固定設備、固定網(wǎng)絡、固定場景的 demo,在理想狀態(tài)下才能達成的實驗室指標。

GPT-4o現(xiàn)貨變期貨 是什么在拖OpenAI的后腿

OpenAI 的 GPT-4o 發(fā)布會現(xiàn)場明顯可見手機插線|圖片來源:OpenAI

問題出在哪里?

從技術層面拆解,要實現(xiàn) AI 實時語音通話,算法層面的三步合為一步,只是其中核心環(huán)節(jié)之一,另一個核心環(huán)節(jié) RTC 通信層面,也面臨一系列技術挑戰(zhàn)。所謂 RTC,可以簡單地理解為在實時的網(wǎng)絡環(huán)境下進行音視頻的傳輸和交互, 是一種支持實時語音、實時視頻等互動的技術。

聲網(wǎng)音頻技術負責人陳若非告訴極客公園,在實際落地的應用場景中,用戶通常無法一直處于固定設備、固定網(wǎng)絡和固定物理環(huán)境下。在我們?nèi)粘_M行視頻通話場景中,一方的網(wǎng)絡不佳后,就會出現(xiàn)說話卡頓、延遲變高的現(xiàn)象,這種情況同樣會出現(xiàn)在 AI 實時語音通話中,所以低延時的傳輸、優(yōu)異的網(wǎng)絡優(yōu)化對 RTC 傳輸至關重要。

此外,多設備適配、音頻信號的處理等也是 AI 實時語音落地中不容忽視的技術環(huán)節(jié)。

如何解決這些問題?

答案就藏在 OpenAI 最新的招聘需求中,OpenAI 特地提到,要招聘工程人才,幫助他們把最先進的模型部署到 RTC 環(huán)境中。

具體的方案選擇上,GPT-4o 使用的 RTC 技術,是一種基于 WebRTC 的開源方案,可以在技術層面解決一定的時延,以及不同網(wǎng)絡環(huán)境帶來的丟包、通信內(nèi)容安全,以及跨平臺的兼容問題。

然而開源的 B 面,則是產(chǎn)品化的薄弱。

舉個簡單的例子,多設備適配問題,RTC 的使用場景大多以手機為代表,但不同型號手機的通信、聲音采集能力千差萬別:目前蘋果手機已經(jīng)可以做到大約幾十毫秒的穩(wěn)定延時,但是生態(tài)較為復雜的 Android 生態(tài),不僅機型多、高端與低端產(chǎn)品的性能差距也頗為明顯,部分低端型號設備,在采集與通信層面,時延就能高達幾百毫秒。

再比如,AI 實時語音應用場景中,人的語音信號可能會混雜了背景噪聲,需要進行復雜的信號處理,移除噪聲和回聲,確保干凈、高質(zhì)量的語音輸入,讓 AI 更能聽懂人說的話。

多設備的兼容性、先進的音頻降噪的能力也正是開源 WebRTC 所欠缺的。

行業(yè)經(jīng)驗,是開源產(chǎn)品在應用中的卡脖子難題。也是因此,相比開源方案,大模型廠商與專業(yè)的 RTC 方案商一起打磨共同優(yōu)化,一定程度上更能代表未來的行業(yè)趨勢。

在 RTC 領域,聲網(wǎng)是最具代表性的廠商,曾因為對 Clubhouse 提供音頻技術而廣為人知,根據(jù)聲網(wǎng)官網(wǎng)的消息顯示,全球超 60% 泛娛樂 App 選擇聲網(wǎng)的 RTC 服務,除了國內(nèi)知名的小米、B 站、陌陌、小紅書等 App 外,中東及北非地區(qū)最大的語音社交與娛樂平臺 Yalla、東南亞「社交直播平臺之王」Kumu、HTC VIVE 、The Meet Group、Bunch 等遍布全球的知名企業(yè)均采用了聲網(wǎng)的 RTC 技術。

GPT-4o現(xiàn)貨變期貨 是什么在拖OpenAI的后腿

行業(yè)經(jīng)驗的積累,全球化客戶的打磨,更是技術領先的佐證。據(jù)陳若非介紹,聲網(wǎng)自研的 SD-RTN? 實時傳輸網(wǎng)絡覆蓋了全球 200 多個國家與地區(qū),音視頻的全球端到端延遲平均達到 200ms。針對網(wǎng)絡環(huán)境的波動,聲網(wǎng)的智能路由技術與抗弱網(wǎng)算法,可以保障通話的穩(wěn)定性與流暢性。針對終端設備的差異性,聲網(wǎng)更是積累了全球上億 App 預裝以及對復雜環(huán)境適配積累的 know-how。

技術領先之外,行業(yè)經(jīng)驗更是無形的壁壘。

事實上,這也是為什么這些年來,RTC 行業(yè)商業(yè)格局較為穩(wěn)定的原因:做好 RTC,依靠的,從來不是大模型式的「大力出奇跡」。

日積月累的深耕細作,才是語音延遲極致優(yōu)化和實時語音交互能普遍商用的唯一途徑。

而從這一角度來看,AI實時語音交互,是一場在想象力以及難度上都不應被低估的戰(zhàn)爭。

它的未來——算法、審核、RTC 一關一關都要過。要走完這漫長的道路,既要仰望技術的星空,更要腳踏工程化的實地。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: AI OpenAI

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
欧美成人性生活| 国产精品成人aaaaa网站| 国产日韩一区二区三区| 午夜视频一区二区| 亚洲性感激情| 国产女主播在线一区二区| 欧美在线中文字幕| 久久成人国产精品| 亚洲人午夜精品| 亚洲毛片在线免费观看| 国产精品久久久久一区二区| 香蕉精品999视频一区二区| 香蕉久久一区二区不卡无毒影院| 亚洲美洲欧洲综合国产一区| 榴莲视频成人在线观看| 99精品免费| 亚洲免费视频中文字幕| 一区二区三区在线免费播放| 亚洲日本va午夜在线电影| 国产精品福利在线| 蜜乳av另类精品一区二区| 欧美成人精品h版在线观看| 亚洲综合999| 久久久久久亚洲精品中文字幕| 欧美日韩免费观看一区三区| 久久xxxx精品视频| 欧美aa在线视频| 欧美一级欧美一级在线播放| 老司机精品导航| 欧美在线一区二区| 欧美黄色aa电影| 久久久精彩视频| 女人天堂亚洲aⅴ在线观看| 欧美一区不卡| 欧美精品在线看| 免费成人高清| 国产乱肥老妇国产一区二| 最近中文字幕mv在线一区二区三区四区| 亚洲综合精品一区二区| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产精品羞羞答答| 亚洲精品1234| 精品成人国产| 亚洲欧美日韩天堂| 亚洲一区二区三区免费观看| 另类欧美日韩国产在线| 久久久久久久久久久久久女国产乱| 亚洲网站视频| 99精品欧美| 欧美成人免费全部观看天天性色| 在线观看久久av| 欧美一区二区三区视频免费播放| 国产日韩一区二区三区| 亚洲精品乱码久久久久久日本蜜臀| 欧美人与性动交α欧美精品济南到| 夜夜嗨一区二区| 你懂的国产精品| 久久久久久久久久久久久9999| 久久在线免费| 美女视频网站黄色亚洲| 狠狠色综合网| 久久精品网址| 久久婷婷激情| 136国产福利精品导航网址应用 | 国产欧美大片| 日韩视频亚洲视频| 夜夜精品视频| 免费观看成人www动漫视频| 蜜臀av一级做a爰片久久| 国产综合香蕉五月婷在线| 午夜激情久久久| 久久午夜视频| 亚洲第一中文字幕| 另类图片国产| 亚洲精品美女在线观看| 一本一本久久a久久精品综合妖精 一本一本久久a久久精品综合麻豆 | 一区二区不卡在线视频 午夜欧美不卡在 | 欧美国产精品人人做人人爱| 91久久中文字幕| 欧美精品自拍| 日韩视频一区| 欧美亚洲自偷自偷| 国产一区清纯| 欧美不卡视频一区| 一本色道久久综合亚洲91| 亚洲欧美日韩精品一区二区| 国产婷婷精品| 欧美电影资源| 亚洲一区二区三区精品动漫| 久久精品一区蜜桃臀影院| 亚洲国产美女| 欧美日韩一区二区三区在线视频 | 亚洲线精品一区二区三区八戒| 午夜国产不卡在线观看视频| 久久久综合网站| 日韩视频免费在线| 国产精品久久福利| 久久av二区| 亚洲破处大片| 久久精品视频免费播放| 亚洲精品少妇30p| 国产精品一二三四区| 久久噜噜噜精品国产亚洲综合 | 亚洲人成7777| 国产精品二区在线| 久久中文在线| 亚洲一区日韩| 亚洲国产影院| 久久久久久亚洲精品不卡4k岛国| 欧美三级欧美一级| 久久久久久有精品国产| 99精品视频免费观看| 免费高清在线一区| 亚洲欧美春色| 日韩网站免费观看| 红桃av永久久久| 国产精品青草久久| 欧美激情精品| 久久久久欧美| 欧美亚洲一区在线| 亚洲天堂成人在线视频| 亚洲第一主播视频| 久久蜜桃香蕉精品一区二区三区| 国产婷婷成人久久av免费高清 | 亚洲国产色一区| 久久精品人人做人人爽电影蜜月| 国产精品嫩草影院av蜜臀| 久久综合福利| 久久久精品久久久久| 午夜精品久久久久久| 一区二区三区高清在线| 最新成人在线| 亚洲国产欧美精品| 欧美国产一区二区三区激情无套| 日韩性生活视频| 一区二区三区在线视频免费观看| 久久亚洲图片| 久久久国产精品一区| 午夜精品久久久久久久99热浪潮 | av成人免费观看| 亚洲国产一区二区a毛片| 欧美r片在线| 欧美不卡视频一区| 欧美mv日韩mv国产网站app| 久久影院午夜片一区| 快播亚洲色图| 久久米奇亚洲| 欧美大片91| 欧美va亚洲va日韩∨a综合色| 最新中文字幕一区二区三区| 亚洲电影欧美电影有声小说| 在线电影一区| 91久久久久久| 一区二区三区四区五区精品视频| 国产精品毛片高清在线完整版| 欧美在线播放高清精品| 欧美在线国产| 欧美14一18处毛片| 欧美日韩国产区| 国产精品免费在线| 国产一区视频观看| 极品尤物一区二区三区| 亚洲电影免费在线| 一区二区三区高清在线| 欧美一级黄色网| 久久噜噜亚洲综合| 亚洲日本中文字幕免费在线不卡| 久久久伊人欧美| 亚洲二区视频| 亚洲视频久久| 久久全球大尺度高清视频| 欧美国产日韩xxxxx| 国产精品黄色| 在线观看亚洲精品| 亚洲图片欧洲图片日韩av| 久久久噜噜噜久久中文字幕色伊伊| 夜夜嗨av色综合久久久综合网| 狠狠爱综合网| 一区二区成人精品| 久久久水蜜桃| 欧美第一黄网免费网站| 一区二区三区四区蜜桃| 久久精品成人一区二区三区| 欧美紧缚bdsm在线视频| 国产一区二区三区在线观看免费 | 国产区精品视频| 在线欧美不卡| 午夜久久资源| 亚洲黄色视屏| 久久精品免费电影| 国产精品久久久久9999高清| 亚洲电影免费观看高清完整版在线观看 | 在线看欧美日韩| 国模精品一区二区三区| 日韩网站在线观看| 另类综合日韩欧美亚洲| 亚洲女与黑人做爰| 欧美区一区二| 亚洲精品午夜精品| 麻豆亚洲精品|