小鵬公然AI“造假” 嘖嘖嘖
家人們,我們先來看一段視頻,你能否發(fā)現(xiàn)其中有什么異樣?
如果說,在這段視頻里,有一個(gè)物件是假的,是被合成進(jìn)去的,你能發(fā)現(xiàn)嗎?
不賣關(guān)子,現(xiàn)在就來揭曉答案。
“造假”的物體,正是這個(gè)出現(xiàn)在不該出現(xiàn)位置的紅綠燈。
我們?cè)賮硗嬉话选按蠹襾碚也纭保?qǐng)看題目:
答案是:放在置物架上的這個(gè)設(shè)備。
這就是來自小鵬汽車最新的一項(xiàng)研究——Anything in Any Scene。
主打一個(gè)往真實(shí)環(huán)境里毫無違和感地“塞”進(jìn)去任何東西。
并且研究團(tuán)隊(duì)給予這個(gè)通用框架的評(píng)價(jià)是:
它的應(yīng)用遠(yuǎn)遠(yuǎn)超出了視頻數(shù)據(jù)增強(qiáng)的范圍,在虛擬現(xiàn)實(shí)、視頻編輯和其他各種以視頻為中心的應(yīng)用中顯示出巨大的潛力。
甚至有網(wǎng)友在看完效果之后直呼:
再見了視頻證據(jù)~這個(gè)技術(shù)插入視頻的物體可以保持與原始素材相同的真實(shí)感。
那么這項(xiàng)AI技術(shù)更多效果如何,我們繼續(xù)往下看。
Anything in Any Scene
先從室外場(chǎng)景來看下效果。
在視頻中合成某個(gè)物體的時(shí)候,往往不逼真的原因,可以總結(jié)為位置放置錯(cuò)誤、無陰影、無HDR和無樣式遷移等原因。
正如下面幾個(gè)錯(cuò)誤案例所示:
而小鵬團(tuán)隊(duì)的效果,是這樣的:
相比剛才缺少各種因素的情況而言,效果顯然是相對(duì)逼真的。
再與其它已有的算法和框架做比較,例如DoveNet、StyTR2和PHDiffusion,它們?cè)谑彝鈭?chǎng)景中合成物體的效果是這樣的:
小鵬的Anything in Any Scene從效果上來看,依舊是相對(duì)更為逼真。
同樣的,在室內(nèi)環(huán)境中,不論是包包還是鞋子,小鵬新AI技術(shù)所生成的效果可以說是真假難辨的那種了。
更多的效果展示如下圖所示:
除了視覺效果之外,小鵬團(tuán)隊(duì)在CODA數(shù)據(jù)集的原始圖像上,將訓(xùn)練的YOLOX模型的性能與Anything in Any Scene框架在原始和增強(qiáng)圖像的組合上訓(xùn)練時(shí)的性能進(jìn)行了比較。
從整體精度上來看也有了不小的提高。
怎么做到的?
從此次提出的框架上來看,Anything in Any Scene主要由三個(gè)關(guān)鍵部分組成。
首先是物體放置和穩(wěn)定化的過程。
團(tuán)隊(duì)先確定相機(jī)在場(chǎng)景中的世界坐標(biāo)系位置,并將其作為物體插入的參考點(diǎn);使用相機(jī)的內(nèi)參矩陣和姿態(tài)(旋轉(zhuǎn)矩陣和位移向量)將世界坐標(biāo)系中的點(diǎn)投影到像素坐標(biāo)系中,以確定物體在視頻幀中的放置位置。
為了避免與場(chǎng)景中其他物體的遮擋,團(tuán)隊(duì)還使用語義分割模型估計(jì)每個(gè)幀的分割掩模,并確保物體放置在未被遮擋的區(qū)域。
在物體穩(wěn)定化方面,團(tuán)隊(duì)在連續(xù)幀之間估計(jì)光流,以跟蹤物體的運(yùn)動(dòng)軌跡;并通過優(yōu)化相機(jī)姿態(tài)(旋轉(zhuǎn)矩陣和位移向量),最小化物體在連續(xù)幀中的3D到2D投影誤差,確保物體在視頻中的穩(wěn)定運(yùn)動(dòng)。
其次,是光照估計(jì)和陰影生成。
針對(duì)HDR全景圖像重建,團(tuán)隊(duì)使用圖像修復(fù)網(wǎng)絡(luò)推斷全景視圖的光照分布,然后通過天空HDR重建網(wǎng)絡(luò)將全景圖像轉(zhuǎn)換為HDR圖像;并結(jié)合使用GAN訓(xùn)練編碼器-解碼器網(wǎng)絡(luò)來模擬太陽和天空的亮度分布。
在環(huán)境HDR圖像重建方面,研究人員則是收集了場(chǎng)景的多視角LDR圖像,并通過現(xiàn)有模型恢復(fù)為HDR圖像,以學(xué)習(xí)連續(xù)曝光值表示。
在物體陰影生成上,團(tuán)隊(duì)則是使用3D圖形應(yīng)用(如Vulkan)和光線追蹤技術(shù),根據(jù)估計(jì)的主要光源位置生成插入物體的陰影。
最后的步驟,則是照片風(fēng)格遷移。
框架對(duì)插入物體的外觀進(jìn)行微調(diào),使其風(fēng)格與背景視頻完美融合,進(jìn)一步提升了視頻的逼真度。
這便是小鵬Anything in Any Scene在真實(shí)環(huán)境中生成物體較為逼真的原因了。
而與小鵬此次研究類似的效果,其實(shí)早在之前便有了許多工作。
例如名為GAIA-1的多模態(tài)生成式世界模型,便可以從頭到腳的打造逼真的自動(dòng)駕駛視頻:
這里的每一幀都是由AI生成,甚至就連不同的路況和天氣等等,都是可以做到以假亂真。
就連LeCun看了都驚嘆不已:
不過這些AI效果雖真實(shí),但也有網(wǎng)友提出了擔(dān)憂之處,那便是網(wǎng)上虛假、生成的信息越發(fā)的逼真;因此,以后辨別信息的真假需要更加警惕。
目前,這個(gè)項(xiàng)目已經(jīng)在GitHub中開源,感興趣的小伙伴可以了解一下了~
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請(qǐng)來信告知我們刪除。郵箱:business@qudong.com