賈揚(yáng)清演講實錄:阿里云一體化大數(shù)據(jù)智能平臺的演進(jìn)
演講人:賈揚(yáng)清
演講主題:阿里云一體化大數(shù)據(jù)智能平臺的演進(jìn)
活動:2022云棲大會-一體化大數(shù)據(jù)智能峰會
今年在技術(shù)主論壇上,我們講到了人工智能領(lǐng)域算法的不斷演進(jìn),同時,這些智能化的應(yīng)用,反過來其實催生了大數(shù)據(jù)這個領(lǐng)域需求的爆發(fā)式的增長。今天的論壇,我們希望立足于數(shù)據(jù)這個領(lǐng)域,來看一看,數(shù)據(jù)和智能之間有哪些創(chuàng)新的火花。
大數(shù)據(jù)這個概念,本身并不新。從最開始的關(guān)系型數(shù)據(jù)庫開始,在20世紀(jì)90年代,數(shù)據(jù)量的增大和應(yīng)用的增加,業(yè)界開始體系化地思考大數(shù)據(jù)的一些方法論。最典型的可能是今天在數(shù)據(jù)領(lǐng)域耳熟能詳?shù)娜齻€V:數(shù)據(jù)的體量Volume,速度Velocity,和多樣性Variety,這“三個V“。在這些方法論的指導(dǎo)下我們開始從存儲、計算、調(diào)度、服務(wù)等多個角度來建設(shè)一個優(yōu)秀的大數(shù)據(jù)體系。
在主論壇上,我們提到了人工智能今天的一個不可能三角:易用性,規(guī)模,和效率。這三個核心的點,在大數(shù)據(jù)的領(lǐng)域其實一樣存在。映射到大數(shù)據(jù)上,我們會看見那么一些特性:
首先,生產(chǎn)工具的易用性。因為數(shù)據(jù)本身是一個很“重“也和業(yè)務(wù)聯(lián)系緊密的平臺,因此我們很多時候關(guān)注在它的安全性和穩(wěn)定性。這沒有錯,但是今天我們越來越多的決策其實都需要用到數(shù)據(jù),那么, 怎么建設(shè)一個更加靈活、便捷的平臺,讓每一個人在用數(shù)據(jù)的時候,寫一行sql,甚至不需要寫sql,就可以從實際業(yè)務(wù)的角度去獲取數(shù)據(jù)呈現(xiàn)出來的規(guī)律?這是易用性的問題。
其次,規(guī)模化的生產(chǎn)力。今天的各種數(shù)據(jù)平臺、數(shù)據(jù)倉庫層出不窮。但是,對我們來說,怎么樣解決數(shù)據(jù)孤島和數(shù)據(jù)效率問題,怎么樣能夠在保證支撐業(yè)務(wù)規(guī)模化發(fā)展的同時大大降低數(shù)據(jù)平臺的復(fù)雜度和成本,這是一個很現(xiàn)實的需求。阿里云大數(shù)據(jù)平臺今天支撐著每天10EB級別的計算,相信很多云上客戶都在面對規(guī)模的問題。
最后,數(shù)據(jù)的多樣化的應(yīng)用帶來了生產(chǎn)效率的需求。對一個企業(yè)而言,似乎數(shù)據(jù)平臺永遠(yuǎn)都在做計算:比如說 ETL,流計算,OLAP等。但是問題是這些東西算出來了有沒有人看,我們并不知道,沒人看就會造成浪費(fèi)。另外,有些任務(wù)是不是沒寫好,寫成全表掃描但是其實只處理了一丁點數(shù)據(jù),這就涉及到治理的問題。就像今天很多應(yīng)用需要quality control一樣,數(shù)據(jù)也需要。生產(chǎn)效率不僅是技術(shù)上的效率,還有組織治理上的效率。
那么從阿里巴巴的角度我們做了一些什么事情?
我們的大數(shù)據(jù)平臺也是從簡單的開源技術(shù)和單點技術(shù)出發(fā)的:最初搭建Hadoop集群和最初對標(biāo)Hadoop的自研大數(shù)據(jù)集群ODPS開始,我們是通過云化來提升平臺效率:通過將一個企業(yè)的數(shù)據(jù)實現(xiàn)大集中,能夠打通不同的子業(yè)務(wù)部門,解決數(shù)據(jù)壁壘問題,從零到一把數(shù)據(jù)體系搭建起來。
通過管理全量的數(shù)據(jù)任務(wù),我們就可以來實現(xiàn)用很低的成本支撐業(yè)務(wù)的持續(xù)增長。在這個過程當(dāng)中,我們也見到非常多的性能挑戰(zhàn)。這些性能來自兩方面:一方面,系統(tǒng)大了,怎么把SQL跑得更快,怎么把存儲做的更好,怎么把存儲和計算的水位提上去,就有很多要做的內(nèi)功。
另一方面,我們看到很多多樣化的計算需求:例如離線計算和實時計算,一個追求資源利用水位,一個追求OLAP的效率。今天我們的嘉賓會講到,我們?nèi)绾瓮ㄟ^更加一體化的設(shè)計,來從技術(shù)上解決需求多樣化和成本之間的矛盾。
最后一個是怎么降低門檻。數(shù)據(jù)開發(fā)治理是個挺復(fù)雜的事情。這一點我們認(rèn)為是我們和很多國際的數(shù)據(jù)服務(wù)提供商有區(qū)別且做的還不錯的地方,例如前面一年大家耳熟能詳?shù)膕nowflake 是很不一樣的。阿里云是提供一個上層完整的開發(fā),運(yùn)維、建模和治理的體系。從開發(fā)者的角度,你可以來獲得從開發(fā)到系統(tǒng)運(yùn)維的全景;從企業(yè)治理的角度,你可以看到各個部門、各條業(yè)務(wù)對數(shù)據(jù)管理和治理的效率,能夠讓數(shù)據(jù)開發(fā)變得更加全局化。
上面說的這些能力相對比較抽象,那么,我們今天在云上,能給大家提供什么樣的產(chǎn)品能力?
第一,今天開源是一個大趨勢。無論是用的傳統(tǒng)的Hadoop,Hive,還是今天的Spark和數(shù)據(jù)湖的架構(gòu),我們能夠在云上提供和開源完全一致的體驗,同時我們能夠提供簡單安裝一個開源軟件所缺少的很多能力。簡單地來說,企業(yè)級的穩(wěn)定性、彈性、免運(yùn)維等。今天無論是EMR,還是Flink和ElasticSearch,我們都提供Serverless的能力和托管的底座,讓大家不需要關(guān)心這些“臟活累活”。同時,我們在開源領(lǐng)域也做了非常多的創(chuàng)新工作,舉個例子,我們在最近剛捐獻(xiàn)給Apache基金會的一個項目叫做Celeborn,就大大提升了數(shù)據(jù)湖上非常多引擎,做數(shù)據(jù)shuffle的性能。
第二,我們提供了一個由注重離線和規(guī)模的MaxCompute和注重實時數(shù)據(jù)分析和服務(wù)的Hologres組成的一體化的自研大數(shù)據(jù)平臺ODPS。今天,我們看到的一個大趨勢是數(shù)據(jù)平臺的“自動駕駛”,用戶不需要關(guān)注數(shù)據(jù)究竟是離線表還是實時表,不需要關(guān)注引擎和底層的存儲是否打通的問題,而是用一套存儲、一套元數(shù)據(jù)、一套調(diào)度來解決問題。同時,通過湖倉一體的方式,我們可以實現(xiàn)開源數(shù)據(jù)湖和自研數(shù)倉之間的無縫打通。
第三,我們在多種數(shù)據(jù)引擎之上,全面升級了數(shù)據(jù)開發(fā)治理的平臺Dataworks。今天Dataworks已經(jīng)可以支持多個底層的引擎,同時在數(shù)據(jù)建模、治理上面幫助行業(yè)專家們更加迅速地搭建起適合自己的數(shù)據(jù)中臺,同時在數(shù)據(jù)中臺上來發(fā)現(xiàn)和治理數(shù)據(jù)的健康分等一系列的效率問題。另外很重要的一點,今年dataworks的每個版本我們都會提供相應(yīng)的OpenAPI能力,讓之上的二次開發(fā)變得更加簡單。
今天我們看見的一個非常清晰的趨勢,就是,傳統(tǒng)的數(shù)據(jù)分析和計算依然是主流,同時有越來越多的數(shù)據(jù)應(yīng)用是在人工智能這個領(lǐng)域。比如,我們說的“深度學(xué)習(xí)” - 視覺語音NLP等經(jīng)常會用到非結(jié)構(gòu)化的數(shù)據(jù),同時智能搜索、用戶推薦等等場景,也會和數(shù)據(jù)非常強(qiáng)的綁定在一起。
今天,在數(shù)據(jù)湖,數(shù)據(jù)倉庫的基礎(chǔ)上,我們所建設(shè)的人工智能平臺PAI在很好地解決大數(shù)據(jù)AI一體化的能力。例如主論壇我們所發(fā)布的模型開源平臺ModelScope,自動駕駛領(lǐng)域的高性能計算解決方案,以及智能推薦和用戶增長的解決方案,都是在PAI上面所建設(shè)起來的。
最后,通過一張大圖向大家展示一下我們剛才提到的各個產(chǎn)品組成的體系,供大家按圖索驥。
大數(shù)據(jù)技術(shù)領(lǐng)域在持續(xù)演進(jìn),它和人工智能的結(jié)合和創(chuàng)造出來無限的可能性,希望能和各位嘉賓、合作伙伴以及各位朋友們一起探索。謝謝大家。
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com