久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

來源:量子位   編輯:非小米 時間:2024-08-13 15:30人閱讀

繼Devin之后,又一個AI軟件工程師被刷屏了——

它叫Genie,號稱目前地表最強,已經可以像人一樣思考和行動了!

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

那么這個“地表最強”,到底強到什么程度?

先來看下評測分數。

在權威榜單SWE-Bench中,Genie以解決了30.07%問題的成績奪得榜首。

(SWE-Bench是一個用來評估大模型解決現實中軟件問題的基準。)

而這個成績可謂是遙遙領先第二名19.27%,解鎖了提升SOTA的最大增幅——57%!

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

至于Genie的實際效果,用團隊的話來說就是:

它可以做到像人類工程師一樣解決現實生活中的軟件問題。

首先,你可以用4種方式讓Genie開始工作,分別是提示詞、GitHub Issue、Linear Ticket或者API。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

以解決GitHub Issue為例,先喂給Genie一個repo的鏈接,它就開始自動解析問題了:

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

Genie會自動迭代思考如果想要解決這個問題它都需要哪些文件,直到它覺得找到了自己滿意的為止:

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

緊接著,它將對問題做一個自動迭代分析的過程:

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

然后Genie就開始“唰唰唰”地自動寫+跑代碼了:

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

如果運行代碼過程中出現bug,Genie會只針對出問題的地方再重復分析、寫代碼和運行的過程,直至跑通為止。

而整個過程,僅僅耗時84秒!

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

用團隊的話來說:

Genie已經觀察并學習人類程序員如何解決軟件問題的次數達到了數百萬次。

這是任何一個人類程序員一輩子都無法達到的數量。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

但更令人意想不到的是,Genie背后的團隊——Cosine,才僅僅5人。

而且CEO Alistair還發文感謝OpenAI:

沒有你們,我們做不出來Genie。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

那么Cosine團隊,究竟是如何打造Genie的呢。

最強AI工程師是如何煉成的?

Genie的主要特點,是能夠模仿人類工程師的認知過程、邏輯和工作流。

為做到這一點,Genie團隊透露過去一年收集了一個包含真實人類程序員開發活動的數據集。

其中不僅使用了成果分析、靜態分析、自我對弈、逐步驗證等方法,還用到了基于大量標記數據訓練的AI模型。好處是,當基礎模型能力提升時,它們能夠提取的數據質量也會相應提高。

最終Genie使用該專有數據進行訓練。

數據集中編碼了人類推理的完整過程,包括完美的信息溯源、增量知識發現,還有基于軟件工程師實際工作案例的逐步決策過程。

Genie的推理過程包括規劃、檢索、代碼編寫和代碼運行四個主要步驟,突破了其它AI工程師依靠在基礎模型之上添加網頁瀏覽器、代碼解釋器等額外工具的限制,能夠像人一樣處理多樣化的、高度情境的、前所未見的問題。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

這種訓練方法,讓網友們立刻想到,之前Karpathy也提出的類似想法:

對于LLM來說,理想的訓練數據并不是你所寫的內容本身,而是你在寫作過程中的完整思考過程和每一個編輯動作。然而,我們只能盡力利用現有的資源。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

除此之外,Genie訓練中還引入了自我改進機制。

初始訓練數據多為可正常運行的沒有錯誤的代碼,導致Genie導致難以應對錯誤情況。為解決這個問題,團隊使用初代版本的Genie生成包含錯誤的合成數據,然后用這些數據訓練下一版模型。

具體來說,使用舊版本Genie提出解決方案,如果解決方案錯誤,就利用掌握的任務最終狀態來教它從當前狀態達到正確狀態。

不斷重復這一過程,Genie提出的初始解決方案逐漸變得更準確,在多數情況下能直接給出正確答案,即使出錯也只需在數據集中作較少的修正。

Genie能力提升的另一大關鍵,在于OpenAI提供的大模型支持。

團隊表示,最初開發Genie時,只能訪問微調16-32k范圍內的短上下文模型,他們用這些模型進行了大量早期開發,用超1億token的數據訓練模型,雖然發現設計的架構有一定優勢,但從根本上受限于模型在特定時間內可以處理的信息量。

嘗試了各種壓縮/分塊方法后,唯一的解決方法就是使用更大上下文的模型。

OpenAI提供了長上下文模型支持,最新版本的Genie經過了數十億token的數據訓練。

團隊認為,相比超參數調整和數據量,數據的質量才是關鍵。因此他們還在數據混合方面進行了大量實驗,包括語言、任務類型、任務長度等多個維度,以下是訓練Genie的不同編程語言數據的占比:

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

還有不同類型實例的數據占比:

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

只有5個人的團隊

正如我們在上文提到的,Cosine這個初創團隊人數目前僅僅為5人。

在官網的介紹中,他們也非常直接的將自己形容為:

Small but mighty.雖小但有力。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

從介紹來看,成員有的是從獨角獸企業出身,有的擁有管理全球團隊的經驗,甚至還有從8歲就開始編程的。

但Cosine最初成立之際是僅有3人,他們的目標是想把人類推理這件事兒給搞明白。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

值得一提的是,團隊成員中還有一位是華人,Yang Li,是Cosine的聯合創始人,在2021年登上過福布斯30 under 30。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

除此之外,對于Genie本身,CEO Alistair還表示:

早在2022年我們就開始構想Genie了,但當時從技術角度來說是不可行的。

直到過去半年多來,隨著大模型的逐步成熟,Genie才能走入現實。

最強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

嗯,不得不說,大模型又立功了。

Genie目前是可以申請Waitlist了,感興趣的小伙伴可以戳文末鏈接~

Waitlist地址:https://cosine.sh/register

參考鏈接:[1]https://x.com/alistairpullen/status/1822981361608888619?s=46[2]https://cosine.sh/blog/genie-technical-report[3]https://cosine.sh/blog/state-of-the-art[4]https://x.com/AlistairPullen/status/1823030874579120223[5]https://x.com/yangli_

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 程序員 代碼

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
欧美综合国产精品久久丁香| 欧美成人性生活| 亚洲色图自拍| 国产精品福利片| 久久精品成人一区二区三区蜜臀| 亚洲午夜免费视频| 国产人成精品一区二区三| 久久香蕉国产线看观看av| 久久人人超碰| 一区二区久久久久| 亚洲欧美日韩精品久久奇米色影视 | 亚洲午夜精品久久久久久浪潮| 国产精品网红福利| 另类av一区二区| 欧美日本在线视频| 欧美亚洲一区二区在线观看| 久久久精品久久久久| 日韩一级黄色av| 午夜精品久久久久99热蜜桃导演| 韩日欧美一区| 亚洲精选视频在线| 国产亚洲视频在线观看| 欧美激情精品久久久久久黑人| 欧美区二区三区| 久久亚洲综合网| 欧美日韩精品| 欧美成人国产va精品日本一级| 欧美人与禽性xxxxx杂性| 久久精品国产亚洲精品| 欧美高清视频在线观看| 久久精品亚洲精品| 欧美精品一区在线| 欧美成人精品h版在线观看| 欧美精品久久99久久在免费线| 新67194成人永久网站| 蜜臀av一级做a爰片久久| 亚洲女女女同性video| 蜜臀a∨国产成人精品| 久久精品在线视频| 国产精品盗摄久久久| 亚洲第一色中文字幕| 欧美性猛交xxxx免费看久久久 | 亚洲二区在线观看| 国产一二精品视频| 亚洲视频axxx| 日韩午夜电影在线观看| 久久人人爽爽爽人久久久| 性视频1819p久久| 欧美三级韩国三级日本三斤| 欧美成在线观看| 精品不卡在线| 新片速递亚洲合集欧美合集| 亚洲欧美日本国产专区一区| 欧美日本在线观看| 亚洲日韩视频| 亚洲最新视频在线| 欧美电影免费观看| 亚洲高清激情| 亚洲三级国产| 欧美电影电视剧在线观看| 欧美激情精品久久久久久| 国产在线观看91精品一区| 欧美在线观看日本一区| 欧美一区二区免费观在线| 国产精品一区二区三区乱码| 亚洲淫性视频| 久久国产视频网站| 国产一区日韩二区欧美三区| 久久国产66| 欧美电影免费观看网站| 亚洲人www| 欧美国产在线视频| 日韩视频―中文字幕| 亚洲午夜久久久久久久久电影网| 欧美日韩国产首页| 99视频精品| 性伦欧美刺激片在线观看| 国产午夜久久久久| 久久影音先锋| 亚洲三级免费电影| 亚洲免费在线电影| 国产曰批免费观看久久久| 久久婷婷综合激情| 亚洲国产精品一区二区www在线| 日韩一区二区高清| 国产精品免费一区豆花| 久久精品免费播放| 亚洲国产免费看| 午夜精品福利电影| 伊人成人在线视频| 欧美日精品一区视频| 性欧美videos另类喷潮| 欧美激情久久久久久| 亚洲欧美国产毛片在线| 国产日韩在线看| 欧美精品系列| 欧美一区二视频| 亚洲人成7777| 亚洲精品自在久久| 狠狠色综合一区二区| 欧美chengren| 亚洲免费在线观看视频| 免费成人av在线看| 亚洲一区二区免费看| 在线观看不卡av| 欧美午夜精品久久久久久人妖 | 蜜臀a∨国产成人精品| 亚洲在线观看视频网站| 亚洲第一在线| 久久riav二区三区| 亚洲午夜高清视频| 亚洲欧洲精品成人久久奇米网| 国产精品日本一区二区| 欧美成人自拍视频| 欧美在线视频二区| 一本色道久久加勒比精品| 老巨人导航500精品| 欧美一级欧美一级在线播放| 日韩视频中文字幕| 尤物九九久久国产精品的分类| 国产精品久久久久久模特| 欧美电影美腿模特1979在线看| 久久精品伊人| 性色一区二区| 亚洲欧美卡通另类91av| 一区二区日韩伦理片| 亚洲区免费影片| 亚洲电影第三页| 欧美刺激午夜性久久久久久久| 久久久久久一区二区三区| 午夜精品亚洲一区二区三区嫩草| 99在线热播精品免费| 亚洲人成小说网站色在线| 尤物精品在线| 亚洲福利视频专区| 亚洲国产成人porn| 在线看成人片| 亚洲国产成人在线| 亚洲国产精品一区二区久| 亚洲国产成人porn| 91久久国产综合久久蜜月精品| 1024欧美极品| 亚洲激情av| 日韩视频中午一区| 一区二区三区久久精品| av不卡在线| 亚洲在线1234| 午夜视频久久久久久| 欧美在线综合| 久久久久.com| 欧美阿v一级看视频| 亚洲国产成人久久| 日韩亚洲欧美一区| 亚洲欧美日韩成人| 久久精品国产99国产精品澳门| 久久久久免费| 欧美国产免费| 国产精品久久久久久久久久直播 | 欧美成人免费全部| 亚洲激情偷拍| 亚洲视频高清| 欧美在线影院| 欧美大片91| 国产精品99免视看9| 国产欧美日韩一区二区三区在线| 国产自产高清不卡| 亚洲精品欧美一区二区三区| 亚洲社区在线观看| 久久久国产精品一区| 亚洲国产91色在线| 欧美激情在线有限公司| 欧美精品尤物在线| 国产视频一区在线观看一区免费| 欲香欲色天天天综合和网| 亚洲精品欧美在线| 欧美一区二区三区电影在线观看| 美日韩免费视频| 99国产精品久久久久久久| 久久不见久久见免费视频1| 欧美精品自拍| 韩国三级电影久久久久久| 99av国产精品欲麻豆| 久久久久久一区| aaa亚洲精品一二三区| 久久青青草原一区二区| 国产精品女主播| 亚洲日本精品国产第一区| 久久成人国产| 一本大道久久a久久精二百| 久久精品动漫| 国产伦精品免费视频| 亚洲精品在线看| 久久青青草综合| 亚洲一区视频在线观看视频| 欧美黄色免费| 韩日欧美一区二区| 久久国产直播| 亚洲自拍三区| 国产精品国产三级国产专播品爱网 | 国产日韩一区二区三区在线|