【ZiDongHua 之智能自動(dòng)化收錄關(guān)鍵詞: 智能自動(dòng)化  極佳科技  清華大學(xué)  大模型】

清華大學(xué)自動(dòng)化系聯(lián)合極佳科技發(fā)布Sora級(jí)視頻生成大模型

Sora爆火之后,視頻生成領(lǐng)域不斷迎來(lái)新的進(jìn)展,視頻的時(shí)代正在開(kāi)啟。近日,在奇績(jī)創(chuàng)壇路演日上,清華大學(xué)自動(dòng)化系教授魯繼文團(tuán)隊(duì)聯(lián)合世界模型公司「極佳科技」正式發(fā)布中國(guó)首個(gè)超長(zhǎng)時(shí)長(zhǎng)、高性?xún)r(jià)比、端側(cè)可用的Sora級(jí)視頻生成大模型「視界一粟 YiSu」,引起社會(huì)各界廣泛的反響和關(guān)注。

01 模型原生 16 秒,超長(zhǎng)時(shí)長(zhǎng),超大運(yùn)動(dòng),超強(qiáng)表現(xiàn)力;

「視界一粟 YiSu」擁有模型原生的 16 秒超長(zhǎng)時(shí)長(zhǎng),并可生成至 1 分鐘以上;同時(shí)還擁有超大運(yùn)動(dòng)、超強(qiáng)表現(xiàn)力、懂物理世界等眾多優(yōu)勢(shì);更重要的是,YiSu 模型成本更低、速度更快、端側(cè)可用;希望通過(guò) YiSu 模型強(qiáng)大的性能和極致的性?xún)r(jià)比,更快實(shí)現(xiàn)長(zhǎng)視頻生成的大規(guī)模產(chǎn)品應(yīng)用。

技術(shù)路線方面,年初 Sora 的爆火,讓 DiT 受到了業(yè)內(nèi)極大的關(guān)注,很多公司和項(xiàng)目也開(kāi)始復(fù)現(xiàn) DiT 路線。極佳科技和清華大學(xué)研究人員在視頻生成技術(shù)路線上有著深入的積累和獨(dú)特的理解,在 autoregressive、Masked Token、DiT、UNet 等不同路線方面均擁有豐富的經(jīng)驗(yàn)。此前,團(tuán)隊(duì)提出 WorldDreamer,是全球第一次以 Transformer 和 LLM(Masked Token 路線)為中心的視頻生成工作。

「視界一粟 YiSu」基于團(tuán)隊(duì)自研的視頻生成大模型技術(shù),并沒(méi)有止步于 DiT,而是融合 LLM 和擴(kuò)散模型的自研架構(gòu),結(jié)合各種路線的優(yōu)勢(shì),在多模態(tài)融合、訓(xùn)練效率、推理效率、模型效果等方面達(dá)到極致的優(yōu)化,打造視頻生成的最佳方案。

02 視頻生成只有做到模型原生 16 秒,做應(yīng)用才有價(jià)值;

目前大部分的視頻生成應(yīng)用,都是基于 3-5 秒的視頻生成模型,應(yīng)用和體驗(yàn)上限制比較明顯。極佳科技 CEO 黃冠認(rèn)為,“只有視頻生成做到模型原生 16 秒(以及更長(zhǎng)),同時(shí)保持自然的運(yùn)動(dòng)和表現(xiàn)力,做應(yīng)用才有價(jià)值。”

過(guò)去兩年我們看到了多個(gè) “語(yǔ)言 - Native” 和 “圖像 - Native” 的爆款應(yīng)用,已經(jīng)徹底改變?nèi)藗兊墓ぷ魃詈芏喾矫?,下一個(gè)就輪到視頻方向了。通用智能時(shí)代的目前階段,領(lǐng)先的模型就是爆款的應(yīng)用。基于「視界一粟 YiSu」的驚艷效果,極佳科技正在打造 “AI-Native” 和 “視頻 - Native” 的爆款應(yīng)用,希望給廣大用戶帶來(lái) AI 時(shí)代不一樣的體驗(yàn)和價(jià)值。

面向通用智能時(shí)代,全球都在期待 “AI-Native” 的超級(jí)應(yīng)用。語(yǔ)言模型展現(xiàn)了強(qiáng)大的對(duì)話、理解、總結(jié)、推理等文本方面的能力,展現(xiàn)了通用智能的曙光;圖像生成模型展現(xiàn)了強(qiáng)大的自然生成、娛樂(lè)和藝術(shù)能力。而在目前人們已經(jīng)已經(jīng)習(xí)慣視頻內(nèi)容的時(shí)代,文本和圖像的內(nèi)容似乎仍然對(duì)于廣大用戶的價(jià)值仍然比較有限。視頻生成可能是打破這一局面的重要技術(shù)突破,“視頻 - Native” 的爆款應(yīng)用更有可能走向超級(jí)應(yīng)用,擁有無(wú)限的想象空間。

極佳科技 CEO 黃冠認(rèn)為:“超級(jí)應(yīng)用對(duì)于通用智能時(shí)代至關(guān)重要。AI 1.0 時(shí)代,依靠的是場(chǎng)景驅(qū)動(dòng)的數(shù)據(jù)閉環(huán),打造數(shù)據(jù)飛輪,不斷優(yōu)化模型和應(yīng)用效果。進(jìn)入通用智能的 AI 2.0 時(shí)代,最重要的是基礎(chǔ)模型和超級(jí)應(yīng)用兩條腿走路,打造智能閉環(huán),形成智能飛輪。極佳科技希望通過(guò)基礎(chǔ)模型和超級(jí)應(yīng)用形成的智能閉環(huán)飛輪,加速走向通用智能時(shí)代。”

03 從視頻生成走向世界模型

打造通用智能的新一代數(shù)據(jù)引擎

OpenAI 把 Sora 叫做世界模擬器,從視頻生成走向世界模型,會(huì)成為通用智能的新一代數(shù)據(jù)引擎,對(duì)于自動(dòng)駕駛、通用機(jī)器人等物理世界的通用智能擁有極其關(guān)鍵的作用。世界模型在數(shù)據(jù)生成、閉環(huán)仿真、端到端方案等方面都具有重要的價(jià)值。YiSu 也展示了基于視頻生成的同款架構(gòu),用于自動(dòng)駕駛和機(jī)器人場(chǎng)景世界模型的效果。

極佳科技在世界模型的技術(shù)和應(yīng)用上都保持行業(yè)領(lǐng)先。2023 年 9 月,極佳科技推出了全球首個(gè)真實(shí)世界驅(qū)動(dòng)的自動(dòng)駕駛世界模型DriveDreamer,早于 Wayve 的 GAIA-1;2024 年 4 月,極佳科技進(jìn)一步更新了 DriveDreamer-2,性能保持業(yè)內(nèi)領(lǐng)先;2024 年 5 月,極佳科技聯(lián)合國(guó)內(nèi)外多家單位推出了全球首篇通用世界模型綜述,該綜述通過(guò) 260 余篇文獻(xiàn),對(duì)世界模型在視頻生成、自動(dòng)駕駛、智能體、通用機(jī)器人等領(lǐng)域的研究和應(yīng)用進(jìn)行了詳盡的分析和討論;該綜述還審視了當(dāng)前世界模型的挑戰(zhàn)和局限性,并展望了它們未來(lái)的發(fā)展方向。

基于業(yè)內(nèi)領(lǐng)先的世界模型技術(shù),極佳科技拿到業(yè)內(nèi)首個(gè)世界模型商業(yè)化定點(diǎn)和落地,簽約多家主機(jī)廠和大客戶,服務(wù)自動(dòng)駕駛、機(jī)器人等具身智能客戶幾十余家。極佳科技希望通過(guò)世界模型,攜手行業(yè)一起,加速走向物理世界通用智能。

04 人工智能的頂尖綜合團(tuán)隊(duì)

加速走向通用智能時(shí)代

最后,再看一下「視界一粟 YiSu」背后的團(tuán)隊(duì) —— 極佳科技,這是一個(gè)世界級(jí)的人工智能綜合團(tuán)隊(duì)。

黃冠

CEO是清華大學(xué)自動(dòng)化系博士,擁有超過(guò)十年、全球領(lǐng)先的 AI 技術(shù)經(jīng)驗(yàn),擁有微軟、三星、地平線等知名公司算法經(jīng)歷,多次帶領(lǐng)百人算法團(tuán)隊(duì),還擁有 AI、自動(dòng)駕駛、大模型等方向的連續(xù)創(chuàng)業(yè)經(jīng)驗(yàn);首席科學(xué)家則是中科院自動(dòng)化所博士,清華大學(xué)自動(dòng)化系博士后,發(fā)表 AI 方向頂級(jí)論文超過(guò) 50 篇,引用超過(guò) 1 萬(wàn)次;產(chǎn)品負(fù)責(zé)人是中科大博士,曾擔(dān)任阿里云總監(jiān),地平線產(chǎn)品線總經(jīng)理;算法負(fù)責(zé)人是中科院碩士,多次獲得 AI 比賽世界冠軍,擁有豐富的算法研發(fā)、應(yīng)用和infra經(jīng)驗(yàn);工程負(fù)責(zé)人是百度贏徹 T10 級(jí)別架構(gòu)師,曾擔(dān)任 Apollo 仿真和工程負(fù)責(zé)人,擁有超過(guò) 16 年的數(shù)據(jù)、工程和分布式架構(gòu)經(jīng)驗(yàn)。

團(tuán)隊(duì)擁有超過(guò)十年的人工智能技術(shù)研發(fā)經(jīng)驗(yàn),在人工智能方向擁有世界級(jí)的研發(fā)能力,發(fā)表 AI 頂級(jí)論文 200 余篇,在過(guò)去十年的人工智能技術(shù)浪潮中取得了全球領(lǐng)先的成績(jī),曾獲得目標(biāo)跟蹤全球最權(quán)威賽事 VOT 世界冠軍、人臉識(shí)別全球最權(quán)威賽事 NIST-FRVT 世界冠軍、圖像物體識(shí)別全球最權(quán)威賽事 COCO 世界冠軍、自動(dòng)駕駛?cè)蜃顧?quán)威評(píng)測(cè) nuScenes 世界冠軍,發(fā)布 SiamRPN、WebFace260M、BEVDet、DriveDreamer 等視覺(jué)和 AI 方向知名或開(kāi)創(chuàng)性技術(shù)成果。

團(tuán)隊(duì)同時(shí)還擁有深入的大規(guī)模產(chǎn)業(yè)落地經(jīng)驗(yàn),曾參與中國(guó)第一款嵌入式人工智能芯片研發(fā)和應(yīng)用,負(fù)責(zé)中國(guó)規(guī)模最大的智慧城市系統(tǒng)研發(fā)和應(yīng)用,負(fù)責(zé)中國(guó)規(guī)模最大的數(shù)據(jù)閉環(huán)平臺(tái)研發(fā)和應(yīng)用,負(fù)責(zé) Apollo 仿真平臺(tái)研發(fā)和應(yīng)用。

通用智能時(shí)代,領(lǐng)先的技術(shù)能力和規(guī)模化的產(chǎn)業(yè)落地經(jīng)驗(yàn),缺一不可,互為支撐。極佳科技核心團(tuán)隊(duì)基于研究、工程、產(chǎn)品、商業(yè)以及創(chuàng)業(yè)等方面的頂尖綜合積累,打造基礎(chǔ)模型和商業(yè)應(yīng)用的智能閉環(huán)飛輪。

極佳科技成立于 2023 年,目前已經(jīng)獲得多家一線財(cái)務(wù)投資機(jī)構(gòu)、產(chǎn)業(yè)投資機(jī)構(gòu)的投資,同時(shí)獲得了行業(yè)客戶的廣泛認(rèn)可。年初 Sora 的爆火,以及「視界一粟 YiSu」的推出,正式標(biāo)志著視頻生成和世界模型方向正在進(jìn)入快速爆發(fā)的Scaling Law時(shí)代,未來(lái)極佳科技希望通過(guò)更多的技術(shù)和產(chǎn)品創(chuàng)新,為用戶和客戶提供更多的價(jià)值,加速走向通用智能時(shí)代!

轉(zhuǎn)載:機(jī)器之心微信公眾號(hào)

編輯:沈碧瑩

審核:周亞

終審:石宗英