您現(xiàn)在的位置是:nhà cái n?p ??u 100 >>正文
nhà cái n?p ??u 100
t? l? cá c??c bóng ?á indo72797人已圍觀
簡(jiǎn)介來(lái)源:機(jī)器之心作者:澤南、楊文國(guó)產(chǎn)開源版 Genie 3 問(wèn)世,昆侖萬(wàn)維(維權(quán))用 1.8B 模型跑出了神級(jí)效果。世界模型,正在迎來(lái)一次技術(shù)大突破。本月初,Google DeepMind 發(fā)布的 Ge...
來(lái)源:機(jī)器之心
作者:澤南、楊文
國(guó)產(chǎn)開源版 Genie 3 問(wèn)世,昆侖萬(wàn)維(維權(quán))用 1.8B 模型跑出了神級(jí)效果。
世界模型,正在迎來(lái)一次技術(shù)大突破。
本月初,Google DeepMind 發(fā)布的 Genie 3,因?yàn)樾Ч@艷,關(guān)注度直接超越了 OpenAI 同日發(fā)布的 GPT-5。
Genie 3 實(shí)現(xiàn)了實(shí)時(shí)互動(dòng)、高度一致化的生成,直接從‘游戲畫面’邁入‘真實(shí)世界’的程度,它能維持?jǐn)?shù)分鐘的生成一致性,更重要的是還能做到實(shí)時(shí)響應(yīng)。

Genie 3 實(shí)現(xiàn)的效果。
AI 領(lǐng)域里,技術(shù)發(fā)展的速度總是很快,沒過(guò)兩個(gè)星期,開源的實(shí)時(shí)世界模型就已經(jīng)出現(xiàn)。
這款國(guó)產(chǎn)開源的新模型能把復(fù)雜的建筑和地形,玻璃的反光都模擬出真實(shí)感,符合物理邏輯。

或是模擬出《俠盜獵車手》(GTA)的大地圖,讓你可以在其中自由探索。

如果你上傳一個(gè)神廟逃亡游戲的截圖,就可以在這個(gè)世界模型里面開一局,AI 腦補(bǔ)出來(lái)的畫面會(huì)無(wú)限地向前延伸。

它就是昆侖萬(wàn)維發(fā)布的交互世界模型‘Matrix-Game 2.0’,它的參數(shù)量?jī)H有 1.8B,能跑在單塊 GPU 上,生成的虛擬環(huán)境幀率能達(dá)到 25FPS,我們?cè)谄渲锌梢杂面I盤 WASD 按鍵進(jìn)行實(shí)時(shí)的自由移動(dòng)和視角控制,實(shí)現(xiàn)持續(xù)時(shí)長(zhǎng)達(dá)分鐘級(jí)的互動(dòng)。
最重要的是,它還是完全開源的(有權(quán)重 + 代碼庫(kù)),任何人都可以免費(fèi)使用和修改,還可以自己上傳圖片進(jìn)行體驗(yàn)。
項(xiàng)目鏈接:https://matrix-game-v2.github.io/
GitHub 鏈接:https://github.com/SkyworkAI/Matrix-Game
HuggingFace:https://huggingface.co/Skywork/Matrix-Game-2.0
Matrix-Game 2.0 成為了業(yè)內(nèi)首個(gè)在通用場(chǎng)景上實(shí)現(xiàn)實(shí)時(shí)長(zhǎng)序列、交互式生成的世界模型開源方案,相比過(guò)去的開源模型有了質(zhì)的飛躍。它也成為了在外網(wǎng)引發(fā)關(guān)注的又一個(gè)國(guó)內(nèi)開源模型。

有人已經(jīng)在說(shuō)‘這是開源版本的 Genie 3’了。它的效果究竟如何,我們第一時(shí)間進(jìn)行了實(shí)測(cè)。
一手實(shí)測(cè)
丟張圖即可走進(jìn)實(shí)時(shí)生成的虛擬世界
世界模型一直面臨諸多挑戰(zhàn),尤其是在處理復(fù)雜環(huán)境、實(shí)時(shí)交互和高度動(dòng)態(tài)變化的情況下。傳統(tǒng)的世界模型通常依賴大量高質(zhì)量數(shù)據(jù),且在缺乏預(yù)設(shè)情境時(shí)難以進(jìn)行準(zhǔn)確推理和反應(yīng)。同時(shí),這類模型在生成和更新時(shí)需要消耗龐大的計(jì)算資源,導(dǎo)致實(shí)時(shí)反饋效率受限,從而難以真正落地應(yīng)用。
昆侖萬(wàn)維推出的 Matrix-Game 2.0 為這一領(lǐng)域帶來(lái)了新突破。這款交互式世界模型結(jié)合了高度自由的操作與實(shí)時(shí)生成的特點(diǎn),提供了一種獨(dú)特的玩法體驗(yàn)。
我們只需上傳一張靜態(tài)圖片,模型便會(huì)基于該圖像加載并生成一個(gè)虛擬世界。玩家可以通過(guò)方向鍵或 WASD 鍵控制人物在虛擬世界中的移動(dòng),且每一次人物的移動(dòng)都會(huì)實(shí)時(shí)影響環(huán)境,并生成新的視頻內(nèi)容。
例如,我們丟給它一張 3A 大作《荒野大鏢客》的游戲畫面,并控制方向和視角切換,模型最終生成的視頻展示了非常細(xì)膩的自然景觀。

從山上俯瞰,一條清澈的河流蜿蜒流淌,看起來(lái),Matrix-Game 2.0 不僅能夠理解海拔的高度差異,還能夠模擬出流水的動(dòng)態(tài)效果,這種精細(xì)的渲染無(wú)疑增加了虛擬世界的真實(shí)感與沉浸感。

再以經(jīng)典的《CS:GO》地圖 De_Dust2 為例,模型不僅加載了現(xiàn)有場(chǎng)景,還展現(xiàn)出強(qiáng)大的推理和補(bǔ)充能力。它能夠基于圖像信息自然拓展額外視角和細(xì)節(jié),確保生成視頻在場(chǎng)景一致性和時(shí)序連貫性上的高度可靠。

對(duì)于《我的世界》這種像素畫風(fēng)的游戲場(chǎng)景,Matrix-Game 2.0 同樣表現(xiàn)出了極高的創(chuàng)造力。通過(guò)將靜態(tài)元素轉(zhuǎn)化為動(dòng)態(tài)場(chǎng)景,模型生成了一段如同無(wú)人機(jī)航拍的視角視頻,展現(xiàn)了兩側(cè)山脈的輪廓、梯田的層次、高大的樹木,以及河流中的倒影。

最近,《戰(zhàn)地 6》在全球范圍內(nèi)引起了廣泛關(guān)注,預(yù)購(gòu)開啟后短時(shí)間內(nèi)登上 PS5 及 Steam 多個(gè)國(guó)家的暢銷榜,并在 Beta 公測(cè)期間以 52 萬(wàn) Steam 同時(shí)在線人數(shù)打破記錄。
我們利用 Matrix-Game 2.0 復(fù)刻了這款尚未發(fā)售的 3A 游戲精細(xì)地圖,每次角色移動(dòng)和視角切換都會(huì)實(shí)時(shí)觸發(fā)新的畫面生成。高幀率和物理一致性保證了操作與畫面的緊密結(jié)合,充分展現(xiàn)了其在nhà cái n?p ??u 100高復(fù)雜度交互場(chǎng)景中的潛力。

Matrix-Game 2.0 的能力不僅局限于游戲場(chǎng)景,在現(xiàn)實(shí)世界模擬中,它能快速響應(yīng)用戶的視角與移動(dòng)變化,生成符合物理規(guī)律的自然畫面。
例如,它成功復(fù)現(xiàn)了自行車騎行的第一視角:柏油馬路筆直延伸,兩旁的行道樹不斷后撤,畫面細(xì)節(jié)豐富、動(dòng)態(tài)感強(qiáng),每一幀都精準(zhǔn)模擬了現(xiàn)實(shí)騎行的空間感與真實(shí)感。

前段時(shí)間,Google DeepMind 研究科學(xué)家 Aleksander Holynski 使用谷歌 Genie3,‘走’進(jìn) 1978 年的名畫《蘇格拉底之死》,吸引了不少網(wǎng)友圍觀。
這次我們也來(lái)個(gè)‘名畫漫游’,讓 Matrix-Game 2.0 生成一段梵高《星空》的視頻,可以自定義不同角度觀察畫作,感受其構(gòu)圖、色彩與氛圍的變化。

同樣,我們還通過(guò)模型生成了宮崎駿風(fēng)格的鄉(xiāng)間小道場(chǎng)景,隨著方向鍵的切換,生成的畫面景色也隨之變化,腦補(bǔ)出的畫面毫無(wú)違和感,甚至連樹影都模擬出來(lái)了。

經(jīng)過(guò)一系列測(cè)試,我們認(rèn)為 Matrix-Game 2.0 的技術(shù)確實(shí)具備巨大的潛力。作為一個(gè)開源項(xiàng)目,它已經(jīng)能夠?qū)崿F(xiàn)高度真實(shí)的虛擬世界生成和實(shí)時(shí)交互,為游戲開發(fā)者和玩家提供全新的可能性。當(dāng)然,它也有不少可以提升的空間,比如視覺保真度并不總是能與主流游戲工作室的水平相媲美,而且復(fù)雜的交互有時(shí)對(duì) AI 來(lái)說(shuō)也難以完美處理。
不過(guò)這是一個(gè)好的開始,Matrix-Game 2.0 讓我們看到,虛擬世界與現(xiàn)實(shí)交互的邊界正在被逐步打破,下一代游戲和智能體或許就將以此為基石。
從數(shù)據(jù)生成到模型架構(gòu)
核心技術(shù)全面突破
在上周開源模型的同時(shí),昆侖萬(wàn)維同時(shí)放出了 Matrix-Game 2.0 的技術(shù)報(bào)告,我們可以在其中看到不少技術(shù)細(xì)節(jié)。

技術(shù)報(bào)告鏈接:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf
最近一段時(shí)間,基于擴(kuò)散模型的方法讓我們看到了交互式視頻生成的潛力。但是,現(xiàn)有的交互式世界模型依賴于雙向注意力機(jī)制和冗長(zhǎng)的推理步驟,嚴(yán)重限制了實(shí)時(shí)性能,難以模擬現(xiàn)實(shí)世界的動(dòng)態(tài)。
為解決這個(gè)問(wèn)題,昆侖萬(wàn)維提出了一種全新的視覺驅(qū)動(dòng)交互世界建模方案,徹底擺脫了此前依賴語(yǔ)言提示的生成模式,專注于通過(guò)視覺理解和物理規(guī)律學(xué)習(xí)來(lái)構(gòu)建虛擬世界。
在 Matrix-Game 2.0 上,研究人員通過(guò)少步驟自回歸擴(kuò)散算法實(shí)時(shí)生成長(zhǎng)視頻,引入了一個(gè)專為實(shí)時(shí)模擬和交互設(shè)計(jì)的高效框架,同時(shí)應(yīng)對(duì)解決了效率和可控性的挑戰(zhàn)。
Matrix-Game 2.0 模型由三個(gè)關(guān)鍵組件組成:
適用于虛幻引擎和 GTA5 環(huán)境的可擴(kuò)展數(shù)據(jù)生產(chǎn)流水線,可有效生成海量(約 1200 小時(shí))交互式視頻數(shù)據(jù);
動(dòng)作注入模塊,支持幀級(jí)鼠標(biāo)和鍵盤輸入交互;
基于自回歸擴(kuò)散模型的少步驟蒸餾,用于實(shí)時(shí)流式視頻生成。
基于以上架構(gòu)和訓(xùn)練機(jī)制,Matrix -Game 2.0 能夠在單塊英偉達(dá) H100 GPU 上以 25 FPS 的速度跨不同場(chǎng)景生成高質(zhì)量的分鐘級(jí)視頻。
在模型的構(gòu)建過(guò)程中,首先昆侖萬(wàn)維設(shè)計(jì)并實(shí)現(xiàn)了全面的數(shù)據(jù)生產(chǎn)管線,以支持交互式視頻生成模型的大規(guī)模訓(xùn)練,克服精準(zhǔn)匹配鍵盤控制與畫面、完善動(dòng)態(tài)交互這兩大挑戰(zhàn)。其開發(fā)的多樣化數(shù)據(jù)集生產(chǎn)流程包含從著名游戲引擎虛幻引擎和游戲 GTA5 的模擬環(huán)境中獲取靜態(tài)與動(dòng)態(tài)場(chǎng)景。
虛幻引擎的數(shù)據(jù)生產(chǎn)管線如下所示:

為了獲取更多交互式動(dòng)態(tài)場(chǎng)景,工程人員在 GTA5 環(huán)境中開發(fā)了一個(gè)綜合記錄系統(tǒng),使用 Script Hook V 擴(kuò)展工具,使視覺內(nèi)容與相應(yīng)的用戶動(dòng)作同步捕捉。這個(gè)數(shù)據(jù)整理流程收集了超過(guò) 120 萬(wàn)個(gè)視頻片段,它們的整體準(zhǔn)確率超過(guò) 99%。

GTA5 采集數(shù)據(jù)的軌跡。
在 Matrix-Game 2.0 的基礎(chǔ)模型框架上,昆侖萬(wàn)維也進(jìn)行了一系列獨(dú)特的設(shè)計(jì)。模型源自 WanX,通過(guò)移除文本分支并添加動(dòng)作模塊,該模型僅根據(jù)視覺內(nèi)容和對(duì)應(yīng)的動(dòng)作來(lái)預(yù)測(cè)下一幀的畫面。
該系統(tǒng)首先對(duì)原始視頻數(shù)據(jù)進(jìn)行時(shí)空壓縮,圖像輸入通過(guò) 3D Causal VAE 和 CLIP 圖像編碼器作為條件輸入進(jìn)行處理。在用戶提供的輸入動(dòng)作的引導(dǎo)下,DiT 模型(Diffusion Transformer)生成一個(gè)視覺隱空間序列,隨后通過(guò) 3D VAE 解碼器將其解碼為視頻。
簡(jiǎn)單來(lái)說(shuō),這種機(jī)制避免了語(yǔ)言先驗(yàn)可能帶來(lái)的語(yǔ)義偏置,轉(zhuǎn)而專注于圖像的空間結(jié)構(gòu)和動(dòng)態(tài)模式,可以更準(zhǔn)確地理解和生成虛擬世界。
為了讓人們可以與生成內(nèi)容互動(dòng),Matrix-Game 2.0 系統(tǒng)集成了動(dòng)作條件控制模塊,支持幀級(jí)nhà cái n?p ??u 100鍵盤與鼠標(biāo)交互輸入。在其中,連續(xù)的鼠標(biāo)操作會(huì)直接與輸入的潛在表征相連接,經(jīng)多層感知機(jī)(MLP)層處理后,再通過(guò)時(shí)序自注意力層進(jìn)行動(dòng)態(tài)調(diào)整。此外,鍵盤操作通過(guò)交叉注意力層對(duì)融合特征進(jìn)行查詢,從而實(shí)現(xiàn)交互操作的精準(zhǔn)可控性。

Matrix-Game 2.0 基礎(chǔ)模型框架。
最后,為了生成更長(zhǎng)的視頻,減少內(nèi)容上出現(xiàn)的偏差,昆侖萬(wàn)維開發(fā)了一種用于實(shí)時(shí)長(zhǎng)視頻合成的自回歸擴(kuò)散生成機(jī)制,通過(guò) Self-Forcing 把雙向基礎(chǔ)模型轉(zhuǎn)化為高效的自回歸變體,讓每個(gè)幀基于先前自生成的輸出而非真實(shí)值進(jìn)行條件化處理,從而解決了暴露偏差,顯著減少了此前世界模型中常見的誤差累積問(wèn)題。

自驅(qū)動(dòng)因果擴(kuò)散模型訓(xùn)練流程示意圖。通過(guò)自條件生成機(jī)制,蒸餾過(guò)程將學(xué)生模型的分布與教師模型進(jìn)行對(duì)齊。該方法在保持生成質(zhì)量的同時(shí)有效抑制了誤差累積。
實(shí)驗(yàn)效果如何?在與 Oasis 世界模型的對(duì)比上,Matrix-Game 2.0 在長(zhǎng)時(shí)間互動(dòng)視頻生成方面效果更好:Oasis 會(huì)在生成幾十幀之后效果明顯下降,Matrix-Game 2.0 則能夠一直保持穩(wěn)定。

Matrix-Game 2.0 和 Oasis 生成畫面效果的對(duì)比。
定量比較的話,Matrix-Game 2.0 在圖像質(zhì)量、時(shí)間一致性、控制準(zhǔn)確性等方面保持領(lǐng)先,同時(shí)也保證了靈活性和效率不降低。

可見,昆侖萬(wàn)維的新方法可以有效減少當(dāng)初 Oasis 模型‘轉(zhuǎn)一圈畫風(fēng)完全變了’的尷尬情況,這對(duì)于面向?qū)嶋H落地的應(yīng)用來(lái)說(shuō)非常重要。
昆侖萬(wàn)維
持續(xù)發(fā)力開源社區(qū)
Matrix-Game 2.0 并不是昆侖萬(wàn)維第一次展示實(shí)力。在開源領(lǐng)域,最近這家公司的名字越來(lái)越頻繁地出現(xiàn)。
僅在今年,昆侖萬(wàn)維就開源獎(jiǎng)勵(lì)模型 Skywork-Reward-V2,無(wú)限時(shí)長(zhǎng)電影生成模型 SkyReels-V2,多模態(tài)推理模型 Skywork-R1V,面向數(shù)學(xué)、代碼等領(lǐng)域的文本推理模型 Skywork-OR1,以及軟件工程自主代碼智能體基座模型 Skywork-SWE 等等多款模型。

在 HuggingFace 上,昆侖萬(wàn)維的模型熱度很高。
上周連續(xù)五天的技術(shù)發(fā)布活動(dòng),昆侖萬(wàn)維還陸續(xù)發(fā)布了 SkyReels-A3 視頻生成模型、世界模型 Matrix-Game 2.0 與 Matrix-3D、Skywork UniPic 2.0 多模態(tài)訓(xùn)練推理框架,Skywork Deep Research Agent v2、Mureka V7.5 等等一系列 AI 模型、工具。這一套覆蓋圖像、音頻、視頻、音樂、智能體的組合拳,向世人展示了該公司持續(xù)深耕技術(shù)的成果。
這些 AI 領(lǐng)域的新技術(shù),有很多都實(shí)現(xiàn)了業(yè)界領(lǐng)先的水平,不僅讓昆侖萬(wàn)維在技術(shù)落地上不斷擴(kuò)大版圖,也通過(guò)不斷的開源反哺了研究社區(qū)。
當(dāng)然,這樣持續(xù)不懈的前沿技術(shù)研發(fā)也在引發(fā)質(zhì)變,開啟新的方向。
世界模型
進(jìn)入實(shí)用階段
在 DeepMind 的 Genie 3 發(fā)布后,很多人發(fā)現(xiàn),世界模型已經(jīng)不再是個(gè)未來(lái)式,而是正在展現(xiàn)出很大應(yīng)用潛力。DeepMind 自己就表示,希望能把世界模型生成的環(huán)境直接對(duì)齊到機(jī)械臂和具身智能的訓(xùn)練上。
在很多情況下,具身智能的基礎(chǔ)模型面臨著數(shù)據(jù)匱乏、采集難、難以泛化等問(wèn)題,世界模型生成的虛擬環(huán)境,可以成為 AI 完美的訓(xùn)練場(chǎng)。世界模型會(huì)在學(xué)習(xí)物理規(guī)律、事物之間交互規(guī)則等知識(shí)后進(jìn)行預(yù)測(cè)和規(guī)劃。在其中進(jìn)行探索的機(jī)器人、自動(dòng)駕駛汽車依據(jù)這些規(guī)則進(jìn)行交互,就可以訓(xùn)練出更多的智能。
可見不僅在游戲、虛擬人等娛樂場(chǎng)景中,在發(fā)展現(xiàn)實(shí)世界生產(chǎn)力的‘物理 AI’方面,世界模型也可以發(fā)揮作用。
在 Matrix-Game 2.0 等開源技術(shù)出現(xiàn)之后,世界模型實(shí)用化的腳步還會(huì)加快。

責(zé)任編輯:楊賜
Tags:
相關(guān)文章
2021新款潮法國(guó)小眾設(shè)計(jì)高級(jí)感珍珠小包包女2022斜挎手提包戴妃包
nhà cái n?p ??u 100時(shí)尚菱格,時(shí)尚鏈條產(chǎn)品來(lái)自廣東 廣州,屬于通用款女包,箱包皮具/熱銷女包/男包,熙箱記箱包旗艦店,原價(jià):59.90,優(yōu)惠價(jià):39.90時(shí)尚菱格,時(shí)尚鏈條產(chǎn)品來(lái)自廣東 廣州,屬于通用款女包,箱包皮具/熱...
閱讀更多
拼多多發(fā)布Q2財(cái)報(bào),趙佳臻:將繼續(xù)堅(jiān)持長(zhǎng)期主義,深入推進(jìn)“千億扶持”戰(zhàn)略
nhà cái n?p ??u 100新浪科技訊 8月25日晚間消息,拼多多發(fā)布了截至6月30日的2025年第二季度財(cái)報(bào)。受高質(zhì)量發(fā)展加大投入的影響,拼多多本季度營(yíng)收增速放緩至7%,單季營(yíng)收1040億元;凈利潤(rùn)307.5億元,同比下降4%...
閱讀更多
“隱語(yǔ)”開源社區(qū)擴(kuò)容,將融合六大技術(shù)路線推動(dòng)產(chǎn)業(yè)應(yīng)用
nhà cái n?p ??u 100新浪科技訊 8月14日下午消息,今日,隱語(yǔ)“可信隱私計(jì)算開源社區(qū)”在三周年之際宣布升級(jí):由“可信隱私計(jì)算開源社區(qū)”擴(kuò)容為“隱語(yǔ)·數(shù)據(jù)可信流通技術(shù)社區(qū)”,將逐步覆蓋隱私保護(hù)計(jì)算、可信數(shù)據(jù)空間、數(shù)據(jù)元件、...
閱讀更多
熱門文章
- 獨(dú)家|魚泡直聘戰(zhàn)略收購(gòu)“吉工家”,騰訊紅杉投資版圖生變
- 名創(chuàng)優(yōu)品Q2財(cái)報(bào):營(yíng)收49.7億元,同比增長(zhǎng)23.1%
- 手機(jī)包女小巧媽媽款零錢包牛津布散步單肩小包休閑三層帆布斜挎包
- 正品Kipling防水斜挎包凱浦林單肩包旅行休閑手提女包新款K13636
- 王興電話會(huì)談外賣競(jìng)爭(zhēng):堅(jiān)決反對(duì)內(nèi)卷,堅(jiān)持做正確的事
- 美團(tuán)客服回應(yīng)“退款疑問(wèn)”:已修復(fù)退款信息滯后問(wèn)題,將幫助用戶追溯每一筆擔(dān)心的訂單