wow亞洲服有永久60級么 魔獸世界亞洲服永久60級機制詳解
2025-07-21
時間:2024-02-20 10:43:35 作者:jing-L 來源:www.jushandian.cn
sora軟件是什么?最新OpenAI發布了視頻生成模型Sora火爆了,很多用戶對這個軟件還不了解,不清楚火爆的原因,今日小編就帶大家了解下sora軟件技術路徑的詳細分析,希望能幫助到大家,快來一起看看吧。
昨天,OpenAI發布了視頻生成模型Sora,最大的Sora模型能夠生成一分鐘的高保真視頻。同時OpenAI稱,可擴展的視頻生成模型,是構建物理世界通用模擬器的一條可能的路徑。
Sora能夠生成橫屏1920*1080視頻,豎屏1080*1920視頻,以及之間的所有內容。這使得Sora可以兼容不同的視頻播放設備,根據特定的縱橫比來生成視頻內容,這也會大大影響視頻創作領域,包括電影制作,電視內容,自媒體等。
技術報告:https://openai.com/research/video-generation-models-as-world-simulators
技術解讀
魔搭社區的開發者也針對Sora的技術報告展開了熱烈的討論,并根據技術報告的內容,推測了Sora的技術架構圖如下:
Sora的技術架構圖(from魔搭社區開發者)
Sora模型的核心技術點(圖中紅色標注):
視頻壓縮網絡
OpenAI訓練了一個降低視覺數據維度的網絡。這個網絡接受原始視頻作為輸入,并輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練,并隨后生成視頻。同時還訓練了一個相應的解碼器模型,將生成的潛在表示映射回像素空間(源自Sora技術報告)。這部分內容為圖中的紅色部分,核心工作為將視覺數據轉化為patches,patches是從大語言模型中獲得的靈感,大語言模型范式的成功部分得益于使用優雅統一各種文本模態(代碼、數學和各種自然語言)的token。大語言模型擁有文本token,而Sora擁有視覺分塊(patches)。OpenAI在之前的Clip等工作中,充分實踐了分塊是視覺數據模型的一種有效表示(參考論文:An image is worth 16x16 words: Transformers for image recognition at scale.)這一技術路線。而視頻壓縮網絡的工作就是將高維度的視頻數據轉換為patches,首先將視頻壓縮到一個低緯的latent space,然后分解為spacetime patches。
這個方法同樣適用于圖像(將圖像作為單一幀視頻處理),基于Patches的表示使得Sora能夠訓練具有不同分辨率,持續時間和縱橫比的視頻和圖像,而在推理過程中,只需要在適當大小的grid中隨機初始化patches即可控制視頻生成的大小。
技術難點:視頻壓縮網絡類比于latent diffusion model中的VAE,但是壓縮率是多少,如何保證視頻特征被更好地保留,還需要進一步的研究。
2. 用于視頻生成的Scaling Transformers
Sora是一個diffusion模型;給定輸入的噪聲塊+文本prompt,它被訓練來預測原始的“干凈”分塊。重要的是,Sora是一個Scaling Transformers。Transformers在大語言模型上展示了顯著的擴展性,我們相信OpenAI將很多在大語言模型的技術積累用在了Sora上。
在Sora的工作中,OpenAI發現Diffusion Transformers作為視頻生成模型具備很好的擴展性。
技術難點:能夠scaling up的transformer如何訓練出來,對第一步的patches進行有效訓練,可能包括的難點有long context(長達1分鐘的視頻)的支持、期間error accumulation如何保證比較低,視頻中實體的高質量和一致性,video condition,image condition,text condition的多模態支持等。
3. 語言理解
OpenAI發現訓練文本到視頻生成系統需要大量帶有相應文本標題的視頻。這里,OpenAI將DALL·E 3中介紹的標題生成技術用到了視頻領域,訓練了一個具備高度描述性的視頻標題生成(video captioning)模型,使用這個模型為所有的視頻訓練數據生成了高質量文本標題,再將視頻和高質量標題作為視頻文本對進行訓練。通過這樣的高質量的訓練數據,保障了文本(prompt)和視頻數據之間高度的align。而在生成階段,Sora會基于OpenAI的GPT模型對于用戶的prompt進行改寫,生成高質量且具備很好描述性的高質量prompt,再送到視頻生成模型完成生成工作。
技術難點:如何訓練一個高質量的視頻caption模型,需要海量的高質量視頻數據,包括數據的獲取和標注,為了保障通用性,需要支持各種多樣化的視頻源,電影、紀錄片、游戲、3D引擎渲染等等;標注工作包括對長視頻的精準切片,以及切片后的captioning。中文高質量視頻數據一直是稀缺資源,隨著國內短視頻業務發展,也許可以加快中文高質量短視頻的收集和獲取。
4、世界模型,涌現的模擬能力
當大規模訓練時,sora同樣也出現了有趣的“涌現的模擬能力”,這些能力使Sora能夠模擬物理世界中的人、動物和環境的某些方面。這些屬性沒有任何明確的三維、物體等歸納特征信息——可以理解為由于模型參數足夠大而產生的涌現現象。
這些能力包括:
三維一致性 Sora可以生成具有動態攝像機移動的視頻。隨著攝像機的移動和旋轉,人物和場景元素在三維空間中一致地移動。
長距離連貫性和物體持久性 對于視頻生成系統來說,一個重大挑戰一直是在采樣長視頻時保持時間上的連續性。研究發現,Sora通常能夠有效地模擬短距離和長距離依賴關系(不穩定)。例如,Sora可以在人物、動物和物體被遮擋或離開畫面時仍然保持它們的存在。同樣,它可以在單個樣本中生成同一角色的多個鏡頭,貫穿視頻始終保持他們的外觀。
與世界互動 Sora可以模擬以簡單方式影響世界狀態的行為。例如,畫家可以在畫布上留下新的筆觸,這些筆觸隨著時間的推移而持續存在,或者一個人可以吃漢堡并留下咬痕。
模擬數字世界 Sora還能夠模擬人工過程,一個例子是視頻游戲。Sora可以通過基本策略控制《Minecraft》中的玩家,同時以高保真度渲染世界及其動態。這些能力可以通過prompt包含“Minecraft”,零樣本激活這樣的能力。
而這些能力都表明,順著這個方向發展(持續擴大規模),Sora真的可能成為世界模型(能夠高度模擬物理和數字世界的模擬器)。也許頭部玩家,黑客帝國這些科幻片,就在不太遙遠的未來。
技術難點:“大”模型,“高”算力,“海量”數據
總 結
從Sora模型的技術報告中,我們可以看到Sora模型的實現,是建立在OpenAI一系列堅實的歷史技術工作的沉淀基礎上的:包括不限于視覺理解(Clip),Transformers模型和大模型的涌現(ChatGPT),Video Caption(DALL·E 3)等。正如社區的一位開發者說,雖然其中依然有非常多的技術細節OpenAI并沒有披露,但是OpenAI畫了一條“模糊”的路,有了這條模糊的路,大家就可以去嘗試,從而畫出通往視頻生成的正確的清晰的路。
以上就是sora軟件技術路徑分析的全部內容了,sora模型的技術比較模糊,很多細節OpenAI并沒有發出來,開發者們可以自己理性思路慢慢嘗試。