【新視野】時(shí)間、空間可控的視頻生成走進(jìn)現(xiàn)實(shí),阿里大模型新作VideoComposer火了
機(jī)器之心編輯部
在 AI 繪畫(huà)領(lǐng)域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領(lǐng)了可控圖像生成的理論發(fā)展。但是,業(yè)界在可控視頻生成上的探索依舊處于相對(duì)空白的狀態(tài)。
相比于圖像生成,可控的視頻更加復(fù)雜,因?yàn)槌艘曨l內(nèi)容的空間的可控性之外,還需要滿足時(shí)間維度的可控性。基于此,阿里巴巴和螞蟻集團(tuán)的研究團(tuán)隊(duì)率先做出嘗試并提出了 VideoComposer,即通過(guò)組合式生成范式同時(shí)實(shí)現(xiàn)視頻在時(shí)間和空間兩個(gè)維度上的可控性。
(相關(guān)資料圖)
論文地址:/abs/
項(xiàng)目主頁(yè):
前段時(shí)間,阿里巴巴在魔搭社區(qū)和 Hugging Face 低調(diào)開(kāi)源了文生視頻大模型,意外地受到國(guó)內(nèi)外開(kāi)發(fā)者的廣泛關(guān)注,該模型生成的視頻甚至得到馬斯克本尊的回應(yīng),模型在魔搭社區(qū)上連續(xù)多天獲得單日上萬(wàn)次國(guó)際訪問(wèn)量。
Text-to-Video 在推特
VideoComposer 作為該研究團(tuán)隊(duì)的最新成果,又一次受到了國(guó)際社區(qū)的廣泛關(guān)注。
VideoComposer 在推特
事實(shí)上,可控性已經(jīng)成為視覺(jué)內(nèi)容創(chuàng)作的更高基準(zhǔn),其在定制化的圖像生成方面取得了顯著進(jìn)步,但在視頻生成領(lǐng)域仍然具有三大挑戰(zhàn):
復(fù)雜的數(shù)據(jù)結(jié)構(gòu),生成的視頻需同時(shí)滿足時(shí)間維度上的動(dòng)態(tài)變化的多樣性和時(shí)空維度的內(nèi)容一致性;
復(fù)雜的引導(dǎo)條件,已存在的可控的視頻生成需要復(fù)雜的條件是無(wú)法人為手動(dòng)構(gòu)建的。比如 Runway 提出的 Gen-1/2 需要依賴深度序列作條件,其能較好的實(shí)現(xiàn)視頻間的結(jié)構(gòu)遷移,但不能很好的解決可控性問(wèn)題;
缺乏運(yùn)動(dòng)可控性,運(yùn)動(dòng)模式是視頻即復(fù)雜又抽象的屬性,運(yùn)動(dòng)可控性是解決視頻生成可控性的必要條件。
在此之前,阿里巴巴提出的 Composer 已經(jīng)證明了組合性對(duì)圖像生成可控性的提升具有極大的幫助,而 VideoComposer 這項(xiàng)研究同樣是基于組合式生成范式,在解決以上三大挑戰(zhàn)的同時(shí)提高視頻生成的靈活性。具體是將視頻分解成三種引導(dǎo)條件,即文本條件、空間條件、和視頻特有的時(shí)序條件,然后基于此訓(xùn)練 Video LDM (Video Latent Diffusion Model)。特別地,其將高效的 Motion Vector 作為重要的顯式的時(shí)序條件以學(xué)習(xí)視頻的運(yùn)動(dòng)模式,并設(shè)計(jì)了一個(gè)簡(jiǎn)單有效的時(shí)空條件編碼器 STC-encoder,保證條件驅(qū)動(dòng)視頻的時(shí)空連續(xù)性。在推理階段,則可以隨機(jī)組合不同的條件來(lái)控制視頻內(nèi)容。
實(shí)驗(yàn)結(jié)果表明,VideoComposer 能夠靈活控制視頻的時(shí)間和空間的模式,比如通過(guò)單張圖、手繪圖等生成特定的視頻,甚至可以通過(guò)簡(jiǎn)單的手繪方向輕松控制目標(biāo)的運(yùn)動(dòng)風(fēng)格。該研究在 9 個(gè)不同的經(jīng)典任務(wù)上直接測(cè)試 VideoComposer 的性能,均獲得滿意的結(jié)果,證明了 VideoComposer 通用性。
圖 (a-c)VideoComposer 能夠生成符合文本、空間和時(shí)間條件或其子集的視頻;(d)VideoComposer 可以僅僅利用兩筆畫(huà)來(lái)生成滿足梵高風(fēng)格的視頻,同時(shí)滿足預(yù)期運(yùn)動(dòng)模式(紅色筆畫(huà))和形狀模式(白色筆畫(huà))
方法介紹
Video LDM
隱空間。Video LDM 首先引入預(yù)訓(xùn)練的編碼器將輸入的視頻 映射到隱空間表達(dá) ,其中 。然后,在用預(yù)先訓(xùn)練的解碼器 D 將隱空間映射到像素空間上去 。在 VideoComposer 中,參數(shù)設(shè)置 。
擴(kuò)散模型。為了學(xué)習(xí)實(shí)際的視頻內(nèi)容分布 ,擴(kuò)散模型學(xué)習(xí)從正態(tài)分布噪聲中逐步去噪來(lái)恢復(fù)真實(shí)的視覺(jué)內(nèi)容,該過(guò)程實(shí)際上是在模擬可逆的長(zhǎng)度為 T=1000 的馬爾可夫鏈。為了在隱空間中進(jìn)行可逆過(guò)程,Video LDM 將噪聲注入到 中,得到噪聲注入的隱變量 。然后其通過(guò)用去噪函數(shù) 作用在 和輸入條件 c 上,那么其優(yōu)化目標(biāo)如下:
為了充分探索利用空間局部的歸納偏置和序列的時(shí)間歸納偏置進(jìn)行去噪,VideoComposer 將 實(shí)例化為一個(gè) 3D UNet,同時(shí)使用時(shí)序卷積算子和交叉注意機(jī)制。
VideoComposer
組合條件。VideoComposer 將視頻分解為三種不同類型的條件,即文本條件、空間條件和關(guān)鍵的時(shí)序條件,它們可以共同確定視頻中的空間和時(shí)間模式。VideoComposer 是一個(gè)通用的組合式視頻生成框架,因此,可以根據(jù)下游應(yīng)用程序?qū)⒏嗟亩ㄖ茥l件納入 VideoComposer,不限于下述列出的條件:
文本條件:文本 (Text) 描述以粗略的視覺(jué)內(nèi)容和運(yùn)動(dòng)方面提供視頻的直觀指示,這也是常用的 T2V 常用的條件;
空間條件:
時(shí)序條件:
時(shí)空條件編碼器。序列條件包含豐富而復(fù)雜的時(shí)空依賴關(guān)系,對(duì)可控的指示帶來(lái)了較大挑戰(zhàn)。為了增強(qiáng)輸入條件的時(shí)序感知,該研究設(shè)計(jì)了一個(gè)時(shí)空條件編碼器(STC-encoder)來(lái)納入空時(shí)關(guān)系。具體而言,首先應(yīng)用一個(gè)輕量級(jí)的空間結(jié)構(gòu),包括兩個(gè) 2D 卷積和一個(gè) avgPooling,用于提取局部空間信息,然后將得到的條件序列被輸入到一個(gè)時(shí)序 Transformer 層進(jìn)行時(shí)間建模。這樣,STC-encoder 可以促進(jìn)時(shí)間提示的顯式嵌入,為多樣化的輸入提供統(tǒng)一的條件植入入口,從而增強(qiáng)幀間一致性。另外,該研究在時(shí)間維度上重復(fù)單個(gè)圖像和單個(gè)草圖的空間條件,以確保它們與時(shí)間條件的一致性,從而方便條件植入過(guò)程。
通過(guò) STC-encoder 處理?xiàng)l件后,最終的條件序列具有與 相同的空間形狀,然后通過(guò)元素加法融合。最后,沿通道維度將合并后的條件序列與 連接起來(lái)作為控制信號(hào)。對(duì)于文本和風(fēng)格條件,利用交叉注意力機(jī)制注入文本和風(fēng)格指導(dǎo)。
訓(xùn)練和推理
兩階段訓(xùn)練策略。雖然 VideoComposer 可以通過(guò)圖像 LDM 的預(yù)訓(xùn)練進(jìn)行初始化,其能夠在一定程度上緩解訓(xùn)練難度,但模型難以同時(shí)具有時(shí)序動(dòng)態(tài)感知的能力和多條件生成的能力,這個(gè)會(huì)增加訓(xùn)練組合視頻生成的難度。因此,該研究采用了兩階段優(yōu)化策略,第一階段通過(guò) T2V 訓(xùn)練的方法,讓模型初步具有時(shí)序建模能力;第二階段在通過(guò)組合式訓(xùn)練來(lái)優(yōu)化 VideoComposer,以達(dá)到比較好的性能。
推理。在推理過(guò)程中,采用 DDIM 來(lái)提高推理效率。并采用無(wú)分類器指導(dǎo)來(lái)確保生成結(jié)果符合指定條件。生成過(guò)程可以形式化如下:
其中,ω 是指導(dǎo)比例;c1 和 c2 是兩組條件。這種指導(dǎo)機(jī)制在兩條件集合判斷,可以通過(guò)強(qiáng)度控制來(lái)讓模型具有更加靈活的控制。
實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)探索中,該研究證明作為 VideoComposer 作為統(tǒng)一模型具有通用生成框架,并在 9 項(xiàng)經(jīng)典任務(wù)上驗(yàn)證 VideoComposer 的能力。
該研究的部分結(jié)果如下,在靜態(tài)圖片到視頻生成(圖 4)、視頻 Inpainting(圖 5)、靜態(tài)草圖生成生視頻(圖 6)、手繪運(yùn)動(dòng)控制視頻(圖 8)、運(yùn)動(dòng)遷移(圖 A12)均能體現(xiàn)可控視頻生成的優(yōu)勢(shì)。
團(tuán)隊(duì)介紹
公開(kāi)信息顯示,阿里巴巴在視覺(jué)基礎(chǔ)模型上的研究主要圍繞視覺(jué)表征大模型、視覺(jué)生成式大模型及其下游應(yīng)用的研究,并在相關(guān)領(lǐng)域已經(jīng)發(fā)表 CCF-A 類論文 60 余篇以及在多項(xiàng)行業(yè)競(jìng)賽中獲得 10 余項(xiàng)國(guó)際冠軍,比如可控圖像生成方法 Composer、圖文預(yù)訓(xùn)練方法 RA-CLIP 和 RLEG、未裁剪長(zhǎng)視頻自監(jiān)督學(xué)習(xí) HiCo/HiCo++、說(shuō)話人臉生成方法 LipFormer 等均出自該團(tuán)隊(duì)。
?THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@
關(guān)鍵詞:
您可能也感興趣:
今日熱點(diǎn)
為您推薦
焦點(diǎn)速遞!咸菜餅家常做法?
全球資訊:用Stata進(jìn)行量化分析_關(guān)于用Stata進(jìn)行量化分析介紹
熱點(diǎn)評(píng)!再添千人起訴!美軍這個(gè)丑聞越鬧越大
更多
- 國(guó)家能源局印發(fā)《發(fā)電機(jī)組進(jìn)入及退出商業(yè)運(yùn)營(yíng)辦法》|天天熱門
- 環(huán)球頭條:2023青海海北州事業(yè)單位面向社會(huì)招聘工作人員面試...
- 線上教課用什么軟件-線上授課軟件哪個(gè)比較好|微資訊
- 形容天空的成語(yǔ)_形容天空的詞語(yǔ)
- 雙“囍”臨門!立功喜報(bào)送到訂婚現(xiàn)場(chǎng) 天天播資訊
- 顯示屏顏色不對(duì)是什么原因_顯示屏顏色不正常怎么調(diào)整 天天熱聞
- 每日精選:擁抱無(wú)限創(chuàng)新,擁抱無(wú)限未來(lái)!金柚網(wǎng)以人力資源數(shù)...
- 全球快訊:國(guó)際足聯(lián)由哪七個(gè)國(guó)家倡議成立_國(guó)際足聯(lián)成立于哪年
排行
- 重點(diǎn)聚焦!鮑魚(yú)養(yǎng)在自來(lái)水會(huì)死嗎(鮑魚(yú)自來(lái)水能養(yǎng)活嗎)
- 古裝劇雷同現(xiàn)實(shí)劇抬頭 "腦洞劇"走紅反映觀眾訴求
- 來(lái)不及減肥也可以瘦5斤
- 南京老舊小區(qū)增梯 已有1463部簽訂協(xié)議
- 2018型男們的選包方案!
- 新房裝好一年多墻壁脫落
- 制造行業(yè)升級(jí)大勢(shì)所趨 可加速制造強(qiáng)國(guó)建設(shè)步伐
- 我國(guó)首個(gè)海上智能氣田群——東方氣田群全面建成
- 全新智能產(chǎn)業(yè)體系建立,中國(guó)智能產(chǎn)業(yè)將邁上更高的臺(tái)階
- 上海浦東新區(qū)人工智能技能大賽舉行
最近更新
- 【新視野】時(shí)間、空間可控的視頻生成走進(jìn)現(xiàn)實(shí),阿里大模型新...
- “千萬(wàn)工程”調(diào)研行丨扮靚海上花園 煥發(fā)發(fā)展活力——浙江溫...
- 新化:萌娃進(jìn)警營(yíng) 體驗(yàn)“不一樣”的安全宣傳教育
- 環(huán)球今日?qǐng)?bào)丨新中港06月21日漲停分析
- 膠原蛋白肽固體飲料的功效與作用?
- 今日熱訊:【文化中國(guó)看巴蜀】“云頂行云”——湯文俊書(shū)法藝...
- 全國(guó)首例!中集太平洋海工順利承接國(guó)外漂浮式海上風(fēng)電基礎(chǔ)結(jié)...
- 每日觀點(diǎn):常來(lái)常新!看西安城市文化如何持續(xù)“保鮮”
- 夏至已至 聲生不息丨酷狗繁星互娛“經(jīng)典重置”計(jì)劃夏季煥新...
- 環(huán)球熱資訊!鄰里情|粽葉飄香,京劇唱響美好生活,武漢硚口...
- 水滴公司(WDH.US)榮獲《機(jī)構(gòu)投資者》“2023年度亞洲最佳管理...
- “你們陪我長(zhǎng)大, 我陪你們變老”
- 湘潭“綠色交通”發(fā)展正發(fā)力-世界實(shí)時(shí)
- 端午節(jié)假期遇上“準(zhǔn)暑期” 浙江多景區(qū)雙重“發(fā)力”
- 高考報(bào)志愿必看丨云南14所國(guó)家公辦高職(專科)600余個(gè)專業(yè)一...
- 肥皂香氣的成因及其影響因素分析|消息
- 十一位技術(shù)高管“出走”背后,中國(guó)自動(dòng)駕駛行業(yè)正在“覺(jué)醒”
- 2023粵港澳車展:911 GT3 RS實(shí)車首次公眾亮相
- 實(shí)時(shí):將9月底實(shí)現(xiàn)量產(chǎn) 全新一代北京BJ40申報(bào)圖
- 今日熱門!五一勞動(dòng)獎(jiǎng)?wù)率论E材料_五一勞動(dòng)獎(jiǎng)?wù)潞蛣趧?dòng)模范的區(qū)別
- 這些生肖女天生旺夫命,年齡越大越富有,娶回家就像撿到寶!
- 多地持續(xù)推進(jìn)基礎(chǔ)設(shè)施工程建設(shè)
- 荷花玉蘭果實(shí)有什么用(荷花玉蘭果實(shí)有啥用)
- 北溪天然氣管道是哪個(gè)國(guó)家的(北溪2天然氣管道對(duì)中國(guó)影響) ...
- 2023屈原故里端午文化節(jié)開(kāi)幕 世界頭條
- 熱身賽-基米希送點(diǎn)夸德拉多傳射 德國(guó)0-2哥倫比亞
- 提前跑路!對(duì)沖基金過(guò)去10個(gè)交易日里9天拋售美股,規(guī)模超過(guò)去...
- 每日熱訊!芳華自在笑靨如花什么意思 芳華自在笑靨如花什么意思?
- 三星醫(yī)療:子公司中標(biāo)4.77億元華電集團(tuán)采購(gòu)項(xiàng)目 當(dāng)前看點(diǎn)
今日要聞
- “千萬(wàn)工程”調(diào)研行丨扮靚海上花園 煥發(fā)發(fā)展活力——浙江溫州洞頭鄉(xiāng)村振興一線觀察
- 西寧市城區(qū)2023年初中學(xué)業(yè)水平暨高中招生考試溫馨提示 當(dāng)前速訊
- 連斬BLG和TES,JDG重回夏季賽榜一:真的太無(wú)解,誰(shuí)能治一治他們
- 焦點(diǎn)關(guān)注:西寧市城區(qū)2023年初中學(xué)業(yè)水平暨高中招生考試溫馨提示
- 2023屈原故里端午文化節(jié)開(kāi)幕 世界頭條
- 世界速看:濟(jì)南平陰縣玫瑰鎮(zhèn)奮力打造雪亮工程“升級(jí)版”
- 全球快資訊:新青年|90次火箭燃料加注,這個(gè)“90后”的青春真的很“燃”!
- 【環(huán)球熱聞】政策利好!長(zhǎng)春新區(qū)臨空經(jīng)濟(jì)發(fā)展再迎新機(jī)遇
- 北京昨日最高氣溫突破6月歷史極值 未來(lái)三天高溫持續(xù)
- 大摩:中國(guó)依然是全球奢侈品最重要的市場(chǎng)