拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實驚艷
機器之心報道
(相關資料圖)
編輯:小舟
隨著 ChatGPT、GPT-4、LLaMa 等模型的問世,人們越來越關注生成式模型的發展。相比于日漸成熟的文本生成和圖像生成,視頻、語音等模態的 AI 生成還面臨著較大的挑戰。
現有可控視頻生成工作主要存在兩個問題:首先,大多數現有工作基于文本、圖像或軌跡來控制視頻的生成,無法實現視頻的細粒度控制;其次,軌跡控制研究仍處于早期階段,大多數實驗都是在 Human3.6M 等簡單數據集上進行的,這種約束限制了模型有效處理開放域圖像和復雜彎曲軌跡的能力。
基于此,來自中國科學技術大學、微軟亞研和北京大學的研究者提出了一種基于開放域擴散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語義、空間和時間三個角度實現了對視頻內容的細粒度控制。本文共一作殷晟明、吳晨飛,通訊作者段楠。
論文地址:https://arxiv.org/abs/2308.08089
以拖動(drag)的方式給出運動軌跡,DragNUWA 就能讓圖像中的物體對象按照該軌跡移動位置,并且可以直接生成連貫的視頻。例如,讓兩個滑滑板的小男孩按要求路線滑行:
還可以「變換」靜態景物圖像的相機位置和角度:
方法簡介
該研究認為文本、圖像、軌跡這三種類型的控制是缺一不可的,因為它們各自有助于從語義、空間和時間角度控制視頻內容。如下圖 1 所示,僅文本和圖像的組合不足以傳達視頻中存在的復雜運動細節,這可以用軌跡信息來補充;僅圖像和軌跡組合無法充分表征視頻中的未來物體,文本控制可以彌補這一點;在表達抽象概念時,僅依賴軌跡和文本可能會導致歧義,圖像控制可以提供必要的區別。
DragNUWA 是一種端到端的視頻生成模型,它無縫集成了三個基本控件 —— 文本、圖像和軌跡,提供強大且用戶友好的可控性,從語義、空間和時間角度對視頻內容進行細粒度控制。
為了解決當前研究中有限的開放域軌跡控制問題,該研究重點關注三個方面的軌跡建模:
使用軌跡采樣器(Trajectory Sampler,TS)在訓練期間直接從開放域視頻流中采樣軌跡,用于實現任意軌跡的開放域控制; 使用多尺度融合(Multiscale Fusion,MF)將軌跡下采樣到各種尺度,并將其與 UNet 架構每個塊內的文本和圖像深度集成,用于控制不同粒度的軌跡; 采用自適應訓練(Adaptive Training,AT)策略,以密集流為初始條件來穩定視頻生成,然后在稀疏軌跡上進行訓練以適應模型,最終生成穩定且連貫的視頻。實驗及結果
該研究用大量實驗來驗證 DragNUWA 的有效性,實驗結果展示了其在視頻合成細粒度控制方面的卓越性能。
與現有專注于文本或圖像控制的研究不同,DragNUWA 主要強調建模軌跡控制。為了驗證軌跡控制的有效性,該研究從相機運動和復雜軌跡兩個方面測試了 DragNUWA。
如下圖 4 所示,DragNUWA 雖然沒有明確地對相機運動進行建模,但它從開放域軌跡的建模中學習了各種相機運動。
為了評估 DragNUWA 對復雜運動的精確建模能力,該研究使用相同的圖像和文本對各種復雜的拖動(drag)軌跡進行了測試。如下圖 5 所示,實驗結果表明 DragNUWA 能夠可靠地控制復雜運動。
此外,DragNUWA 雖然主要強調軌跡控制建模,但也融合了文本和圖像控制。研究團隊認為,文本、圖像和軌跡分別對應視頻的三個基本控制方面:語義、空間和時間。下圖 6 通過展示文本(p)、軌跡(g)和圖像(s)的不同組合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)說明了這些控制條件的必要性。
感興趣的讀者可以閱讀論文原文,了解更多研究內容
關鍵詞:
您可能也感興趣:
為您推薦
撩人美杜莎女王cosplay,斗破蒼穹中邪惡與柔情的絕美融合!
蹲下去站起來頭暈想吐是怎么回事(蹲下去站起來頭暈)
云南“疑被販賣緬北”女生平安回家,警方:正核實聊天記錄真實性
排行
最近更新
- 拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實驚艷
- 加快推進世界一流海洋港口建設!西海岸新區重點實施七大行動2...
- 售價9.48/9.68萬元起,菱勢黃金卡倉柵/貨柜版上市
- 自8月26日起,濰坊公交集團優化調整5路公交線
- 中國與金磚成員間貿易猛增
- 一則消息帶崩整個板塊!兩大機場澄清后,國泰君安也辟謠了
- 走進“家門口”的圖書館,感受濃濃書香
- realme真我GT5將發布 采用奇跡玻璃技術
- 科達自控上半年營收同比增長19%:毛利率增加6.83個百分點
- 現代伊蘭特1.5L CVT GLS領先版售價9.98萬
- 丹麥國防大臣:烏克蘭只能在本國境內使用捐贈的F-16戰機,這...
- 湖南工業大學2023年新進輔導員崗前培訓開班
- 奇瑞推出全新緊湊級SUV 11.69萬-13.99萬
- 紫金礦業:收購西藏朱諾銅礦權益
- 三部門:合理增加對消費者購買汽車、家電、家居等產品的消費...
- 通威股份:上半年凈利潤同比增長8.56% 擬合計200億元投建兩光伏項目
- 國產敞篷跑車MG Cyberster售價曝光:31.79萬元起售
- 中際旭創獲深股通連續3日凈買入 累計凈買入5.52億元
- 中國國家公園建設中的“科技范”
- 民警化身電影大使,反詐宣傳進影院
- 2023浙江寧波市奉化區紅果文體產業運營管理有限公司招聘工作...
- 律師找誰寫合伙合同協議書可以幫忙代寫嗎
- 中南文化:公司目前影視業務不涉及短劇
- 2023年成人高考《歷史》必背考點:明朝
- 08月21日國產丙烯腈為7800元
- 財報解讀:上半年凈利大漲230%,周黑鴨“贏”在門店擴張加速
- 商務部等三部門:合理增加對消費者購買汽車、家電、家居等產...
- 艾迪藥業(688488.SH):傅和亮擬辭去總裁及首席執行官職務
- 寧夏銀川:七夕催熱“浪漫經濟” 鮮花、餐飲開啟預訂模式
- 三部門:鼓勵開發適合中小微商貿流通企業的專項信貸產品