首页 > 实用技巧 > 干货教程 > 北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

发布时间:2024-06-16 17:07:28来源: 15210273549

如何生成高难度、指令超复杂的视频呢?

北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~

在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。

 

这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务,包括两个子任务:
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。

 

而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。

 

在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定,出现顺序也与Prompt一致,最后两只松鼠还在自然地交换食物。

干货教程更多>>

定损14.7万,保司只愿赔付6.2万,4S高返点抢来的事故车砸手里了? 智能纯电性价比之王 试驾广汽丰田铂智3X 阿维塔11增配上市28.99万起,新增暗夜骑士版 仰望新车U8L亮相上海车展,全尺寸行政豪华SUV又大又豪 一汽丰田bZ5价格13-16万元 发布安全智能驾驶辅助新方案 2025年黄浦区穗东街道庙头社区合同制工作人员招聘公告(5人) 2025年广州市黄埔区大沙街横沙股份经济联合社第一次招聘公告(10人) 2025年广东技术师范大学招聘辅导员公告(40人) 2025年天河区卫生健康系统事业单位招聘专业技术人员公告(第一批)(105人) 2025年河北地质大学选聘工作人员公告 长安汽车:掌握新风向 Q版“保时捷”上市 2025款缤果它想重新定义代步车? 地平线的野心,落在了“HSD”上? 3月份竟然有合资车销量逆市疯涨,国人消费回归理性出“孤证”! 16.49万元起售,捷途全新山海L9上市 从稳定过万到月销不足三千,极氪王牌因何沉沦? 小米SU7宿命之敌,全新智己L6只缺一个爆点 韩系车领衔缺席2025上海车展,是掉队还是藏招 【何小鹏:小鹏X键支持自定义“Say Hi”功能下季度回归】 三星Galaxy A26 5G手机曝光:25W有线充电、支持双卡双待 广汽将成立子公司与华为合作,首款车型将颠覆市场,售价30万以上 埃安UT 480亿公里零自燃验证证的弹匣电池,全能安全更抗打 直播间搬进田间地头 00后网购年货热衷“混搭” 三款纯电小车近期上市,海豚、萤火虫领衔,都是代步好选择 仰望U8重磅OTA:城市领航开全国 新增暴力模式 丰田这次要掀桌子,15万级纯电SUV,带激光雷达+大模型智驾 累计销量55万辆,红旗H5缘何成为国产B级车标杆? 2025年1月,这20款新车已经开始降价 2024车市盘点:沃尔沃全年下滑8%,新能源车型遭冷落,危机重重 寒假带娃不再慌!大空间、强动力、高安全,瑞虎8L助你安心出行