阿里又整活儿：一张人脸一句话就能跳《擦玻璃》服装背景随意换

时间：2023-12-28 08:22 点击次数：97

　　而且随着prompt的变化，人物背景和身上的衣服也会随之发生改变。例如我们再换两句：

　　这便是阿里最新的一项研究——DreaMoving，主打的就是让任何人、随时且随地地跳舞。

　　项目一出，也是引发了不少网友的关注，有人在看过效果之后直呼“Unbelievable”~

　　虽然像Stable Video Diffusion和Gen2等文本到视频（text-to-video，T2V）模型的出现，在视频生成方面取得了突破性进展，但现在仍然有诸多挑战需要面对。

　　例如在数据集方面，目前缺乏开源的人类舞蹈视频数据集以及难以获得相应的精确文本描述，这就使得让模型们去生成多样性、帧一致性、时长更长的视频成为挑战。

　　研究者们首先从互联网收集了大约1000个高质量的人类舞蹈视频。然后，他们将这些视频分割成大约6000个短视频（每个视频8至10秒），以确保视频片段中没有转场和特殊效果，这样有利于时间模块的训练。

　　此外，为了生成视频的文本描述，他们使用了Minigpt-v2作为视频字幕器（video captioner），特别采用了“grounding”版本，指令是详细描述这个帧。

　　基于关键帧中心帧生成的字幕代表了整个视频片段的描述，主要是准确描述主题和背景内容。

　　其中，Video ControlNet是在每U-Net块之后注入运动块（Motion Block）的图像控制网络，将控制序列（姿态或深度）处理为额外的时间残差。

　　而Content Guider则是将输入文本提示和外观表情（如人脸）传输到内容嵌入中。

　　在如此操作之下，DreaMoving便可以在给定引导序列和简单的内容描述（如文本和参考图像）作为输入的情况下生成高质量、高保真度的视频。

　　原标题：《阿里又整活儿：一张人脸一句话就能跳《擦玻璃》，服装背景随意换！》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。