兵马俑跳《科目三》是我万没想到的

时间：2024-01-19 17:30 点击次数：196

　　家人们，火爆全球的魔性舞蹈《科目三》，谁能料到，就连兵马俑也开始跳上了！

　　热度还居高不下，瞬间被轰上了热搜，小伙伴们纷纷惊掉了下巴表示“闻所未闻，见所未见”。

　　原来，是有人借助了阿里之前走红的AI技术AnimateAnyone，生成出来了这个舞蹈片段。

　　技术圈的盆友对这个技术都不陌生，“出道”至今仅仅1个月时间，这个项目便已经在GitHub上斩获了超1.1万个star。

　　而且“入口”还直接被嵌进了阿里通义千问APP名曰：通义舞王。

　　很快，各种效果、各种玩法、各种人物，都动了起来例如微博网友“Simon_阿文”，让拿破仑表演了一把

　　或者在输入框内敲“通义舞王”或“全民舞王”等关键词，就可以跳转到相应界面了：

　　目前通义千问APP提供了12个模板，这次我们就选择二次元最爱、宅舞《极乐净土》测试一下~

　　需要说明的是，在选择照片的时候，还是需要一点“技巧”的，“通义舞王”也有相应提示：

　　在此之后，直接点击“立即生成”，静候几分钟，贝佐斯大跳《极乐净土》的视频，就诞生了：

　　是不是效果还行？虽然还不能讲“真假难辨”，但首富都能这样为你跳一曲了，还要什么自行车。

　　总而言之，现在你想让任何人跳舞一张全身照就够了。

　　不过有一说一，虽然“通义舞王”已经成功吸引了众多网友前来玩耍，反响火爆，但它也还没到完美无瑕的境界。

　　例如等待时长，现在平均时间大约在10分钟左右（有点久，但毕竟是免费的，还要啥自行车啊）。

　　还有就是从视频效果来看，如果照片角度不好或者清晰度不够也会影响AI对于人物手部的处理。

　　但在仅靠一张照片就生成视频这件事上，它还面临着诸多的挑战，例如人物形象一致性（consistency）的问题。

　　简单来说，就是如何保证照片人物在动起来的过程中，各种细节能够和原照片保持一致。

　　为此，阿里团队在扩散模型的基础之上，提出了一个新的算法，也就是我们刚才提到的AnimateAnyone。

　　例如在一致性方面，阿里团队引入的是ReferenceNet，用于捕捉和保留原图像信息，可高度还原人物、表情及服装细节。

　　具体而言，在参考图特征提取上，ReferenceNet采用的是与去噪UNet类似的框架，但没有包含时间层；它继承了原始扩散模型的权重，并独立进行权重更新。

　　在将ReferenceNet的特征融合到去噪UNet时，首先将来自ReferenceNet的特征图x2复制t次，并与去噪UNet的特征图x1沿w维度连接；然后进行自注意力处理，并提取特征图的前半部分作为输出。

　　虽然ReferenceNet引入了与去噪UNet相当数量的参数，但在基于扩散的视频生成中，所有视频帧都需要多次去噪，而ReferenceNet只需在整个过程中提取一次特征，因此在推理过程中不会导致显著增加计算开销。

　　Pose Guider姿势引导器采用的是一个轻量级设计，而不是引入一个额外的控制网络。

　　具体来说，使用了四个卷积层（卷积核大小为4 x 4，步幅为2×2，通道数分别为16、32、64、128），这些卷积层用于将姿势图像对齐到与噪声潜变量相同的分辨率。

　　处理后的姿势图像会被加到噪声潜变量上，然后一起输入到去噪UNet中，从而在不显著增加计算复杂性的情况下，为去噪UNet提供姿势控制。

　　时序层的设计灵感来源于AnimateDiff，通过在特征图上执行时间维度的自注意力，以及通过残差连接，其特征被整合到原始特征中。

　　同样的，这个模块的作用之下，满足了在保持时间连续性和细节平滑性的同时，减少了对复杂运动建模的需求。

　　最终，在AnimateAnyone的加持之下，从效果上来看，保证了图像与视频中人物的一致性。

　　然而，阿里之所以不断在AnimateAnyone上攻坚优化，并非完全出于技术很酷很有潜力，还藏着一颗引领视频生成技术的野心。

　　What is the Next？实际上，在AnimateAnyone火了之后，阿里还有另一项视频生成技术在同时出圈。

　　它叫DreaMoving，只需一张脸部照片、一句话描述，就能让你在任何地方跳舞！

　　而且随着prompt的变化，人物背景和身上的衣服也会随之发生改变。例如我们再换两句：

　　和AnimateAnyone一样的，它也是真人、卡通、动漫人物统统都能hold住。

　　这些都是阿里在视频生成上的“沿途下蛋”，都是“勇攀珠峰”死磕AI视频生成技术的证明和结果。

　　因为纵观去年一整年的AIGC发展的脉络，AI视频生成的爆发趋势似乎越来越明确了。

　　2022年底以来，从最初ChatGPT引爆大语言模型，全球科技巨头乃至初创企业纷纷入局，到后来各家不仅限于自然语言技术，更是将文生图、文生音频、文生视频、图生视频等多模态技术“玩”出了新高度。

　　因此，多模态大模型、AI视频生成领域，正是现如今AIGC这波顶流中的顶流，阿里频频在此发力，也就不难理解了。

　　不仅如此，在岁末年初之际，更是有众多AI大佬将2024年的预测押注于此。

　　例如Meta研究院Martin Signoux非常直接地表态“再见LLM，你好LMM”，这个预测也得到了LeCun的转发和点赞。

　　但如果问下一个ChatGPT会从哪个赛道来？AI视频生成，就是自带鼓风机的那一个，而在这个赛道里，阿里已经抢占了先机。

上一篇：UTG玻璃

兵马俑跳《科目三》 是我万没想到的