以高质量生图控制视频生成的尝试（一） | Institute of Computer Software

民俗复原：以高质量生图控制视频生成的尝试（一）

陈嘉昀
jiayunchen@smail.nju.edu.cn
2025年8月19日

我们（主要是cjy本人）选择做 aigc 的“伟大梦想”是给 JJ20 这样的演唱会做舞美，因此保研时还曾斗胆联系过做 CG 的课题组，然而面谈时一听到每天要和一帮 CMO / CPHO 的的天才一起做仿真、解方程，就给我吓跑了。于是有了这样的一条迂回的路线：用高质量的图片来配合短镜头视频的生成。

在前段时间，我们的图像生成系统（dcc）进入了“能跑”的状态，其作为系统的一个重要特征是：相较于单纯的文本控制图像生成模型，系统中蕴含了更多的背景信息并实现了更好的用户意图分解。仍以 JJ20 演唱会曲目光阴副本为例，舞美其实与多个因素（歌词、曲调、演唱者的心态等）有关，而非单纯的文本控制。

nyaigc-title

因此，我希望系统能够包含更多的信息（只是因为现在的模型是文本输入为主，因此这些信息暂时都被对齐到文本上）。在近期的时间里，我们成功地验证了这个特征的效果。我们协助制作了一些北京的民俗/文化/饮食的视觉输出，对于系统来说，它的输入是...

10本书。

What??? 市面上有这么大上下文窗口的生图模型吗？因此我们实际上完成的是：数据标注 -> 背景知识库构造 -> 特定生图任务规约 -> 图像生成 -> 视频生成的系统步骤（当然，作为系统，它的自动化程度也足够高了，上百万字的文字处理，上百个图像生成需求描述，我们做到了 all in one）。

节选展示：

name：放河灯

nyaigc-title

nyaigc-title

name: 中和节-祀日
desc: 清代北京过中和节时，以江米为糕，上印金乌圆光，用以祀日，绕街遍巷叫卖太阳鸡糕，焚帛时焚烧五色挂钱，称为太阳钱粮。太阳糕是每个家里必请的供品，即使手头拮据也总要请几块太阳糕应个景儿，以图吉利，祈求吉祥。

nyaigc-title

nyaigc-title

name: 重阳节-操练军队
desc: 到了清代，满族统治者还在这一天操练军队，令百姓纵观，“九月登高，花儿市访菊，城墙下观八旗操演，妇女簪挂金灯，九日归宁”。

nyaigc-title

nyaigc-title

name: 重阳节-登高
desc: 北城居民一般前往阜成门外真觉寺五塔金刚宝座台上登高，南城居民多前往左安门内法藏寺弥陀塔登高

nyaigc-title

nyaigc-title

name: 特色食物-马奶酒

nyaigc-title

nyaigc-title

nyaigc-title

nyaigc-title

name：特色食物-肉酱拌饭

nyaigc-title

nyaigc-title

name：特色食物-烧饼

nyaigc-title

nyaigc-title

name：特色食物-土豆粉

nyaigc-title

nyaigc-title

name：清明-戴柳

nyaigc-title

nyaigc-title

name: 乞巧
desc: 妇女在月下对着织女祭拜，用彩线穿七孔针，向织女乞求织布绣花的技能和技巧；丢针试巧拙，将小针投入碗水中，观察水底日影以卜女之巧拙

nyaigc-title

nyaigc-title

name：中秋-吃月饼

nyaigc-title

nyaigc-title

name: "中秋节-供兔儿爷"
desc: "明《北京岁华记》载道：“市中以黄土博成，曰兔儿爷，着花袍，高有二三尺者。”《燕京岁时记》载：“每届中秋，市人之巧者用黄土抟成蟾兔之像以出售，谓之兔儿爷……大者三尺，小者尺余。”届时人家都要给小孩子买上一两个兔儿爷带回家"

nyaigc-title

nyaigc-title

结语

一方面，非常开心我们的工作可以为一个大的项目（此项目仍在比赛中，因此不便介绍）贡献绵薄之力；另一方面，也在实践中看到了向“伟大梦想”迈出的一小步。那就继续做下去吧！

© 2021 Institute of Computer Software, Nanjing University. All rights reserved.