指南
如何让同一个 AI 角色跨场景保持一致
把同一个角色生成两次,你往往会得到两个不同的人:脸变了,头发长短不一样,夹克也换了颜色——因为大多数 AI 图像和视频模型都是每次都根据提示词从头生成,对上一次做出来的样子毫无记忆。对于单张镜头,这没什么问题;但当你要做一个故事、一支广告,或者同一角色要在多个场景反复出场的网红式系列内容时,这种"走样"就是最核心的麻烦。好消息是:相比从前,新一代模型把角色稳住的能力强了很多,而 Renoise 还给了你几招具体的技巧,把一致性再往前推一把。先把丑话说在前面:这是模型层面的改善,而不是保证——Seedance 2.0 和 Kling 3.0 Omni 偶尔仍会走样,所以整套流程的本质是叠加胜算,而不是按下一个开关就万事大吉。
为什么 AI 角色会走样
每一次生成,都是从一个庞大的"合理图像"空间里采样。当你的提示词写着"一位短发的年轻女性"时,模型大可挑出"某一位"短发年轻女性——而不是你上一个镜头里的"那一位"。随机种子、提示词措辞、镜头角度、灯光上的细微差别,都会把结果推向一张略有不同的脸。十次生成之后,这些细微偏移层层累积,到最后你的角色已经和起点上的那个人成了"远房表亲"。
解决之道,是给模型一个固定的锚点去依附——一张参考、一帧承接的画面、一份分镜,或是稳定的措辞——让它没那么多自由去乱跑。这些办法没有一个能强行锁死成完美,但每一个都能收窄模型取样的范围。
技巧一:锁定一套参考图集
最强的锚点,是一套你这个角色的参考图。与其用文字描述脸、然后听天由命,不如直接把真实的图片交给模型,告诉它:让新镜头长得像这个人。
Renoise 中两个在线视频模型都支持多张参考图:
| 模型 | 图像参考 | 说明 |
|---|---|---|
| Seedance 2.0(ByteDance) | 最多 9 张图 | 还支持首尾帧与续接 |
| Kling 3.0 Omni(Kuaishou) | 最多 7 张图(配参考视频时 ≤4 张) | 多主体一致性,单次最多 6 镜分镜 |
参考图越多,通常锁得越紧——因为模型从多个角度和表情见到了这个角色,会朝一个稳定的身份去取平均,而不是凭一张照片瞎猜。一套实用的配置:一张清晰的正脸、一张四分之三侧脸、一张交代服装和身材比例的全身照,再加上几个表情。整套图的灯光和风格要保持一致,这样你锚定的是这个角色本身,而不是某种特定的氛围。
如果你还没有角色,先生成一个——挑出你最满意的结果,然后把那张图(连同它的若干变体)作为参考图集,喂给之后的每一个镜头。AI 角色指南会带你从零搭建一个角色。
技巧二:用首尾帧与续接把同一形象贯穿多个镜头
参考图锚定的是角色"是谁";首尾帧与续接锚定的是"一个镜头如何衔接到下一个"。
Seedance 2.0 两者都支持。用首尾帧时,你给出一段片段的开头帧(必要时还有结尾帧),模型生成中间的运动——于是角色在镜头开头的样子,会和你交给它的那张静帧分毫不差。用续接时,你从一段已有片段往后延伸,接着上一段结束的地方继续。把它们串起来,就能让一个角色把形象贯穿整个序列:第一个镜头的末帧成为第二个镜头的首帧,依此类推,而不是每段片段都从一张白纸重新开始。
当纯文生视频的提示词老是走样时,这一招尤其管用——钉死一个明确的起始帧,能大幅压掉模型重新"再造"那张脸的空间。
技巧三:在一次任务里规划多个镜头的分镜
一个镜头一个镜头地单独生成,等于在招惹走样,因为每次任务都互相独立。Kling 3.0 Omni 提供了一个更紧的选项:单次分镜任务最多 6 个镜头,再加上单个镜头内的多主体一致性。
把几个镜头一起描述,能让模型把它们当成一个连贯的序列来处理——同一个角色和场景跨越剪辑被一路带下去,而不是六次各自为政的猜测,再让你事后拼接。多主体一致性把这一点延伸到不止一个角色的场景:对话中的两个人,或一位主持人身旁反复出现的产品,各自在整段片段里保持外形稳定。作为模型层面的能力,这比老模型能做到的要紧得多,但它仍然可能走样,所以请检查输出,别想当然地以为它完美对得上。AI 网红指南讲的就是用这种方式打造一个反复出镜的角色。
技巧四:让你的提示词措辞保持一致
最省钱的技巧分文不花:别再换着花样描述你的角色了。每一次你用不同的说法重新描述同一个人,就等于又递给模型一种新的解读,让它有了走样的方向。
- 写一段固定的角色描述块——对脸、头发、身形和标志性服装做简短而精确的描述——然后把同一段文字粘贴进每一条提示词。只改它周围的场景、动作和镜头。
- 要具体,别诗意。"方下颌、贴头的黑色短发、窄边钢框眼镜、橄榄绿工装夹克"比"一个粗犷的家伙"锚得牢得多。
- **别用文字跟你的参考图打架。**如果参考图集里是长发,就别又写"短发"——相互矛盾的信号是走样的常见来源。
- **风格措辞也要保持稳定。**把渲染风格("写实、50mm、柔和日光")跨镜头锁定,这样角色才不会每次都被重新打光成另一副模样。
稳定的措辞 加上 稳定的参考图集,这个组合能搞定大部分工作。
关于真人的一点说明
上面讲的全都是关于角色的一致性——也就是你创作出来的形象。把一个真人的肖像搬上屏幕,则是另一回事,要走一道授权确认的步骤。在 Renoise 里,这要通过一次性的肖像审核来处理授权真人面孔:你需要确认自己拥有该人物的相关权利,才能生成。它是一道合规关卡,不是创作功能,和这里的角色一致性技巧是分开的——那些技巧是为了让一个虚构角色保持稳定;而肖像审核管的是你究竟有没有资格描绘一个真实的个人。别把两者混为一谈。