跳到主要内容

模型深度解析

Kling 3.0 Omni 原生对口型详解

MaxRenoise10 分钟阅读

"对口型"过去意味着要再用一个工具:先生成视频,再把嘴部送进另一个模型去匹配音轨。而快手的全模态视频模型 Kling 3.0 Omni 把这一切放进同一遍生成里完成——嘴部动作直接由音频在模型内部生成,和镜头里的其它一切同时产出。这听起来只是个小区别,却直接决定了成片有多干净、后期要折腾多少。下面讲清楚原生对口型究竟是什么,让它真正好用的 Kling 3.0 Omni 能力有哪些,以及如何在 Renoise 里做出会说话的视频。

"原生"对口型是什么意思

后期处理式的对口型流程分两步。先由视频模型生成画面,再由第二个模型拿一段音频、把嘴部区域重新变形去匹配音素。因为嘴是事后才编辑的,接缝就露馅了:下半张脸看起来像贴上去的,下巴和脸颊的动作未必跟得上,遇到语速快的片段时间轴还会漂。

原生对口型把这一步收进了生成本身。模型把音频和提示词、参考图一起作为输入,在同一次渲染里就产出与台词相符的嘴部、下巴和面部动作——而不是在成片之上再叠一层编辑。因为整张脸是一起生成的,嘴随着脸颊动,表情贴合台词,时间轴从第一帧起就锁定在音频上。

这才是关键差别:用后期那一步,你是在修一段已经做完的视频;而用原生对口型,"说话"是从一开始就长在画面里的。

Kling 3.0 Omni 规格

Kling 3.0 Omni 被设计成一个全模态模型——对口型只是它诸多协同能力中的一个。以下是它在 Renoise 中集成后的能力:

能力Kling 3.0 Omni
片段时长3–15s(含参考视频时 ≤10s)
分辨率720p / 1080p
画面比例5 种(16:9 / 9:16 / 1:1 / 4:3 / 3:4)
输入模态5+(文字、图像、音频、视频等)
对口型原生,音频驱动
多主体一致性支持——在同一镜头中跟踪多个主体
故事板单次任务最多 6 个镜头
物理物理动力学模拟
参考素材最多 7 张图(含参考视频时 ≤4 张)+ 1 段视频

其中有几项值得展开,因为正是它们让对口型的用处超越了单纯一张会说话的脸。

多主体一致性

一个对话场景往往不止一张脸。Kling 3.0 Omni 能在一个镜头里保持多个主体的一致性——两人对话、主持人旁边摆着一件产品——于是该动的嘴对上该说的台词,每个主体的外观在整段片子里都保持稳定。作为模型层面的改进,这比老模型紧实得多;但和任何 AI 视频模型一样,它仍可能漂移,所以值得回看成片,而不是默认它锁得天衣无缝。

单个故事板最多 6 个镜头

不必一段段地生成再去拼接,你可以在单次故事板任务里描述最多 6 个镜头。这能让角色和场景跨剪辑保持连贯——很适合一段简短对话,或是每个镜头都需要同一位说话者的多节拍广告。

5+ 输入模态与物理动力学

模型接受 5+ 种输入模态——文字、图像、音频、视频等——这正是原生对口型能成立的原因:音频不过是又一个一等输入。在此之上,它的物理动力学模拟让运动保持可信(头发、衣物、手势),于是会说话的主体动起来像个真人,而不是一张悬浮的脸。

参考素材处理

你可以附上最多 7 张参考图来锚定角色、风格或场景。如果你同时提供一段参考视频(一段视频片段),图像额度就降到 4 张,片段时长上限收到 10 秒——这是一种有意的取舍,因为参考视频本身已经携带了大量运动与身份信息。

如何在 Renoise 里做一段对口型视频

在 Renoise Canvas 上,一段会说话的视频只需几步:

  1. 打开视频工具,把模型选为 Kling 3.0 Omni(或直接进 /videos?model=kling)。
  2. 加入你的主体。 上传角色或场景的参考图,或写提示词生成一个。你最多可附 7 张参考图来锁定外观。
  3. 加入音频——你想让主体说出或唱出的内容,这就是原生对口型所依据的音轨。
  4. 写提示词: 描述场景、镜头和表达方式(语气、能量),不用描述口型——口型交给模型从音频里处理。
  5. 设定时长和画面比例(3–15s;做 Reels/TikTok 选 9:16,做 YouTube 选 16:9)。如果你还加了参考视频,就把片段控制在 10 秒以内。
  6. 生成,然后回看对口型和各主体,确认无误再导出。无水印导出在付费方案中提供。

想让单张静态照片开口说话,见 AI 会说话照片指南;想对上一位真实且已授权的人,见 名人风格对口型;想做音乐驱动的动作,见 AI 舞蹈视频指南

真人对口型

如果你想让一位真人的肖像在镜头前说话,这要经过一次性的肖像审核,针对的是已授权的真实人脸——你需先确认自己拥有该人的使用权,再去生成。这是一道授权环节,不是创作限制:一旦某张脸通过授权,Kling 3.0 Omni 就会像驱动任何其它主体一样,用你的音频驱动它。

做出干净成片的小技巧

  • 用参考视频时把片段做短。 一旦附了参考视频,你就被限制在 10 秒、4 张图像参考——围绕这个上限去规划镜头,别和它较劲。
  • 一开始就把画面比例匹配到平台(9:16 竖屏、16:9 横屏、1:1 方形),免得事后再去裁切一张脸。
  • 喂干净的音频。 原生对口型跟随你给的音轨;语音更清晰、背景噪音更少,嘴部时间轴就咬得更紧。
  • 对话场景用故事板。 当你需要同一说话者的多个镜头时,最多 6 镜头的任务比一段段单独生成更能保持一致。
  • 想要更长、能自带音频的镜头? Seedance 2.0(ByteDance)也已在 Renoise 上线,能生成自己的音频——当重点不在于对上某条特定音轨时,它是个不错的替代。

在 Renoise 试用 Kling 3.0 Omni

分享

By Max, RenoiseLast reviewed by peytonModels verified: Kling 3.0 Omni

做一段真正对得上嘴的 会说话视频。

在 Renoise Canvas 上用 Kling 3.0 Omni 生成音频驱动的对口型。