跳到主要内容

AI 明星口型同步视频

上传人脸与音频,Kling 3.0 Omni 自动同步生成对口型视频。

Kling 3.0 Omni

如何制作 AI 明星口型同步视频?

在 Renoise Canvas 中上传参考人脸照片和音频轨道,填写描述表演场景的提示词,选择 Kling 3.0 Omni 渲染——其原生口型同步功能可将音频与嘴部动作一步对齐。若需使用真实公众人物的肖像,必须提前完成 FacePass 授权并取得当事人书面同意,模型才会生成。

只想让静态照片开口说台词而非演唱?请参阅 AI 说话照片指南

口型同步生成器核心能力

Kling 3.0 Omni 原生口型同步——开始前先了解这些要点。

原生同步,无需后期剪辑

Kling 3.0 Omni 在单次生成中直接将音频映射至嘴部动作,无需手动打关键帧或后期处理。

3–15 秒片段

单次口型同步生成支持 3–15 秒的片段。可在 Canvas 时间轴中拼接多段,制作更长的完整表演。

支持人声与音乐

可附加口播录音或音乐文件——Kling 3.0 Omni 识别音素并驱动两种类型的嘴型变化。

真实人脸需 FacePass 授权

同步任何真实人物的肖像(包括公众人物),必须先通过 FacePass 授权,并持有其书面同意。

3 步制作口型同步视频

从参考人脸和音频到同步表演视频,全程在 Renoise Canvas 内完成。以下示例均使用原创虚构角色演示。

  1. 向 Renoise Canvas 上传参考人脸照片和音频,用于口型同步生成
    Step 1

    上传人脸与音频

    将清晰的正面参考照片和音频轨道拖入 Canvas。若为真实人物,请先完成 FacePass 授权。

  2. 在 Renoise 中选择 Kling 3.0 Omni 进行原生口型同步生成
    Step 2

    撰写表演提示词

    描述场景、情绪与风格,例如"霓虹舞台上的歌手,充满活力的流行表演,宽景镜头"。

  3. 在 Renoise 中选择 Kling 3.0 Omni 进行原生口型同步生成
    Step 3

    选择 Kling 3.0 Omni 并生成

    在模型菜单中选择 Kling 3.0 Omni——它原生支持口型同步。生成完成后导出同步视频片段。

口型同步表演风格展示

以下示例均由 Renoise 原创虚构角色生成——同样的流程适用于任何已授权的人脸和音频。

舞台演唱

原创 3D 风格歌手角色在霓虹舞台上随音乐同步表演

演播室主持

原创虚构主持人身着米色西装,在演播室场景中同步播报

厨师讲解

原创虚构厨师角色在厨房中同步口播旁白

奇幻独白

原创暗黑奇幻风战士角色在火光氛围中同步演讲

AI 口型同步原理——以及 FacePass 对真实人脸意味着什么

口型同步的核心是将音频映射至嘴型。语音或歌唱中的每一个独立发音——即音素——都对应一个可见的嘴部形态,称为"视素"(viseme)。由快手研发的 Kling 3.0 Omni 会逐帧读取你提供的音频,驱动下颌、嘴唇和面颊匹配对应的音素形态。最终结果是一段直接由参考人脸和音频一次性生成的同步说话或演唱视频——无需手动动画或后期处理。

参考人脸决定人物身份:模型在整个片段中保持人脸一致,仅让说话动画发生变化。这正是一张静态肖像能变成演唱歌手或播音主持的原因——面部特征保持可辨认,嘴部和表情随之运动。

对于虚构角色、插画形象或 AI 生成的人脸,整个流程无需额外步骤。但对于任何真实、可辨认的人——公众人物、表演者或普通人——Renoise 要求在模型生成之前完成 FacePass 授权。FacePass 是肖像授权系统:它记录你持有使用该人脸进行 AI 视频生成的权利或书面同意。未完成 FacePass 授权时,模型默认屏蔽真实人脸的生成请求。

这意味着,你无法仅凭上传某位名人的照片就在 Renoise 中生成其口型同步视频——这需要 FacePass 授权,而 FacePass 需要当事人的书面同意。但你可以使用自己的人脸、你代理的授权对象,或完全原创的虚构角色。本页所有演示示例均采用原创虚构角色,仅用于说明操作流程。

立即制作你的第一个口型同步视频

付费套餐导出无水印视频。

常见问题

1.我可以使用真实名人的人脸制作口型同步视频吗?

不能,除非取得当事人书面同意。Renoise 的 FacePass 系统要求对任何真实、可辨认的人——包括公众人物和名人——进行肖像授权。未完成授权,模型默认屏蔽真实人脸的生成请求。使用自己的人脸、你代理的授权对象,或完全原创的虚构角色则无需 FacePass。

2.口型同步支持哪些音频格式?

Kling 3.0 Omni 支持标准音频轨道——口播录音和音乐文件均可。在 Renoise Canvas 中与参考人脸照片一起附加音频文件即可。无论语言如何、内容是语音还是歌唱,模型均能读取音素驱动嘴型。

3.口型同步视频最长可以做多久?

单次 Kling 3.0 Omni 生成支持 3–15 秒的片段。若需制作更长的内容——完整副歌或多分钟独白——可生成多段片段后在 Canvas 时间轴中拼接。

4.参考照片中的人脸需要保持绝对静止吗?

清晰的正面肖像效果最佳。人脸应光线充足、无遮挡,且大致面向镜头。侧角度、强阴影或局部遮挡会降低口型同步质量,因为模型用于锚定嘴部动画的面部几何信息不足。

5.这和"深度伪造"(deepfake)是一回事吗?

Renoise 的口型同步功能是一款需获授权的 AI 视频生成工具,而非身份欺诈或冒充工具。真实人脸的生成须通过 FacePass 授权并持有明确书面同意,平台不允许未经授权冒充任何人。

6.可以使用 AI 生成的人脸代替真实照片吗?

可以。虚构或 AI 生成的人脸无需 FacePass 授权。先生成一个原创角色,再将该角色作为口型同步的参考人脸使用。本页所有演示示例均采用这种方式——全部为原创虚构角色。

7.Renoise 用哪个模型处理口型同步?

由快手研发的 Kling 3.0 Omni 是 Renoise 中提供原生口型同步的模型。"原生"意味着口型同步内置于生成流程中——你提供人脸和音频,同步视频一次性输出,无需额外处理步骤。

8.口型同步和说话照片有什么区别?

底层流程完全相同——都是使用 Kling 3.0 Omni 原生口型同步,输入参考人脸和音频。区别在于使用意图:说话照片通常是主持人或演讲者口播脚本;明星口型同步则指表演或演唱的娱乐用途。演讲者场景请参阅 AI 说话照片指南。

By Peyton, RenoiseLast reviewed Models verified: Kling 3.0 Omni