コンテンツへスキップ

モデル徹底解説

Kling 3.0 Omni のネイティブリップシンク解説

MaxRenoise14 分で読めます

かつて「リップシンク」といえば、別のツールをもう一つ使うことを意味していました。まず動画を生成し、それから口の部分を別のモデルに通して音声トラックに合わせる、という流れです。Kuaishou のオムニモーダル動画モデル Kling 3.0 Omni は、それを一度の生成のなかでこなします——口の動きは音声からモデル内部で生成され、ショット内のほかのすべてと同時に出力されます。ささいな違いに聞こえるかもしれませんが、これによって仕上がりのきれいさも、後からどれだけ手を加えるかも変わってきます。ここでは、ネイティブリップシンクが実際に何を意味するのか、それを使えるものにする Kling 3.0 Omni の機能、そして Renoise で話す動画を作る方法を解説します。

「ネイティブ」リップシンクとは何か

後処理型のリップシンクのパイプラインは2段階で動きます。まず動画モデルが映像を生成し、次に2つ目のモデルが音声クリップを受け取って、口元の領域を音素に合うよう再ワープします。口が後から編集されるため、つなぎ目が見えてしまいます——下顔面が貼り付けたように見え、あごや頬の動きが常には追従せず、早口になるとタイミングがずれていきます。

ネイティブリップシンクは、それを生成そのものに織り込みます。モデルは音声をプロンプトや参照画像と並んだ入力として受け取り、言葉に合う口・あご・表情の動きを、同じレンダリングの一部として生成します——仕上がった動画の上に重ねる編集としてではありません。顔全体が一緒に生成されるため、口は頬とともに動き、表情はセリフに合い、タイミングは最初のフレームから音声にロックされます。

これこそが効いてくる違いです。後処理工程では、できあがった動画を修正することになります。ネイティブリップシンクでは、「話している」ことが最初から焼き込まれているのです。

Kling 3.0 Omni のスペック

Kling 3.0 Omni はオムニモーダルモデルとして作られています——リップシンクは、連携して働くいくつかの能力のうちの一つにすぎません。Renoise に統合された状態での機能は次のとおりです。

機能Kling 3.0 Omni
クリップの長さ3–15s(参照動画を含む場合は ≤10s)
解像度720p / 1080p
アスペクト比5種類(16:9 / 9:16 / 1:1 / 4:3 / 3:4)
入力モダリティ5+(テキスト、画像、音声、動画など)
リップシンクネイティブ、音声駆動
マルチ被写体の一貫性対応——1ショット内で複数の被写体を追跡
ストーリーボード1ジョブで最大6ショット
物理物理ダイナミクスのシミュレーション
参照素材最大7枚の画像(参照動画ありの場合は ≤4枚)+ 動画1本

このうちいくつかは掘り下げる価値があります。リップシンクの使い道を、単なる話す顔1つ以上に広げてくれるのがこれらだからです。

マルチ被写体の一貫性

会話シーンが顔1つで済むことはまれです。Kling 3.0 Omni は、1ショット内で複数の被写体の一貫性を保つことができます——会話する2人、製品の隣に立つプレゼンター——だから、正しいセリフに正しい口が動き、各被写体はクリップ全体で見た目を保ちます。モデル層の改善として、これは旧来のモデルよりはるかにかっちりしていますが、どのAI動画モデルとも同じく依然としてずれることはあります。完璧にロックされていると決めてかからず、結果を見直す価値があります。

1つのストーリーボードで最大6ショット

クリップを1つずつ生成してつなぎ合わせる代わりに、1つのストーリーボードジョブで最大6ショットを記述できます。これによりキャラクターと設定がカット間で一貫します——短い会話シーンや、各ショットに同じ話者が必要なマルチビートの広告に便利です。

5+の入力モダリティと物理ダイナミクス

モデルは 5+の入力モダリティ——テキスト、画像、音声、動画など——を受け付けます。これこそネイティブリップシンクが成立する理由です。音声はもう一つの第一級の入力にすぎません。そのうえ、物理ダイナミクスのシミュレーションが動きをもっともらしく保つので(髪、布、ジェスチャー)、話す被写体は浮いた顔ではなく、本物のように動きます。

参照素材の扱い

キャラクター・スタイル・シーンを固定するために、最大 7枚の参照画像を添付できます。さらに参照動画(動画クリップ1本)も与える場合、画像の枠は 4枚に減り、クリップの長さは 10秒で頭打ちになります——参照動画はすでに多くの動きとアイデンティティ情報を運んでいるため、これは意図的なトレードオフです。

Renoise でリップシンク動画を作る方法

Renoise Canvas では、話すクリップは数ステップでできます。

  1. 動画ツールを開き、モデルに Kling 3.0 Omni を選ぶ(または直接 /videos?model=kling へ)。
  2. 被写体を追加する。 キャラクターやシーンの参照画像をアップロードするか、プロンプトを書いて生成します。見た目を固定するために、参照画像を最大7枚添付できます。
  3. 音声を追加する。 被写体に話させたい、または歌わせたい内容です——これがネイティブリップシンクの駆動元となるトラックです。
  4. プロンプトを書く。 シーン、カメラ、話し方(トーン、勢い)を描写します。口の形は書かなくてかまいません——それはモデルが音声から処理します。
  5. 長さとアスペクト比を設定する(3–15s;Reels/TikTok には 9:16、YouTube には 16:9)。参照動画も加える場合は、クリップを10秒以内に収めてください。
  6. 生成し、書き出す前にリップシンクと被写体を見直す。透かしなしの書き出しは有料プランで利用できます。

1枚の静止写真をしゃべらせたいなら AI トーキングフォトガイド を、許諾済みの実在人物に合わせたいなら セレブ風リップシンク を、音楽駆動の動きには AI ダンス動画ガイド をご覧ください。

実在人物のリップシンク

実在する人物の肖像をカメラの前で話させたい場合、それは許諾済みの実在の顔を対象とした一度ききの肖像レビューを通ります——生成の前に、その人物の権利を持っていることを確認します。これは同意のステップであって、創作上の制限ではありません。いったん顔が許諾されれば、Kling 3.0 Omni はほかの被写体と同じように、あなたの音声からそれを駆動します。

きれいな仕上がりのためのヒント

  • 参照動画を使うときはクリップを短く。 参照動画を添付すると、10秒・画像参照4枚に制限されます——それと張り合うのではなく、その上限に合わせてショットを設計しましょう。
  • アスペクト比は最初にプラットフォームに合わせる(9:16縦、16:9横、1:1スクエア)。後から顔を切り直さなくて済みます。
  • きれいな音声を与える。 ネイティブリップシンクは与えられたトラックに追従します。背景ノイズが少なく明瞭な音声ほど、口のタイミングが締まります。
  • 会話にはストーリーボードを使う。 同じ話者の複数ショットが必要なときは、最大6ショットのジョブのほうが、1クリップずつ生成するより一貫性を保てます。
  • 代わりに、もっと長く音声まで生成するショットが欲しい? Seedance 2.0(ByteDance)も Renoise で利用でき、独自の音声を生成します——特定のトラックへのリップシンクが主眼でない場合の、よい代替です。

Renoise で Kling 3.0 Omni を試す

シェア

By Max, RenoiseLast reviewed by peytonModels verified: Kling 3.0 Omni

本当に口が合う 話す動画を作ろう。

Renoise Canvas で Kling 3.0 Omni を使い、音声駆動のリップシンクを生成。