コンテンツへスキップ

RenoiseのAIトーキングフォトジェネレーター

1枚の写真を、台本どおりに喋るリップシンク済みアバターに変えましょう。

写真を喋るアバターにするには?

正面を向いた鮮明なポートレートをRenoise Canvasにドロップし、喋らせたい台本を入力するか音声トラックを添付して、Kling 3.0 Omniでレンダリングします。ネイティブリップシンクが言葉に合わせて口元と表情を動かし、静止画を喋るアバターに変えます。実在する人物の場合は、まずFacePassで肖像をクリアしてください。

このガイドはリップシンクで喋るアバター向けです。台詞のない一般的な写真モーションについては、こちらをご覧ください: AI写真から動画ガイド

写真を喋らせる

1枚のポートレートをRenoiseでリップシンク済みの喋るアバターにする3ステップ。

  1. 正面を向いたポートレート写真をRenoise Canvasのアップロードカードにドラッグして喋らせる様子
    Step 1

    写真をドロップ

    正面を向いた鮮明なポートレートをCanvasにドラッグします。実在する人物なら、まずFacePassで肖像をクリアしてください。

  2. Renoise Canvas内でトーキングフォト用の台本を入力している様子
    Step 2

    台本を入力

    プロンプトに喋らせる台本を書くか、音声トラックを添付します。Kling 3.0 Omniがそれをリップシンクのソースとして読み取ります。

  3. トーキングフォトのリップシンク用にRenoise CanvasのモデルメニューからKling 3.0 Omniを選択している様子
    Step 3

    Kling 3.0 Omniを選択

    ネイティブリップシンクのためにモデルメニューからKling 3.0 Omniを選び、トーキングヘッドのクリップをレンダリングします。

喋るアバターのために

Renoiseで作ったプレゼンター風クリップ — トーキングフォトが切り替わる先のフレーミングです。

スタジオプレゼンター

明るいスタジオのフレーミングでカメラ目線 — トーキングヘッドのアナウンスや製品ピッチの定番ルックです。

落ち着いた語りかけ

被写体がまっすぐ前を見る静かな屋外ポートレート — 誠実なメッセージを語るのに自然なフレーミングです。

ストリートでのカメラ語り

賑やかな通りを背に人物をしっかり据えた構図 — 現場からのトーキングクリップに向くレポーター風セットアップです。

エディトリアルポートレート

すっきりした壁を背にした自信あふれる屋外ポートレート — ホスト紹介やスポークスパーソンアバターに最適です。

トーキングフォトとフルAI動画の違い、そしてリップシンクの仕組み

トーキングフォトはフルAI動画とは別の仕事です。一般的なテキストから動画へのクリップは、プロンプトからモーション、カメラワーク、シーン全体を生み出します。一方トーキングフォトは、あなたが用意した1枚の静止ポートレートから始まり、たった1つの要素だけを加えます。音声で駆動する口元と表情です。フレーム、アイデンティティ、フレーミングはあなたの写真に固定され、動くのは発話だけ。だからこそ新しい生成物ではなく、同じ人物として読み取れるのです。

リップシンクとは、喋った音を口の形にマッピングする技術です。各音素 — 単語を構成する個々の音 — には、見る人が期待する口の位置である口形素(ビセーム)が対応します。モデルはそれらをフレームごとに合わせ、入力された音声 — 入力した台本を読み上げたものでも、添付した録音でも — に合わせて唇、あご、頬を動かします。

Renoiseでは、Kling 3.0 Omniがこれをネイティブに処理します — 後付けの別途リップシンク工程は不要です。ポートレートをドロップし、台本か音声トラックを与えると、モデルがトーキングヘッドのクリップを1ステップでレンダリングします。実在する人物なら、まずFacePassが肖像をクリアし、クリップ全体でその顔を安定させるので、喋っている間もアバターは見分けがつくままです。

使用するRenoiseの機能

トーキングフォトはいくつかの要素に支えられています — Renoiseなら、Kling 3.0 Omniとその他多数の動画モデルを1つのキャンバスで使えます。

FacePass

実在する人物の肖像を動画用にクリアし、その写真を合法的に喋るアバターにできるようにします。

Kling 3.0 Omniのリップシンク

ネイティブリップシンクが台本や音声から口元と表情を動かします — 別途リップシンクツールは不要です。

台本または音声入力

入力したテキストや添付した音声トラックから、多くの言語でアバターを駆動できます。

多数のモデルを1つのキャンバスで

クリップごとにKling 3.0 Omniと他の動画モデルを切り替え — すべて1つのプロジェクト内で。

Choose your plan

1つのプランでKling 3.0 Omniとその他すべての動画モデルが使えます。

Starter
$20/mo
Upgrade Plan
1,200©/mo
$1.67 / 100©Generate up to 3,000 images or 150 videos every month.
Watermark-free exports
20 FacePass Assets
Image Models
Video Models
Standard
$60/mo
Upgrade Plan
3,600©/mo
$1.67 / 100©Generate up to 9,000 images or 450 videos every month.
Watermark-free exports
50 FacePass Assets
Latest Image Models
GPT Image 2 Nano Banana 2 Nano Banana Pro Midjourney V7
Latest Video Models
Seedance 2.0 HappyHorse 1.0
◈ Best Value
Advance
$200/mo
Upgrade Plan
14,000©/mo
$1.43 / 100©Generate up to 35,000 images or 1,750 videos every month.
Watermark-free exports
Unlimited FacePass Assets
Latest SOTA Image Models
GPT Image 2 Nano Banana 2 Nano Banana Pro Midjourney V7
Latest SOTA Video Models
Seedance 2.0 HappyHorse 1.0

最初のトーキングフォトを作る

すべての有料プランでウォーターマークなし。

よくある質問

1.AIで写真を喋らせるには?

正面を向いた鮮明なポートレートをRenoise Canvasにドロップし、喋らせたい台本を入力するか音声トラックを添付して、Kling 3.0 Omniでレンダリングします。ネイティブリップシンクが言葉に合わせて口元と表情を動かし、静止画を喋るアバターに変えます。

2.トーキングフォトと写真から動画 — どちらのページ?

写真にリップシンク音声で喋らせたいときは、このフローを使います。台詞のない一般的なモーション — カメラワーク、被写体が振り向く・歩くなど — だけが欲しいなら、それは写真アニメーションです。代わりに /guides/ai-photo-to-video ガイドをご覧ください。

3.実在する人物の写真を使えますか?

その肖像の権利を保有していれば可能です。動画モデルは実在する人間の顔をデフォルトでブロックするため、まずFacePassでポートレートをクリアしてください。FacePassは、実在する人物の肖像を喋るアバターにする前に承認するための適法な手段です。

4.有名人の写真を喋らせられますか?

いいえ。FacePassは使用を承認された肖像のみをクリアし、あなたが代理していない有名人や公人は許可されません。代わりに、自分の写真、同意を得た被写体、または完全にオリジナルなAI生成の顔を使ってください。

5.アバターは自分の音声にリップシンクしますか?

はい。音声トラックを添付すると、Kling 3.0 Omniがそれをリップシンクのソースとして読み取り、口元を録音に合わせます。台本を入力してモデルに読み上げさせることもできます — どちらも同じネイティブリップシンクを駆動します。

6.喋るアバターはどの言語に対応していますか?

Kling 3.0 Omniは多くの言語でリップシンクします。目的の言語で台本を入力するか、その言語の音声を添付すると、口の動きが与えられた音素に従います。

7.トーキングフォトのクリップはどのくらいの長さにできますか?

Kling 3.0 Omniの各クリップは最長15秒です。より長いプレゼンテーションには、台本をセグメントに分割し、それぞれを個別のクリップとしてレンダリングして、Canvas Timelineでつなぎ合わせてください。

By Marvin, RenoiseLast reviewed Models verified: Kling 3.0 Omni, FacePass