RenoiseのAIトーキングフォトジェネレーター

1枚の写真を、台本どおりに喋るリップシンク済みアバターに変えましょう。

写真を喋るアバターにするには？

正面を向いた鮮明なポートレートをRenoise Canvasにドロップし、喋らせたい台本を入力するか音声トラックを添付して、Kling 3.0 Omniでレンダリングします。ネイティブリップシンクが言葉に合わせて口元と表情を動かし、静止画を喋るアバターに変えます。実在する人物の場合は、まずFacePassで肖像をクリアしてください。

このガイドはリップシンクで喋るアバター向けです。台詞のない一般的な写真モーションについては、こちらをご覧ください： AI写真から動画ガイド

写真を喋らせる

1枚のポートレートをRenoiseでリップシンク済みの喋るアバターにする3ステップ。

Step 1
写真をドロップ
正面を向いた鮮明なポートレートをCanvasにドラッグします。実在する人物なら、まずFacePassで肖像をクリアしてください。
Step 2
台本を入力
プロンプトに喋らせる台本を書くか、音声トラックを添付します。Kling 3.0 Omniがそれをリップシンクのソースとして読み取ります。
Step 3
Kling 3.0 Omniを選択
ネイティブリップシンクのためにモデルメニューからKling 3.0 Omniを選び、トーキングヘッドのクリップをレンダリングします。

Try in Renoise

喋るアバターのために

Renoiseで作ったプレゼンター風クリップ — トーキングフォトが切り替わる先のフレーミングです。

スタジオプレゼンター

明るいスタジオのフレーミングでカメラ目線 — トーキングヘッドのアナウンスや製品ピッチの定番ルックです。

落ち着いた語りかけ

被写体がまっすぐ前を見る静かな屋外ポートレート — 誠実なメッセージを語るのに自然なフレーミングです。

ストリートでのカメラ語り

賑やかな通りを背に人物をしっかり据えた構図 — 現場からのトーキングクリップに向くレポーター風セットアップです。

エディトリアルポートレート

すっきりした壁を背にした自信あふれる屋外ポートレート — ホスト紹介やスポークスパーソンアバターに最適です。

Try in Renoise

トーキングフォトとフルAI動画の違い、そしてリップシンクの仕組み

トーキングフォトはフルAI動画とは別の仕事です。一般的なテキストから動画へのクリップは、プロンプトからモーション、カメラワーク、シーン全体を生み出します。一方トーキングフォトは、あなたが用意した1枚の静止ポートレートから始まり、たった1つの要素だけを加えます。音声で駆動する口元と表情です。フレーム、アイデンティティ、フレーミングはあなたの写真に固定され、動くのは発話だけ。だからこそ新しい生成物ではなく、同じ人物として読み取れるのです。

リップシンクとは、喋った音を口の形にマッピングする技術です。各音素 — 単語を構成する個々の音 — には、見る人が期待する口の位置である口形素（ビセーム）が対応します。モデルはそれらをフレームごとに合わせ、入力された音声 — 入力した台本を読み上げたものでも、添付した録音でも — に合わせて唇、あご、頬を動かします。

Renoiseでは、Kling 3.0 Omniがこれをネイティブに処理します — 後付けの別途リップシンク工程は不要です。ポートレートをドロップし、台本か音声トラックを与えると、モデルがトーキングヘッドのクリップを1ステップでレンダリングします。実在する人物なら、まずFacePassが肖像をクリアし、クリップ全体でその顔を安定させるので、喋っている間もアバターは見分けがつくままです。

使用するRenoiseの機能

トーキングフォトはいくつかの要素に支えられています — Renoiseなら、Kling 3.0 Omniとその他多数の動画モデルを1つのキャンバスで使えます。

FacePass

実在する人物の肖像を動画用にクリアし、その写真を合法的に喋るアバターにできるようにします。

Kling 3.0 Omniのリップシンク

ネイティブリップシンクが台本や音声から口元と表情を動かします — 別途リップシンクツールは不要です。

台本または音声入力

入力したテキストや添付した音声トラックから、多くの言語でアバターを駆動できます。

多数のモデルを1つのキャンバスで

クリップごとにKling 3.0 Omniと他の動画モデルを切り替え — すべて1つのプロジェクト内で。

Try in Renoise

プランを選択

1つのプランでKling 3.0 Omniとその他すべての動画モデルが使えます。

Starter初めて AI コンテンツを作る方に

$20/月

プランをアップグレード

1,200 ©/mo

GPT Image 2 の生成約 400 回分Seedance 2.0 の動画約 60 本分

$1 = 60©

生成割引

Seedance 2.0$0.083/秒

Kling 3.0$0.267/秒

Nano Banana 2$0.133/枚

その他すべてのモデル

✓

GPT Image 250% OFF

✓

透かしなしの書き出し

✓

画像モデル

✓

動画モデル

Standard毎週コンテンツを発信するクリエイターに

$60/月

プランをアップグレード

3,600 ©/mo

GPT Image 2 の生成約 1,200 回分Seedance 2.0 の動画約 211 本分

$1 = 60©

15% 生成割引

Seedance 2.0$0.071/秒

Kling 3.0$0.227/秒

Nano Banana 2$0.113/枚

その他すべてのモデル

✓

Seedance 2.0 Series15% OFF

✓

GPT Image 250% OFF

✓

透かしなしの書き出し

✓

最初のトーキングフォトを作る

すべての有料プランでウォーターマークなし。

トーキングフォトを作る FacePassを見る

よくある質問

1.AIで写真を喋らせるには？

正面を向いた鮮明なポートレートをRenoise Canvasにドロップし、喋らせたい台本を入力するか音声トラックを添付して、Kling 3.0 Omniでレンダリングします。ネイティブリップシンクが言葉に合わせて口元と表情を動かし、静止画を喋るアバターに変えます。

2.トーキングフォトと写真から動画 — どちらのページ？

写真にリップシンク音声で喋らせたいときは、このフローを使います。台詞のない一般的なモーション — カメラワーク、被写体が振り向く・歩くなど — だけが欲しいなら、それは写真アニメーションです。代わりに /guides/ai-photo-to-video ガイドをご覧ください。

3.実在する人物の写真を使えますか？

その肖像の権利を保有していれば可能です。動画モデルは実在する人間の顔をデフォルトでブロックするため、まずFacePassでポートレートをクリアしてください。FacePassは、実在する人物の肖像を喋るアバターにする前に承認するための適法な手段です。

4.有名人の写真を喋らせられますか？

いいえ。FacePassは使用を承認された肖像のみをクリアし、あなたが代理していない有名人や公人は許可されません。代わりに、自分の写真、同意を得た被写体、または完全にオリジナルなAI生成の顔を使ってください。

5.アバターは自分の音声にリップシンクしますか？

はい。音声トラックを添付すると、Kling 3.0 Omniがそれをリップシンクのソースとして読み取り、口元を録音に合わせます。台本を入力してモデルに読み上げさせることもできます — どちらも同じネイティブリップシンクを駆動します。

6.喋るアバターはどの言語に対応していますか？

Kling 3.0 Omniは多くの言語でリップシンクします。目的の言語で台本を入力するか、その言語の音声を添付すると、口の動きが与えられた音素に従います。

7.トーキングフォトのクリップはどのくらいの長さにできますか？

Kling 3.0 Omniの各クリップは最長15秒です。より長いプレゼンテーションには、台本をセグメントに分割し、それぞれを個別のクリップとしてレンダリングして、Canvas Timelineでつなぎ合わせてください。

RenoiseのAIトーキングフォトジェネレーター

写真を喋るアバターにするには？

写真をドロップ

台本を入力

Kling 3.0 Omniを選択

スタジオプレゼンター

落ち着いた語りかけ

ストリートでのカメラ語り

エディトリアルポートレート

トーキングフォトとフルAI動画の違い、そしてリップシンクの仕組み

FacePass

Kling 3.0 Omniのリップシンク

台本または音声入力

多数のモデルを1つのキャンバスで

プランを選択

最初のトーキングフォトを作る

1.AIで写真を喋らせるには？

2.トーキングフォトと写真から動画 — どちらのページ？

3.実在する人物の写真を使えますか？

4.有名人の写真を喋らせられますか？

5.アバターは自分の音声にリップシンクしますか？

6.喋るアバターはどの言語に対応していますか？

7.トーキングフォトのクリップはどのくらいの長さにできますか？

もっと見る