ネイティブ音声
効果音、環境音、セリフを同じ一度の生成で作り、動きに同期させます。
Grok Imagine
ネイティブ音声に対応したxAIの動画モデル——音、セリフ、モーションを一度の生成で、Renoiseのキャンバスで。
Grok Imagineの動画はxAIの動画モデルで、最新版はGrok Imagine Video 1.5。その最大の特長はネイティブ音声です——効果音、環境音、セリフが映像と同じ一度の生成で作られ、動きに同期します。これはtext-to-video、image-to-video、reference-to-videoのいずれにも当てはまります。
Renoiseでは、Grokの動画がSeedance 2.0とKling 3.0 Omniと並んでCanvas上で動きます。
画像側をお探しですか? Grok Imagineの画像を見る
xAIの動画モデルを、Renoiseのキャンバスで。以下のモデル仕様はxAIによるものです。
効果音、環境音、セリフを同じ一度の生成で作り、動きに同期させます。
xAIの1.5 Fastは、6秒・720pのクリップを約25秒で生成します。
プロンプトから生成、静止画をアニメ化、または参照画像で動きを誘導します。
ページを離れることなく、Grok、Seedance 2.0、Kling 3.0 Omniを切り替えられます。
アイデアから音付きクリップまで3ステップ。

撮りたいショットを一文で書くか、最初のフレームに使う写真をアップロードします。

モデルセレクターでGrokの動画を選び、長さと解像度を設定します。

生成を押したら、Canvasのタイムライン上でクリップをつなぎ、ひとつのシーケンスに仕上げます。
Renoiseのキャンバス上で動画モデルを使って作れるものの一例です。
光、キャラクター、動きを言葉で描けば——言葉が流れるような動画に変わります。
写真を最初のフレームとしてアップロードすれば、残りが動き出します——静止画から動きへ数秒で。
布がなびき、髪が揺れ、キャラクターが動く——歪みやちらつきを抑えた物理的に正確な動き。
セリフ、効果音、環境音をモーションと同時に生成——音声を別工程で作る必要はありません。
ショットごとに最適なエンジンを——すべて1つのCanvas上で。
| 動画モデル | Grok VideoRecommended | Seedance 2.0 | Kling 3.0 Omni |
|---|---|---|---|
| 最大出力 | 720p | 1080p | 1080p |
| 最大クリップ長 | 15s | 15s | 15s |
| リップシンク | — | — | ✓ |
| 向いている用途 | ネイティブ音声+スピード | シネマティックなT2V・I2V | リップシンクとマルチショット |
ほとんどのAI動画ツールは無音の映像を生成します——音楽、効果音、ナレーションは別途用意し、エディターで手作業で同期させなければなりません。Grok Imagineの魅力は、映像と同じ一度の生成で音声まで作る点です:足音は足が着いた瞬間に鳴り、ドアの音は閉まる瞬間に響き、セリフは口の動きに乗ります。xAIは自社の1.5モデルを「より良いモーション、より良い物理、より良い音声を、最速のスピードで」と位置づけています。
ショート動画やSNSでは、これが複数ツールのワークフローを1つのプロンプトに圧縮します。だからこそ多くの人が気にする機能なのです。
Renoiseでは、Grokの動画が、シネマティックなショットに向くSeedance 2.0、話すセリフとリップシンクを扱うKling 3.0 Omniと同じCanvas上で動きます——アプリを切り替えるのではなく、カットごとに最適なエンジンを選べます。
Grok ImagineはxAIが開発しています。最新の動画モデルは2026年6月に公開されたGrok Imagine Video 1.5です。Renoiseはこれを統合していますが、Renoise自身が動画モデルを学習させているわけではありません。
はい。Grok Imagineの動画は効果音、環境音、セリフを映像と同じ一度の生成で作り、動きに同期させます——音声はその目玉機能のひとつです。
はい。Grokの動画は、Seedance 2.0とKling 3.0 Omniと並んでRenoiseのCanvas上で動きます——モデルセレクターで選んで生成するだけです。
xAIのドキュメントには1〜15秒のクリップ、480pまたは720p(2026年6月時点で1080pなし)、16:9から9:16までのアスペクト比が記載されています。
xAIによれば、text-to-video、image-to-video、reference-to-video、さらに既存クリップの編集と延長です。なお、入力画像と参照画像を1回のリクエストで同時に使うことはできません。
Grokの動画に加え、シネマティックなテキスト・画像からの動画にはSeedance 2.0(ByteDance)、リップシンクやマルチショットにはKling 3.0 Omni(Kuaishou)、そしてHappyHorse 1.0です——すべて1つのCanvas上で動きます。