Apresentador de estúdio
Enquadramento de estúdio iluminado, olhar para a câmera — o visual padrão para um anúncio ou pitch de produto com cabeça falante.
Faça uma foto parada dizer qualquer roteiro como um avatar falante com lipsync.
Solte um retrato nítido de frente no Renoise Canvas, digite o roteiro falado ou anexe uma faixa de áudio e renderize com o Kling 3.0 Omni. Seu lipsync nativo movimenta a boca e o rosto a partir das suas palavras, transformando a foto parada em um avatar que fala. Para uma pessoa real, libere a imagem pelo FacePass primeiro.
Este guia é para avatares falantes com lipsync. Para dar movimento geral a uma foto sem diálogo falado, veja o guia de foto para vídeo com IA
Três passos para transformar um retrato em um avatar falante com lipsync no Renoise.

Arraste um retrato nítido de frente para o Canvas. Para uma pessoa real, libere a imagem pelo FacePass primeiro.

Escreva o roteiro falado no prompt ou anexe uma faixa de áudio — o Kling 3.0 Omni a lê como fonte do lipsync.

Selecione o Kling 3.0 Omni no menu de modelos para o lipsync nativo e renderize o clipe de cabeça falante.
Clipes no estilo apresentador feitos no Renoise — o tipo de enquadramento para o qual uma foto que fala corta.
Enquadramento de estúdio iluminado, olhar para a câmera — o visual padrão para um anúncio ou pitch de produto com cabeça falante.
Um retrato calmo ao ar livre com o sujeito olhando para frente — enquadramento natural para uma mensagem falada sincera.
Uma pessoa firme diante de uma rua movimentada — a montagem estilo repórter para um clipe falado em locação.
Um retrato confiante ao ar livre contra uma parede limpa — ideal para a apresentação de um host ou um avatar de porta-voz.
Uma foto que fala não é o mesmo trabalho que um vídeo de IA completo. Um clipe geral de texto para vídeo inventa o movimento, os movimentos de câmera e uma cena inteira a partir de um prompt. Uma foto que fala parte de um único retrato parado que você fornece e adiciona uma só coisa: uma boca e um rosto movidos por áudio. O quadro, a identidade e o enquadramento permanecem ancorados na sua foto; apenas a fala se anima. É por isso que ela é percebida como a mesma pessoa, e não como uma geração nova.
O lip-sync é a técnica que mapeia o som falado para os formatos da boca. Cada fonema — os sons distintos de uma palavra — tem um visema correspondente, a posição da boca que o espectador espera ver. O modelo os alinha quadro a quadro para que os lábios, o queixo e as bochechas acompanhem qualquer áudio que você fornecer, seja um roteiro digitado que ele narra ou uma gravação que você anexa.
No Renoise, o Kling 3.0 Omni cuida disso de forma nativa — não há uma etapa de lip-sync separada para acoplar. Você solta o retrato, fornece o roteiro ou a faixa de voz, e o modelo renderiza o clipe de cabeça falante em um único passo. Para uma pessoa real, o FacePass libera a imagem primeiro e mantém esse rosto estável ao longo do clipe, para que o avatar continue reconhecível enquanto fala.
Uma foto que fala se apoia em algumas coisas — e o Renoise te dá o Kling 3.0 Omni e muitos outros modelos de vídeo em um só canvas.
Libera a imagem de uma pessoa real para vídeo, para que a foto dela possa se tornar legalmente um avatar que fala.
O lipsync nativo movimenta a boca e o rosto a partir do seu roteiro ou áudio — sem uma ferramenta de lipsync separada.
Comande o avatar com texto digitado ou uma faixa de voz anexada em muitos idiomas falados.
Alterne entre o Kling 3.0 Omni e outros modelos de vídeo por clipe — tudo em um único projeto.
Um único plano desbloqueia o Kling 3.0 Omni e todos os outros modelos de vídeo.
Sem marca d'água em qualquer plano pago.
Solte um retrato nítido de frente no Renoise Canvas, digite o roteiro falado ou anexe uma faixa de áudio e renderize com o Kling 3.0 Omni. Seu lipsync nativo movimenta a boca e o rosto a partir das suas palavras, transformando a foto parada em um avatar que fala.
Use este fluxo quando quiser que a foto fale com áudio sincronizado. Se você só quer movimento geral — movimentos de câmera, o sujeito virando ou caminhando, sem diálogo falado —, isso é animação de fotos; veja nosso guia /guides/ai-photo-to-video em vez disso.
Sim, se você detém os direitos sobre essa imagem. Os modelos de vídeo bloqueiam rostos humanos reais por padrão, então libere o retrato pelo FacePass primeiro. O FacePass é o caminho em conformidade para autorizar a imagem de uma pessoa real antes que ela se torne um avatar que fala.
Não. O FacePass só libera imagens que você está autorizado a usar, e celebridades ou figuras públicas que você não representa não são permitidas. Use sua própria foto, um sujeito que consentiu ou um rosto totalmente original gerado por IA.
Sim. Anexe uma faixa de voz e o Kling 3.0 Omni a lê como fonte do lipsync, ajustando a boca à sua gravação. Você também pode digitar um roteiro e deixar o modelo narrá-lo — ambos comandam o mesmo lipsync nativo.
O Kling 3.0 Omni faz lipsync em muitos idiomas falados. Digite o roteiro no idioma desejado ou anexe áudio nesse idioma, e o movimento da boca segue os fonemas do que for fornecido.
Cada clipe do Kling 3.0 Omni tem limite de 15 segundos. Para uma apresentação mais longa, divida o roteiro em segmentos, renderize cada um como seu próprio clipe e junte-os na Canvas Timeline.