Presentador de estudio
Encuadre de estudio luminoso, mirada a cámara: el look estándar para un anuncio o pitch de producto con cabeza parlante.
Haz que una foto fija diga cualquier guion como un avatar parlante con lipsync.
Suelta un retrato nítido de frente en Renoise Canvas, escribe el guion hablado o adjunta una pista de audio, y luego renderiza con Kling 3.0 Omni. Su lipsync nativo mueve la boca y el rostro a partir de tus palabras, convirtiendo la foto fija en un avatar que habla. Primero verifica la imagen de una persona real con FacePass.
Esta guía es para avatares parlantes con lipsync. Para dar movimiento general a una foto sin diálogo hablado, consulta la guía de foto a video con IA
Tres pasos para convertir un retrato en un avatar parlante con lipsync en Renoise.

Arrastra un retrato nítido de frente al Canvas. Para una persona real, verifica primero su imagen con FacePass.

Escribe el guion hablado en el prompt o adjunta una pista de audio: Kling 3.0 Omni lo lee como fuente del lipsync.

Selecciona Kling 3.0 Omni en el menú de modelos para el lipsync nativo y renderiza el clip de cabeza parlante.
Clips estilo presentador hechos en Renoise: el tipo de encuadre al que corta una foto que habla.
Encuadre de estudio luminoso, mirada a cámara: el look estándar para un anuncio o pitch de producto con cabeza parlante.
Un retrato tranquilo al aire libre con el sujeto mirando al frente: encuadre natural para un mensaje hablado sincero.
Una persona fija ante una calle concurrida: la puesta en escena tipo reportero para un clip hablado en exteriores.
Un retrato seguro al aire libre contra una pared limpia: ideal para la presentación de un anfitrión o un avatar de portavoz.
Una foto que habla no es el mismo trabajo que un video de IA completo. Un clip general de texto a video inventa el movimiento, los movimientos de cámara y toda una escena a partir de un prompt. Una foto que habla parte de un único retrato fijo que tú aportas y añade una sola cosa: una boca y un rostro impulsados por audio. El encuadre, la identidad y la composición permanecen anclados a tu foto; solo se anima el habla. Por eso se percibe como la misma persona, no como una generación nueva.
El lip-sync es la técnica que asigna el sonido hablado a las formas de la boca. Cada fonema —los sonidos distintos de una palabra— tiene un visema correspondiente, la posición de la boca que el espectador espera ver. El modelo los alinea fotograma a fotograma para que los labios, la mandíbula y las mejillas sigan cualquier audio que le des, ya sea un guion escrito que él narra o una grabación que adjuntes.
En Renoise, Kling 3.0 Omni se encarga de esto de forma nativa: no hay un paso de lip-sync aparte que añadir. Sueltas el retrato, aportas el guion o la pista de voz, y el modelo renderiza el clip de cabeza parlante en un solo paso. Para una persona real, FacePass verifica primero su imagen y mantiene ese rostro estable durante todo el clip, de modo que el avatar siga siendo reconocible mientras habla.
Una foto que habla se apoya en unas pocas cosas, y Renoise te da Kling 3.0 Omni y muchos otros modelos de video en un solo canvas.
Verifica la imagen de una persona real para video, de modo que su foto pueda convertirse legalmente en un avatar que habla.
El lipsync nativo mueve la boca y el rostro a partir de tu guion o audio, sin una herramienta de lipsync aparte.
Impulsa el avatar con texto escrito o una pista de voz adjunta en muchos idiomas hablados.
Cambia entre Kling 3.0 Omni y otros modelos de video por clip, todo en un mismo proyecto.
Un solo plan desbloquea Kling 3.0 Omni y todos los demás modelos de video.
Sin marca de agua en cualquier plan de pago.
Suelta un retrato nítido de frente en Renoise Canvas, escribe el guion hablado o adjunta una pista de audio, y luego renderiza con Kling 3.0 Omni. Su lipsync nativo mueve la boca y el rostro a partir de tus palabras, convirtiendo la foto fija en un avatar que habla.
Usa este flujo cuando quieras que la foto hable con audio sincronizado. Si solo quieres movimiento general —movimientos de cámara, el sujeto girando o caminando, sin diálogo hablado—, eso es animación de fotos; consulta nuestra guía /guides/ai-photo-to-video en su lugar.
Sí, si tienes los derechos sobre esa imagen. Los modelos de video bloquean los rostros humanos reales por defecto, así que verifica primero el retrato con FacePass. FacePass es la vía conforme para autorizar la imagen de una persona real antes de que se convierta en un avatar que habla.
No. FacePass solo verifica imágenes que estás autorizado a usar, y no se permiten celebridades ni figuras públicas que no representes. Usa tu propia foto, un sujeto que dé su consentimiento o un rostro totalmente original generado con IA.
Sí. Adjunta una pista de voz y Kling 3.0 Omni la lee como fuente del lipsync, ajustando la boca a tu grabación. También puedes escribir un guion y dejar que el modelo lo narre: ambos impulsan el mismo lipsync nativo.
Kling 3.0 Omni hace lipsync en muchos idiomas hablados. Escribe el guion en tu idioma de destino o adjunta audio en ese idioma, y el movimiento de la boca sigue los fonemas de lo que se le proporcione.
Cada clip de Kling 3.0 Omni tiene un límite de 15 segundos. Para una presentación más larga, divide el guion en segmentos, renderiza cada uno como su propio clip y únelos en el Canvas Timeline.