Análisis a fondo del modelo
El lip sync nativo de Kling 3.0 Omni, explicado
«Lip sync» solía significar una segunda herramienta: generabas un vídeo y luego pasabas la boca por un modelo aparte para que cuadrara con una pista de audio. Kling 3.0 Omni, el modelo de vídeo omnimodal de Kuaishou, lo hace en una sola pasada: el movimiento de la boca se genera a partir del audio dentro del modelo, al mismo tiempo que todo lo demás de la toma. Suena a una distinción menor, pero cambia lo limpio que queda el resultado y cuánto tienes que retocar después. Aquí te explico qué significa de verdad el lip sync nativo, las capacidades de Kling 3.0 Omni que lo hacen útil y cómo hacer un clip que habla en Renoise.
Qué significa lip sync «nativo»
Un pipeline de lip sync por posprocesado trabaja en dos etapas. Primero, un modelo de vídeo genera el metraje; luego, un segundo modelo toma un clip de audio y vuelve a deformar la zona de la boca para que case con los fonemas. Como la boca se edita después, las costuras se notan: la parte inferior de la cara puede parecer pegada, el movimiento de la mandíbula y las mejillas no siempre acompaña, y los tiempos se desajustan en el habla rápida.
El lip sync nativo integra eso en la propia generación. El modelo toma el audio como una entrada junto a el prompt y las imágenes de referencia, y produce el movimiento de boca, mandíbula y rostro que encaja con las palabras como parte del mismo render, no como una capa de edición encima. Como toda la cara se genera junta, la boca se mueve con las mejillas, la expresión cuadra con la frase y los tiempos quedan fijados al audio desde el primer fotograma.
Esa es la diferencia que importa: con un paso de posprocesado estás corrigiendo un vídeo ya terminado; con el lip sync nativo el habla viene integrada.
Especificaciones de Kling 3.0 Omni
Kling 3.0 Omni está construido como un modelo omnimodal: el lip sync es una capacidad entre varias que funcionan juntas. Esto es lo que hace, tal como está integrado en Renoise:
| Capacidad | Kling 3.0 Omni |
|---|---|
| Duración del clip | 3–15s (≤10s cuando se incluye un vídeo de referencia) |
| Resolución | 720p / 1080p |
| Relaciones de aspecto | 5 (16:9 / 9:16 / 1:1 / 4:3 / 3:4) |
| Modalidades de entrada | 5+ (texto, imagen, audio, vídeo y más) |
| Lip sync | Nativo, por audio |
| Consistencia multisujeto | Sí, sigue a varios sujetos en una misma toma |
| Storyboard | Hasta 6 tomas en un solo trabajo |
| Física | Simulación de dinámicas físicas |
| Referencias | Hasta 7 imágenes (≤4 con un vídeo de referencia) + 1 vídeo |
Vale la pena desglosar algunas de estas, porque son las que hacen que el lip sync sirva para algo más que una sola cabeza que habla.
Consistencia multisujeto
Una escena de diálogo rara vez es una sola cara. Kling 3.0 Omni puede mantener varios sujetos consistentes dentro de una toma —dos personas en un diálogo, un presentador junto a un producto— de modo que la boca correcta se mueve con la frase correcta y cada sujeto conserva su aspecto a lo largo del clip. Como mejora a nivel de modelo, es mucho más ajustado que en modelos antiguos, aunque, como cualquier modelo de vídeo con IA, todavía puede desviarse, así que conviene revisar el resultado en lugar de dar por hecho un encaje perfecto.
Hasta 6 tomas en un storyboard
En vez de generar clips de uno en uno y unirlos, puedes describir hasta 6 tomas en un solo trabajo de storyboard. Eso mantiene coherentes el personaje y el escenario entre cortes: útil para una escena breve de diálogo o un anuncio de varios momentos donde cada toma necesita al mismo hablante.
5+ modalidades de entrada y dinámicas físicas
El modelo admite 5+ modalidades de entrada —texto, imagen, audio, vídeo y más—, que es justo por lo que funciona el lip sync nativo: el audio es simplemente otra entrada de primera clase. Encima de eso, su simulación de dinámicas físicas mantiene el movimiento verosímil (pelo, tela, gestos), de modo que un sujeto que habla sigue moviéndose como uno real y no como una cara flotante.
Manejo de referencias
Puedes adjuntar hasta 7 imágenes de referencia para anclar un personaje, un estilo o una escena. Si además aportas un vídeo de referencia (un clip de vídeo), el cupo de imágenes baja a 4 y la duración del clip se limita a 10 segundos: un trueque deliberado, porque un vídeo de referencia ya carga con mucha información de movimiento e identidad.
Cómo hacer un clip de lip sync en Renoise
En el Canvas de Renoise, un clip que habla son unos pocos pasos:
- Abre la herramienta de vídeo y elige Kling 3.0 Omni como modelo (o ve directo a
/videos?model=kling). - Añade tu sujeto. Sube una imagen de referencia del personaje o la escena, o escribe un prompt para generar uno. Puedes adjuntar hasta 7 imágenes de referencia para fijar el aspecto.
- Añade el audio que quieres que el sujeto diga o cante: es la pista de la que se nutre el lip sync nativo.
- Escribe el prompt: describe la escena, la cámara y la interpretación (tono, energía), no las formas de la boca, que el modelo resuelve a partir del audio.
- Fija la duración y la relación de aspecto (3–15s; elige 9:16 para Reels/TikTok, 16:9 para YouTube). Si además añades un vídeo de referencia, mantén el clip en 10 segundos o menos.
- Genera y luego revisa el sync y los sujetos antes de exportar. La exportación sin marca de agua está disponible en los planes de pago.
Para una sola foto fija que habla, mira la guía de foto que habla con IA; para sincronizar con una persona real y autorizada, mira el lip sync estilo famoso; y para movimiento al ritmo de la música, la guía de vídeo de baile con IA.
Lip sync de personas reales
Si quieres que la imagen de una persona real hable en cámara, eso pasa por una revisión de imagen única para caras reales autorizadas: confirmas que tienes los derechos sobre esa persona antes de generar. Es un paso de consentimiento, no un límite creativo: una vez autorizada una cara, Kling 3.0 Omni la mueve a partir de tu audio como a cualquier otro sujeto.
Consejos para resultados limpios
- Mantén los clips cortos con un vídeo de referencia. Con un vídeo de referencia adjunto, te limitas a 10 segundos y 4 imágenes de referencia: planifica la toma en torno a eso en lugar de pelearte con ello.
- Ajusta la relación de aspecto a la plataforma desde el principio (9:16 vertical, 16:9 horizontal, 1:1 cuadrado) para no recortar una cara después.
- Alimenta audio limpio. El lip sync nativo sigue la pista que recibe; un habla más clara y con menos ruido de fondo produce tiempos de boca más ajustados.
- Usa el storyboard para diálogos. Cuando necesites varias tomas del mismo hablante, el trabajo de hasta 6 tomas las mantiene consistentes mejor que generar cada clip por separado.
- ¿Necesitas en cambio tomas más largas que generen audio? Seedance 2.0 (ByteDance) también está activo en Renoise y genera su propio audio: una buena alternativa cuando el objetivo no es el lip sync con una pista concreta.