Meta ha presentado Movie Gen, un nuevo modelo de inteligencia artificial que genera videos, imágenes y audio a partir de texto. También permite editar videos ya existentes.
En el núcleo de Movie Gen se encuentra un modelo transformador de 30 mil millones de parámetros para la generación de video e imágenes. Produce videos de hasta 16 segundos de duración a 16 fotogramas por segundo, con soporte para diferentes proporciones (1:1, 9:16, 16:9) en una resolución de 768 × 768 píxeles. Un escalador adicional permite aumentar la resolución a Full HD (1080p).
Un modelo independiente de 13 mil millones de parámetros se encarga de la generación de audio. Este puede crear sonido, música de fondo y efectos de sonido que coincidan con videos de hasta 45 segundos de duración a una frecuencia de muestreo de 48 kHz.
Movie Gen también incluye funciones de edición que pueden modificar videos existentes mediante instrucciones de texto. Otra característica permite crear videos personalizados al combinar una foto de una persona con una descripción de texto.
Meta afirma una ventaja en rendimiento
Meta asegura que Movie Gen supera a modelos similares de empresas como Runway, Sora, LumaLabs, Kling y Pika en evaluaciones humanas. La diferencia es menor con Sora y Kling, que, según se informa, puede producir videos consistentes de hasta un minuto de duración a una tasa de fotogramas superior a la de Movie Gen.
La compañía entrenó los modelos usando conjuntos de datos con licencia y de acceso público. El modelo de generación de video fue preentrenado con unos 100 millones de videos y mil millones de imágenes. El modelo de audio utilizó aproximadamente un millón de horas de datos de audio.
Por ahora, Movie Gen está destinado a investigación y no está disponible al público. Meta planea trabajar con cineastas y creativos para recopilar comentarios antes de un posible lanzamiento.
La tercera generación de modelos de medios de IA de Meta
Meta describe Movie Gen como la tercera generación de sus modelos de medios de IA, que combina modalidades previas y permite un control más preciso. La compañía cree que estos modelos podrían habilitar nuevos productos.
Sin embargo, Meta reconoce que los modelos actuales tienen limitaciones. En particular, el tiempo de inferencia y la calidad podrían mejorar con mayor escalado. Persisten desafíos con geometrías complejas, manipulación de objetos, física y sincronización de audio en movimientos densos u obstruidos.
Meta subraya que la tecnología no está pensada para reemplazar a artistas y animadores, sino para crear nuevas formas de expresión. Entre sus posibles aplicaciones menciona videos animados de “un día en la vida” para Instagram Reels o felicitaciones personalizadas de cumpleaños para WhatsApp.