Meta rivaliza a Sora con Movie Gen, la nueva IA generadora de vídeos

Publicado el 07/10/2024 por Diario Tecnología
Artículo original

Meta ha presentado un conjunto de modelos fundacionales que recoge bajo el nombre de Movie Gen, con los que ofrece a los creadores herramientas para generar, personalizar y editar vídeos hiperrealistas incluso con audio a través de descripciones de texto. De esta manera Zuckerberg se une a otras compañías en la creación de herramientas de inteligencia artificial (IA) para generar vídeos, como hizo OpenAI con Sora el pasado febrero . Esta nueva herramienta, en palabras de Meta , está dirigida a creadores de contenido y cineastas, con el objetivo de que ayude «a impulsar su creatividad, en lugar de sustituirla». Movie Gen cuenta con dos modelos funcionales, uno dirigido a video (Movie Gen Video), de 30.000 millones de parámetros, y otro enfocado para generar sonidos (Movie Gen Audio), de 13.000 millones de parámetros. Según explica Meta, el funcionamiento de Movie Gen es bastante similar al de otras utilidades de este tipo. Con solo una descripción de texto es posible crear un vídeo de entre 4 y 16 segundos de duración, a 16 cuadros por segundo. La IA también permite editar clips ya existentes utilizando diferentes descripciones de texto, o incluso crear vídeos personalizados subiendo una foto del usuario . Si bien la empresa dice que el material es hiperrealista y tiene calidad full HD, llama la atención que Meta se haya inclinado por hacerlos con 16 FPS y no a un estilo de 24 fotogramas por segundos, como se hace en la industria del cine. El propio Zuckerberg entregó un primer vistazo a las capacidades de Meta Movie Gen a través de una publicación en Instagram. En ella se lo ve haciendo ejercicio, mientras distintos elementos del fondo, su ropa o los aparatos van cambiando según lo que se le pide a la inteligencia artificial. Uno de los principales elementos diferenciadores de Movie Gen es su habilidad de generar sonidos para los vídeos en cuestión. Tengamos en cuenta que herramientas como Sora, por ejemplo, no ofrecen esta posibilidad. Según explican sus creadores, el modelo de 13.000 millones de parámetros puede usar un vídeo y una descripción en texto para generar una pista de audio que se acople a lo que sucede en la imagen. Entre los ejemplos que compartió Meta se observa un quad acelerando y dando un salto, escuchándose el ruido del motor de fondo junto con música. Asimismo se puede ver una serpiente moviéndose entre la vegetación, con el ruido de las hojas y el acompañamiento musical correspondiente también creados con IA. En esta ocasión, el audio permite una duración de hasta 45 segundos, y puede lograr desde sonidos de ambiente hasta música instrumental. Sin embargo, no permite generar voces o diálogos, probablemente para evitar la generación de deepfakes .