Alibaba crea EMO, la IA que convierte una foto y un audio en vídeo

Noticia de Antonio Vallejo (Genbeta)

El equipo de investigadores del instituto de inteligencia computacional en Alibaba han llamado a su IA ‘EMO’, un acrónimo de ‘Emote Portrait Alive’. La herramienta es capaz de animar la fotografía de un retrato y generar vídeos de la persona mientras habla o canta.

En los dos últimos años hemos visto cómo la inteligencia artificial ha ido conquistando Internet a través de múltiples herramientas y aplicaciones. Además de los chatbots existentes, hoy día podemos encontrar herramientas muy realistas para generación de imágenes, de audio, de vídeo e incluso para pasar de audio a vídeo. Para lo último mencionado, Alibaba tiene preparada una sorprendente herramienta que nos permitirá hacer que cualquier imagen cobre vida mediante una canción o con tan solo hablar.

El gigante chino ha desarrollado una aplicación que nos permite tomar una imagen como referencia y una pista de audio y combinarlas para generar un vídeo de la persona que aparece en la foto cantando o hablando. Si bien esta técnica no es nueva, sí es la primera vez que vemos resultados tan realistas.

A través de la página oficial del proyecto se han mostrado múltiples ejemplos del funcionamiento de esta tecnología. Desde Alibaba han creado además un ejemplo tomado del vídeo que mostró OpenAI con Sora, su IA para generar vídeos realistas. Según el documento del estudio, la IA es capaz de crear movimientos faciales fluidos y expresivos, así como poses de cabeza que encajan casi a la perfección con la canción o audio que suena de fondo.

«Las técnicas tradicionales no suelen captar todo el espectro de expresiones humanas ni la singularidad de los estilos faciales individuales», afirma Linrui Tian, autor principal del artículo. «Para resolver estos problemas, proponemos EMO, un novedoso marco que utiliza un enfoque de síntesis directa de audio a vídeo, sin necesidad de modelos 3D intermedios ni puntos de referencia faciales».

Su modelo de difusión es capaz de convertir el audio a vídeo de forma sencilla. Los investigadores han entrenado al modelo con un dataset de más de 250 horas de vídeos de tertulia extraídos de discursos, películas, programas de televisión, y actuaciones de artistas de música.

En vez de hacer uso del 3D para estirar la fotografía y hacer como si cobrase vida, EMO convierte directamente las ondas del audio en fotogramas de vídeo. Esto le permite captar movimientos sutiles y peculiaridades específicas de la identidad asociadas al habla natural.

Según los experimentos descritos en el documento del estudio, EMO sobrepasa de forma significativa los métodos más punteros en calidad de vídeo, preservación de la identidad del retrato y expresión. Y a decir verdad, no hay más que ver los ejemplos para saber que esta inteligencia artificial está a leguas de los modelos existentes para modificar una fotografía y hacer que la persona que aparece en ella pueda hablar o cantar.

No cabe duda que una vez lanzada la herramienta, aparecerán en Internet miles de memes de celebridades cantando o diciendo algo completamente disparatado. Sin embargo, también puede ser una gran herramienta para creadores de contenido o para avivar el rostro de una persona fallecida de la familia, por poner algunos ejemplos.

Como es lógico, la herramienta también puede suponer un enorme riesgo en cuanto a cuestiones éticas y un uso indebido de la misma para suplantar la identidad de otra persona o difundir desinformación.

Por lo pronto, la herramienta aún no está disponible para su uso, por lo que tendremos que esperar hasta conocer más información al respecto. Lo único que podemos hacer por ahora es bucear por la lista de vídeos publicados en la web y sorprendernos con la calidad y realismo de esta inteligencia artificial.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *