{"id":408,"date":"2024-03-12T12:09:49","date_gmt":"2024-03-12T11:09:49","guid":{"rendered":"https:\/\/blog.uclm.es\/proyectosciencuenca\/?p=408"},"modified":"2024-03-12T12:31:17","modified_gmt":"2024-03-12T11:31:17","slug":"alibaba-crea-emo-la-ia-que-convierte-una-foto-y-un-audio-en-video","status":"publish","type":"post","link":"https:\/\/blog.uclm.es\/proyectosciencuenca\/2024\/03\/12\/alibaba-crea-emo-la-ia-que-convierte-una-foto-y-un-audio-en-video\/","title":{"rendered":"Alibaba crea EMO, la IA que convierte una foto y un audio en v\u00eddeo"},"content":{"rendered":"\n<p><a href=\"https:\/\/www.genbeta.com\/actualidad\/esta-ia-alibaba-da-vida-a-cualquier-foto-transformandola-video-realista-alguien-hablando-cantando-asi-emo\">Noticia de Antonio Vallejo (Genbeta)<\/a><\/p>\n\n\n\n<p>El equipo de investigadores del instituto de inteligencia computacional en Alibaba han llamado a su IA \u2018EMO\u2019, un acr\u00f3nimo de \u2018Emote Portrait Alive\u2019. La herramienta es capaz de\u00a0<strong>animar la fotograf\u00eda de un retrato y generar v\u00eddeos<\/strong>\u00a0de la persona mientras habla o canta.<\/p>\n\n\n\n<p>En los dos \u00faltimos a\u00f1os hemos visto c\u00f3mo la inteligencia artificial ha ido conquistando Internet a trav\u00e9s de m\u00faltiples herramientas y aplicaciones. Adem\u00e1s de\u00a0<a href=\"https:\/\/www.genbeta.com\/actualidad\/google-lanza-verdadero-rival-gpt-4-dice-adios-a-marca-google-bard-ahora-todo-gemini\">los chatbots<\/a>\u00a0existentes, hoy d\u00eda podemos encontrar herramientas muy realistas para\u00a0<a href=\"https:\/\/www.genbeta.com\/a-fondo\/mejores-alternativas-a-midjourney-gratis-pago-para-generar-imagenes-inteligencia-artificial\">generaci\u00f3n de im\u00e1genes<\/a>, de\u00a0<a href=\"https:\/\/www.genbeta.com\/a-fondo\/mejores-inteligencias-artificiales-para-convertir-texto-a-voz-forma-realista-narran-textos-casi-como-tu\">audio<\/a>, de\u00a0<a href=\"https:\/\/www.genbeta.com\/inteligencia-artificial\/no-te-creas-nada-que-veas-openai-tiene-nueva-ia-genera-videos-realistas-asi-sora\">v\u00eddeo<\/a>\u00a0e incluso para pasar de audio a v\u00eddeo. Para lo \u00faltimo mencionado, Alibaba tiene preparada una sorprendente herramienta que nos permitir\u00e1 hacer que\u00a0<strong>cualquier imagen cobre vida<\/strong>\u00a0mediante una canci\u00f3n o con tan solo hablar.<\/p>\n\n\n\n<p>El gigante chino ha desarrollado una aplicaci\u00f3n que nos permite tomar una imagen como referencia y una pista de audio y combinarlas para\u00a0<strong>generar un v\u00eddeo de la persona que aparece en la foto cantando o hablando<\/strong>. Si bien esta t\u00e9cnica no es nueva, s\u00ed es la primera vez que vemos resultados tan realistas.<\/p>\n\n\n\n<p>A trav\u00e9s de la&nbsp;<a href=\"https:\/\/humanaigc.github.io\/emote-portrait-alive\/\">p\u00e1gina oficial<\/a>&nbsp;del proyecto se han mostrado m\u00faltiples ejemplos del funcionamiento de esta tecnolog\u00eda. Desde Alibaba han creado adem\u00e1s un ejemplo tomado del v\u00eddeo que mostr\u00f3 OpenAI con&nbsp;<a href=\"https:\/\/www.genbeta.com\/a-fondo\/sora-guia-a-fondo-que-como-funciona-mejor-que-puedes-hacer-chatgpt-generador-videos-openai\">Sora<\/a>, su IA para generar v\u00eddeos realistas. Seg\u00fan el&nbsp;<a href=\"https:\/\/arxiv.org\/pdf\/2402.17485.pdf\">documento<\/a>&nbsp;del estudio, la IA es capaz de&nbsp;<strong>crear movimientos faciales fluidos y expresivos<\/strong>, as\u00ed como poses de cabeza que encajan casi a la perfecci\u00f3n con la canci\u00f3n o audio que suena de fondo.<\/p>\n\n\n\n<p>\u00abLas t\u00e9cnicas tradicionales no suelen captar todo el espectro de expresiones humanas ni la singularidad de los estilos faciales individuales\u00bb, afirma Linrui Tian, autor principal del art\u00edculo. \u00abPara resolver estos problemas, proponemos EMO, un novedoso marco que utiliza un enfoque de s\u00edntesis directa de audio a v\u00eddeo, sin necesidad de modelos 3D intermedios ni puntos de referencia faciales\u00bb.<\/p>\n\n\n\n<p>Su modelo de difusi\u00f3n es capaz de convertir el audio a v\u00eddeo de forma sencilla. Los investigadores han entrenado al modelo con\u00a0<strong>un dataset de m\u00e1s de 250 horas de v\u00eddeos de tertulia<\/strong>\u00a0extra\u00eddos de discursos, pel\u00edculas, programas de televisi\u00f3n, y actuaciones de artistas de m\u00fasica.<\/p>\n\n\n\n<p>En vez de hacer uso del 3D para estirar la fotograf\u00eda y hacer como si cobrase vida, EMO&nbsp;<strong>convierte directamente las ondas del audio en fotogramas de v\u00eddeo<\/strong>. Esto le permite captar movimientos sutiles y peculiaridades espec\u00edficas de la identidad asociadas al habla natural.<\/p>\n\n\n\n<p>Seg\u00fan los experimentos descritos en el documento del estudio,&nbsp;<strong>EMO sobrepasa de forma significativa los m\u00e9todos m\u00e1s punteros<\/strong>&nbsp;en calidad de v\u00eddeo, preservaci\u00f3n de la identidad del retrato y expresi\u00f3n. Y a decir verdad, no hay m\u00e1s que ver los ejemplos para saber que esta inteligencia artificial est\u00e1 a leguas de los modelos existentes para modificar una fotograf\u00eda y hacer que la persona que aparece en ella pueda hablar o cantar.<\/p>\n\n\n\n<p>No cabe duda que una vez lanzada la herramienta, aparecer\u00e1n en Internet miles de memes de celebridades cantando o diciendo algo completamente disparatado. Sin embargo, tambi\u00e9n puede ser una gran herramienta para creadores de contenido o para avivar el rostro de una persona fallecida de la familia, por poner algunos ejemplos.<\/p>\n\n\n\n<p>Como es l\u00f3gico, la herramienta tambi\u00e9n puede suponer&nbsp;<strong>un enorme riesgo en cuanto a cuestiones \u00e9ticas<\/strong>&nbsp;y un uso indebido de la misma para suplantar la identidad de otra persona o difundir desinformaci\u00f3n.<\/p>\n\n\n\n<p>Por lo pronto, la herramienta a\u00fan no est\u00e1 disponible para su uso, por lo que tendremos que esperar hasta conocer m\u00e1s informaci\u00f3n al respecto. Lo \u00fanico que podemos hacer por ahora es bucear por la lista de v\u00eddeos publicados en la web y sorprendernos con la calidad y realismo de esta inteligencia artificial.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Noticia de Antonio Vallejo (Genbeta) El equipo de investigadores del instituto de inteligencia computacional en Alibaba han llamado a su IA \u2018EMO\u2019, un acr\u00f3nimo de \u2018Emote Portrait Alive\u2019. La herramienta es capaz de\u00a0animar la fotograf\u00eda de un retrato y generar &hellip; <a href=\"https:\/\/blog.uclm.es\/proyectosciencuenca\/2024\/03\/12\/alibaba-crea-emo-la-ia-que-convierte-una-foto-y-un-audio-en-video\/\">Sigue leyendo <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":441,"featured_media":410,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[7],"class_list":["post-408","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sin-categoria","tag-ciencia-tecnologia-ai"],"_links":{"self":[{"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/posts\/408","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/users\/441"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/comments?post=408"}],"version-history":[{"count":2,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/posts\/408\/revisions"}],"predecessor-version":[{"id":413,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/posts\/408\/revisions\/413"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/media\/410"}],"wp:attachment":[{"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/media?parent=408"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/categories?post=408"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/tags?post=408"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}