| 2024-04-21
La capacidad de la inteligencia artificial para sorprender parece no tener fin, y Microsoft Research acaba de subir la apuesta.
Esta división de investigación del gigante tecnológico ha desarrollado una herramienta de IA generativa, conocida como VASA-1, que crea videos hiperrealistas de "rostros parlantes" a partir de una simple foto y una pista de audio.
VASA-1 (Visual Affective Skills Animator) es capaz de tomar una fotografía estática de una persona y hacer que "hable", sincronizando de manera convincente los movimientos de sus labios con cualquier archivo de audio.
Esta tecnología capta un amplio rango de matices faciales y movimientos naturales de la cabeza, lo que contribuye a la autenticidad y vivacidad del video generado.
Para evitar problemas de privacidad, Microsoft utilizó rostros generados por inteligencia artificial a través de redes neuronales como DALL-E 3 y StyleGAN2 en sus demostraciones.
Entre las muestras mostradas, se incluyen avatares que cantan y hablan en perfecta sincronización con pistas de audio, capaces de expresar diferentes emociones y dirigir su mirada.
Incluso, en una prueba audaz, los creadores animaron la icónica imagen de la 'Mona Lisa' de Leonardo da Vinci para que interpretara un rap, mostrando la versatilidad y alcance de VASA-1.
VASA-1, de Microsoft, sorprende con sus ´deepfakes´ hiperrealistas
— RT en Español (@ActualidadRT) April 20, 2024
Con la red neuronal VASA-1, de Microsoft, los ´deepfakes´ pasan al siguiente nivel. Todo lo que esta IA requiere para crear videos de gran calidad y realismo es una foto y audio. pic.twitter.com/HtlHBzbVhY
Aunque la tecnología detrás de VASA-1 es impresionante, también acarrea riesgos significativos.
Microsoft es plenamente consciente del potencial de abuso de esta tecnología, especialmente en la creación de 'deepfakes' que podrían ser utilizados para fraudes o desinformación.
Por ello, VASA-1 se encuentra en una etapa de desarrollo cerrado y no está disponible para el público general.
La compañía destaca que, aunque la tecnología es avanzada y supera a otros sistemas de animación de voz en términos de realismo y expresividad, todavía está lejos de ser perfecta y su liberación podría tener consecuencias serias si se utiliza inapropiadamente.
Este avance en IA de Microsoft Research plantea tanto posibilidades emocionantes como dilemas éticos, subrayando la dualidad de la tecnología moderna: un potencial inmenso para el bien y, a la vez, para el mal.