LA JORNADA

Modelo de IA de Microsoft crea videos hiperrealistas a partir de una foto y un audio

Denominado VASA-1, toma el retrato de una persona y hace que literalmente hable, emulando comportamientos conversacionales humanos a través de gesticulaciones faciales y el movimiento de los ojos y la cabeza

Modelo de IA de Microsoft crea videos hiperrealistas a partir de una foto y un audio
Según explican sus creadores, VASA-1, toma el retrato de una persona y hace que literalmente hable, produciendo una muy convincente sincronización entre sus labios y el archivo de audio que se desee.

Microsoft Research, la división investigativa del gigante informático, está desarrollando una herramienta de inteligencia artificial (IA) generativa capaz de crear “rostros parlantes” hiperrealistas a partir de una imagen estática y un clip de audio, de acuerdo con un artículo publicado este martes.

Según explican sus creadores, VASA-1 (abreviatura de ‘Visual Affective Skills Animator’, o ‘Animador de Habilidades Afectivas Visuales’ en español) toma el retrato de una persona y hace que literalmente hable, produciendo una muy convincente sincronización entre sus labios y el archivo de audio que se desee. Además, captura un “amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad”.

Para demostrar las impresionantes capacidades del modelo, Microsoft compartió varios ejemplos utilizando rostros humanos inexistentes —por razones de privacidad— creados con las redes neuronales de generación de imágenes DALL-E 3 y StyleGAN2. La galería incluye avatares cantando y hablando en sincronización con pistas de audio pregrabadas y muestras de cómo se pueden controlar para que expresen diferentes estados de ánimo o cambien su mirada.

Estas “caras parlantes realistas” emulan comportamientos conversacionales humanos a través de gesticulaciones faciales y el movimiento de los ojos y la cabeza. Sin embargo, VASA-1 también puede procesar “fotografías artísticas, audios cantados y de habla no inglesa”. Como prueba, sus creadores lograron que la famosa obra maestra de Leonardo da Vinci, la ‘Mona Lisa’, interpretara el ‘Paparazzi Rap’ que una vez cantó la actriz Anne Hathaway.

Potencialmente peligroso

De momento, VASA-1 está en etapa de aprendizaje y lo revelado esta semana es solo una demostración de la investigación, por lo cual no está disponible para que lo pruebe nadie ajeno al equipo de Microsoft Research. La empresa dejó claro que no tiene previsto lanzarlo al público, en la medida en que es consciente de los peligros de este tipo de tecnología.

El modelo no es perfecto, pero supera significativamente a otros similares de animación de voz en términos de realismo, expresividad y eficiencia, por lo que existe el riesgo de ser “potencialmente mal utilizado” para suplantar identidades, afirma Microsoft. Así, podría prestarse para que personas inescrupulosas falsifiquen material audiovisual creando contenido engañoso o perjudicial, como los famosos ‘deepfakes’ que a menudo implican fraudes o desinformación.

“Aun reconociendo la posibilidad de un uso indebido, es imperativo reconocer el considerable potencial positivo de nuestra técnica. Los beneficios —como aumentar la equidad educativa, mejorar la accesibilidad de las personas con problemas de comunicación, ofrecer compañía o apoyo terapéutico a quienes lo necesitan, entre muchos otros— subrayan la importancia de nuestra investigación y de otras exploraciones relacionadas. Nos dedicamos a desarrollar la IA de forma responsable, con el objetivo de mejorar el bienestar humano”, concluye Microsoft.

Artículos Relacionados

Innovadora antena 6G promete ser el “trampolín” a la comunicación ultrarrápida y los hologramas

Redaccion Central

Varios periódicos demandan a OpenAI y Microsoft por “robar millones” de sus notas

Redaccion Central

eSIM swapping: qué es y cómo puede afectarte

Redaccion Central

Generación Delivery: el 71% de los Millenials pide deliverys una vez por semana

Redaccion Central

VIDEO: Primer humano con el chip Neuralink muestra su ‘telepatía’

Redaccion Central

Nvidia presenta el “chip más potente del mundo”

Redaccion Central