Meta muestra modelos basados en IA para mejorar el audio en experiencias XR

27 JUN 2022  17:00

Redacción

14

Los investigadores en IA de Meta y Reality Labs han puesto a disposición de los desarrolladores tres modelos de comprensión audiovisual diseñados para hacer más realista el sonido en experiencias de realidad mixta y virtual: Visual-Acoustic Matching (Coincidencia Visual-Acústica), Visually-Informed Dereverberation (Dereverberación Informada Visualmente) y VisualVoice (Voz Visual).

 

 

- Visual-Acoustic Matching: el audio y el vídeo deben de coincidir de manera coherente para que una escena no resulte perturbadora para la percepción humana. Es un modelo de concordancia visual-acústica autosupervisado, denominado AViTAR, que ajusta el audio para que coincida con el espacio objetivo de una imagen.

 

- Visually-Informed Dereverberation: En el ejemplo que proponen, sería que si estamos visualizando un holograma del recital de ballet de nuestra hija, el audio que escuchemos suene igual que en el momento en que la vimos bailar sentados en el patio de butacas del teatro. La música se escucha con una reverberación diferente en distintos entornos. Para revivir un recuerdo, es más realista que el sonido no sea artificial, puro y cristalino.

 

- VisualVoice: conseguir que la IA aprenda nuevas habilidades mediante el aprendizaje de señales visuales y auditivas de videos sin etiquetar para lograr la separación del habla audiovisual. En una reunión de avatares en el metaverso, la IA ajustaría el audio a medida que nos acercáramos a un grupo de personas para escucharlas mejor, y si nos movemos hacia otro grupo, se adaptaría a la nueva situación.

 

El objetivo de estos tres modelos, de estas investigaciones, es crear experiencias de realidad mixta y realidad virtual donde la IA sea fundamental para ofrecer una calidad de sonido realista e inmersiva.