Hoy día contamos con avances tecnológicos que no solo ayudan a que tengamos una vida mejor, sino que también pueden ser utilizados para realizar acciones que antes solo pensábamos que eran posibles en películas de ciencia ficción como la reconstrucción de un rostro únicamente escuchando la voz del sujeto.
Y es que ahora los científicos de inteligencia artificial del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han mostrado los últimos avances sobre su algoritmo de inteligencia artificial llamado Speech2Face, y que originalmente ya se dio a conocer en 2019.
Este algoritmo es capaz de reconstruir el rostro de una persona utilizando sólo una primera grabación de audio de esa persona hablando, aunque ya te decimos que no es infalible.
CSAIL
Para llegar a esta tecnología, los investigadores primero diseñaron y entrenaron una red neuronal profunda utilizando millones de vídeos de YouTube que mostraban a personas hablando. En esta primera fase del entrenamiento, la inteligencia artificial fue capaz de aprender las correlaciones entre el sonido de las voces y el aspecto del hablante.
Estas correlaciones permitieron hacer las mejores conjeturas en lo que respecta a la edad, el género y también el origen étnico.
Cabe aclarar que no hubo ningún tipo de participación humana en este primer proceso, ya que los investigadores no necesitaron etiquetar de forma manual ningún subconjunto de datos. De esta forma, la IA simplemente recibió una gran cantidad de vídeos y descubrió las correlaciones entre las características de la voz y las características faciales.
Para analizar más a fondo esta precisión en la reconstrucción de las caras, crearon un decodificador de caras que es capaz de formar una reconstrucción estandarizada de la cara de una persona a partir de un cuadro fijo mientras ignora las variaciones irrelevantes como la pose y la iluminación.
CSAIL
Esto llevó a permitir a los científicos comparar de forma más fácil las reconstrucciones de voz con las características reales del hablante. Y tras la primera fase original, en esta segunda fase también los resultados de la inteligencia artificial se acercaron sorprendentemente al hablante real.
Sin embargo, no es un método infalible, dado que hubo otros casos en los que la IA tuvo dificultades para descubrir cómo se veía realmente el orador inicial. Y es que factores como el acento, el idioma y el tono de voz causaron discrepancias entre el habla y la cara donde el género, la edad y etnia eran totalmente incorrectos.
"Nuestro modelo está diseñado para revelar las correlaciones estadísticas que existen entre los rasgos faciales y las voces de los hablantes en los datos de entrenamiento. Los datos de capacitación que utilizamos son una colección de vídeos educativos de YouTube y no representan por igual a toda la población mundial", afirman.
CSAIL
"Por lo tanto el modelo, como es el caso con cualquier modelo de aprendizaje automático, se ve afectado por esta distribución desigual de los datos", se puede leer en el estudio.
En lo que respecta a las aplicaciones de este nuevo algoritmo en el mundo real, esta IA podría acabar creando una representación en dibujos animados de una persona en una llamada telefónica o videoconferencia cuando se desconoce su identidad, una característica que se podría añadir a multitud de aplicaciones.
También podría personalizar mucho más los distintos asistentes de voz, incluso dándole la imagen facial de la persona propietaria del dispositivo.
Aunque quizá lo más polémico es que las fuerzas del orden y seguridad podrían utilizar esta inteligencia artificial para crear un retrato que muestre el aspecto probable de un sospechoso si la única evidencia que tienen es la voz.
0 Comments:
Publicar un comentario