"

Análisis Del Comportamiento De La Voz Humana Para Detección De Depresión Usando Redes Neuronales Convolucionales

Published in: Prospective and trends in technology and skills for sustainable social development. Leveraging emerging technologies to construct the future: Proceedings of the 19th LACCEI International Multi-Conference for Engineering, Education and Technology
Date of Conference: July 19-23, 2021
Location of Conference: Virtual
Authors: Carlos Espinoza-Vicuña (Universidad Nacional de Ingeniería, PE)
Yuri Nuñez-Medrano (Universidad Nacional de Ingeniería, PE)
Full Paper: #491

Abstract:

Durante el transcurso de este proyecto, se ha probado diferentes formas de reconocer o clasificar estados de depresión a través de voces grabadas en entrevistas psicológicas, aplicando modelos de inteligencia artificial. Los audios fueron obtenidos de la base de datos DAIC-WOZ. Uno de los primeros desafíos, fue el tratamiento de los audios. Esto debido a dos razones. La primera, los audios tienen una duración considerable de más de 20 minutos en muchos casos. La segunda, en los audios de las entrevistas psicológicas, intervienen dos voces características representadas por el agente entrevistador y el participante. Se emplearon métodos de segmentaciones, como Diarización de voces o segmentaciones de características específicas. Especialmente, para discriminar las voces del agente entrevistador y quedarse únicamente con la voz del participante. Después de limpiar los audios, se observaron que los audios aún eran extensos. Para ello, se tuvo que recurrir a diferentes formas para extraer características relevantes en cada audio, transformándolos en espectrogramas. Finalmente, se usaron estas representaciones de características como entrada para el modelo de red neuronal convolucional. Se realizaron diferentes pruebas en el modelo. Se mejoraron los resultados obtenidos aplicando data augmentation, siempre revisando los pasos previos de la metodología usada. Al final, se evalúa el modelo.