Abstract:Durante el transcurso de este proyecto, se ha probado diferentes formas de reconocer o clasificar estados de depresión a través de voces grabadas en entrevistas psicológicas, aplicando modelos de inteligencia artificial. Los audios fueron obtenidos de la base de datos DAIC-WOZ. Uno de los primeros desafíos, fue el tratamiento de los audios. Esto debido a dos razones. La primera, los audios tienen una duración considerable de más de 20 minutos en muchos casos. La segunda, en los audios de las entrevistas psicológicas, intervienen dos voces características representadas por el agente entrevistador y el participante. Se emplearon métodos de segmentaciones, como Diarización de voces o segmentaciones de características específicas. Especialmente, para discriminar las voces del agente entrevistador y quedarse únicamente con la voz del participante. Después de limpiar los audios, se observaron que los audios aún eran extensos. Para ello, se tuvo que recurrir a diferentes formas para extraer características relevantes en cada audio, transformándolos en espectrogramas. Finalmente, se usaron estas representaciones de características como entrada para el modelo de red neuronal convolucional. Se realizaron diferentes pruebas en el modelo. Se mejoraron los resultados obtenidos aplicando data augmentation, siempre revisando los pasos previos de la metodología usada. Al final, se evalúa el modelo. |