Un Enfoque a los Tokens Iniciales de las Capas de Atención para Detectar Cambios de Autor en Textos Multi-autor. (#109)
Read ArticleDate of Conference
July 17-19, 2024
Published In
"Sustainable Engineering for a Diverse, Equitable, and Inclusive Future at the Service of Education, Research, and Industry for a Society 5.0."
Location of Conference
Costa Rica
Authors
Espin-Riofrio, César
Tenempaguay-Borja, Jenniffer
Montenegro-Arellano, Jhonn
Mendoza Morán, Verónica
Santos Díaz, Lilia
Montejo-Ráez, Arturo
Abstract
La detección de cambios de autor es crucial en un entorno donde múltiples personas han aportado al mismo contenido, siendo esencial para garantizar la transparencia y originalidad de un documento, beneficiando a múltiples áreas como la académica y científica. El objetivo de esta investigación es detectar dónde se produce el cambio de autor en documentos multi-autor, donde se propone un modelo basado en la arquitectura Transformers utilizando los modelos pre-entrenados DeBERTa y mDeBERTa. En el proceso experimental, extraemos los embeddings de los tokens iniciales de las capas del modelo y aplicamos aprendizaje por transferencia para ajustarlos. Validamos nuestro enfoque utilizando un dataset de textos en inglés tomado de PAN CLEF 2023, evaluando su eficacia y rendimiento. Los resultados muestran F1-scores de 0.9721 y 0.9647 para DeBERTa y mDeBERTa, respectivamente, validando que ambos tienen una alta precisión en la detección de cambios de autor en textos multi-autor. DeBERTa se destaca ligeramente por encima de mDeBERTa. La propuesta demuestra que la extracción de embeddings y el posterior fine-tuning en ambos modelos, son altamente efectivos para la detección precisa de cambios de autor en documentos multi-autor.