Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente (#108)
Read ArticleDate of Conference
July 17-19, 2024
Published In
"Sustainable Engineering for a Diverse, Equitable, and Inclusive Future at the Service of Education, Research, and Industry for a Society 5.0."
Location of Conference
Costa Rica
Authors
Espin-Riofrio, César
Ramos-Ramírez, Luis
Camacho-Villalva, Holger
Preciado-Maila, Débora K.
Charco, Jorge L.
Montejo-Ráez, Arturo
Abstract
Los notables avances en los modelos de generación de texto han expandido significativamente su aplicabilidad en una amplia variedad de campos. Resulta difícil identificar si un texto ha sido escrito por humano o generado automáticamente, debido a la capacidad de estos modelos para imitar el estilo, la coherencia y la expresión humana. En esta investigación, se propone un método de Deep Learning enfocado al Procesamiento de Lenguaje Natural (PLN) para identificar el origen de un texto. Se basa en la extracción de los embeddings de los tokens iniciales de las doce capas ocultas de modelos Transformers basados en BERT. Se utilizó el dataset proporcionado en la tarea AuTexTification de IberLEF 2023, con textos extraídos de diferentes dominios, en idioma inglés y español. El modelo DeBERTa se utilizó para los textos en inglés y mDeBERTa para los textos en español. Con Optuna se automatizó la búsqueda de los hiperparámetros óptimos para el entrenamiento final, realizando fine-tuning de cada modelo para su posterior predicción y evaluación. Los resultados de evaluación del modelo propuesto fueron excelentes, mientras que los de predicción no lo fueron tanto, siendo un punto interesante para la discusión y análisis de la propuesta.