Integración de Herminweb con la ETL spoon de Pentaho (Herminweb Integration with Pentaho ETL spoon)

Published in: Megaprojects: Building Infrastructure by Fostering Engineering Collaboration, Efficient and Effective Integration and Innovative Planning: Proceedings of the 10th Latin American and Caribbean Conference for Engineering and Technology
Date of Conference: July 23-25, 2012
Location of Conference: Panama City, Panama
Authors: Julio Antonio Hernández Pérez
Husseyn Despaigne Reyes
Refereed Paper: #76

Abstract

In English:
Data mining is responsible for finding variations of behavior in a high volume of information. This paper presents a software tool that can discover patterns in the navigational records (logs), generated by the proxy server that provides Internet access to users from the University of Informatics Sciences (UCI). This tool is useful for the Management of Networks and Information Security (DRSI), it provides information necessary for decision- making. Develop a process of Knowledge Discovery in Databases (KDD) in which to apply the task of bringing together, in order to find classes of users in the use of Internet browsing and task association rules to find relationships between The attributes of these classes. To prepare the data is communicated with the ETL Pentaho Spoon and performs a distributed processing of the logs, reducing the time it takes for this phase and the complexity in programming the same. Integrates two technologies with different characteristics to implement the clustering algorithm and the Rules of Association (JAVA and Python), with a design extensible libraries of algorithms of different technologies. The design hierarchical storage streamlines information data query. Also manages the integration of navigational records user data from other information systems.


In Spanish:
La Minería de Datos se encarga de encontrar variaciones de comportamiento en un alto volumen de información. En este trabajo se presenta una herramienta informática que permite descubrir patrones de comportamiento en los registros de navegación (logs), generados por el servidor proxy que da acceso a Internet a los usuarios de la Universidad de las Ciencias Informáticas (UCI). Esta herramienta es de utilidad para la Dirección de Redes y Seguridad Informática (DRSI), pues le brinda información necesaria para la toma de decisiones. Desarrolla un proceso de Descubrimiento de Conocimientos en Base de Datos (KDD) en el cual se aplican la tarea de Agrupamiento, con el fin de encontrar clases de usuarios en el uso de la navegación por Internet y la tarea Reglas de Asociación para encontrar relaciones entre los atributos de estas clases. Para preparar los datos se comunica con la herramienta ETL Spoon de Pentaho y realiza un procesamiento distribuido de los logs, reduciendo el tiempo que demora esta fase y la complejidad en cuanto a la programación de la misma. Integra dos tecnologías con características diferentes para la ejecución del algoritmo de Agrupamiento y el de Reglas de Asociación (JAVA y Python), con un diseño extensible a bibliotecas de algoritmos de diferentes tecnologías. El diseño jerárquico en el almacenamiento de la información agiliza las consultas de datos. Además logra integrar a los registros de navegación datos de los usuarios de otros sistemas de información.