In English:
Data mining is responsible for finding variations of behavior in a high volume of information. This paper presents
a software tool that can discover patterns in the navigational records (logs), generated by the proxy server that
provides Internet access to users from the University of Informatics Sciences (UCI). This tool is useful for the
Management of Networks and Information Security (DRSI), it provides information necessary for decision-
making. Develop a process of Knowledge Discovery in Databases (KDD) in which to apply the task of bringing
together, in order to find classes of users in the use of Internet browsing and task association rules to find
relationships between The attributes of these classes. To prepare the data is communicated with the ETL Pentaho
Spoon and performs a distributed processing of the logs, reducing the time it takes for this phase and the
complexity in programming the same. Integrates two technologies with different characteristics to implement the
clustering algorithm and the Rules of Association (JAVA and Python), with a design extensible libraries of
algorithms of different technologies. The design hierarchical storage streamlines information data query. Also
manages the integration of navigational records user data from other information systems.
In Spanish:
La Minería de Datos se encarga de encontrar variaciones de comportamiento en un alto volumen de información.
En este trabajo se presenta una herramienta informática que permite descubrir patrones de comportamiento en los
registros de navegación (logs), generados por el servidor proxy que da acceso a Internet a los usuarios de la
Universidad de las Ciencias Informáticas (UCI). Esta herramienta es de utilidad para la Dirección de Redes y
Seguridad Informática (DRSI), pues le brinda información necesaria para la toma de decisiones. Desarrolla un
proceso de Descubrimiento de Conocimientos en Base de Datos (KDD) en el cual se aplican la tarea de
Agrupamiento, con el fin de encontrar clases de usuarios en el uso de la navegación por Internet y la tarea Reglas
de Asociación para encontrar relaciones entre los atributos de estas clases. Para preparar los datos se comunica
con la herramienta ETL Spoon de Pentaho y realiza un procesamiento distribuido de los logs, reduciendo el
tiempo que demora esta fase y la complejidad en cuanto a la programación de la misma. Integra dos tecnologías
con características diferentes para la ejecución del algoritmo de Agrupamiento y el de Reglas de Asociación
(JAVA y Python), con un diseño extensible a bibliotecas de algoritmos de diferentes tecnologías. El diseño
jerárquico en el almacenamiento de la información agiliza las consultas de datos. Además logra integrar a los
registros de navegación datos de los usuarios de otros sistemas de información.
|