Mineria de Datos

MINERIA DE DATOS
1. MINERIA DE DATOS
a) Definiciones de Minería de Datos
Debido a lo novedoso de la herramienta, no existe una única definición en la que
coincidan un grupo importante de investigadores, pero puede resumirse en las
siguientes:
Minería de Datos es el proceso de encontrar correlaciones o patrones entre
múltiples atributos en grandes bases de datos.
MD es la extracción de información implícita, desconocida o previamente ignorada,

que puede ser útil de un conjunto de datos
Minería de Datos es el proceso de planteamiento de distintas consultas y

extracción de información útil, patrones y tendencias previamente desconocidas
desde grandes cantidades de datos posiblemente almacenados en bases de datos.
b) Aplicaciones
Aplicaciones. En la actualidad la MD se aplica a casi todas las ramas del
conocimiento debido a que la tecnología que se utiliza es relativamente barata y
además los recursos informáticos disponibles cada vez son más numerosos y
sofisticados.
 Empresariales: Con carácter general, el objetivo de la MD en el mundo de la
empresa es el de encontrar patrones de compras de los clientes, con la
intención de promover campañas publicitarias personalizadas y de esta
manera incrementar las ventas.
 Deporte. En los equipos de fútbol y baloncesto ha empezado ser frecuente el
uso de la MD. En el caso del fútbol, el A.C. Milán posee un sistema inteligente
para prevenir lesiones y optimizar el rendimiento del jugador basado en un
sistema de redes neuronales.
2. MINERIA DE DATOS CON WEKA
SOTWARE WEKA
WEKA: será el software que utilizaremos durante este trabajo, por lo que en el
próximo tema hablaremos de manera más detallada de todas las utilidades que
podemos obtener de él. El programa está basado en un conjunto de librerías Java
bajo licencia GPL, y ha sido desarrollado en la Universidad de Waikato, de ahí el
nombre de WEKA (Waikato Environment for Knowledge Analysis). Está orientado a
la extracción de conocimiento a través de bases de datos con gran cantidad de
información, contiene una gran colección de algoritmos y herramientas para
analizar los datos junto con una interfaz sencilla, que hace que el usuario pueda
usar este software de manera muy simple
. El software WEKA para el estudio de la MD es gratuito y puede descargarse de la
siguiente dirección: http://www.cs.waikato.ac.nz/ml/WEKA/downloading.html
3. PROYECTO DE MINERIA DE DATOS CON WEKA
CONJUNTO DE DATOS PARA EL PROYECTO
El objetivo que se pretende es encontrar patrones de comportamientos para un

conjunto de datos extraídos de un equipo de futbol nuestro caso el Atlético Madrid, de
una base de datos disponible
Para ser más preciso, nos proponemos saber si podemos relacionar el atributo posición en
que terminó la liga, con el resto de los atributos: como número de puntos obtenidos, partidos
ganados, partidos perdidos, y empatados, y además con goles a favor, goles en contra.
A continuación, grabamos el archivo de Excel en formato csv delimitado por comas, para poder
manipularlo antes de abrirlo con WEKA
 PREPROCESAMIENTO DE LOS DATOS: EL primer paso para un análisis de datos con WEKA
es el preprocesamiento de los mismos en la pestaña preprocess Esta operación se lleva a
cabo mediante el uso de filtros, que pueden ser aplicados a los atributos o a las instancias.
En general, el tipo de filtro es no supervisado, esto es, el resultado obtenido es
independiente del tipo de algoritmos que se utilice a posterior.
REQUERIMIENTO
• Cantidad de partidos tiene que ganar, empatar para obtener el primer, segundo,
tercer lugar en la liga el equipo de atlético de Madrid.
ATRIBUTO LUGAR
 V i s u a l i z a c i ó
: El modo de visualice nos permite ver gráficamente cómo es la distribución de todos los
atributos en gráficas de dos dimensiones, en la que se comparan a través de dicha
representación la combinación de los atributos de par en par, permitiéndonos ver
correlaciones y asociaciones entre los atributos de forma gráfica.
Clasificación. Cuando estamos interesados en encontrar patrones de comportamientos entre

los datos se recurre a la tarea de clasificación, que suele ser la más frecuente entre las
realizadas en minería de datos. El objetivo será el de encontrar relaciones entre los atributos
que permitan saber cuáles son las posibilidades de que el equipo seleccionado quede en un
determinado lugar de la tabla clasificatoria. Esta tarea se lleva a cabo con la pestaña Classify
SELECIONAMOS EL J48
Classify y árbol decisión J48
Al igual que en el apartado anterior, a través del botón choose se puede elegir el
método de clasificación que queremos utilizar, entre los que se encuentran:
Bayes: son métodos basados en el aprendizaje de Bayes, que son aquellos que intentan
encontrar de entre todas las hipótesis la más probable, a partir de un conjunto de
entrenamiento. El algoritmo más utilizado en este apartado es el de NaiveBayes.
Funciones: se corresponden con los métodos que están basados en modelos
matemáticos, como, por ejemplo: las redes neuronales, o los diferentes tipos de
regresiones.
Lazy: en este tipo de algoritmos, cada una de las instancias se compara con el resto
del conjunto de datos, definiéndose una “medida de distancia”, son métodos donde el
objetivo es “encontrar al vecino más cercano”.
Meta: son los métodos que se obtienen al combinar distintos tipos de aprendizaje.
Tress: métodos expresados a través de árboles de decisión. En este caso se construye
un árbol desde la raíz hasta las hojas, de tal manera que las ramas se dividen en
función de los valores que toman los atributos. Entre todos ellos, el más popular es el
J48 que es una mejora del árbol inicial C4.5 diseñado en 1945.
Rules: son algoritmos que se expresan a través de reglas y que tienen la particularidad
de ser autoaprendizajes
ATRIBUTO PUESTO
Ventana del árbol decisión J48
RESULTADOS OBTENIDOS ES EL SIGUIENTE:
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2
Relation: ATLETICO
Instances: 28
Attributes: 9
ï»¿TEMPORADA
PARTIDO JUGADOS
PARTIDOS GANADOS
PARTIDOS EMPATADOS
PARTIDOS PERDIDOS
GOLES A FABOR
GOLES EN CONTRA
PUNTOS
PUESTO
Test mode: evaluate on training data
=== Classifier model (full training set) ===
A continuación, se facilita el resultado del clasificador. Se ha obtenido un árbol de decisión de

tamaño 4 y un número de hojas de 7
PARTIDOS GANADOS <= 20: OTRO (18.0)
PARTIDOS GANADOS > 20
| PARTIDOS EMPATADOS <= 9
| | PARTIDOS GANADOS <= 24: TERCERO (4.0)
| | PARTIDOS GANADOS > 24: PRIMERO (4.0/1.0)
| PARTIDOS EMPATADOS > 9: SEGUNDO (2.0)
Number of Leaves : 4
Size of the tree : 7
Time taken to build model: 0.01 seconds
Posteriormente se ofrece un resumen del test realizado, donde lo destacado es que ha

clasificado correctamente 27 de las 29 instancias (es decir un 98.6 %) con unos niveles de error
muy bajos.
=== Evaluation on training set ===
Time taken to test model on training data: 0.01 seconds
=== Summary ===

Correctly Classified Instances 27 96.4286 %
Incorrectly Classified Instances 1 3.5714 %
Kappa statistic 0.934
Mean absolute error 0.0268
Root mean squared error 0.1157
Relative absolute error 9.4862 %
Root relative squared error 31.4512 %
Total Number of Instances 28
La información global de la precisión obtenida también se ofrece para cada una de las clases
del atributo clasificado. Podemos observar, por ejemplo, que la posibilidad de quedar en un
puesto posterior al tercero tiene una probabilidad de acierto del 95.5%
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
1,000 0,040 0,750 1,000 0,857 0,849 0,980 0,750 PRIMERO
1,000 0,000 1,000 1,000 1,000 1,000 1,000 1,000 OTRO
1,000 0,000 1,000 1,000 1,000 1,000 1,000 1,000 SEGUNDO
0,800 0,000 1,000 0,800 0,889 0,876 0,987 0,925 TERCERO
Weighted Avg. 0,964 0,004 0,973 0,964 0,965 0,962 0,996 0,960
=== Confusion Matrix ===
a b c d <-- classified as
3 0 0 0 | a = PRIMERO
0 18 0 0 | b = OTRO
0 0 2 0 | c = SEGUNDO
1 0 0 4 | d = TERCERO
El árbol de decisión expresado de la forma que aparece anteriormente es muy confuso. WEKA
ofrece la opción de visualizarlo de manera gráfica. Para ello es necesario pulsar sobre el
resultado (Result list) con el botón derecho del ratón y tendremos acceso al gráfico de la Figura
 Si la cantidad de partidos ganados es menor que 20, entonces existe una probabilidad del
0.85 % de que el equipo no alcance los tres primeros puestos de la clasificación

Mineria de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

MINERIA DE DATOS

MD es la extracción de información implícita, desconocida o previamente ignorada,

Minería de Datos es el proceso de planteamiento de distintas consultas y

2. MINERIA DE DATOS CON WEKA

CONJUNTO DE DATOS PARA EL PROYECTO

El objetivo que se pretende es encontrar patrones de comportamientos para un

Clasificación. Cuando estamos interesados en encontrar patrones de comportamientos entre

Classify y árbol decisión J48

método de clasificación que queremos utilizar, entre los que se encuentran:

encontrar de entre todas las hipótesis la más probable, a partir de un conjunto de

entrenamiento. El algoritmo más utilizado en este apartado es el de NaiveBayes.

Funciones: se corresponden con los métodos que están basados en modelos

objetivo es “encontrar al vecino más cercano”.

Tress: métodos expresados a través de árboles de decisión. En este caso se construye

Ventana del árbol decisión J48

RESULTADOS OBTENIDOS ES EL SIGUIENTE:

Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2

Test mode: evaluate on training data

=== Classifier model (full training set) ===

A continuación, se facilita el resultado del clasificador. Se ha obtenido un árbol de decisión de

PARTIDOS GANADOS <= 20: OTRO (18.0)

PARTIDOS GANADOS > 20

| PARTIDOS EMPATADOS <= 9

| | PARTIDOS GANADOS <= 24: TERCERO (4.0)

| | PARTIDOS GANADOS > 24: PRIMERO (4.0/1.0)

| PARTIDOS EMPATADOS > 9: SEGUNDO (2.0)

Size of the tree : 7

Time taken to build model: 0.01 seconds

Posteriormente se ofrece un resumen del test realizado, donde lo destacado es que ha

=== Evaluation on training set ===

Time taken to test model on training data: 0.01 seconds

=== Summary ===

Incorrectly Classified Instances 1 3.5714 %

Kappa statistic 0.934

Mean absolute error 0.0268

Root mean squared error 0.1157

Relative absolute error 9.4862 %

Root relative squared error 31.4512 %

Total Number of Instances 28

=== Detailed Accuracy By Class ===

1,000 0,040 0,750 1,000 0,857 0,849 0,980 0,750 PRIMERO

1,000 0,000 1,000 1,000 1,000 1,000 1,000 1,000 OTRO

1,000 0,000 1,000 1,000 1,000 1,000 1,000 1,000 SEGUNDO

0,800 0,000 1,000 0,800 0,889 0,876 0,987 0,925 TERCERO

=== Confusion Matrix ===

También podría gustarte