Está en la página 1de 11

Practica N8

Weka Aprendizaje automtico y Data Mining


Actividades
Archivo Weather.numeric
Se abre el archivo de los ejemplos base perteneciente a Weka

Fig.1 Vista del archivo cargado Atributo outlook


En la pestaa Classify se escoge el tipo de rbol para mostrar en este caso
J48, al hacer clic en start nos muestra la informacin de este rbol
generado.

Fig.2 Pestaa Classify

Fig.3 Visualizacin del rbol


En la pestaa Visualize se muestra una matriz en la cual se puede escoger
los atributos cuales comparar en un grafico generado.

Fig.4 Pestaa Visualizacin

Ejercicios
Archivo Maquina

Fig.5 Contenido del archivo Maquina


En el archivo inicial era de extensin .xls Excel el cual no es reconocido por
Weka asi que ser transformado a csv primero para ser implementado.

Fig.6 Seleccin del archivo csv

Fig.7 Vista del archivo maquina

En la pestaa Classify se escoge el tipo de rbol para mostrar en este caso


J48, al hacer clic en start nos muestra la informacin de este rbol
generado.

Fig.8 Vista Classify Detalle rbol J48

Fig.9 Vista rbol J48


El rbol tiene como base las vibraciones y verifica luego la temperatura para
validar el proceso indicando que si <= 35 existen horas en funcionamiento y
>35 si existen 4 horas de funcionamiento. Y de igual modo para el siguiente
nivel se evalua si las horas de funcionamiento son > 1500 lo cual indica que
si en caso de 2 y por el lado de <= 1500 seria un no (2.0).

En la pestaa Classify se escoge el tipo de rbol para mostrar en este caso


RandomTree, al hacer clic en start nos muestra la informacin de este
rbol generado.

Fig.10 Vista Classify Detalle rbol RandomTree

Fig.11 Vista rbol RandomTree


El rbol tiene como base las vibraciones y luego va decidiendo si el
parmetro corresponde con temperatura por eso se va por el lado de si y de
igual modo con DiasRevision y muestra en los lados contrarios que seran
No la cantidad de datos que cumplen o no con esto como por ejemplo >=75
si(2/0) si cumplen.

En la pestaa Classify se escoge el tipo de rbol para mostrar en este caso


ADTree, al hacer clic en start nos muestra la informacin de este rbol

generado.
Fig.12 Vista Detalle rbol ADTree

Fig.12 Vista rbol ADTree


El rbol tiene un parmetro 0.126 que categoriza por mayor o menos en el
caso de vibraciones -0.879 va para el lado de Si y si es 1.089 va para el lado
de no , de igual manera la categorizacin para el lado de temperatura y con
3 horas de funcionamiento indicando sus parmetros respectivos.
Luego para visualizar la comparacin de atributos vamos a la pestaa
Visualize que nos muestra indicadores en base al eje X y Y. Como se
muestra en la siguiente figura.

Fig.13 Pestaa Visualize Horas_Funcionamiento


Temperatura

Archivo Titanic
En el archivo se muestra en base a los siguientes atributos relacionados al
Titanic.

Fig.14 Vista atributos Titanic


En la pestaa Classify se escoge el tipo de rbol para mostrar en este caso
J48, al hacer clic en start nos muestra la informacin de este rbol
generado.

Fig.15 Vista detalle J48

Fig.16 Vista Arbol J48


El rbol tiene como base el atributo sex que toma decisin de sus dos
opciones femenino o masculino luego los divide en cases 1, 2, 3 indicando
en el siguiente nivel su tipo de edad y la decisin de si es mayor o no lo es.

Fig.17 Vista detalle ADTREE

Fig.17 Vista ADTREE


Luego para visualizar la comparacin de atributos vamos a la pestaa
Visualize que nos muestra indicadores en base al eje X y Y. Como se
muestra en la siguiente figura.

Fig.18 Pestaa Visualize

Cuestionario
1. Describa las fases de la metodologa CRISP-DM
1. Fase de comprensin del negocio o problema
La fase ms importante porque recopila los objetivos y requisitos
del proyecto para lo cual necesita la tarea de determinar los
objetivos en base a criterios de xitos del negocio luego evala la
situacin en base a terminologa, riesgos y contingencias, como
segunda tarea; despus determina los objetivos DM en base a
metas de data mining obteniendo criterios de xito para al final
realizar el plan del proyecto.
2. Fase de comprensin de los datos
Para esta fase se tiene que hacer una recoleccin inicial de datos
haciendo un reporte de recoleccin de datos luego describir los
datos con su respectivo reporte y asi poder evaluar los datos con
el reporte de exploracin de los datos y finalmente poder
identificar calidad y establecer relaciones para plantear las
hiptesis.
3. Fase de preparacin de los datos
En la siguiente fase se procede con la preparacin de datos
existentes para adaptarlos a tcnicas de data mining con
ciertas tcnicas de visualizacin asi al seleccionar los datos se
incluyen o excluyen segn sean necesarios de manera que se
limpian y se crea el reporte de calidad de datos luego
estructuras los datos con la derivacin de sus atributos y as
poder generar registros para luego integrarlos y unificarlos
llegando a hacer el formateo de datos y su reporte de calidad
de datos.
4. Fase de modelado
En esta ase se seleccionan las tcnicas de modelado y se
plantean supuestos modelos para asi generar el plan de prueba
y construir el modelo por el seteo de parmetros y
modelndolo para finalmente evaluar el modelo y revisar los
parmetros.
5. Fase de evaluacin
En esta fase se evalan los resultados con su valoracin de los
resultados y modelos aprobados luego de hace la revisin del
proceso para finalmente determinar prximos pasos como la
tcnica modelada listando las posibles acciones.
6. Fase de implementacin
Para esta fase se hace un plan de plantacin con su proceso ,
tambin un plan de monitoreo y mantencin con el respectivo

informe final que presente los modelos y finalmente la revisin


del proyecto.
2. Cul es el ciclo de un rbol de decisin?
1. Aprendizaje:

2. Clasificacin:

3. Qu otros algoritmos de clasificacin existen?En qu consisten?


Algoritmo de asociacin de Microsoft
til para los motores de recomendacin. Un motor de recomendacin
recomienda productos a los clientes basndose en los elementos que ya han
adquirido o en los que tienen inters.
Algoritmo de clsteres de Microsoft
El algoritmo utiliza tcnicas iterativas para agrupar los casos de un conjunto
de datos dentro de clsteres que contienen caractersticas similares.
Algoritmo de regresin lineal de Microsoft
El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo
de rboles de decisin de Microsoft que ayuda a calcular una relacin lineal
entre una variable independiente y otra dependiente y, a continuacin,
utilizar esa relacin para la prediccin.
Algoritmo de red neuronal de Microsoft
El algoritmo de red neuronal de Microsoft combina cada posible estado del
atributo de entrada con cada posible estado del atributo de prediccin, y usa
los datos de entrenamiento para calcular las probabilidades

También podría gustarte