Está en la página 1de 13

PRACTICA 2

ESTUDIO DEL MTODO USANDO ORANGE


(2 ENTREGA)

Minera De Datos
Sonia Garca Ruz
Roberto Garca Manzano
INTRODUCCIN AL MTODO ESTUDIADO
Anlisis de regresin predictivo
Se emplea cuando queremos predecir valores numricos de las variables de nuestro
problema. Es frecuente recurrir al anlisis de regresin lineal, donde se busca una recta que
pase lo ms cerca posible de los puntos que representan las variables del problema, tratando
que las distancias de los puntos a la recta sean mnimas.
Cuando un conjunto de datos no responde a este tipo de aproximacin se recurre al modelo
no-lineal o multi-lineal donde se trata de definir una curva que pase lo ms prxima posible a
todos los puntos.

DESCRIPCIN DETALLADA DE LOS DATOS DE ENTRADA


X
o Eje de coordenadas espacial dentro del mapa del parque de Montesinho
donde se produce el incendio.
o Toma valores desde: 1 a 9
o Tipo de dato: numrico y discreto.
Y
o Eje de coordenadas espacial dentro del mapa del parque de Montesinho
donde se produce el incendio.
o Toma valores desde: 2 a 9.
o Tipo de dato: numrico y discreto.
Month:
o Mes en que se produce el incendio.
o Toma valores desde "jan" (enero) a "dec" (diciembre).
o Tipo de dato nominal y discreto.
Day:
o Dia de la semana en el que se produce el incendio.
o Toma valores desde "mon" (lunes) a "sun" (domingo).
o Tipo de dato nominal y discreto.
FFMC:
o Nivel de humedad que tiene la hojarasca superficial en el suelo en el que se
produjo el incendio.
o Toma valores desde 18.7 a 96.20.
o Tipo de dato numrico y continuo.
DMC:
o Nivel de humedad que tienen las capas orgnicas poco compactas:
indica profundidad a la que el fuego lleg en esas capas.
o Toma valores desde 1.1 a 291.3.
o Tipo de dato numrico y continuo.
DC:
o dem al anterior, pero solo que ste mide el nivel de humedad en capas
compactas y profundas.
o Toma valores desde 7.9 a 860.6.
o Tipo de dato numrico y continuo.
ISI:
o Indica el ratio con el que fuego se extendi en sus primeras etapas.
o Toma valores desde 0.0 a 56.10.
o Tipo de dato numrico y continuo.
Temp:
o Temperatura existente en el parque en el momento del incendio.
o Toma valores desde 2.2 a 33.30 (grados Celsius).
o Tipo de dato numrico y continuo.
RH:
o Humedad Relativa existente en el parque cuando se inici el incendio.
o Toma valores desde 15.0 a 100 (en %).
o Tipo de dato numrico y continuo.
Wind:
o Velocidad del viento existente en el parque cuando se inici el incendio.
o Toma valores desde 0.40 a 9.40 (en km/h).
o Tipo de dato numrico y continuo.
Rain
o Cantidad de precipitacin en el parque en el momento del incendio.
o Toma valores desde 0.0 a 6.4 (en mm/m2).
o Tipo de dato numrico y continuo.
Area:
o rea quemada del bosque.
o Se trata de la clase de nuestro problema, porque es hacia la que queremos
predecir futuros incendios.
o Toma valores desde: 0.00 a 1090.84 (en ha).
o Esta variable de salida est muy sesgada hacia 0.0.
DESCRIPCIN PASO A PASO DEL ESQUEMA IMPLEMENTADO EN ORANGE

FILE

Adjuntamos el fichero que contiene todos los datos. El fichero tiene una extensin .csv y
previamente le hemos quitado todas aquellas instancias cuya rea quemada en 0.0. La razn
es que un rea quemada de 0.0 indica la no existencia de incendio, lo cual entorpeca una
buena prediccin de la futura rea quemada de futuros incendios.

SELECT ATRIBUTTES

Seleccionamos aquellos atributos en los que nos basaremos para obtener la prediccin final, el
que ser la clase del problema (rea) y los que sern meta-atributos (informacin extra de los
atributos que seleccionamos).

OUTLIERS

Descartamos los outliers (hay un rea quemada de 1090.84 hectreas, la ms prxima es de


746.28, y la ms pequea est entre 0 y 1 hectrea) para que no nos contaminen la prediccin.

TRAINING

Dividimos todos nuestros datos en dos conjuntos, uno de 245 instancias y otro de 25, y as
poder comparar los resultados obtenidos en la prediccin con las 245 instancias y ver si
coinciden con las 25 restantes (ver si la prediccin es buena).
REGRESSION TREE

Aplicamos el algoritmo de regresin a los datos.

REGRESSION TREE GRAPH

Para representar visualmente el resultado de aplicar regresin a los datos.


Realizamos el proceso 3 veces para poder probar con tres muestras distintas de 245 datos cada
una, si la prediccin es buena y coincide con los 25 datos restantes de cada una:

Data Sample: muestra de 245 datos.


Remaining Data: muestra de los 25 datos restantes.

RESULTADOS OBTENIDOS
Los resultados obtenidos no eran buenos ya que no coincida la prediccin que nos daban los
245 datos con los 25 restantes de cada training.

IMgenes

CONCLUSIONES
Que el rea quemada de un incendio sea una u otra depende de muchos factores que no
podemos contemplar ni estn contemplados en los atributos de este ejercicio.

Por ejemplo, depende si los bomberos tardan o no en llegar, de si el rea donde se inicia el
incendio es o no accesible, si cerca del incendio haba una charca o un cortafuegos, etc.

Por todo esto concluimos, que con los datos que disponemos para el tipo de prediccin que
intentamos obtener, que no podemos obtener una prediccin fiable que nos prediga
correctamente la futura rea quemada de los futuros incendios que ocurran.

Por todo ello intentamos realizar el estudio mediante el mtodo de Clasificacin.


PARTE 2
RBOLES DE CLASIFICACIN

Para realizar la clasificacin de los datos que tenemos utilizamos:

DISCRETIZE
Discretizamos los datos ya que los rboles de clasificacin necesitan datos que no sean
continuos. Para realizar este paso, incluimos todos los casos en los que no hay incendio
(rea quemada = 0.0) ya que ste es un problema de clasificacin (clasificamos todos
los datos de los que disponemos) y no de prediccin.
En la discretizacin se realizan tres grupos:

No hay incendio (rea quemada = 0.0)


rea quemada ente 0 y 6,37.
Ms de 6.37.
En la foto podemos observar un primer recuadro de color rojo que tiene seleccionados
todos aquellos atributos del caso actual a discretizar (todos tienen una C indicando
que son datos continuos.
El segundo recuadro seala los tres grupos que se han hecho tras la discretizacin.

SELECT ATTRIBUTES
Seleccionamos aquellos datos que sern nuestros atributos, los meta-atributos, la clase
del problema y aquellos que dejamos fuera. Podemos observar que ahora todos los
atributos aparecen con la D de dato discreto.
Todos aquellos atributos discretos que aparecen que empiezan por D_ son los que
eran originalmente continuos y tras el paso anterior se han convertido en discretos.
Los que aparecen en el apartado Attributes, son aquellos que hemos considerado
importantes para realizar la clasificacin. En la pgina nmero dos se puede ver el
significado de dichas siglas.

CLASSIFICATION TREE
Con el fin de hacer distintas pruebas y ver el rbol final resultado, realizamos 3 tipos
clasificacin:

Sin restricciones: Realizamos la clasificacin del rbol sin ninguna restriccin.


Pre-poda: aplican el criterio de poda segn va creciendo el rbol.
Post-poda: una vez crecido el rbol, decide qu nodos no sern tomados en
cuenta de acuerdo a un criterio determinado.

Sin Restricciones Prepoda Postpoda

Slo tenemos en cuenta el rbol de clasificacin que toma el criterio de post-poda ya


que los resultados que obtenemos son ms fiables y menos extensos que con los
dems.

CLASSIFICATION TREE GRAPF


Representamos grficamente los datos obtenidos en el rbol de clasificacin.
RESULTADOS OBTENIDOS
Hemos obtenido un rbol de clasificacin con 46 nodos y 29 hojas cuya clasificacin est
basada en el mes en el que se produjo el incendio, el DMC, ISI, el viento, FFCM, es decir, en
todos aquellos atributos que indicamos en el paso de Select Attributes.

La lectura de estos resultados se puede hacer de la siguiente manera:

Como se hara muy largo comprobar en papel cada uno de las hojas del rbol (29), vamos a
comprobar algunas al azar.

Empezamos el recorrido por la parte izquierda completa desde el nodo raz.


En esta parte, tenemos aquellas instancias del archivo de datos cuyo ndice de DC sea menos
que 297.07 o entre 297.07 y 578.84.

Vamos a centrarnos en la rama cuyo DC es menor de 297.07. Las instancias que coincidan con
esta condicin, las clasifica en un RH menor de 42, entre 42 y 69 y mayor de 69.

De los datos que tienen un RH entre 42 y 69, la clasificacin refleja que su rea quemada ser
mayor de 6.37 hectreas. Buscamos algunos datos de la muestra que tenga un DC menor de
297.07, y cuyo RH est entre 42 y 69, para comprobar si la clasificacin refleja la realidad:

DC = 55.2<297.07
RH = 54 (entre 42 y 69) Correcto
Area = 10.93 > 6.37

DC = 41.6<297.07
RH = 64 (entre 42 y 69) Errneo
rea = 3.36 < 6.37

De los datos que tienen un RH mayor que 69, su rea quemada estar entre 0.0 y 6.37.
Buscamos dos datos que cumplan estas condiciones:

DC = 16.2<297.07
RH = 82>69 Correcto
rea = 5.39 (entre 0.0 y
6.37)
DC = 16.2<297.07
RH = 77>69 Correcto
rea = 2.14 (entre 0.0 y
6.37)

Despus de comprobar algunos datos por esta rama, vamos a centrarnos en la rama cuyo DC
est entre 297.07 y 578.84. Vamos a comprobar las hojas de esta rama cuyo mes sea
diciembre (dec). El rea quemada ser mayor de 6.37:

DC = 354.6 (>297.07 y
<578.84) Correcto
Month = dec
rea = 11.19 > 6.37
DC = 349.7 ( >297.07 y
<578.84) Correcto
Month = dec
rea = 17.85 > 6.37
Ahora nos pasamos a la rama derecha del rbol. Vamos a comprobar un dato ms de esta
parte.

Su DC es mayor de 578.84. Elegimos la rama en la que su RH es menor de 42, cuyo DMC est
entre 99.23 y 195.26, cuyo mes es Agosto y cuyo ISI es menor de 8.10. Las instancias que
cumplan estas caractersticas, tienen un rea quemada de entre 0.0 y 6.37.

Lo comprobamos:

DC =635.9 > 578.84


RH = 36<42
DMC=191.4 (>99.23 y <195.26) Error
Month = Aug
ISI = 7.8 < 8.1
rea = 182.76 (>6.37)
DC =629.1 > 578.84
RH = 39<42
DMC=141.1 (>99.23 y <195.26) Correcto
Month = Aug
ISI = 7.1 < 8.1
rea = 1.56 (<6.37)

CONCLUSIONES
Con las comprobaciones que hemos hecho de los datos, podemos concluir que un 75%
clasificaciones son correctas y corresponden con los datos reales.

También podría gustarte