Está en la página 1de 30

Correlaciones.

Contexto y perspectiva.
Sarah es una gerente de ventas regional de un proveedor de
combustibles fsiles a nivel nacional para calefaccin
hogarea.
La reciente volatilidad en el los precios del mercado
especficamente en combustibles para calefaccin, junto a la
gran variabilidad en la talla de cada orden de combustibles
de calefaccin hogarea, tiene a Sarah preocupada.
Ella siente la necesidad de entender el comportamiento y
otros factores que influencian la demanda de combustible
para calefaccin en el mercado domstico.

Contexto y perspectiva.
Qu factores estn ligados al uso de combustible de
calefaccin? Y cmo puede ella usar el conocimiento de dichos
factores en el manejo de su inventario, y anticipar la
demanda? Sarah cree que la minera de datos puede ayudarla
a comenzar a entender estos factores e interacciones.

Comprensin organizacional.
La meta de Sarah es entender mejor cmo su compaa
puede tener xito en el mercado de combustibles de
calefaccin hogareos. Ella reconocer que hay muchos
factores que influencian el consumo de estos combustibles,
y cree que investigando la relacin entre cierto nmero de
esos factores, podr entender y responder mejor a la
demanda.
Ella ha seleccionado la correlacin como una forma de
modelar la relacin entre los factores que ella desea
investigar. La correlacin es una medida estadstica de que
tan fuerte es la relacin entre atributos en un conjunto de
datos (data set).

Comprensin de los datos.


Para poder investigar su pregunta, Sarah ha hecho una lista
de seis atributos y creado una matriz de correlacin.
Trabajando juntos, usando las fuentes de datos de los
empleados de Sarah los cuales son principalmente extrados
de la base de datos de facturacin de la compaa, hemos
creado un data set que contiene los siguientes atributos:
Insulation(aislamiento). Esto es un ndice de densidad, del uno
al diez, indicando la cantidad de aislamiento de cada hogar.
Un hogar con una cantidad uno de aislamiento est poco
aislado, mientras que un hogar con nmero diez est
excelentemente aislado.

Comprensin de los datos.

Temperature(Temperatura):

Este es el promedio de
temperatura exterior en cada hogar en el ao ms reciente,
medido en grados Farenheit.
Heating_Oil(aceite

de calefaccin): este es el nmero


total de unidades de combustible para calefaccin comprados
por el dueo de cada hogar en el ao ms reciente.
Num_Occupants(nmero

ocupantes): este es el nmero


total de ocupantes viviendo en cada hogar.
Avg_Age(Promedio

de dichos ocupantes.

Home_Size(Tamao

de edad): este es el promedio de edad

del hogar): esta es una clasificacin


del tamao de cada hogar en una escala del uno al ocho.
Entre ms alto el nmero, ms grande el hogar.

Preparacin de los datos.

Hay un data set CSV disponible en la web para poder descargar y


llevar
a
cabo
este
ejercicio:
https://sites.google.com/site/dataminingforthemasses/ Si deseas
seguir
con
el
ejemplo,
puedes
descargar
el
archivo
Chapter04DataSet.csv y guardarla en tu carpeta de RapidMiner.
Luego, completa los siguientes pasos para llevar a cabo la minera
y correlacin de datos.
1. Importar el archivo Chapter 4 CSV en el repositorio de datos de
RapidMiner. Gurdalo con el nombre Chapter4.
Importa todos los atributos, y acepta los tipos de datos por
defecto.

Preparacin de los datos.


Cuando hayas terminado, tu repositorio se debera ver
como en la siguiente imagen.

Preparacin de los datos.


2. Si en tu aplicacin de RapidMiner no hay abierto una nueva
ventana de procesos en blanco, entonces haz clic en el cono
new process, o en File > New para crear un nuevo proceso.
Arrastra tu data set Chapter4 en tu ventana de procesos
principal. Haz clic en el botn Play para examinar los meta
datos del data set. Si se te pide, guarda tu nuevo modelo.

Preparacin de los datos.

Podemos ver en esta imagen que nuestros seis atributos son


mostrados. Hay un total de 1,218 hogares representados en
nuestro data set. Nuestro data set parece estar limpio, sin
datos que falten en alguno de los seis atributos, y sin datos
inconsistentes en nuestros rangos.

Preparacin de los datos.


Si lo deseas, puedes tomarte un minuto para cambiar al
modo Data View para familiarizarte con los datos. Ya que
vemos que estos datos estn en buena forma, y no
necesitamos llevar a cabo algn operador para preparar los
datos, podemos pasar al modelado.

Modelado.
3. Cambia ahora a la perspectiva de diseo. En la tabla de
operadores en la esquina de abajo a la izquierda, utiliza la caja de
bsqueda y escribe la palabra correlation. La herramienta que
buscamos se llama Correlation Matrix. La herramienta podra
aparecer incluso antes de que termines de escribir la palabra de
bsqueda.
Una vez que lo hayas localizado, arrstralo tu ventana de proceso
y ponlo en tu stream. Por defecto, el puerto exa se conectar al
puerto res, pero en este ejemplo, estamos interesados en crear
una matriz de coeficientes de correlacin que podamos analizar.
As que es importante que conectes el puerto mat (matrix) al
puerto res, como se ve en la siguiente imagen.

Modelado.

En esta imagen podemos ver que hemos agregado una matriz


de correlacin (Correlation Matrix) a nuestro stream. Con el
puerto mat conectado al puerto res.

Modelado.
La correlacin es simplemente una herramienta estadstica
para llevar a cabo anlisis, y posee algunos parmetros para
poder modificar. Nosotros aceptaremos los que vienen por
defecto y pondremos a trabajar al modelo. El resultado ser
similar al de la siguiente imagen.

Modelado.
En la imagen anterior tenemos coeficientes correlativos en una
matriz. Los coeficientes correlativos son relativamente fciles de
descifrar. Simplemente miden que tan fuerte es la relacin entre
cada posible grupo de atributos en un data set. Ya que tenemos
seis atributos en nuestro data set, nuestra matriz es seis
columnas de ancho y seis filas de alto. En el lugar donde el
atributo se cruza con s mismo, e coeficiente de correlacin es '1'
porque todo comparado con s mismo tiene una relacin
perfectamente pareja. Todos los otros pares de atributos tendrn
un coeficiente de correlacin menor que uno. Para complicarlo un
poco, los coeficientes de relacin pueden tambin ser negativos,
as que caern en algn punto entre -1 y 1. Podemos ver en la
imagen anterior que ese es el caso, as que podemos proceder a
la fase de evaluacin.

Evaluacin
Todos los coeficientes de correlacin entre 1 y 0 representan
correlaciones positivas, mientras que todas las correlaciones entre
0 y -1 son correlaciones negativas. esto podra parecer sencillo,
pero hay una distincin importante que hay que hacer al
interpretar los valores de esta matriz. Esta distincin tiene que ver
con la direccin del movimiento entre los dos atributos que
estamos analizando. Consideremos la relacin entre el atributo
Heating_Oil y el atributo Insulation.
ste coeficiente es 0.736, como se ve en la imagen anterior. ste
es un nmero positivo, y por lo tanto, una correlacin positiva.
Pero qu significa eso? Las correlaciones que son positivas quieren
decir que si un atributo aumenta, el otro tambin aumenta.

Evaluacin
Pero, este tipo de correlacin tambin significa que si
uno de los atributos disminuye, el otro tambin
disminuye. Los analistas de datos a veces cometen el
error de pensar que una correlacin negativa existe si
los valores de un atributo disminuyen, pero si los valores
de su atributo correspondiente tambin disminuyen, la
correlacin sigue siendo positiva.

Heating_Oil
sube

Insulation
sube

Heating_Oil
baja

Insulation
baja

Evaluacin
Ahora, considera la relacin entre el atributo
Temperature y el nivel del atributo Insulation. En la
imagen anterior, vemos que el coeficiente es de
-0.794. En ese ejemplo, la correlacin es negativa, y
sera como en la imagen siguiente:

Temperature
sube

Insulation
baja

Temperature
baja

Insulation
sube

Evaluacin

Entonces, los coeficientes de correlacin nos dicen algo


sobre la relacin entre los atributos y eso nos es de
mucha ayuda, pero tambin nos sirven para determinar
la intensidad de la correlacin. Como se mencion
antes, todas las correlaciones caen entre 0 y 1 o entre 0
y -1. Entre ms se acerque la correlacin a 1 o a -1, ms
fuerte esta es. La siguiente imagen muestra la fuerza de
una correlacin a medida que avanza del -1 a 1.

Evaluacin
RapidMiner intenta ayudarnos a identificar la intensidad de las
correlaciones a travs del uso de colores. Pero es importante
recordar que estos son solo lineamientos generales y no reglas
a seguir al pie de la letra. Un coeficiente de correlacin de 0.2
muestra algo de interaccin entre los atributos, pero
estadsticamente no es significativo. Debemos tener esto en
mente cuando procedamos a la fase de implementacin.

Implementacin
El concepto de implementacin en la minera de datos significa
hacer algo con lo que has aprendido de tu modelo. Llevar a cabo
alguna accin en base a lo que el modelo nos revela. Por ejemplo
en el caso de Sarah, nuestro personaje ficticio. Hay algunos
posibles resultados de la investigacin que llevamos a cabo.
Aprendimos con nuestra investigacin que los dos atributos ms
fuertemente correlacionados son Heating_Oil y Avg_Age con un
coeficiente de 0.848, y adems sabemos que en este data set a
medida que la edad promedio de los ocupantes de un hogar
incrementa tambin incrementa el uso de combustible de
calefaccin en ese hogar. Lo que no sabemos es por qu pasa eso.

Implementacin
Los analistas de datos generalmente cometen el error de
confundir la correlacin con la causalidad. Asumir que una
correlacin prueba una causa es peligroso y muchas veces falso.
Consideremos por un momento la correlacin que hay entre
Avg_Age y Temperature: -0.673. Vemos que en cuanto la edad de
los residentes aumenta, la temperatura afuera disminuye. Pero
podra la edad de los ocupantes de la casa tener algn efecto en
la temperatura promedio exterior en ese hogar? Ciertamente no.
Si ese fuera el caso, podramos controlar la temperatura
simplemente cambiando a la gente de hogar por sus edades, y
eso por supuesto, es algo ilgico.

Implementacin
Mientras que estadsticamente hay una correlacin entre
esos dos atributos en nuestro data set, no hay una razn
lgica para que los cambios en uno de esos atributos afecten
al otro. La relacin entre ambos probablemente sea
coincidencia, pero si acaso no lo fuera, debe haber una
explicacin que nuestro modelo no nos puede proveer. Esas
limitaciones deben ser reconocidas y aceptadas en todas las
decisiones a la hora de implementar los resultados.

Implementacin
Otra falsa interpretacin en las correlaciones es que se trate
de un porcentaje, como si dijera que un coeficiente de
correlacin entre dos atributos fuera de 0.776 y que eso
equivale a un 77.6% de variabilidad entre esos dos
atributos. Eso no es correcto. Mientras que los coeficientes
nos dicen algo acerca de los atributos, las frmulas
matemticas usadas para calcular lo coeficientes de
correlacin entre esos atributos solo miden la intensidad
hacia 1 o -1, de la interaccin de esos atributos. No se
pretende calcular el porcentaje.

Implementacin
Con esta interpretacin de los parmetros explicada, hay
algunas cosas que Sarah podra hacer para tomar acciones
basndose en nuestro modelo. Algunas opciones podran ser:
Quitar el atributo Num_Occupants. Nos podra parecer lgico
que el nmero de ocupantes en un hogar tenga relacin con el
consumo de combustible de calefaccin que hagan, pero en
nuestro modelo ese atributo no tuvo correlacin significativa
con ningn otro atributo. A veces hay atributos que resultan
no ser muy interesantes.

Implementacin
Investigar el rol del aislamiento en los hogares. El nivel en el
atributo de aislamiento estuvo fuertemente correlacionado con
otros atributos. Aqu podra haber una oportunidad para hacer un
convenio con una (o empezar una... ) compaa especializada en
agregar mejor aislamiento a los hogares. Si ella est interesada
en tomar accin, podra trabajar en un plan de mercadeo para
promover un mejor aislamiento en los hogares, en el cual se
muestren todos sus beneficios, por ejemplo. Aunque, si ella
quiere seguir concentrndose en vender tanto combustible como
pueda, tal vez podra sentirse en conflicto a la hora de decidir si
participar o no en ese tipo de campaa.

Implementacin
Agregar granularidad al data set. Este data set nos ha dado
resultados interesantes. Pero, francamente, es demasiado
general. En este modelo hemos usado temperaturas promedio
por ao y un nmero anual de unidades de combustible
consumidas. Sabemos que las temperaturas varan a travs del
ao en muchas partes del mundo. Sabiendo eso podramos tener
datos a nivel mensual, o incluso semanal, as la correlacin entre
los atributos podra ser ms interesante. Sarah sabe que en
nuestro modelo algunos atributos interactan con otros, y debido
a su trabajo en el da a da, quiz Sarah quiera saber obre el
consumo de combustible en perodos ms cortos que un ao.

Implementacin

Al parecer el dato sobre el nmero de ocupantes por hogar no dio


resultados interesantes, pero eso no significa que otros atributos s los
den. Por ejemplo: que tal si Sarah puede saber el nmero de hornos o
calderas que hay en cada hogar? El atributo Home_Size estuvo
ligeramente correlacionado con el uso de Heating_Oil, as que el nmero
de instrumentos que consumen combustible de calefaccin en cada hogar
nos diga algo interesante, o al menos nos de algo ms de perspectiva.
Sera sabio tambin que Sarah tenga en mente que el enfoque CRISP-DM
posee naturaleza cclica. Cada mes en cuanto se toman nuevas rdenes
nuevas facturas salen y nuevos clientes se suscriben a sus cuentas,
generando nuevos datos a agregar al modelo. En cuanto ella aprenda
cmo cada atributo en sus data sets interactan con el resto, ella puede
incrementar nuestro modelo de correlaciones no solo agregando nuevos
atributo, sino nuevas observaciones.

Preguntas
1. Cuales son las limitaciones de un modelo de correlaciones?
2. Qu es un coeficiente de correlaciones?
3. Cmo se interpreta un coeficiente de correlaciones?
4. Cul es la diferencia entre una correlacin positiva y una
negativa?
5. Cmo se mide la intensidad de una correlacin?

Preguntas
6. Cuales son los rangos para los niveles de intensidad de correlacin?
7. Qu es la correlacin?
8. Por qu se dice que el enfoque CRISP-DM posee naturaleza cclica?
9. Qu significa que el coeficiente entre dos atributos sea negativo?
10. En qu casos utilizamos un modelo de correlacin?

También podría gustarte