Está en la página 1de 21

Universidad Nacional Daniel Alcides

Carrin
Escuela de Formacin Profesional de Sistemas
y Computacin

SOPORTE PARA LA TOMA DE DECISIONES


Fase de Exploracin en Minera de Datos

Docente:
Ing. Williams Muoz Robles
Integrantes:
-

AGUSTIN BARDALES JOHN


ARCE AGUILAR WILLIAMS
ESPINOZA LAUREANO ANDRES
JANAMPA HUAMAN JUNIOR
GUERE ZEVALLOS JEREMIAS

RESUMEN

Los estadsticos descriptivos ms habitualmente utilizados


han sido la media y la desviacin tpica, son ndices
convenientes slo cuando la distribucin de datos es
aproximadamente normal o, al menos, simtrica y
unimodal.
Se recomienda iniciar un anlisis exploratorio de datos
grficos que permitan visualizar su estructura (exploracin
visual). Sin embargo la exploracin formal, se usan cuando
no se obtiene una distribucin normal. Estos estadsticos
son los que se ven poco afectados por valores atpicos, a
veces es necesario realizar transformacin de variables.

INDICE
RESUMEN................................................................................................................................... 2
INDICE......................................................................................................................................... 3
INTRODUCCIN......................................................................................................................... 5
CONTENIDO................................................................................................................................ 6
1.

2.

HERRAMIENTAS DE EXPLORACIN VISUAL...............................................................6


1.1.

Histograma De Frecuencias.....................................................................................6

1.2.

Diagrama de tallo y hojas.........................................................................................6

1.3.

Grfico de caja y bigotes..........................................................................................7

1.4.

Grfico mltiple de caja y bigotes.............................................................................7

1.5.

Grfico de simetra................................................................................................... 8

1.6.

Grfico de dispersin................................................................................................ 9

1.7.

Grficos para variables cualitativas........................................................................10

HERRAMIENTAS DE EXPLORACION FORMAL...........................................................11


2.1.

Contrastes de la bondad de ajuste a una distribucin: test del Chi-Cuadrado........11

2.2.
Contraste de Klomogorov-Smirnov Lilliefors de la bondad de ajuste a una
distribucin......................................................................................................................... 12

3.

2.3.

Estadsticos Robustos de centralizacin................................................................12

2.4.

Estadsticos robustos de dispersin.......................................................................13

2.5.

Estadsticos robustos de asimetra y curtosis.........................................................13

CONTRASTES DE ALETORIEDAD...............................................................................13
3.1.
Teste de rachas de Wald-Wolfowitz y el test del cuadrado medio de diferencias
sucesivas............................................................................................................................ 14
3.2.

Test de Daniel......................................................................................................... 14

4.

TRANSFORMACIN DE LAS VARIABLES...................................................................14

5.

SUPUESTOS SUBYACENTES EN LAS TCNICAS DE MINERA DE DATOS.............14


5.1.

Normalidad............................................................................................................. 14

5.2.

Grafico normal de probabilidad...............................................................................15

5.3.
Contrastes de la bondad de ajuste de la chi-cuadrado y kolmogorov- Smirnov
Lilliefors.............................................................................................................................. 15
5.4.

Contraste de normalidad de Shapiro y Wilks..........................................................16

5.5.

Heteroscedasticidad............................................................................................... 16

5.6.

Multicolinealidad..................................................................................................... 17

5.7.

Auto correlacin...................................................................................................... 17

5.8.

Linealidad............................................................................................................... 17

CONCLUSIONES....................................................................................................................... 18

INTRODUCCIN
Despus de la fase de seleccin, el proceso de extraccin
del conocimiento contempla la fase de explotacin,
mediante tcnicas formales de anlisis exploratorio de
datos.
Es necesario examinar las variables individuales y las
relaciones entre ellas, as como evaluar y solucionar
problemas en el diseo de la investigacin y en la recogida
de datos. La primera tarea que se suele abordar es el
anlisis exploratorio y grfico de los datos. Hay que tener
presente que las representaciones graficas nunca
sustituyen a las medidas de diagnstico formal estadstico,
pero proporcionan una forma alternativa de desarrollar
una perspectiva del carcter de los datos y de las
interrelaciones que existen.
Tambin como tarea previa tenemos los supuestos
adyacentes en los mtodos multivariantes para la minera
de datos. Dependen de la tcnica que se apliquen y suelen
ser el contraste de la normalidad, el testeo de la linealidad
la comprobacin de la homocedasticidad, la comprobacin
de la multicolinealidad, la ausencia correlacin serial de
los residuos o auto correlacin.

CONTENIDO
1. HERRAMIENTAS DE EXPLORACIN VISUAL
1.1. Histograma De Frecuencias
Siempre es conveniente iniciar el anlisis
exploratorio de datos con la construccin del
histograma de frecuencias asociado, para poder
intuir la distribucin de probabilidad de los datos,
su normalidad, su simetra y otras propiedades
interesantes en el anlisis de datos.

1.2. Diagrama de tallo y hojas


Es un procedimiento semigrfico para representar
la informacin para variables cuantitativas, que es
especialmente til cuando el nmero total de datos
es pequeo (menor que 50). Los principios para la
realizacin del diagrama (debido a Tukey) son los
siguientes:

Redondear los datos a dos o tres cifras


significativas.
Disponerlos en dos columnas separadas por una
lnea vertical de tal forma que para los datos con
dos dgitos la cifra de las decenas se encuentre a la
izquierda de la lnea vertical (tallo del diagrama), y
a la derecha las unidades (hojas o ramas del
diagrama).
Cada tallo define una clase, y se escribe solo una
vez. A su derecha se van escribiendo por orden las
sucesivas hojas correspondientes a ese tallo. El
nmero de hojas por cada tallo representa la
frecuencia de cada clase.
Tambin llamado histograma digital, es una
combinacin entre un histograma de barras y una
tabla de frecuencias. Tambin resulta ms
informativo que el clsico histograma de barras, ya
que conserva los datos originales y, al mismo
tiempo, compone un perfil que ayuda a estudiar la
forma y simetra de la distribucin.

1.3. Grfico de caja y bigotes


Permite analizar y resumir un conjunto de datos
univariante dado. Permite estudiar la simetra de
los datos, detectar valores atpicos y vislumbrar un
ajuste de los datos a una distribucin de
frecuencias determinada.
Divide los datos en cuatro reas de igual
frecuencia, una caja central dividida en dos reas

por una lnea vertical y otras dos reas


representadas por dos segmentos horizontales
(bigotes) que parten del centro de cada lado
vertical de la caja.
La caja central encierra el 50 por ciento de los
datos, el sistema dibuja la mediana como una lnea
vertical en el interior de la caja. Si esta lnea est
en el centro de la caja no hay asimetra en la
variable

1.4. Grfico mltiple de caja y bigotes


Permite
analizar,
resumir
y
comparar
simultneamente varios conjuntos de datos
univariantes
dados,
correspondientes
a
los
diferentes grupos en que se pueden subdividir los
valores de una variable. Adems permite estudiar la
simetra de los datos, detectar valores atpicos y
representar medias, medianas, rangos y valores
extremos para todos los grupos.
Al ser la representacin simultnea para todos los
conjuntos de datos, se podrn comparar medias,
medianas, rangos, valores extremos, simetras y
valores atpicos de todos los grupos.

1.5. Grfico de simetra

Permite analizar visualmente el grado de simetra


de una variable. En el eje de abscisas se
representan las distancias de los valores de la
variable a la mediana que quedan por debajo de
ella, y en el eje de ordenadas se representan las
distancias de los valores de la variable a la mediana
que quedan por encima de ella.
Si la simetra fuese perfecta, el conjunto de puntos
resultante sera diagonal principal. Mientras ms se
aproxime la grfica a la diagonal ms existir en la
distribucin de la variable.
Los pasos prcticos para elaborar el grafico de
simetra son los siguientes:
Se calcula la mediana de la variable
Se ordenan los valores de la variable de mayor
a menor (orden descendente)
Se calculan las diferencias d1 entre los valores
de la variable ordenados y la mediana.
Se toman los valores positivos de d1 ordenados
de menor a mayor y se les denomina p 1. Estos
valores sern las distancias sobre la mediana
Se toman los valores negativos de d1
ordenados de menor a mayor y se les
denomina n1. Estos valores cambiados de
signo sern las distancias bajo la mediana.
Se grafican los puntos de coordenadas (-n1,
p1).

1.6. Grfico de dispersin


Permite ver la relacin entre dos o ms variables.
Est formado por puntos cuyas coordenadas
cartesianas son los pares de valores de dos
variables cuya relacin se quiere estudiar
representada una en el eje vertical y otra en el eje
horizontal
El posicionamiento de los puntos del grfico de
dispersin define la relacin entre las variables:
Si se sitan alrededor de una recta, existe
correlacin lineal entre las variables.
Si los puntos siguen una pauta no lineal, la
relacin entre las variables no puede definirse
como lineal.
Si la nube de puntos es aleatoria y dispersa,
no existe relacin alguna entre las variables.

1.7. Grficos para variables cualitativas


La exploracin visual de variables cualitativas suele
llevarse a cabo mediante diagramas de rectngulos,
diagramas de sectores y pictogramas.
Los diagramas de rectngulos se construyen
asignando a cada modalidad de la variable
cualitativa un rectngulo con altura igual (o
proporcional) a su frecuencia absoluta n 1 y con
base constante.
Los diagramas de sectores (o de pastel)
constituyen el tipo de grfico ms utilizado
para representar distribuciones de frecuencias
de variables cualitativas. La variable se
presenta en un crculo cuyas proporciones
(sectores
circulares)
tienen
un
rea
proporcional a las frecuencias absolutas de las
modalidades de la variable.
Los pictogramas se construyen representando
de una manera pictrica cada modalidad de la
variable cualitativa indicando por una silueta
sugestiva el significado de cada unidad de
carcter.

2. HERRAMIENTAS DE EXPLORACION FORMAL


El uso de herramientas de exploracin visual tiene
que ir acompaadas de contrastes de exploracin
formal.
2.1. Contrastes de la bondad de ajuste a una
distribucin: test del Chi-Cuadrado
Este tipo de test trata de contrastar que de los
datos obtenidos en una muestra se puede deducir o
no que proceden de una poblacin de una
distribucin determinada.
Se distinguen los siguientes casos:
a) Parmetros poblacionales conocidos
Se determina conociendo los parmetros de
probabilidad,
intervalos,
frecuencias
absolutas. Pero es muy razonable que la
distribucin poblacional y muestral no
coincidan si la poblacin es pequea, pero se
acercara ms cuando esta se mucho ms
grande.
b) Parmetros poblacionales desconocidos
Su clculo se determinara sin que se conozcan
los parmetros anteriormente mencionados,
pero a partir de la informacin muestral.

2.2. Contraste de Klomogorov-Smirnov Lilliefors de


la bondad de ajuste a una distribucin
Tiene la misma finalidad que el Contraste de Chi
Cuadrado, solo que este se aplica a variables
continuas, trata de medir el ajuste entre la funcin
de distribucin emprica de una muestra y la
funcin de distribucin terica. Se trata por tanto
de un contraste de ajuste de la distribucin de una
muestra dada a una distribucin continua
determinada.
Es de fcil aplicacin.
El test de Kolmogorov es aplicable a pequeas
muestras mientras que el test del Chi Cuadrado
para grandes muestras.
El test de Kolmogorov es aplicable cuando la
distribucin es discreta o continua mientras que el
test del Chi Cuadrado requiere la continuidad.
2.3. Estadsticos Robustos de centralizacin
El problema que se plantea para los estadsticos de
centralizacin por ejemplo la media y mediana es
que el primero es muy afectado por los valores
extremos y la mediana tiene prdida de valores
aunque no se ve afectada por los extremos.
Los estadsticos robustos son aquellos que no se
ven afectados por valores extremos que en este

caso la media lo es para ello se han determinado las


siguiente soluciones.
Media truncada consiste en eliminar el 5% de los
valores a ambos extremos quitando la influencia de
los extremos y se incluyen el 90% de sus valores
centrales.
M-estimadores estos estadsticos se definen
ponderando cada valor en funcin de su distancia al
centro de la distribucin. La forma de ponderar se
clasifica en:
El M-estimador de Hubert pondera con el valor de
uno a los valores situados a menos de 1.339 de la
mediana. El M-estimador de Tukey pondera con
cero todos los valores situados a 4.385 de la
mediana. El M-estimador de Andrews pondera con
cero los valores situados a 4.2066 de la mediana. El
M-estimador de Hampel utiliza tres coeficientes de
ponderacin segn cada valor de la variable se
encuentre a una distancia de la mediana 1.7, 3.4 y
8.5 respectivamente.

2.4. Estadsticos robustos de dispersin


Los estadsticos robustos de dispersin reflejan el
grado en el que los datos tienden a extenderse
alrededor del valor medio sin que haya demasiada
influencia de los valores extremos.
Inicialmente se distingue entre medidas de
dispersin absolutas y relativas, considerando
relativas las que no dependen de las unidades de
medida. Adicionalmente se clasifican segn sean
medidas referentes a promedios o no lo sean.

2.5. Estadsticos robustos de asimetra y curtosis


Su finalidad es determinar si existe simetra o no
sin llegar a la representacin grfica. Las medidas
de asimetra tienen como finalidad el elaborar un
indicador que permita establecer el grado de
simetra. Las medidas de curtosis estudian la
distribucin de frecuencias en la zona central de la
misma.
Si g=0 la distribucin es simtrica, g>0 la
distribucin es asimtrica positiva a la derecha, y si
g<0 es asimtrica negativa a la izquierda.

3. CONTRASTES DE ALETORIEDAD
Se determina si un conjunto de datos se distribuye
aleatoriamente. Se puede determinar aleatoriedad
mediante un grfico pero se necesita certificar dicha
aleatoriedad.
3.1. Teste de rachas de Wald-Wolfowitz y el test del
cuadrado medio de diferencias sucesivas
Se trata de un test para contrastar la aleatoriedad
de una muestra basndose en el nmero de rachas
observadas en la misma, las rachas son conjunto de
nmeros iguales o de la misma naturaleza.
3.2. Test de Daniel
Se trata de un test para contrastar la hiptesis nula
de aleatoriedad de una muestra basndose en el
coeficiente de correlacin por rangos de Spearman.
4. TRANSFORMACIN DE LAS VARIABLES

En un momento del anlisis exploratorio ser


necesario la transformacin de variables, existen
cuatro tipos:
Transformaciones lgicas: se usan para reducir su
amplitud.
Transformaciones lineales: se usa para mejorar su
interpretacin
Transformaciones algebraicas: esta transformacin
cambian la forma de distribucin, pero mantienen el
orden.
Transformaciones no lineales: cambian la distancia y
el orden entre los datos.
Con estas transformaciones se solucionan problemas
como la asimetra negativa, asimetra positiva.
5. SUPUESTOS SUBYACENTES EN LAS TCNICAS
DE MINERA DE DATOS
Es una etapa muy importante en las tcnicas de
comprobacin de supuestos estadsticos subyacentes
a las variables que intervienen en los modelos. La
presencia de mltiples variables provoca complejidad
de relaciones que llevan a distorsiones y sesgos
cuando no se cumplen determinados supuestos que se
estudian
a
continuacin
(normalidad,
homoscedasticidad, linealidad, ausencia de auto
correlacin o correlacin social y ausencia de
multicolinealidad).
Las pruebas de normalidad, homoscedasticidad y
linealidad son de vital importancia en la minera de
datos, y es pieza fundamental para el proceso de
limpiado de datos para un anlisis de clster.
5.1. Normalidad
Es una de las hiptesis ms importantes. Hace
referencia al perfil que debe mostrar la
distribucin de frecuencias de cada variable
mtrica individualmente. Si este perfil se desva de
la distribucin normal, cualquier prueba estadstica

que llevemos a cabo no sera vlida. La mayora de


las tcnicas multivariables exigen, adems, que
las variables sean multivariablemente normales,
esto es, no slo que individualmente tengan
una
distribucin
normal,
sino
que
las
combinaciones de las mismas tambin posean esta
forma.
5.2. Grafico normal de probabilidad

5.3. Contrastes de la bondad de ajuste de la chicuadrado y kolmogorov- Smirnov Lilliefors


El test de Kolmogorov sirve para determinar de
manera exacta si las variables mtricas del
ejercicio cumplen con la hiptesis de normalidad.
La prueba de Kolmogrov Smirnov (tambin prueba
K-S) es una prueba no paramtrica que se utiliza

para determinar la bondad de ajuste de dos


distribuciones de probabilidad entre s.
5.4. Contraste de normalidad de Shapiro y Wilks
Nos permite medir el ajuste de la muestra a una
recta al dibujarla en un papel probabilstico normal.
Se rechaza la normalidad cuando el ajuste es bajo
que corresponde a valores pequeos del estadstico
del test
Contraste de normalidad de asimetra curtosis y y
jarque-Bera
Si la hiptesis de la normalidad es cierta el
estadstico del contraste, que es el coeficiente de
asimetra
muestral
tiene
una
distribucin
asintomatiamente normal de media cero y varianza
Este estadstico nos permite contrastar la hiptesis
de que los datos provienen de una distribucin con
simetra normal (asimetra =0)
Curtosis
El Coeficiente de Curtosis analiza el grado de
concentracin que presentan los valores alrededor
de
la
zona
central
de
la
distribucin.
Se definen 3 tipos de distribuciones segn su grado
de curtosis:
Distribucin mesocrtica: presenta un grado de
concentracin medio alrededor de los valores
centrales de la variable (el mismo que presenta una
distribucin normal).
Distribucin leptocrtica: presenta un elevado
grado de concentracin alrededor de los valores
centrales de la variable.
Distribucin platicrtica: presenta un reducido
grado de concentracin alrededor de los valores
centrales de la variable.
5.5. Heteroscedasticidad

La segunda asuncin que se hace sobre los


datos, para poder aplicar las tcnicas
multivariables, hace referencia a la igualdad de
varianza entre las variables independientes, ya
sean stas mtricas o no mtricas, respecto a
la variable o variables dependientes. SPSS
proporciona un test especfico para analizar esta
hiptesis, el test de Levene, cuya hiptesis nula es
la homocedasticidad, es decir, que las varianzas son
iguales.

5.6. Multicolinealidad
El proceso o trmino de multicolinealidad es una
situacin en la que se presenta una fuerte
correlacin entre variables explicativas del modelo.
La correlacin ha de ser fuerte, ya que siempre
existir correlacin entre dos variables explicativas
en un modelo, es decir, la no correlacin de dos
variables es un proceso idlico, que slo se podra
encontrar en condiciones de laboratorio.
Es un modelo multivariable suele suponerse como
hiptesis que sus variables (sobre todo en las
variables exgenas).
5.7. Auto correlacin
La
auto
correlacin es
una
herramienta matemtica utilizada frecuentemente
en el procesado de seales.
La funcin de auto correlacin se define como
la correlacin cruzada de la seal consigo misma.
La funcin de auto correlacin resulta de gran

utilidad para encontrar patrones repetitivos dentro


de una seal, como por ejemplo, la periodicidad de
una seal enmascarada bajo el ruido o para
identificar la frecuencia fundamental de una seal
que no contiene dicha componente, pero aparecen
numerosas frecuencias armnicas de esta.
5.8. Linealidad
La ltima hiptesis que es necesario analizar es la
linealidad, sobre todo en aquellas tcnicas
multivariables
basadas
en
medidas
de
asociacin como las correlaciones, incluyendo la
regresin mltiple, la logstica, el anlisis
factorial, el anlisis conjunto y los sistemas de
ecuaciones
estructurales.
Dado
que
la
correlacin
representa
asociaciones
lineales
entre variables, la ausencia de linealidad provoca
que el coeficiente de correlacin no mida
adecuadamente la relacin entre los pares de
variables.

CONCLUSIONES
Hay que realizar siempre el anlisis de los datos
aleatorios que previamente seleccionamos y ver si nos
pueden proporcionar informacin y/o conocimiento.
Cada grfico visual debe estar fundamentado por las
herramientas de exploracin formal.

Es importante hacer uso de estas herramientas ya que


podremos observar el comportamiento de nuestra
informacin seleccionada.
Nos ayuda a un anlisis ms fcil visualmente ya que
la informacin en muchos casos se encuentran
desordenadas en la base de datos y son difciles de
entender.

También podría gustarte