Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis Exploratorio de Datos PDF
Análisis Exploratorio de Datos PDF
com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Leccin
Presentacin:
Introduccin
Existe algn tipo de estructura (normalidad, multimodalidad, asimetra, curtosis,
linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que voy a
analizar?
Existe algn sesgo en los datos recogidos?
Hay errores en la codificacin de los datos?
Cmo se sintetiza y presenta la informacin contenida en un conjunto de datos?
Existen datos atpicos (outliers)? Cules son? Cmo tratarlos?
Hay datos ausentes (missing)? Tienen algn patrn sistemtico? Cmo tratarlos?
EN ESTA LECCIN SE HACE UNA BREVE REVISIN DE TCNICAS
ESTADSTICAS PARA ABORDAR ESTE TIPO DE PROBLEMAS.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Objetivos
1) Definir qu es el Anlisis Exploratorio de Datos (A.E.D.) y cules son sus objetivos.
2) Indicar cules son las etapas a seguir en la realizacin de un A.E.D.
3) Seleccionar los mtodos grfico y numrico apropiados para examinar las
caractersticas de los datos y/o relaciones de inters.
4) Comprobar si se verifican algunas hiptesis de inters en los datos (normalidad,
linealidad, homocedasticidad).
5) Identificar casos atpicos univariantes, bivariantes y multivariantes.
6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Apartados
1) Qu es el Anlisis Exploratorio de Datos (A.E.D.)?
2) Etapas del A.E.D.
3) Preparacin de los Datos
4) Anlisis Estadstico Unidimensional.
5) Estudio de la Normalidad
6) Anlisis Estadstico Bidimensional
7) Datos Atpicos (outliers)
8) Datos Ausentes (missing)
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Contenidos
1.- QU ES EL ANLISIS EXPLORATORIO DE DATOS?
El Anlisis Exploratorio de Datos (A.E.D.) es un conjunto de tcnicas estadsticas
cuya finalidad es conseguir un entendimiento bsico de los datos y de las relaciones
existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona
mtodos sistemticos sencillos para organizar y preparar los datos, detectar fallos en el
diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes (missing),
identificacin de casos atpicos (outliers) y comprobacin de los supuestos subyacentes en
la mayor parte de las tcnicas multivariantes (normalidad, linealidad, homocedasticidad).
El examen previo de los datos es un paso necesario, que lleva tiempo, y que
habitualmente se descuida por parte de los analistas de datos. Las tareas implcitas en dicho
examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una
parte esencial de cualquier anlisis estadstico.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Tabla 1
Medidas Descriptivas Numricas y Representaciones Graficas
aconsejadas en funcin de la escala de medida de la variable
Histogramas
Intervalo Polgono de frecuencias Media Desviacin Tpica
Frecuencia Porcentaje
Soltero 77 19.2
Casado 305 75.9
Viudo 16 4.0
Separado
4 1.0
Estado Civil
separado
1.0%
viudo
soltero
4.0%
19.2%
casado
75.9%
Tabla 3
Tabla de frecuencias del Nivel de Estudios
Nivel de estudios
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos Sin estudios 217199 36.1 36.3 36.3
Bachiller elemental 199625 33.2 33.4 69.7
Bachiller superior 104726 17.4 17.5 87.2
Diplomado 36573 6.1 6.1 93.3
Licenciado 40261 6.7 6.7 100.0
Total 598384 99.5 100.0
Perdidos Sistema 3288 .5
Total 601672 100.0
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
40.00
36.30
33.36
30.00
Porcentaje (%)
20.00
17.50
10.00
6.11 6.73
0.00
Sin estudios Bachiller superior Licenciado
Bachiller elemental Diplomado
Nivel de estudios
Las variables cuantitativas son las que pueden expresarse numricamente. Una
primera clasificacin, basada en el tipo de valores que puede tomar, permite distinguir entre
variables cuantitativas discretas que son, frecuentemente el resultado de contar y, por
tanto, toman slo valores enteros y continuas, que resultan de medir y pueden contener
cifras decimales. Variables discretas son el nmero de lavadoras producidas por una
empresa en un ao. Variables continuas son aquellas cuyos valores pueden ser cualquier
cantidad en un intervalo, como la temperatura, el peso o la altura de una persona o la
superficie de las viviendas.
Las variables cuantitativas discretas con un nmero pequeo de valores se trataran
de manera similar a las variables cualitativas antes descritas.
Ejemplo 3 (Encuesta en un supermercado)
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos 0 1 .2 .3 .3
1 30 7.5 7.5 7.8
2 91 22.6 22.8 30.5
3 87 21.6 21.8 52.3
4 129 32.1 32.3 84.5
5 43 10.7 10.8 95.3
6 12 3.0 3.0 98.3
7 7 1.7 1.8 100.0
Total 400 99.5 100.0
Perdidos Sistema 2 .5
Total 402 100.0
Tabla 5
Estadsticos descriptivos de la variable
Nmero de Miembros que viven en casa
Estadsticos
2 y 4 (ver Tabla 5). Adems, se observa que uno de los encuestados entendi
incorrectamente la pregunta al contestar que nadie viva en su casa (ver Tabla 4).
40
30
Porcentaje (%)
20
10
0
0 1 2 3 4 5 6 7
a) b)
c) d)
Dicha asimetra se debe a las diferencias existentes entre los pases en cuanto a
tamao econmico tal y como se aprecia en la Figura 6 en la que los pases ms
desarrollados del planeta (esencialmente los pases del G7) tienen un nmero de
exportaciones mucho mayores que el resto.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
20
Frecuencia
10
0
0 25 50 75 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450
USA
400 GERMANY
JAPAN
300
FRANCE
200 UK
ITALY
HONG KONG
100
-100
N= 49
Exportaciones
Dicha asimetra se debe a la existencia de pases con una esperanza de vida mucho
menor que el resto tal y como se observa en el histograma y en el mnimo valor de la
variable (58.58 aos) que corresponde a la India.
12
10
8
Frecuencia
0
58.0 60.0 62.0 64.0 66.0 68.0 70.0 72.0 74.0 76.0 78.0 80.0
90
80
70
60
50
N= 49
Esperanza de vida
12
10
8
Frecuencia
0
0 4000 8000 12000 16000 20000
2000 6000 10000 14000 18000 22000
30000
20000
10000
-10000
N= 49
20
Frecuencia
10
0
-.125 -.075 -.025 .025 .075 .125
-.100 -.050 -.000 .050 .100 .150
.2
KUWAIT
CHINA
.1
0.0
-.1
RUSSIA
-.2
N= 49
Distribuci
Distribucin Normal Distribuci
Distribucin Asim
Asimtrica Distribuci
Distribucin Asim
Asimtrica
a Izquierda a Derecha
Distribuci
Distribucin Leptoc
Leptocrtica Distribuci
Distribucin Platic
Platicrtica
por lo que E[x(i)] = + Ci,n y el grfico de x(i) frente a Ci,n ser una recta.
Dado que (Ci,n) + (Cn+1-i,n) = 1 i=1,...,n/2 se tiene que Ci,n = -Cn+1-i,n por lo que C1,n + ...
+ Cn,n = 0. El test de Shapiro-Wilks se basa en calcular el coeficiente de correlacin entre x(i)
y Ci,n y cuanto ms cerca de 1 est, mayor ser el grado de normalidad de la distribucin y
viene dado por la expresin:
2
n
x ( i ) C i ,n
r2 =
i=1
n
ns 2 C i2,n
i=1
Shapiro y Wilks evalan la distribucin del estadstico r2 bajo hiptesis de
normalidad y proporcionan un test que rechaza dicha normalidad cuando el ajuste es bajo,
es decir, cuando el estadstico toma valores pequeos.
Otros contrastes muy utilizados son los tests de asimetra y curtosis cuyos
estadsticos muestrales vienen dados por:
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
zasimetria =
asimetria y zcurtosis =
curtosis
6 24
N N
donde N es el tamao muestral. Si es cierta la hiptesis de normalidad ambos se distribuyen
asintticamente segn una N(0,1).
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
0.015 0.626
zasimetria = = 0.04 y z curtosis = = 0.854
0.374 0.733
cuyos p-valores son 0.968 y 0.393, respectivamente.
A la luz de estos resultados, cabe pensar que la variable test se distribuye
normalmente.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
6
Frecuencia
0
80 85 90 95 100 105 110 115 120 125
130
120
110
100
90
80
70
N= 40
Puntuaciones Test
1
Normal esperado
-1
-2
-3
70 80 90 100 110 120 130
Valor observado
Leptocurtosis 1/X
Platicurtosis X2
2.434 5.588
zasimetria = = 7.159 y z curtosis = = 8.365
0.340 0.688
con p-valores 0.000 en ambos casos.
1
Normal esperado
-1
-2
-3
-200 -100 0 100 200 300 400 500
Valor observado
0.122 0.049
zasimetria = = 0.359 y zcurtosis = = 0.073
0.340 0.688
(p-valores 0.720 y 0.942, respectivamente)
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
1
Normal esperado
-1
-2
-3
-1 0 1 2 3 4 5 6 7
Valor observado
0.883 0.063
zasimetria = = 2.597 y z curtosis = = 0.0943
0.340 0.688
cuyos p-valores son 0.009 y 0.925, respectivamente.
1
Normal esperado
-1
-2
-3
50 60 70 80 90
Valor observado
0.311 0.159
zasimetria = = 0.915 y z curtosis = = 0.238
0.340 0.688
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
1
Normal esperado
-1
-2
-3
-1 0 1 2 3 4 5 6 7
Valor observado
frecuencia
esporadic 1 vez a la 2 veces por de 3 a 5 das
amente cada mes cada 15 das semana semana a la semana todos los das Total
Tarjeta no Recuento 42 16 10 19 13 12 5 117
% de Tarjeta 35.9% 13.7% 8.5% 16.2% 11.1% 10.3% 4.3% 100.0%
% de frecuencia 70.0% 50.0% 21.7% 21.6% 18.1% 21.4% 10.4% 29.1%
Residuos corregidos 7.6 2.7 -1.2 -1.8 -2.3 -1.4 -3.0
si Recuento 18 16 36 69 59 44 43 285
% de Tarjeta 6.3% 5.6% 12.6% 24.2% 20.7% 15.4% 15.1% 100.0%
% de frecuencia 30.0% 50.0% 78.3% 78.4% 81.9% 78.6% 89.6% 70.9%
Residuos corregidos -7.6 -2.7 1.2 1.8 2.3 1.4 3.0
Total Recuento 60 32 46 88 72 56 48 402
% de Tarjeta 14.9% 8.0% 11.4% 21.9% 17.9% 13.9% 11.9% 100.0%
% de frecuencia 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
Pruebas de chi-cuadrado
Sig. asinttica
Valor gl (bilateral)
Chi-cuadrado de Pearson 73.004a 6 .000
Razn de verosimilitud 68.956 6 .000
Asociacin lineal por
54.259 1 .000
lineal
N de casos vlidos 402
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mnima esperada es 9.31.
La Figura 21, por su parte, muestra los perfiles fila de dicha Tabla que comparan la
frecuencia de compra entre los que poseen la tarjeta de compra y los que no la poseen.
La hiptesis de independencia es rechazada claramente (ver Tabla 17). Analizando,
adems, los residuos tipificados corregidos (Tabla 17) y el grfico de los perfiles fila
(Figura 21) se observa que las personas que poseen tarjeta tienden a comprar ms
frecuentemente en dicho Supermercado que aqullas que no la poseen.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
40
30
Porcentaje (%)
20
10 Tarjeta
no
0 si
esporadicamente cada 15 das 2 das por semana todos los das
cada mes 1 da a la semana 3 a 5 das semana
Frecuencia de Compra
correlacin no implica una relacin de causalidad entre las variables ni, en general, la no
existencia de correlacin permite deducir falta de causalidad.
Cuando se estudia la relacin entre dos variables es importante asegurarse de que
los individuos estudiados son homogneos respecto a dichas variables. La Figura 22
muestra dos casos frecuentes de heterogeneidad.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Y Y
A B
A
a) X b) X
Dado que las correlaciones representan slo la asociacin lineal entre variables, los
efectos no lineales no estarn representados en el valor de la correlacin. Como resultado,
es siempre prudente examinar todas las relaciones para identificar cualquier desplazamiento
de la linealidad que pueda impactar la correlacin.
La forma ms comn de evaluar la linealidad es examinar los grficos de dispersin
de las variables e identificar cualquier pauta no lineal en los datos. Una aproximacin
alternativa es ir a un anlisis de regresin mltiple y examinar los residuos que reflejan la
parte no explicada de la variable dependiente; por tanto, cualquier parte no lineal de la
relacin quedar reflejada en los residuos.
Ejemplo 7 (Salarios en un banco)
En la Figura 23 se muestra el diagrama de dispersin de los logaritmos de los
Salarios Inicial y Actual correspondientes a una muestra de 474 empleados de un banco y
superpuesta, la lnea de regresin lineal.
11.00
Regresin lineal
1lsalact = 0.70 + 1.00 * lsalini A
R-cuadrado = 0.79
Logaritmo del Salario Actual
A
A A
A A
AA A
10.50 A
A
A AAAA A
A A AA A
A A
A A AAA A
A
A
A
AA AA A A
AA AAA A AAA
A A A A
A A
AAA A AAA
A
10.00 AAA A A
AA A A A
AAA A
AA A AA
A
A
AA
A
AAA A AA AA
AAAAA AAA A A
AAA
AAA A A A
AA AA AAA
A
A AAAA
A
A
AA
A
AAAA A
A A AA A
AA A
9.50 A
AAAAAA A AA
A AA A AA
AA AA
AA AA A
A A AAAAA A
AA AAAA
AAA A
AAA
AA A
AA A
AAA
A
A
AA
A
AA
A AAA
AA
A AA
AA
A AAAA A
AA
A
A
AA A
AA
A
AA AA
AA
A
A
A
A
AAA
A
AAA
AAAAAAA
A
AAA
AA A
A
A
AAAA
A AAAAAAA A
AA
A A
AA
AAA
A AA
AAAA
A A
A A A AA
A AA
AA A
AA AA
A
A AA AA
9.00 A A AA
AA A A
AA
AA
A
A AA
A
A
AA
A
actual y viceversa. Dicha relacin lineal es fuerte con un coeficiente de determinacin del
79% y viene dada por la ecuacin:
Log(Salario Actual) = 0.7+ Log(Salario Inicial)
Por lo tanto, los salarios han crecido, en media, un 100(exp(0.7)-1) = 101.37%
respecto al salario inicial.
Ejemplo 8 (Relacin entre Tasa de Mortalidad y Esperanza de Vida)
En la Figura 24 se muestra el diagrama de dispersin de la Tasa de Mortalidad
Infantil (medida en nmero de muertos por cada mil nacimientos) y la Esperanza de Vida
(en aos) para una muestra de 49 pases del mundo
A
80.00 A
Regresin lineal
A
AAA
AA
A
AA
A
Esperanza de vida (en aos)
A A
A
AA
AA
A AA
75.00 A
A A
A A
A
A A
A
A 1Esperanza de vida (en aos) = 78.40 + -0.23 * mort_inf
A R-cuadrado = 0.90
70.00
AA
A
A
A
A
A A
A
65.00
A
A
A
60.00
A
El grfico muestra que existe una relacin lineal inversa entre dichas variables y
que, por lo tanto, los pases con mayor mortalidad infantil tienen menor esperanza de vida,
y al revs. Dicha relacin es muy fuerte con un coeficiente de determinacin del 90% y
refleja, de forma implcita, la influencia del nivel de desarrollo de un pas.
Ejemplo 9 (Relacin entre Edad y Veterana en el Trabajo)
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
AA AA A AA A AA AA A A
AAAA A A A AA A Regresin lineal
A AA AAA
AA
A AA
A A A A
AA A A AA
AAAAAAA AAA A A A
A
A
AAA
AAA A
AAAA
A
AA
AAA AA A
A
AA AA
A AA A A A A A
A A AA AAAA A A A A
Veterana en el puesto
AAAAAAAA A A A AA A A A
90 A A AAA A A
A
AAA A A A A AA
A A
A
AA AAA A AA A A A
AAA
AA AA A A A A AA
A A A A A A AAA A
A A AA A A AA A A A AAA
A
A
A AAAA A AA A A A AA AAA A
AAA AAA
A A A A A AA
A
A
A
AA
A
A
AAA AA A AA A A A
80 A
AA
A
A 1Veterana
AA en el A
puesto A
= 79.47 + 0.04 A
* A
edad
AA A
AA
A AAA A AA A
AR-cuadrado
A AAA
AAAA AA A= 0.00
A A
A A A A A A A A
A
AA A A AAA A A A A
AAAA A A A A AA
AA A AA A A
A A A A A A A A
AAA AA AA AA AA A
A AA A A AA AAA A A A
AA A
AAAA A A A A A A A A A
70 A
A
AA
A
AA A AA A A A A
A AAAAAA A A A
AA A AAA A AA A A A
A A
A A AA AAAA AA AA AA A
A A
AAAA A AAAA A AA A A A
AAAA A A A
A A A
85
80
75
Esperanza de Vida
70
Esperanza de Vida
Valores ajustados
65
60
55
50
0 5000 10000 15000 20000 25000
particular, estos grficos son importantes para apreciar si existen relaciones no lineales, en
cuyo caso la matriz de covarianzas puede no ser un buen resumen de la dependencia entre
variables.
Ejemplo 11 (Anlisis de variables demogrfico-econmicas)
En la Figura 27 se muestra la matriz de diagramas de dispersin correspondiente a
un grupo de variables demogrficas y econmicas de una muestra de pases. Superpuestas
se muestran, adems, las rectas de regresin estimadas. Se observa que, con la nica
excepcin de la renta per cpita, las relaciones existentes entre las variables son lineales. El
tipo de relacin de la renta per cpita con el resto de las variables es, sin embargo,
logartmico, indicando, por lo tanto, la necesidad de considerar su logaritmo como variable
objeto de estudio si se requiere la hiptesis de linealidad para todas las variables.
Natalidad
Mortalidad
Esperanza
Alfabetizacin
Renta_p_c
Una forma de realizar dicho anlisis es mediante los diagramas de cajas y los test de
diferencias de medias, tal y como se muestra en el siguiente ejemplo.
Ejemplo 11 (Datos macroeconmicos)
En el Ejemplo 4 se analiz la renta per cpita de una muestra de pases del mundo
encontrndose que la distribucin de dicha variable era multimodal. En la Figura 28 y la
Tabla 18 se muestran los resultados de un estudio comparativo de dicha renta entre pases
pertenecientes y no pertenecientes a la OCDE. Se observa que existen diferencias
significativas en la renta media de dichos grupos que tiende a situarse en torno a las modas
encontradas en el Ejemplo 4 justificando el por qu de dicha multimodalidad.
30000
20000
Renta personal (en $)
49
33
10000
30
-10000
N= 26 23
No Si
Pertenencia a la OCDE
Estadsticos de grupo
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error tp. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Renta personal (en $ Se han asumido
.436 .512 -7.407 47 .000 -9837.9912 1328.1472 -12509.9 -7166.10
varianzas iguales
No se han asumido
-7.338 43.711 .000 -9837.9912 1340.7188 -12540.5 -7135.44
varianzas iguales
(X + C ) 1
si 0
ln (X + C ) si = 0
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
500
USA
Exportaciones (Miles de millones de $)
400
300
200
ITALY
HONG KONG
100
TAIWAN
IRELAND
0
-100
N= 7 15 10 17
Estabilidad poltica
Tabla 19
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Estadstico
de Levene gl1 gl2 Sig.
Exportaciones (Miles Basndose en la media 9.706 3 45 .000
de millones de $) Basndose en la
3.869 3 45 .015
mediana.
Basndose en la
mediana y con gl 3.869 3 21.853 .023
corregido
Basndose en la media
8.773 3 45 .000
recortada
8
Logaritmo de las Exportaciones
6
ITALY
0
BOLIVIA
PARAGUAY
-2
N= 7 15 10 17
Estabilidad poltica
Tabla 20
Resultados del test de Levene para
el logaritmo de las Exportaciones
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Estadstico
de Levene gl1 gl2 Sig.
Logaritmo Basndose en la media .282 3 45 .838
de las Basndose en la
Exportaci .174 3 45 .914
mediana.
ones Basndose en la
mediana y con gl .174 3 31.060 .913
corregido
Basndose en la media
.303 3 45 .823
recortada
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
.2
KUWAIT
CHINA
.1
0.0
-.1
RUSSIA
-.2
N= 49
0.353 0.698
zasimetra = = 1.01, z curtosis = = 1.014
0.350 0.688
cuyos p-valores son 0.157 y 0.155, respectivamente. Se observa que la falta de normalidad
de esta variable se deba a la presencia de los 3 atpicos. Una vez eliminados se resuelve el
problema y la variable se puede considerar normal.
Tabla 21
Anlisis de la normalidad de la Tasa de Crecimiento del PIB
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadstico gl Sig. Estadstico gl Sig.
Tasa real de
.101 46 .200* .958 46 .196
crecimiento del PIB
*. Este es un lmite inferior de la significacin verdadera.
a. Correccin de la significacin de Lilliefors
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
1
Normal esperado
-1
-2
-3
-.04 -.02 0.00 .02 .04 .06 .08 .10
Valor observado
X2
X1
Los datos ausentes son algo habitual en el Anlisis Multivariante; de hecho, rara es
la investigacin en la que no aparece este tipo de datos.
En estos casos la ocupacin primaria del investigador debe ser determinar las
razones que subyacen en el dato ausente buscando entender el proceso principal de esta
ausencia para seleccionar el curso de accin ms apropiado.
Para ello se debe determinar cul es el proceso de datos ausentes, entendido como
cualquier evento sistemtico externo al encuestado (errores en la introduccin de datos) o
accin por parte del encuestado (tales como rehusar a contestar) que da lugar a la ausencia
de datos. En particular, el investigador debe analizar si existe algn patrn no aleatorio en
dicho proceso que pueda sesgar los resultados obtenidos debido a la prdida de
representatividad de la muestra analizada.
8.1 Tipos de valores ausentes
Se distinguen las dos situaciones siguientes:
1) Datos ausentes prescindibles: son resultado de procesos que se encuentran bajo el
control del investigador y pueden ser identificados explcitamente. En estos casos
no se necesitan soluciones especficas para la ausencia de datos dado que dicha
ausencia es inherente a la tcnica usada.
Ejemplos de estas situaciones son aquellas observaciones de una poblacin
que no estn incluidas en la muestra o los llamados datos censurados que son
observaciones incompletas como consecuencia del proceso de obtencin de datos
seguido en el anlisis.
2) Datos ausentes no prescindibles: son resultado de procesos que no se encuentran
bajo el control del investigador y/o no pueden ser identificados explcitamente.
Ejemplos de estas situaciones son los errores en la entrada de datos, la
renuncia del encuestado a responder a ciertas cuestiones o respuestas inaplicables.
En estos casos se debe analizar si existen o no patrones sistemticos en el
proceso que puedan sesgar los resultados obtenidos.
Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar el grado
de aleatoriedad presente en los mismos. Segn este grado el proceso de datos ausentes se
puede clasificar del siguiente modo:
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
c) Imputar valores a los datos ausentes utilizando valores vlidos de otras variables y/o
casos de la muestra
8.3.1 Mtodos de imputacin
Los mtodos de imputacin pueden ser de tres tipos:
1) Mtodos de disponibilidad completa que utilizan toda la informacin disponible a
partir de un subconjunto de casos para generalizar sobre la muestra entera. Se
utilizan habitualmente para estimar medias, varianzas y correlaciones
2) Mtodos de sustitucin que estiman valores de reemplazo para los datos ausentes,
sobre la base de otra informacin existente en la muestra. As se podra sustituir
observaciones con datos ausentes por observaciones no maestrales o sustituir dichos
datos por la media de los valores observados o mediante regresin sobre otras
variables muy relacionadas con aquella a la que le faltan observaciones
3) Mtodos basados en modelos que construyen explcitamente el mecanismo por el
que se producen los datos ausentes y lo estiman por mxima verosimilitud. Entran
en esta categora el algoritmo EM o los procesos de aumento de datos.
Ejemplo 14 (Anlisis de costes marginales financieros)
Para ilustrar el tratamiento de datos ausentes consideraremos datos pertenecientes a
una muestra de 1628 empresas espaolas sobre la que se ha obtenido informacin acerca de
sus costes marginales en su deuda bancaria a largo (CMDBL) y a corto plazo (CMDBC) as
como los correspondientes a otras deudas (CMREST) y algunas caractersticas adicionales
como su edad (EDAD), sector (SECTOR), forma jurdica (FORJUR), tamao (NTRAB) y
si produce productos estandarizados (PROEST). En la Tabla 22 se muestran las estadsticas
correspondientes a cada variable en cuanto al nmero de datos ausentes. Se observa que los
mayores problemas corresponden a las variables PROEST (5.1%) y CMDBC (7.8%) no
teniendo el resto de las variables graves problemas por este aspecto.
Tabla 22
Estadsticas de datos ausente por variables
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Casos
Vlidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
SECTOR 1628 100.0% 0 .0% 1628 100.0%
EDAD 1608 98.8% 20 1.2% 1628 100.0%
FORJUR 1628 100.0% 0 .0% 1628 100.0%
PROEST 1545 94.9% 83 5.1% 1628 100.0%
NTRAB 1628 100.0% 0 .0% 1628 100.0%
CMDBL 1614 99.1% 14 .9% 1628 100.0%
CMREST 1593 97.9% 35 2.1% 1628 100.0%
CMDBC 1501 92.2% 127 7.8% 1628 100.0%
Frecuencia Porcentaje
Vlidos 0 1396 85.7
1 189 11.6
2 39 2.4
3 4 .2
Total 1628 100.0
1396 85.75
X 22 1.35
X 103 6.33
X 11 0.68
X 7 0.43
X 1 0.06
X 5 0.31
X 57 3.50
X 1 0.06
X 4 0.25
X 1 0.06
X X 16 0.98
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
X 4 0.25
datos ausentes en CMDBC a ser ms viejas, grandes y soportar menores costes marginales
bancarios a largo plazo. Adems las empresas que producen productos estandarizados
tienden a tener un mayor nmero datos missing que las que no.
Por lo tanto los procesos de datos ausentes de estas dos variables son no aleatorios
aunque, afortunadamente, son un porcentaje muy bajo del total (ver Tabla 22) por lo que el
problema no es tan grave aunque debera intentar solucionarse utilizando alguno de los
procedimientos descritos anteriormente y, en todo caso, hacerse constar en el informe final
del anlisis.
Finalmente, en la Tabla 26 se muestran las correlaciones entre las variables
indicadoras de datos ausentes para cada una de las variables de la Tabla 22 en las que existe
este problema. No se observa ninguna correlacin especialmente fuerte (superior, en valor
absoluto a 0.5). La ms significativa es la correspondiente a las variables indicadoras de
PROEST y la EDAD observndose una cierta tendencia a no contestar a ambas variables.
Este patrn no es muy importante, sin embargo, puesto que, tal y como se ensea en la
Tabla 24, solamente un 0.98% de las empresas del anlisis muestra este patrn.
Tabla 26
Evaluacin de la aleatoriedad de los datos ausentes a travs de las correlaciones de
una variable dicotomizada
Correlaciones
Resumen
El Anlisis Exploratorio de Datos (AED) es un conjunto de tcnicas estadsticas uni
y multivariantes cuya finalidad es examinar los datos previamente a la aplicacin de
cualquier tcnica estadstica. De esta forma el analista consigue un entendimiento bsico de
sus datos y de las relaciones existentes entre las variables analizadas.
El AED proporciona mtodos sencillos para organizar y preparar los datos, detectar
fallos en el diseo y recogida de datos, el tratamiento y evaluacin de datos ausentes, la
identificacin de casos atpicos y comprobacin de los supuestos subyacentes en la mayor
parte de las tcnicas multivariantes (linealidad, normalidad, homocedasticidad).
En esta leccin se han mostrado los pasos a seguir para llevarlo a cabo ilustrando su
aplicacin mediante ejemplos sacados de problemas reales analizados por los autores.
Conviene hacer notar, finalmente, la importancia de estas tcnicas y la necesidad de
perder el tiempo en aplicarlas. Nuestra experiencia es que un A.E.D. hecho en
profundidad muestra mucha informacin acerca de los datos objeto de anlisis y que, en
muchas ocasiones, la aplicacin de tcnicas estadsticas ms sofisticadas del Anlisis
Multivariante no hace ms que confirmar impresiones iniciales obtenidas a partir de un
A.E.D.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Bibliografa
Berry, M. and Linoff, G. (1997). Data Mining Techniques for Marketing, Sales and
Customer Support. John Wiley & Sons, Inc, New York.
JOBSON, J.D. (1992) Applied Multivariate Data Analysis. Volume I: Regression and
Experimental Design. Springer-Verlag.