Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica AED PDF
Estadistica AED PDF
com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Leccin
Estadstica
Presentacin:
La finalidad del Anlisis Exploratorio de Datos (AED) es examinar los datos
previamente a la aplicacin de cualquier tcnica estadstica. De esta forma el analista
consigue un entendimiento bsico de sus datos y de las relaciones existentes entre las
variables analizadas.
El AED proporciona mtodos sencillos para organizar y preparar los datos, detectar
fallos en el diseo y recogida de datos, tratamiento y evaluacin de datos ausentes,
identificacin de casos atpicos y comprobacin de los supuestos subyacentes en la mayor
parte de las tcnicas multivariantes.
En esta leccin se va a dar una breve visin general de dicho conjunto de tcnicas
exponiendo, brevemente, cul es su finalidad, ilustrada con ejemplos.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Introduccin
Existe algn tipo de estructura (normalidad, multimodalidad, asimetra, curtosis,
linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que voy a
analizar?
Existe algn sesgo en los datos recogidos?
Hay errores en la codificacin de los datos?
Cmo se sintetiza y presenta la informacin contenida en un conjunto de datos?
Existen datos atpicos (outliers)? Cules son? Cmo tratarlos?
Hay datos ausentes (missing)? Tienen algn patrn sistemtico? Cmo tratarlos?
EN ESTA LECCIN SE HACE UNA BREVE REVISIN DE TCNICAS
ESTADSTICAS PARA ABORDAR ESTE TIPO DE PROBLEMAS.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Objetivos
1) Definir qu es el Anlisis Exploratorio de Datos (A.E.D.) y cules son sus objetivos.
2) Indicar cules son las etapas a seguir en la realizacin de un A.E.D.
3) Seleccionar los mtodos grfico y numrico apropiados para examinar las
caractersticas de los datos y/o relaciones de inters.
4) Comprobar si se verifican algunas hiptesis de inters en los datos (normalidad,
linealidad, homocedasticidad).
5) Identificar casos atpicos univariantes, bivariantes y multivariantes.
6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Apartados
1) Qu es el Anlisis Exploratorio de Datos (A.E.D.)?
2) Etapas del A.E.D.
3) Preparacin de los Datos
4) Anlisis Estadstico Unidimensional.
5) Estudio de la Normalidad
6) Anlisis Estadstico Bidimensional
7) Datos Atpicos (outliers)
8) Datos Ausentes (missing)
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Contenidos
1.- QU ES EL ANLISIS EXPLORATORIO DE DATOS?
El Anlisis Exploratorio de Datos (A.E.D.) es un conjunto de tcnicas estadsticas
cuya finalidad es conseguir un entendimiento bsico de los datos y de las relaciones
existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona
mtodos sistemticos sencillos para organizar y preparar los datos, detectar fallos en el
diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes (missing),
identificacin de casos atpicos (outliers) y comprobacin de los supuestos subyacentes en
la mayor parte de las tcnicas multivariantes (normalidad, linealidad, homocedasticidad).
El examen previo de los datos es un paso necesario, que lleva tiempo, y que
habitualmente se descuida por parte de los analistas de datos. Las tareas implcitas en dicho
examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una
parte esencial de cualquier anlisis estadstico.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
2)
3)
4)
5)
Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial que
puedan ejercer en anlisis estadsticos posteriores.
6)
Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos
ausentes (missing) sobre la representatividad de los datos analizados.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com, Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha
consulta]
Tabla 1
Medidas Descriptivas Numricas y Representaciones Graficas
aconsejadas en funcin de la escala de medida de la variable
Escala de medida
Representaciones grficas
Nominal
Diagrama de barras
Diagrama de lneas
Diagrama de sectores
Moda
Ordinal
Boxplot
Mediana
Rango Intercuartlico
Intervalo
Histogramas
Polgono de frecuencias
Media
Desviacin Tpica
Media Geomtrica
Coeficiente de Variacin
Razn
Medidas de dispersin
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Soltero
Casado
Viudo
Separado
Total
Frecuencia
77
305
16
Porcentaje
19.2
75.9
4.0
1.0
402
100.0
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Estado Civil
separado
1.0%
viudo
soltero
4.0%
19.2%
casado
75.9%
Vlidos
Perdidos
Total
Sin estudios
Bachiller elemental
Bachiller superior
Diplomado
Licenciado
Total
Sistema
Frecuencia
217199
199625
104726
36573
40261
598384
3288
601672
Porcentaje
36.1
33.2
17.4
6.1
6.7
99.5
.5
100.0
Porcentaje
vlido
36.3
33.4
17.5
6.1
6.7
100.0
Porcentaje
acumulado
36.3
69.7
87.2
93.3
100.0
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
40.00
36.30
33.36
Porcentaje (%)
30.00
20.00
17.50
10.00
6.11
6.73
0.00
Sin estudios
Bachiller superior
Bachiller elemental
Licenciado
Diplomado
Nivel de estudios
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Vlidos
Perdidos
Total
0
1
2
3
4
5
6
7
Total
Sistema
Frecuencia
1
30
91
87
129
43
12
7
400
2
402
Porcentaje
.2
7.5
22.6
21.6
32.1
10.7
3.0
1.7
99.5
.5
100.0
Porcentaje
vlido
.3
7.5
22.8
21.8
32.3
10.8
3.0
1.8
100.0
Porcentaje
acumulado
.3
7.8
30.5
52.3
84.5
95.3
98.3
100.0
Tabla 5
Estadsticos descriptivos de la variable
Nmero de Miembros que viven en casa
Estadsticos
miembros que viven en casa
N
Vlidos
Perdidos
Media
Mediana
Moda
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Mnimo
Mximo
Percentiles
25
50
75
400
2
3.31
3.00
4
1.33
.234
.122
-.107
.243
0
7
2.00
3.00
4.00
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
2 y 4 (ver Tabla 5). Adems, se observa que uno de los encuestados entendi
incorrectamente la pregunta al contestar que nadie viva en su casa (ver Tabla 4).
40
Porcentaje (%)
30
20
10
0
0
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
corre
el
riesgo
antes
nombrado.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
a)
Unimodal simtrico
c)
Unimodal asimtrico a la derecha
b)
Bimodal simtrico
d)
Unimodal asimtrico a la izquierda
Figura 4:
Tipologa de las distribuciones de frecuencias agrupadas
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Lmite inferior
Lmite superior
Estadstico
66.7180
37.0223
Error tp.
14.7693
96.4136
51.3139
23.4000
10688.493
103.3852
.73
449.00
448.27
57.5000
2.434
5.588
.340
.668
Dicha asimetra se debe a las diferencias existentes entre los pases en cuanto a
tamao econmico tal y como se aprecia en la Figura 6 en la que los pases ms
desarrollados del planeta (esencialmente los pases del G7) tienen un nmero de
exportaciones mucho mayores que el resto.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Frecuencia
20
10
0
0
25
50
75
100 125 150 175 200 225 250 275 300 325 350 375 400 425 450
400
GERMANY
JAPAN
300
FRANCE
200
UK
ITALY
HONG KONG
100
-100
N=
49
Exportaciones
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Media
Intervalo de confianza
para la media al 95%
Lmite inferior
Lmite superior
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Estadstico
72.9784
71.4833
Error tp.
.7436
74.4734
73.2882
74.9900
27.091
5.2049
58.58
80.09
21.51
8.4200
-.883
-.063
.340
.668
Dicha asimetra se debe a la existencia de pases con una esperanza de vida mucho
menor que el resto tal y como se observa en el histograma y en el mnimo valor de la
variable (58.58 aos) que corresponde a la India.
12
10
Frecuencia
0
58.0
60.0
62.0 64.0
66.0 68.0
70.0 72.0
74.0 76.0
78.0
80.0
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
90
80
70
60
50
N=
49
Esperanza de vida
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Lmite inferior
Lmite superior
Estadstico
9348.1982
7406.7199
Error tp.
965.6046
11289.6764
9178.6583
7692.5837
45687225
6759.2325
373.81
22198.12
21824.31
13101.1444
.259
-1.421
.340
.668
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
12
10
Frecuencia
0
0
4000
2000
8000
6000
12000
10000
16000
14000
20000
18000
20000
10000
-10000
N=
49
22000
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Lmite inferior
Lmite superior
Estadstico
2.331E-02
1.132E-02
Error tp.
5.962E-03
3.529E-02
2.224E-02
2.000E-02
1.741E-03
4.173E-02
-.12
.15
.27
4.850E-02
.167
3.701
.340
.668
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Frecuencia
20
10
0
-.125
-.075
-.100
-.025
-.050
.025
-.000
.075
.050
.125
.100
.150
KUWAIT
CHINA
.1
0.0
-.1
RUSSIA
-.2
N=
49
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Distribuci
Distribucin Normal
Distribuci
Distribucin Asim
Asimtrica
a Izquierda
Distribuci
Distribucin Leptoc
Leptocrtica
Distribuci
Distribucin Asim
Asimtrica
a Derecha
Distribuci
Distribucin Platic
Platicrtica
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
x
1 i 3 / 8
=C
donde
C
E (i)
=
i,n
i,n
n + 1/ 4
por lo que E[x(i)] = + Ci,n y el grfico de x(i) frente a Ci,n ser una recta.
Dado que (Ci,n) + (Cn+1-i,n) = 1 i=1,...,n/2 se tiene que Ci,n = -Cn+1-i,n por lo que C1,n + ...
+ Cn,n = 0. El test de Shapiro-Wilks se basa en calcular el coeficiente de correlacin entre x(i)
y Ci,n y cuanto ms cerca de 1 est, mayor ser el grado de normalidad de la distribucin y
viene dado por la expresin:
2
r2 =
n
x ( i ) C i ,n
i=1
n
ns 2 C i2,n
i=1
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
zasimetria =
asimetria
6
N
y zcurtosis =
curtosis
24
N
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Media
Intervalo de confianza
para la media al 95%
Lmite inferior
Lmite superior
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Estadstico
101.28
97.69
Error tp.
1.77
104.86
101.28
101.50
125.640
11.21
79
124
45
15.75
-.015
-.626
.374
.733
En cuanto a los test de hiptesis ni el test de Kolmogorov-Smirnov ni el de ShapiroWilks son significativos al 5% (sus p-valores son > 0.2 y 0.789, respectivamente. Lo
mismo ocurre con los contrastes de asimetra y curtosis. En estos casos los estadsticos
toman los valores:
zasimetria =
0.015
= 0.04 y z
0.374
curtosis
0.626
= 0.854
0.733
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Frecuencia
0
80
85
90
95
100
105
110
115
120
125
Kolmogorov-Smirnov
Estadstico
gl
Sig.
Punt.
test
.055
40
.200*
Estadstico
Shapiro-Wilk
gl
.981
40
Sig.
.789
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
130
120
110
100
90
80
70
N=
40
Puntuaciones Test
Normal esperado
-1
-2
-3
70
80
90
100
110
Valor observado
120
130
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Transformacin aconsejada
Asimetra Positiva
Log(X+C)
Asimetra Negativa
Log(C-X)
Leptocurtosis
1/X
Platicurtosis
X2
Kolmogorov-Smirnov
Estadstico
gl
Sig.
Exportaciones (Miles
de millones de $)
.297
49
.000
Shapiro-Wilk
Estadstico
gl
.635
49
Sig.
.010**
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
zasimetria =
2.434
= 7.159 y z
0.340
curtosis
5.588
= 8.365
0.688
Normal esperado
-1
-2
-3
-200
-100
100
200
300
400
500
Valor observado
LEXPORT
Kolmogorov-Smirnov
Estadstico
gl
Sig.
.061
49
.200*
Estadstico
.975
Shapiro-Wilk
gl
49
zasimetria =
0.122
= 0.359
0.340
y zcurtosis =
0.049
= 0.073
0.688
Sig.
.523
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Normal esperado
-1
-2
-3
-1
Valor observado
Kolmogorov-Smirnov
Estadstico
gl
Sig.
Esperanza de
vida (en aos)
.161
49
Estadstico
Shapiro-Wilk
gl
.903
49
.003
Sig.
.010**
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
zasimetria =
0.883
= 2.597 y z
0.340
curtosis
0.063
= 0.0943
0.688
Normal esperado
-1
-2
-3
50
60
70
80
90
Valor observado
LESPER
Kolmogorov-Smirnov
Estadstico
gl
Sig.
.074
49
.200*
Estadstico
.967
Shapiro-Wilk
gl
49
zasimetria =
0.311
= 0.915 y z
0.340
curtosis
0.159
= 0.238
0.688
Sig.
.353
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Normal esperado
-1
-2
-3
-1
Valor observado
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
llevarse
cabo
utilizando
tcnicas
multivariantes
(ver
la
pgina
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Tabla de contingencia Tarjeta * frecuencia
Tarjeta
no
si
Total
frecuencia
esporadic
1 vez a la 2 veces por
amente cada mes cada 15 das semana
semana
Recuento
42
16
10
19
13
% de Tarjeta
35.9%
13.7%
8.5%
16.2%
11.1%
% de frecuencia
70.0%
50.0%
21.7%
21.6%
18.1%
Residuos corregidos
7.6
2.7
-1.2
-1.8
-2.3
Recuento
18
16
36
69
59
% de Tarjeta
6.3%
5.6%
12.6%
24.2%
20.7%
% de frecuencia
30.0%
50.0%
78.3%
78.4%
81.9%
Residuos corregidos
-7.6
-2.7
1.2
1.8
2.3
Recuento
60
32
46
88
72
% de Tarjeta
14.9%
8.0%
11.4%
21.9%
17.9%
% de frecuencia
100.0%
100.0%
100.0%
100.0%
100.0%
de 3 a 5 das
a la semana
12
10.3%
21.4%
-1.4
44
15.4%
78.6%
1.4
56
13.9%
100.0%
Total
117
100.0%
29.1%
285
100.0%
70.9%
402
100.0%
100.0%
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Razn de verosimilitud
Asociacin lineal por
lineal
N de casos vlidos
Valor
73.004a
68.956
54.259
6
6
Sig. asinttica
(bilateral)
.000
.000
.000
gl
402
La Figura 21, por su parte, muestra los perfiles fila de dicha Tabla que comparan la
frecuencia de compra entre los que poseen la tarjeta de compra y los que no la poseen.
La hiptesis de independencia es rechazada claramente (ver Tabla 17). Analizando,
adems, los residuos tipificados corregidos (Tabla 17) y el grfico de los perfiles fila
(Figura 21) se observa que las personas que poseen tarjeta tienden a comprar ms
frecuentemente en dicho Supermercado que aqullas que no la poseen.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
40
Porcentaje (%)
30
20
Tarjeta
10
no
si
0
esporadicamente
cada mes
cada 15 das
1 da a la semana
3 a 5 das semana
Frecuencia de Compra
Figura 21: Perfiles fila de la Tabla Tarjeta vs Frecuencia de Compra
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
correlacin no implica una relacin de causalidad entre las variables ni, en general, la no
existencia de correlacin permite deducir falta de causalidad.
Cuando se estudia la relacin entre dos variables es importante asegurarse de que
los individuos estudiados son homogneos respecto a dichas variables. La Figura 22
muestra dos casos frecuentes de heterogeneidad.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
A
B
A
a)
b)
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Dado que las correlaciones representan slo la asociacin lineal entre variables, los
efectos no lineales no estarn representados en el valor de la correlacin. Como resultado,
es siempre prudente examinar todas las relaciones para identificar cualquier desplazamiento
de la linealidad que pueda impactar la correlacin.
La forma ms comn de evaluar la linealidad es examinar los grficos de dispersin
de las variables e identificar cualquier pauta no lineal en los datos. Una aproximacin
alternativa es ir a un anlisis de regresin mltiple y examinar los residuos que reflejan la
parte no explicada de la variable dependiente; por tanto, cualquier parte no lineal de la
relacin quedar reflejada en los residuos.
Ejemplo 7 (Salarios en un banco)
En la Figura 23 se muestra el diagrama de dispersin de los logaritmos de los
Salarios Inicial y Actual correspondientes a una muestra de 474 empleados de un banco y
superpuesta, la lnea de regresin lineal.
Regresin lineal
11.00
10.50
A A
AAA
A A AA
A
A
A
A A
AA
A
A
AA
AA
AA
A
AA AAA A
A
A
A A
A
A
A
A A AAA
AA
AAA
A
A
A
AA
A A
AA
A
A
AA
AA A
A
A
AA
A
AAA A AA
A
A
AAA A
AAA
A
A
A
AAA
AAA A A A
AA
A
AAA
AA
A
A
A
AA
A
AA
A
AAAA
A
A
A
A
A
A
A
A
A
A
AA
A
AAAA A
AA
A
A
A A
AA
AA
AA
AA
AA
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
AA
AA
AA
A
A
AAA
AA
A
A
AA
A
A
A
AA
A
AA
AAA A
A
A
A
A
AA
AA
A
AA
A
A
A
AA
A
AA
AA
A
AA
AA
A
A
A
A
A
AA
A
A
A
AA
A
AA
A
A
A
A
A
A
A
A
A
A
A
A
A
AA
A
AA
A
A
AAA
A
A
A
A
A
A
AA
A
A
A
A
A
A
A
A
A
A
A
AA
AA
AA
A
A A A
AA A
A
AA
AA
AA
A
AA
A A
A
A A AA
A
AA
AA
A
A AA
A
A
AA
A
A
10.00
9.50
9.00
AA
8.50
9.00
9.50
A
A
A
A
A
A A
10.00
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
actual y viceversa. Dicha relacin lineal es fuerte con un coeficiente de determinacin del
79% y viene dada por la ecuacin:
Log(Salario Actual) = 0.7+ Log(Salario Inicial)
Por lo tanto, los salarios han crecido, en media, un 100(exp(0.7)-1) = 101.37%
respecto al salario inicial.
Ejemplo 8 (Relacin entre Tasa de Mortalidad y Esperanza de Vida)
En la Figura 24 se muestra el diagrama de dispersin de la Tasa de Mortalidad
Infantil (medida en nmero de muertos por cada mil nacimientos) y la Esperanza de Vida
(en aos) para una muestra de 49 pases del mundo
80.00
75.00
A
A
Regresin lineal
A
A
AA
A
A
A
A
A
A
A
A
A
A
A
A
A
A AA
A
A
A
70.00
A
A
A
A
AA
A
A
A
65.00
A
A
A
A
A
60.00
A
20.00
40.00
60.00
80.00
El grfico muestra que existe una relacin lineal inversa entre dichas variables y
que, por lo tanto, los pases con mayor mortalidad infantil tienen menor esperanza de vida,
y al revs. Dicha relacin es muy fuerte con un coeficiente de determinacin del 90% y
refleja, de forma implcita, la influencia del nivel de desarrollo de un pas.
Ejemplo 9 (Relacin entre Edad y Veterana en el Trabajo)
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Veterana en el puesto
90
80
70
AA
A
A
A
A
A AA A AA AA
AAAA
A AA
A
A
A
A
A
AA
AA
A
A
A
A
A
A
A AA
AA A
A AA
A
A
A
AAAAAA
AA
A
A
AA
AAA
A
A
A
A
A
A
A
A
A
A
AA
A
A
A
A
A
A
AA
A A
A
A
AA
A
A
AA
AA
A
A
A A
AA
A
A
A
A
A
AA
A AA
AAAA A
A
A
A
A
A
A
A AAA
A
A
A
AA
A
A
A
A
A
A
A AA
A
A
A
A AAA
A
A
A A
A
A A
AA
A
A AA
A
A
A
AA
A
AA
A A
A A
A A
A
A A
A
A
AA A
A AAA
A
A
A
A
A
AA
A AAAA
A
A
A AA
A
A
A AA
AAA
A A
AA
A
A
A
A
A
A A
A
A
A
A
A
A
A
A
AA
A
A
AA
AA A
A
A
A
A
A 1Veterana
A
A
A
A
AA
en
el
puesto
=
79.47
+
0.04
*
edad
A
A
A
A
A
AA
A
A
A AA
A
A
A
A A
A
A
A
A A A
AA
A AA A= 0.00
A
AA
AR-cuadrado
A
A
A A A
AA A
A
A
A
A
A
A
AA
A AA
A A
AA
A
AA
A
A
AA
A
A
A
A
A A
A
A
A
AA
A
AA AA
A
AA
AA
A
A AAA
A
A
A
A
A AA
A
AA A
A
A
A A
A
AA A A
AA
A A
A
A
A
A
A
A
A
A
A
AA
AA
A
A
A
AA
A
AAAA A
A
AAA A
A
A
AA
A
A
AA A
A
AA AA AA
AA
A
A A AA
A
A
A
A
A
AAA
AA
A
A A
A
A
A
AA
AAA
A
A A
A
A
A A
30.00
40.00
50.00
Regresin lineal
60.00
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
80
Esperanza de Vida
75
70
Esperanza de Vida
Valores ajustados
65
60
55
50
0
5000
10000
15000
20000
25000
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
particular, estos grficos son importantes para apreciar si existen relaciones no lineales, en
cuyo caso la matriz de covarianzas puede no ser un buen resumen de la dependencia entre
variables.
Ejemplo 11 (Anlisis de variables demogrfico-econmicas)
En la Figura 27 se muestra la matriz de diagramas de dispersin correspondiente a
un grupo de variables demogrficas y econmicas de una muestra de pases. Superpuestas
se muestran, adems, las rectas de regresin estimadas. Se observa que, con la nica
excepcin de la renta per cpita, las relaciones existentes entre las variables son lineales. El
tipo de relacin de la renta per cpita con el resto de las variables es, sin embargo,
logartmico, indicando, por lo tanto, la necesidad de considerar su logaritmo como variable
objeto de estudio si se requiere la hiptesis de linealidad para todas las variables.
Natalidad
Mortalidad
Esperanza
Alfabetizacin
Renta_p_c
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Una forma de realizar dicho anlisis es mediante los diagramas de cajas y los test de
diferencias de medias, tal y como se muestra en el siguiente ejemplo.
Ejemplo 11 (Datos macroeconmicos)
En el Ejemplo 4 se analiz la renta per cpita de una muestra de pases del mundo
encontrndose que la distribucin de dicha variable era multimodal. En la Figura 28 y la
Tabla 18 se muestran los resultados de un estudio comparativo de dicha renta entre pases
pertenecientes y no pertenecientes a la OCDE. Se observa que existen diferencias
significativas en la renta media de dichos grupos que tiende a situarse en torno a las modas
encontradas en el Ejemplo 4 justificando el por qu de dicha multimodalidad.
30000
20000
49
33
10000
30
-10000
N=
26
23
No
Si
Pertenencia a la OCDE
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Estadsticos de grupo
Pertenencia a
organizaciones:OCDE
No
Si
N
26
23
Media
4730.3656
14568.36
Desviacin
tp.
4296.7840
5001.1037
Error tp. de
la media
842.6687
1042.8022
F
Renta personal (en $ Se han asumido
varianzas iguales
No se han asumido
varianzas iguales
Sig.
.436
.512
gl
Diferencia
Sig. (bilateral) de medias
Error tp. de
la diferencia
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-7.407
47
.000 -9837.9912
1328.1472
-12509.9
-7166.10
-7.338
43.711
.000 -9837.9912
1340.7188
-12540.5
-7135.44
(X + C ) 1
si 0
ln (X + C ) si = 0
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
utilizar los
500
USA
400
300
200
ITALY
HONG KONG
100
TAIWAN
IRELAND
-100
N=
15
10
17
2.00
3.00
4.00
5.00
Estabilidad poltica
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Exportaciones (Miles
de millones de $)
Basndose en la media
Basndose en la
mediana.
Basndose en la
mediana y con gl
corregido
Basndose en la media
recortada
Estadstico
de Levene
9.706
gl1
3
gl2
45
Sig.
.000
3.869
45
.015
3.869
21.853
.023
8.773
45
.000
6
ITALY
BOLIVIA
PARAGUAY
-2
N=
15
10
17
2.00
3.00
4.00
5.00
Estabilidad poltica
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Logaritmo
de las
Exportaci
ones
Basndose en la media
Basndose en la
mediana.
Basndose en la
mediana y con gl
corregido
Basndose en la media
recortada
Estadstico
de Levene
.282
gl1
3
gl2
45
Sig.
.838
.174
45
.914
.174
31.060
.913
.303
45
.823
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
.2
KUWAIT
CHINA
.1
0.0
-.1
RUSSIA
-.2
N=
49
0.353
= 1.01, z
0.350
curtosis
0.698
= 1.014
0.688
cuyos p-valores son 0.157 y 0.155, respectivamente. Se observa que la falta de normalidad
de esta variable se deba a la presencia de los 3 atpicos. Una vez eliminados se resuelve el
problema y la variable se puede considerar normal.
Tabla 21
Anlisis de la normalidad de la Tasa de Crecimiento del PIB
Pruebas de normalidad
a
Kolmogorov-Smirnov
Estadstico
gl
Sig.
Tasa real de
crecimiento del PIB
.101
46
.200*
Estadstico
Shapiro-Wilk
gl
.958
46
Sig.
.196
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Normal esperado
-1
-2
-3
-.04
-.02
0.00
.02
.04
.06
.08
.10
Valor observado
X2
X1
Figura 33: Deteccin bivariante de atpicos
Finalmente existen procedimientos para detectar atpicos multivariantes. Dicha
deteccin se puede hacer mediante un Anlisis de Componentes Principales (PONER
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
c) Imputar valores a los datos ausentes utilizando valores vlidos de otras variables y/o
casos de la muestra
8.3.1 Mtodos de imputacin
Los mtodos de imputacin pueden ser de tres tipos:
1) Mtodos de disponibilidad completa que utilizan toda la informacin disponible a
partir de un subconjunto de casos para generalizar sobre la muestra entera. Se
utilizan habitualmente para estimar medias, varianzas y correlaciones
2) Mtodos de sustitucin que estiman valores de reemplazo para los datos ausentes,
sobre la base de otra informacin existente en la muestra. As se podra sustituir
observaciones con datos ausentes por observaciones no maestrales o sustituir dichos
datos por la media de los valores observados o mediante regresin sobre otras
variables muy relacionadas con aquella a la que le faltan observaciones
3) Mtodos basados en modelos que construyen explcitamente el mecanismo por el
que se producen los datos ausentes y lo estiman por mxima verosimilitud. Entran
en esta categora el algoritmo EM o los procesos de aumento de datos.
Ejemplo 14 (Anlisis de costes marginales financieros)
Para ilustrar el tratamiento de datos ausentes consideraremos datos pertenecientes a
una muestra de 1628 empresas espaolas sobre la que se ha obtenido informacin acerca de
sus costes marginales en su deuda bancaria a largo (CMDBL) y a corto plazo (CMDBC) as
como los correspondientes a otras deudas (CMREST) y algunas caractersticas adicionales
como su edad (EDAD), sector (SECTOR), forma jurdica (FORJUR), tamao (NTRAB) y
si produce productos estandarizados (PROEST). En la Tabla 22 se muestran las estadsticas
correspondientes a cada variable en cuanto al nmero de datos ausentes. Se observa que los
mayores problemas corresponden a las variables PROEST (5.1%) y CMDBC (7.8%) no
teniendo el resto de las variables graves problemas por este aspecto.
Tabla 22
Estadsticas de datos ausente por variables
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Casos
Perdidos
N
Porcentaje
0
.0%
20
1.2%
0
.0%
83
5.1%
0
.0%
14
.9%
35
2.1%
127
7.8%
Vlidos
N
Porcentaje
1628
100.0%
1608
98.8%
1628
100.0%
1545
94.9%
1628
100.0%
1614
99.1%
1593
97.9%
1501
92.2%
SECTOR
EDAD
FORJUR
PROEST
NTRAB
CMDBL
CMREST
CMDBC
Total
N
Porcentaje
1628
100.0%
1628
100.0%
1628
100.0%
1628
100.0%
1628
100.0%
1628
100.0%
1628
100.0%
1628
100.0%
Vlidos
0
1
2
3
Total
Frecuencia
1396
189
39
4
1628
Porcentaje
85.7
11.6
2.4
.2
100.0
PROEST
CMDBL
CMDBC
CMREST
X
X
X
X
X
X
X
X
X
X
X
FRECUENCIA
PORCENTAJE
1396
85.75
22
1.35
103
6.33
11
0.68
0.43
0.06
0.31
57
3.50
0.06
0.25
0.06
16
0.98
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
X
0.25
PROEST
**
-*
--
CMDBC
++
**
++
--
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
datos ausentes en CMDBC a ser ms viejas, grandes y soportar menores costes marginales
bancarios a largo plazo. Adems las empresas que producen productos estandarizados
tienden a tener un mayor nmero datos missing que las que no.
Por lo tanto los procesos de datos ausentes de estas dos variables son no aleatorios
aunque, afortunadamente, son un porcentaje muy bajo del total (ver Tabla 22) por lo que el
problema no es tan grave aunque debera intentar solucionarse utilizando alguno de los
procedimientos descritos anteriormente y, en todo caso, hacerse constar en el informe final
del anlisis.
Finalmente, en la Tabla 26 se muestran las correlaciones entre las variables
indicadoras de datos ausentes para cada una de las variables de la Tabla 22 en las que existe
este problema. No se observa ninguna correlacin especialmente fuerte (superior, en valor
absoluto a 0.5). La ms significativa es la correspondiente a las variables indicadoras de
PROEST y la EDAD observndose una cierta tendencia a no contestar a ambas variables.
Este patrn no es muy importante, sin embargo, puesto que, tal y como se ensea en la
Tabla 24, solamente un 0.98% de las empresas del anlisis muestra este patrn.
Tabla 26
Evaluacin de la aleatoriedad de los datos ausentes a travs de las correlaciones de
una variable dicotomizada
Correlaciones
MEDAD
MPROEST
MCDBL
MCDBC
MCREST
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
MEDAD
MPROEST
1
.481**
.
.000
1628
1628
.481**
1
.000
.
1628
1628
-.010
.009
.675
.727
1628
1628
.051*
.016
.041
.522
1628
1628
-.017
-.015
.505
.543
1628
1628
MCDBL
MCDBC
MCREST
-.010
.051*
-.017
.675
.041
.505
1628
1628
1628
.009
.016
-.015
.727
.522
.543
1628
1628
1628
1
.097**
.032
.
.000
.196
1628
1628
1628
.097**
1
.131**
.000
.
.000
1628
1628
1628
.032
.131**
1
.196
.000
.
1628
1628
1628
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Resumen
El Anlisis Exploratorio de Datos (AED) es un conjunto de tcnicas estadsticas uni
y multivariantes cuya finalidad es examinar los datos previamente a la aplicacin de
cualquier tcnica estadstica. De esta forma el analista consigue un entendimiento bsico de
sus datos y de las relaciones existentes entre las variables analizadas.
El AED proporciona mtodos sencillos para organizar y preparar los datos, detectar
fallos en el diseo y recogida de datos, el tratamiento y evaluacin de datos ausentes, la
identificacin de casos atpicos y comprobacin de los supuestos subyacentes en la mayor
parte de las tcnicas multivariantes (linealidad, normalidad, homocedasticidad).
En esta leccin se han mostrado los pasos a seguir para llevarlo a cabo ilustrando su
aplicacin mediante ejemplos sacados de problemas reales analizados por los autores.
Conviene hacer notar, finalmente, la importancia de estas tcnicas y la necesidad de
perder el tiempo en aplicarlas. Nuestra experiencia es que un A.E.D. hecho en
profundidad muestra mucha informacin acerca de los datos objeto de anlisis y que, en
muchas ocasiones, la aplicacin de tcnicas estadsticas ms sofisticadas del Anlisis
Multivariante no hace ms que confirmar impresiones iniciales obtenidas a partir de un
A.E.D.
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
Bibliografa
No existe un nmero excesivo de libros dedicados exclusivamente al tpico de
A.E.D. En espaol tenemos noticias de los siguientes:
ESCOBAR, M. (2000) Anlisis Grfico/Exploratorio. Cuadernos de Estadstica. Editorial
La Muralla.
RIAL, A.; VARELA, J. y ROJAS, A. (2001). Depuracin y Anlisis Preliminares de Datos
en SPSS. Sistemas Informatizados para la Investigacin del Comportamiento. RA-MA.
ambos muy orientado al paquete estadstico SPSS 10.0
En ingls un libro clave es el siguiente:
TUKEY, J.W. (1977). Exploratory Data Analysis. Addison-Wesley
que dio, histricamente, un impulso muy importante a esta parte tradicionalmente
despreciada del anlisis estadstico aplicado.
El siguiente libro contiene un buen captulo dedicado al A.E.D. y es el que hemos
tomado como patrn a la hora de disear la pgina.
HAIR, J., ANDERSON, R., TATHAM, R. y BLACK, W. (1999). Anlisis Multivariante.
5 Edicin. Prentice Hall.
Si estis interesados en el tratamiento de datos ausentes y queris profundizar en el
tema os recomendamos la lectura de los dos libros siguientes:
LITTLE, R.J.A. and RUBIN, D. (1987) Statistical Analysis with Missing Data. New York.
Wiley.
SCHAFER, J.L. (1997). Analysis of Incomplete Multivariate Data. Chapman & Hall.
Un tpico que ha adquirido fuerza ltimamente es el diseo de procedimientos
exploratorios en grandes bases de datos. Son algoritmos y tcnicas estadstico-informticas
que buscan la extraccin de patrones de comportamiento y de conocimiento en conjuntos
de datos muy grandes. Dichas tcnicas se conocen bajo el nombre de Data Mining. Si
queris haceros una idea de en qu consisten y cmo funcionan, un buen libro introductorio
es
Berry, M. and Linoff, G. (1997). Data Mining Techniques for Marketing, Sales and
Customer Support. John Wiley & Sons, Inc, New York.
Finalmente, otro libro al que se ha hecho referencia en el apartado dedicado a
homocedasticidad es
Salvador Figueras, M y Gargallo, P. (2003): "Anlisis Exploratorio de Datos", [en lnea] 5campus.com,
Estadstica <http://www.5campus.com/leccion/aed> [y aadir fecha consulta]
JOBSON, J.D. (1992) Applied Multivariate Data Analysis. Volume I: Regression and
Experimental Design. Springer-Verlag.