Está en la página 1de 45

Análisis previo y exploratorio de

datos
Ana María López
Departamento de Psicología Experimental
Introducción

• En toda investigación, y antes de extraer conclusiones acerca de los objetivos e


hipótesis planteados, es necesario llevar a cabo un análisis previo y exploratorio de
los datos con objeto de detectar errores en la codificación de las variables, eliminar
inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer
características básicas de la distribución de las variables (normalidad, igualdad de
varianzas, presencia de valores atípicos, linealidad, etc) y avanzar acerca de las
relaciones entre ellas.
• En definitiva, el investigador debe adquirir un conocimiento básico de los datos de su
investigación y de las relaciones existentes entre las variables analizadas antes de
proceder a aplicar los procedimientos inferenciales.
AED

MULTIDIMENSIONAL
UNIDIMENSIONAL BIDIMENSIONAL

a) Variable Cualitativa a) Dos Variables Cualitativas


b)Variable Cuantitativa b) Una Variable Cuantitativa y otra Cualitativa
c) Dos Variables Cuantitativas
Introducción

Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un


conjunto de procedimientos estadísticos –numéricos y gráficos- que vamos a
describir a lo largo del presente curso y que están implementados en la mayoría
de los programas estadísticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).
Introducción

A nivel univariable, la mayoría de los objetivos del AED se alcanzan realizando un


análisis descriptivo. Concretamente utilizaremos medidas de tendencia central y
de dispersión para describir las características de las variables cuantitativas y
tablas de frecuencias y porcentajes para las variables cualitativas. Para ello
utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la
última columna de la siguiente tabla:

Tipo de variable Índices analíticos Representaciones Procedimientos de


gráficas SPSS
Cuantitativa media, mediana, moda, histograma, gráfico Descriptivos,
desviación típica, de caja Explorar, Tablas
rango, amplitud
intercuartílica, prueba
de normalidad

Cualitativa frecuencias, diagrama de barras, Frecuencias, Tablas


porcentajes, moda, etc. diagrama de líneas,
diagrama de
sectores
AED: Detección de errores en la codificación de las variables
cualitativas y cuantitativas:

Errores de codificación son valores que están fuera del rango de las variables
cuantitativas y códigos numéricos o no numéricos no definidos para representar
las categorías de las variables cualitativas.
Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de
matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para
ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que
nos den su opinión acerca de la ley eligiendo una de las opciones de una escala
que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos
escrito en una archivo de spss y hemos realizado un análisis descriptivo básico
utilizando el procedimiento frecuencias para las todas las variables incluidas en el
archivo y el procedimiento descriptivos para las cuantitativas
Para realizar el análisis descriptivo, seleccionamos Estadísticos descriptivos> Frecuencias
del menú Analizar. Con esta selección accedemos al cuadro de diálogo Frecuencias y en
dicho cuadro trasladamos, pulsando en el botón flecha, las variables al cuadro Variables y
pulsamos en Aceptar.
Para analizar las variables cuantitativas opinión y edad seleccionamos Descriptivos y
pulsamos Aceptar. El visor de resultados nos ofrece la información contenida en las
siguiente tablas.

¿podemos identificar errores de codificación en las variables medidas?


AED: Caracterización de las distribuciones de las variables en
cuanto a su tendencia central, dispersión y forma (normalidad).

• Para ello utilizaremos tanto índices numéricos como gráficos.


• Estadísticos de tendencia central

– Media aritmética.

– Mediana: una vez ordenados los datos, es el valor que deja el mismo número de
observaciones a su derecha que a su izquierda.

– Media truncada: es la media de la variable eliminando el 5% de las colas inferior


y superior de la distribución, de esta forma se eliminan valores extremos y es por
tanto un estadístico robusto.

– M-estimadores: son estadísticos robustos pues se definen ponderando cada


valor de la distribución en función de su distancia al centro de la misma. Las
observaciones centrales se ponderan por el máximo valor (la unidad)
disminuyendo los coeficientes de ponderación a medida que las observaciones
se alejan del centro. Existen distintas formas de ponderar: Humbert (pondera
con valor uno los valores situados a menos de 1,339 de la mediana), Tukey
(pondera con cero los valores situados a 4,385 de la mediana), Andrews
(pondera con cero los situados a 4,2066 de la mediana), etc.
AED: Caracterización de las distribuciones de las variables en
cuanto a su tendencia central, dispersión y forma (normalidad).

• Estadísticos de dispersión:
– Rango
– Varianza
– Desviación tipo
– Amplitud intercuartílica (AI)

• Estadísticos de forma:
– Asimetría.
– Curtosis

• Prueba de normalidad de Kolmogorov


AED: Caracterización de las distribuciones de las variables en
cuanto a su tendencia central, dispersión y forma (normalidad).

Histograma Gráfico de caja Gráfico Q-Q


16

14

12

10

Desv. típ. = 3.57


2
Media = 7.1
0 N = 49.00
0.0 2.5 5.0 7.5 10.0 12.5 15.0

DIG
AED: Caracterización de las distribuciones de las variables en
cuanto a su tendencia central, dispersión y forma (normalidad).
Figura 1. Tipologías de histogramas

(Xmáx +1) − Xi
Xi

log10(( Xmáx +1) − Xi )


Figura 2. Tipologías de gráficos Q-Q log10 Xi

1 1
Xi (( Xmáx +1) − Xi )
AED: Caracterización de las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad) con SPSS.

Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de


SPSS con las variables cansancio emocional, despersonalización, realización personal
y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con
las opciones básicas recomendadas son:
AED: Caracterización de las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad) con SPSS.

Con las opciones seleccionadas hemos obtenido información que nos permite
responder a las siguientes cuestiones de las variables analizadas:
1. Identificar las medidas de tendencia central y de dispersión
2. Comparar la media con la mediana y con los estimadores robustos
3. Evaluar mediante inspección visual la normalidad de las variables
4. Evaluar utilizando la prueba de significación la normalidad de las variables
AED: Detección de datos atípicos:

Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del


resto de las observaciones en una variable (atípico univariable) o en la distribución
conjunta de dos o más variables (atípico multivariable). Los valores atípicos
multivariantes resultan de combinaciones de valores muy inusuales. Las
consecuencias de una sola observación atípica pueden ser graves pues pueden
distorsionar las medias y desviaciones típicas de las variables y destruir o construir
relaciones entre ellas. Ejemplo
Los valores atípicos pueden deberse a
• Errores en la codificación de los valores de las variables, errores en la codificación
de valores perdidos, errores de medida, errores en la transcripción.
• Observaciones que no proceden de la población de la que se ha extraído la
muestra.
• Observaciones atípicas debidas a que la distribución de la variable en la población
tiene valores más extremos que los de una distribución normal.
En los dos primeros casos los valores atípicos, una vez detectados, deben ser
eliminados o recodificados como valores perdidos. En el último caso suelen
retenerse y analizar su incidencia en los análisis posteriores.
AED: Detección de datos atípicos:

• Para considerar a una observación como atípica existen diferentes criterios:


Se consideran atípicas aquellas observaciones que están, en valores absolutos, a
más de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicación de este
criterio depende del tamaño de la muestra.
• En el gráfico de caja, como ya hemos visto, son atípicos observaciones con
puntuaciones superiores a 1,5*AI evaluadas a partir del P75 o inferiores a 1,5 AI
evaluadas a partir del P25. A partir de 3*AI se califican de extremos.
• Otra regla simple es considerar sospechosas aquellas observaciones tales que:

xi − med ( x )
> 4,5
MEDA( x)

donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas


de x con respeto a la mediana
AED: Detección de datos atípicos:

• Los criterios para detectar atípicos a nivel univariante no tienen porque identificar
atípicos multivariantes (ejemplo). Para ello se puede utilizar, aunque no exenta de
problemas, la distancia de Mahalanobis.
La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la
matriz de varianzas-covarianzas. Una observación multivariante resultará
sospechosa si su distancia supera el valor de chi-cuadrado para k (número de
variables) y un nivel de significación de 0,001.
Algunos de los gráficos disponibles en SPSS implementan los criterios anteriores
para detectar datos atípicos. Los siguientes cuadros de diálogo corresponden a los
gráficos recomendados para detectar atípicos:
AED: Detección de datos atípicos

Con la secuencia de cuadros de diálogo sobre la matriz obtenemos los siguientes


gráficos
AED: Detección de datos atípicos:

Caras de Chernoff
AED: Detección de datos atípicos:
Gráficos de estrella

sujeto 1 sujeto 2
zcan
4
zcan zcan 2
1 4 0
0 2 zsatisfa -2 zdespe
zsatisfa -1 zdespe zsatisfa 0 zdespe -4
fr
-2 sujeto 1 -2

zdepre zrea zdepre zrea zdepre zrea

2
1

0
zcan zdespe zrea zdepre zsatisfa
Gráficos de linea
-1

-2

-3

-4
-5
AED: Supuesto de Linealidad

Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson


entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación
lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es
lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo
determinadas circunstancias, los coeficientes de correlación pueden ser mucho más
grandes o mucho más pequeños de lo que deberían ser.
Variables compuestas: En muchas investigaciones es frecuente utilizar variables
compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las
correlaciones entre variables compuestas que comparten items individuales en su
definición suelen estar infladas.
La presencia de valores atípicos: los valores atípicos como ya hemos demostrado
pueden inflar o reducir significativamente las correlaciones entre variables.
Restricción de rango: las correlaciones muestrales pueden ser inferiores a las
poblacionales cuando en la muestra el rango de respuestas de una o ambas de las
variables analizadas está restringido.
análisis previo y exploratorio

Univariable Bivariado Multivariado

a) Dos Variables Cualitativas: Tablas de contingencia y


gráficos de barras
a) Variable Cualitativa b) Una Variable Cuantitativa y otra Cualitativa: Explorar
b) Variable Cuantitativa c) Dos Variables Cuantitativas: correlaciones bivariadas,
gráficos de dispersión
AED: Supuesto de Linealidad

• La herramienta más útil para obtener información, a nivel exploratorio, de la relación


entre dos variables cuantitativas es el diagrama de dispersión, o nube de puntos. Se
construye representando, en el plano cartesiano, los valores de las variables
medidas. La inspección visual del gráfico de dispersión nos permite identificar
valores atípicos y el tipo de relación entre las variables.
AED: Supuesto de Linealidad
10
100
5
80
0
60
-5
40
-10
20
-15
0
40
0 1
35
30
30
25 25
20
20
15
15 10
5
10
0
5 0 5 10 15 20

300
250
200
150
100
50
0
0 5 10 15 20
AED: Supuesto de Linealidad
AED: Supuesto de Linealidad

80,00

60,00
hrv_b

40,00

20,00

20,00 40,00 60,00 80,00 100,00


hrv_a

a) Diagrama de dispersión por defecto


AED: Supuesto de Linealidad

Gráfico

hrv_a
hrv_b
hrv_c
hrv_d
hrv_fa
imp_a
imp_b
imp_c
imp_d

hrv_a hrv_b hrv_c hrv_d hrv_fa imp_a imp_b imp_c imp_d


AED: Supuesto de Linealidad

grup
ctrl
phob

80,00

60,00

hrv_b
40,00

20,00

20,00 40,00 60,00 80,00 100,00


hrv_a
AED: Dos variables cualitativas

• Una tabla de contingencia para dos variables contiene en filas


las modalidades de una de las variables y en columnas las
modalidades de la segunda. Cada casilla de la tabla contiene la
frecuencia conjunta que representa el número de datos que
pertenecen a la modalidad i-ésima de la primera variable y a la
modalidad j-ésima de la segunda. A partir de dicha tabla
podemos estudiar si las dos variables son o no independientes.
Si son independientes no existe relación entre ellas; en caso
contrario analizaríamos el tipo y grado de la dependencia tanto
gráfica como numéricamente.
AED: Dos variables cualitativas

• Vamos a analizando la posible relación entre la variables válvulas y retrasos en el


desarrollo y válvulas y ansiedad de la matriz.

• Seleccionamos:
Analizar > Estadísticos descriptivos > Tablas de contingencia
AED: Dos variables cualitativas

• Para analizar los posibles fallos en el


diseño y recogida de datos así como
la posible relación entre variables
cualitativas utilizaremos el
procedimiento Tablas de contingencia
como se muestra en el cuadro adjunto
de SPSS
AED: Dos variables cualitativas

• En el cuadro de diálogo Tablas de


contingencia seleccionamos las
variables val y retraso en el
desarrollo como fila y columna.
Seleccionamos también mostrar
barras agrupadas
AED: Dos variables cualitativas

• En el cuadro de diálogo Tablas de


contingencia pulsamos el botón
Estadísticos para acceder a las
opciones que nos permiten
evaluar la posible relación entre
las variables. En dicho cuadro
marcamos la opción Chi-cuadrado.
AED: Dos variables cualitativas

• Las tablas de contingencia que se


construyen por defecto contienen
las frecuencias absolutas. Pero
podemos, pulsando el botón
Casillas seleccionar frecuencias
esperadas, varios tipos de
porcentajes y residuos.
AED: Dos variables cualitativas

• Con las opciones seleccionadas en los cuadros descritos la ventana de


resultados nos muestra la información que vamos a ir describiendo.
AED: Dos variables cualitativas
Resumen del procesamiento de los casos

Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje

f ( f ) × f ( c) f i . × f . j
VAL * retraso
42 61.8% 26 38.2% 68 100.0%
en el desarrollo

f esp = =
Tabla de contingencia VAL * retraso en el desarrollo
N f ..
retraso en el
desarrollo
Si No Total
VAL 0 Recuento 1 0 1
Frecuencia esperada .7 .3 1.0
% de VAL 100.0% .0% 100.0%
% de retraso en el
3.3% .0% 2.4%
desarrollo
% del total 2.4% .0% 2.4%
Si Recuento 17 3 20
Frecuencia esperada 14.3 5.7 20.0
% de VAL 85.0% 15.0% 100.0%
% de retraso en el
56.7% 25.0% 47.6%
desarrollo
% del total 40.5% 7.1% 47.6%
No Recuento 12 9 21
Frecuencia esperada 15.0 6.0 21.0
% de VAL 57.1% 42.9% 100.0%
% de retraso en el
40.0% 75.0% 50.0%
desarrollo
% del total 28.6% 21.4% 50.0%
Total Recuento 30 12 42
Frecuencia esperada 30.0 12.0 42.0
% de VAL 71.4% 28.6% 100.0%
% de retraso en el
100.0% 100.0% 100.0%
desarrollo
% del total 71.4% 28.6% 100.0%
AED: Dos variables cualitativas
(f − f es ) ij
2

∑∑
ob
χ2 =
i j (f ) es ij

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 4.305a 2 .116
Razón de verosimilitud 4.664 2 .097
Asociación lineal por
4.139 1 .042
lineal
N de casos válidos 42
a. 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es .29.

En este caso dado que p > 0.05 aceptamos la hipótesis de independencia y concluimos
que las variables no están relacionadas.

Nota a. El número de casillas con frecuencias esperadas menores que 5 no debe superar el 20% para
que la aproximación a la distribución Chi-cuadrado sea adecuada
AED: Dos variables cualitativas
Además de los estadísticos anteriores el cuadro de diálogo Tablas de contingencia
nos proporciona los diagramas de barras para las variables analizadas

20

100
100 15 43
90

80 85

70
10
60
57
50

40

30
retraso en el desarr retraso en el desarr

Recuento
Recuento

20
Si No
10
0 No 0 Si
0 Si No 0 Si No

VAL VAL

Gráfico por defecto Gráfico modificado con el editor de gráficos


AED: Una variable cualitativa y una variable cuantitativa

• Cuando analizamos una variable cuantitativa y otra cualitativa, el estudio se enfoca


como un problema de comparación del comportamiento de la variable numérica en
las diferentes subpoblaciones que define la variable cualitativa. Una forma de realizar
dicho análisis es mediante los diagramas de caja y los test de hipótesis que nos
permiten probar normalidad y homogeneidad de varianzas. El procedimiento de
SPSS que nos proporciona información más completa para el AED en este caso es
el procedimiento Explorar del SPSS.
AED: Una variable cualitativa y una variable cuantitativa

Seguimos con el archivo de espina


bífida y ahora vamos a seleccionar
Estadísticos descriptivos y Explorar tal
y como aparece en el cuadro adjunto
AED: Una variable cualitativa y una variable cuantitativa
Explorar
ansiedad

Resumen del procesamiento de los casos

Casos
Válidos Perdidos Total
ansiedad N Porcentaje N Porcentaje N Porcentaje
CIM . (perdidos 10 90.9% 1 9.1% 11 100.0%
Si 24 100.0% 0 .0% 24 100.0%
No 33 100.0% 0 .0% 33 100.0%
Descriptivos

ansiedad Estadístico Error típ.


CIM . (perdidos) Media 60.10 4.620
Intervalo de confianza Límite inferior 49.65
para la media al 95% Límite superior
70.55

Media recortada al 5% 59.78


Mediana 56.50
Varianza 213.433
Desv. típ. 14.609
Mínimo 43
Máximo 83
Rango 40
Amplitud intercuartil 28.00
Asimetría .408 .687
Curtosis -1.198 1.334
Si Media 61.21 3.407
Intervalo de confianza Límite inferior 54.16
para la media al 95% Límite superior
68.26

Media recortada al 5% 60.32


Mediana 57.50
Varianza 278.520
Desv. típ. 16.689
Mínimo 40
Máximo 100
Rango 60
Amplitud intercuartil 28.25
Asimetría .766 .472
Curtosis -.381 .918
No Media 78.73 3.676
Intervalo de confianza Límite inferior 71.24
para la media al 95% Límite superior
86.21

Media recortada al 5% 78.48


Mediana 84.00
Varianza 445.830
Desv. típ. 21.115
Mínimo 43
Máximo 126
Rango 83
Amplitud intercuartil 37.00
Asimetría -.066 .409
Curtosis -.810 .798
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
ansiedad Estadístico gl Sig. Estadístico gl Sig.
CIM . (perdidos) .157 10 .200* .922 10 .370
Si .160 24 .117 .911 24 .037
No .129 33 .177 .947 33 .110
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

Gráfico Q-Q normal de CIM Gráfico Q-Q normal de CIM

Para ANS= No Para ANS= Si


2 2.0

1.5

1.0
1
.5

0.0
0

Normal esperado
Normal esperado

-.5

-1.0
-1
-1.5

-2.0
-2 30 40 50 60 70 80 90 100 110
20 40 60 80 100 120 140
Gráfico Q-Q normal de CIM
Valor observado
Valor observado
Para ANS= Omitido
1.5

1.0

.5

0.0
Normal esperado

-.5

-1.0

-1.5
40 50 60 70 80 90

Valor observado
Prueba de homogeneidad de la varianza

Estadístico
de Levene gl1 gl2 Sig.
CIM Basándose en la media 2.016 2 64 .142
Basándose en la
1.665 2 64 .197
mediana.
Basándose en la
mediana y con gl 1.665 2 61.164 .198
corregido
Basándose en la media
2.097 2 64 .131
recortada

140

120

100

80

60

40
CIM

20
N= 10 24 33

Omitido Si No

ansiedad
Bibliografía

Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de Estadística. Madrid:


Editorial La Muralla.
Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en línea].
http://www.5campus.com/leccion/aed> [y añadir fecha consulta]

Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema

Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill.

Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares de datos en


SPSS. Sistemas informatizados para la investigación del comportamiento. Madrid:
RA-MA.

También podría gustarte