Está en la página 1de 78

Análisis previo y exploratorio de

datos
Ana María López
Departamento de Psicología Experimental
Introducción

• En toda investigación, y antes de extraer conclusiones acerca de los objetivos e


hipótesis planteados, es necesario llevar a cabo un análisis previo y exploratorio de
los datos con objeto de detectar errores en la codificación de las variables, eliminar
inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer
características básicas de la distribución de las variables (normalidad, igualdad de
varianzas, presencia de valores atípicos, linealidad, etc) y avanzar acerca de las
relaciones entre ellas.
Análisis univariable
La mayoría de estos objetivos se alcanzan realizando un análisis descriptivo de
las variables. Concretamente utilizaremos medidas de tendencia central y de
dispersión para describir las características de las variables cuantitativas y tablas
de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos,
esencialmente, los procedimiento de SPSS que aparecen en la última columna de
la siguiente tabla:

Tipo de variable Índices analíticos Representaciones Procedimientos de


gráficas SPSS
Cuantitativa media, mediana, moda, histograma, gráfico Descriptivos,
desviación típica, de caja Explorar, Tablas
rango, amplitud
intercuartílica, prueba
de normalidad

Cualitativa frecuencias, diagrama de barras, Frecuencias, Tablas


porcentajes, moda, etc. diagrama de líneas,
diagrama de
sectores
Introducción

Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un


conjunto de procedimientos estadísticos –numéricos y gráficos- que vamos a
describir a lo largo del presente curso y que están implementados en la mayoría
de los programas estadísticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).
1. Detectar errores en la codificación de las variables cualitativas
y cuantitativas:

vamos a entender por errores de codificación a todos aquellos valores que están
fuera del rango de las variables cuantitativas y a códigos numéricos o no
numéricos no definidos para representar a categorías de las variables cualitativas.
Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de
matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para
ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que
nos den su opinión acerca de la ley eligiendo una de las opciones de una escala
que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos
escrito en una archivo de spss y hemos realizado un análisis descriptivo básico
utilizando el procedimiento frecuencias para las todas las variables incluidas en el
archivo y el procedimiento descriptivos para las cuantitativas
Para realizar el análisis descriptivo hemos seleccionado las opciones que aparecen en los
cuadros siguientes y hemos obtenido las siguientes tablas. A partir de la información que
nos proporcionan las tablas
¿podemos identificar errores de codificación en las variables medidas?
2. Caracterizar las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad).

• Para ello utilizaremos tanto índices numéricos como gráficos.


• Estadísticos de tendencia central

– Media aritmética.

– Mediana: una vez ordenados los datos, es el valor que deja el mismo número de
observaciones a su derecha que a su izquierda.

– Media truncada: es la media de la variable eliminando el 5% de las colas inferior


y superior de la distribución, de esta forma se eliminan valores extremos y es por
tanto un estadístico robusto.

– M-estimadores: son estadísticos robustos pues se definen ponderando cada


valor de la distribución en función de su distancia al centro de la misma. Las
observaciones centrales se ponderan por el máximo valor (la unidad)
disminuyendo los coeficientes de ponderación a medida que las observaciones
se alejan del centro. Existen distintas formas de ponderar: Humbert (pondera
con valor uno los valores situados a menos de 1´339 de la mediana), Tukey
(pondera con cero los valores situados a 4´385 de la mediana), Andrews
(pondera con cero los situados a 4´2066 de la mediana), etc.
2. Caracterizar las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad).

• Estadísticos de dispersión:
– Rango
– Varianza
– Desviación tipo
– Amplitud intercuartílica (AI)

• Estadísticos de forma:
– Asimetría.
– Curtosis

• Prueba de normalidad de Kolmogorov


2. Caracterizar las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad).

Histograma Gráfico de caja Gráfico Q-Q


16

14

12

10

Desv. típ. = 3.57


2
Media = 7.1

0 N = 49.00
0.0 2.5 5.0 7.5 10.0 12.5 15.0

DIG
2. Caracterizar las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad).
Figura 1. Tipologías de histogramas

( X máx  1)  X i
Xi

log 10  X máx 1  X i 


Figura 2. Tipologías de gráficos Q-Q log 10 X i

1 1
Xi  X máx 1  X i 
2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central,
dispersión y forma (normalidad).

Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de


SPSS con las variables cansancio emocional, despersonalización, realización personal
y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con
las opciones básicas recomendadas son:
2. Caracterizar las distribuciones de las variables en cuanto a su
tendencia central, dispersión y forma (normalidad).

Con las opciones seleccionadas hemos obtenido información que nos permite
responder a las siguientes cuestiones de las variables analizadas:
1. Identificar las medidas de tendencia central y de dispersión
2. Comparar la media con la mediana y con los estimadores robustos
3. Evaluar mediante inspección visual la normalidad de las variables
4. Evaluar utilizando la prueba de significación la normalidad de las variables
3. Detectar datos atípicos:

Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del


resto de las observaciones en una variable (atípico univariable) o en la distribución
conjunta de dos o más variables (atípico multivariable). Los valores atípicos
multivariantes resultan de combinaciones de valores muy inusuales. Las
consecuencias de una sola observación atípica pueden ser graves pues pueden
distorsionar las medias y desviaciones típicas de las variables y destruir o construir
relaciones entre ellas. Ejemplo
Los valores atípicos pueden deberse a
2.1. Errores en la codificación de los valores de las variables, errores en la
codificación de valores perdidos, errores de medida, errores en la transcripción.
2.2. Observaciones que no proceden de la población de la que se ha extraído la
muestra.
2.3. Observaciones atípicas debidas a que la distribución de la variable en la
población tiene valores más extremos que los de una distribución normal.
Los valores atípicos debidos a 2.1. y 2.2., una vez detectados deben ser
eliminados o recodificados como valores perdidos. En el caso 2.3 suelen retenerse
y analizar su incidencia en los análisis posteriores.
3. Detectar datos atípicos:

• Para considerar a una observación como atípica existen diferentes criterios:


Se consideran atípica aquellas observaciones que están, en valores absolutos, a
más de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicación de este para
criterio depende del tamaño de la muestra.
• En el gráfico de caja, como ya hemos vistos, son atípicos observaciones con
puntuaciones superiores o inferiores a 1,5*AI. A partir de 3*AI se califican de
extremos.
• Otra regla simple es considerar sospechosas aquellas observaciones tales que:

xi  med x 
 4,5
MEDA( x)

donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas


de x con respeto a la mediana
3. Detectar datos atípicos:

• Los criterios para detectar atípicos a nivel univariante no tienen porque identificar
atípicos multivariantes. Para ello se puede utilizar, aunque no exenta de problemas,
la distancia de Mahalanobis.
La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la
matriz de varianzas covarianzas. Una observación multivariante resultará
sospechosa si su distancia supera el valor de chi-cuadrado para k (número de
variables) y un nivel de significación de 0,001.
Algunos de los gráficos disponibles en SPSS implementan los criterios anteriores
para detectar datos atípicos. Los siguientes cuadros de diálogo corresponden a los
gráficos recomendados para detectar atípicos:
3. Detectar datos atípicos:

Con la secuencia de cuadros de diálogo sobre la matriz obtenemos los siguientes


gráficos
3. Detectar datos atípicos:

Caras de Chernoff
3. Detectar datos atípicos:
Gráficos de estrella

sujeto 1 sujeto 2
zcan
4
zcan zcan 2
1 4 0
0 2 zsatisfa -2 zdespe
zsatisfa -1 zdespe zsatisfa 0 zdespe -4
fr
-2 sujeto 1 -2

zdepre zrea zdepre zrea zdepre zrea

0
zcan zdespe zrea zdepre zsatisfa
Gráficos de linea
-1

-2

-3

-4

-5
4. Linealidad

Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson


entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación
lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es
lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo
determinadas circunstancias, los coeficientes de correlación pueden ser mucho más
grandes o mucho más pequeños de lo que deberían ser.
Variables compuestas: En muchas investigaciones es frecuente utilizar variables
compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las
correlaciones entre variables compuestas que comparten items individuales en su
definición suelen estar infladas.
La presencia de valores atípicos: los valores atípicos como ya hemos demostrado
pueden inflar o reducir significativamente las correlaciones entre variables.
Restricción de rango: las correlaciones muestrales pueden ser inferiores a las
poblacionales cuando en la muestra el rango de respuestas de uno o ambas de las
variables analizadas está restringido.
4. Linealidad

• La herramienta más útil para obtener información, a nivel exploratorio, de la relación


entre dos variables cuantitativas es el diagrama de dispersión, o nube de puntos. Se
construye representando, en el plano cartesiano, los valores de las variables
medidas. La inspección visual del gráfico de dispersión nos permite identificar
valores atípicos y el tipo de relación entre las variables.
4. Linealidad
10
100
5
80
0
60
-5
40
-10
20
-15
0
40
0 1
35
30
30
25 25
20
20
15
15 10
5
10
0
5 0 5 10 15 20

300
250
200
150
100
50
0
0 5 10 15 20
4. Linealidad
4. Linealidad
Gráfico

80,00

60,00
hrv_b

40,00

20,00

20,00 40,00 60,00 80,00 100,00


hrv_a

a) Diagrama de dispersión por defecto


Análisis exploratorio de datos (II). Análisis de dos
variables cuantitativas. Diagrama de dispersión con
SPSS
Gráfico

hrv_a
hrv_b
hrv_c
hrv_d
hrv_fa
imp_a
imp_b
imp_c
imp_d

hrv_a hrv_b hrv_c hrv_d hrv_fa imp_a imp_b imp_c imp_d


4. Linealidad

grup
ctrl
phob

80,00

60,00

hrv_b
40,00

20,00

20,00 40,00 60,00 80,00 100,00


hrv_a
análisis previo y exploratorio

Univariable Bivariado Multivariado

a) Dos Variables Cualitativas: Tablas de contingencia y


gráficos de barras
a) Variable Cualitativa b) Una Variable Cuantitativa y otra Cualitativa: Explorar
b) Variable Cuantitativa c) Dos Variables Cuantitativa: correlaciones bivariadas,
gráficos de dispersión
Bibliografía

Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de Estadística. Madrid:


Editorial La Muralla.
Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en línea].
http://www.5campus.com/leccion/aed> [y añadir fecha consulta]

Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema

Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill.

Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares de datos en


SPSS. Sistemas informatizados para la investigación del comportamiento. Madrid:
RA-MA.
Análisis de valores perdidos

Ana María López


Departamento de Psicología Experimental
Introducción

• La presencia de valores perdidos (información ausente o faltante) es un problema común a


cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos
ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio
hasta la aparición de sesgos inaceptables. La eliminación de sujetos con características
especiales limita la representatividad o validez externa de los resultados del estudio.

• Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de
medida, los sujetos no asisten a la entrevista (en diseños longitudinales pueden abandonar el
estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la
opción no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y
muchas otras los datos perdidos son ubicuos en la investigación en ciencias sociales y de la
salud (Allison, 2002).
Introducción

• Hay una solución fácil para el tratamiento de bases de datos con valores perdidos y consiste en
analizar sólo los casos con Información completa en el conjunto de variables. Esta solución, es la
opción por defecto de la mayoría de los paquetes estadísticos, se conoce como análisis de casos
completos (Casewise, Listwise). El análisis de casos completos tiene la ventaja de su simplicidad
pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en los análisis
estadísticos.
Patrones de pérdida de información

• La forma o patrón para la pérdida de datos puede ser muy variada. En la figura siguiente
aparecen representada tres posibles matrices de datos con perdida de información univariante,
monótona y aleatoria.

a) b) c)

X1 X2 X3 ..…Yp Y1 Y2 Y3 ……Yp Y1 Y2 Y3....Yp

1 ? ?
2
3
.
?
.
.
. ?
.
.
N
?
?
?

Figura 1. Patrones de pedida de información: a) univariado, b) monótono, y c) arbitrario


Mecanismos de perdida de datos

Se distinguen tres mecanismos de perdida de datos:

• Datos perdidos completamente al azar (MCAR = missing completely at


random)

• Datos perdidos al azar (MAR= missing completely at random)

• Datos perdidos no ignorables o no debidos al azar (MNI=missing non-


ignorable, o MNAR=missing not at random).
Mecanismos de perdida de datos

Se considera que los datos perdidos son MCAR cuando las características de los sujetos con
información son las mismas que las de los sujetos sin información. Dicho de otra manera la
probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de
otras variables del cuestionario ni de los valores de la propia variable con valores perdidos.
Las observaciones con datos perdidos son una muestra aleatoria del conjunto de
observaciones. Ejemplo de MCAR:

1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario
que las personas que nos lo proporcionan.

2. Las características estadísticas (media, porcentajes) del resto de las variables son las
misma para los sujetos que nos proporcionan su salario y para los que no lo proporcionan.
Mecanismos de perdida de datos

La perdida de datos es MAR cuando los sujetos con datos incompletos son
diferentes significativamente de los que presentan datos completos en alguna
variable, y el patrón de ausencia de datos puede ser predecible a partir de
variables con datos observados en la base de datos del estudio que no muestran
ausencia de datos. La probabilidad de que se produzca la ausencia de una
observación depende de otras variables pero no de los valores de la variable con
el valor ausente. Es imposible probar si la condición MAR es satisfecha y la razón
es que dado que no conocemos la información faltante no podemos comparar los
valores de aquellos sujetos que tienen información con los que no la tienen. Un
ejemplo de MAR

1. La pérdida de valores en la variable sueldo es MAR si depende del estado civil pero
dentro de cada categoría, la probabilidad de missing no está relacionada con el sueldo.
Mecanismos de perdida de datos

La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una
variable Y depende de los valores de dicha variable una vez que se han controlado el resto de
las variables. Ejemplo:

1. Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el
salario, una vez controladas el resto de las variables, entonces la perdida de datos no es
aleatoria ni ignorable.

2. En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y
para dos variables. En este último ejemplo tomado de Schafer y Graham, 2002 se
simulan los tres mecanismos de pérdida con dos variables.
Análisis de Valores perdidos con SPSS
Análisis de Valores perdidos con SPSS

Archivo: opinion.sav
Análisis de valores perdidos

Estadísticos univariados

a
Des viación Perdidos No de extremos
N Media típ. Recuento Porcentaje Bajos Altos
s alario 71 1536,0563 567,98511 29 29,0 0 5
opinion 100 4,2900 1,77693 0 ,0 0 0
s exo 100 0 ,0
a. Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).

Resumen de las medias estimadas


opinion
salario

Según lista 1536,0563 4,7324


Todos los valores 1536,0563 4,2900
EM 1637,1620 4,2900
Regres ión 1585,1126 4,2900

Resumen de las desviaciones típicas estimadas


opinion
salario

Según lista 567,98511 1,57623


Todos los valores 567,98511 1,77693
EM 598,12110 1,77693
Regresión 517,90342 1,77693
Análisis de valores perdidos
Pruebas T con varianzas separadasa

opinion
salario
t . 4,0
gl . 46,5
no pres ente 71 71
no perdido 0 29
salario

Media(Presentes ) 1536,0563 4,7324


Media(Perdidos) . 3,2069
Para cada variable cuantitativa, los pares de grupos están
formados por variables indicador (pres ente, perdido).
a. Las variables indicador con menos del 5% de los
valores perdidos no s e mues tran.

Tablas de contingencia de variables indicador frente a categóricas


sexo
hombre
mujer
Total

s alario Presente Recuento 71 45 26


Porcentaje 71,0 81,8 57,8
Perdidos % perd. sistema 29,0 18,2 42,2
Las variables indicador con menos del 5% de s us valores
perdidos no se mues tran.
Análisis de valores perdidos
Patrones perdidos (casos con valores perdidos)

Patrones de Patrones tabulados


valores
no perdido

% perdido extrem os y
a
perdidos

b
Completo si...
opinion

salario
sexo
Patrones
a
Cas o perdidos
43 1 33,3 S

opinion

salario
sexo
44 1 33,3 S
45 1 33,3 S
47 1 33,3 S Número de casos
48 1 33,3 S 71 71
49 1 33,3 S
29 X 100
50 1 33,3 S
52 1 33,3 S Los patrones con menos del 1% de los casos (1 o menos ) no
54 1 33,3 S s e muestran.
55 1 33,3 S a. Las variables se ordenan s egún los patrones
79 1 33,3 S
perdidos.
80 1 33,3 S
81 1 33,3 S b. Número de casos completos si las variables perdidas
82 1 33,3 S en es e patrón (marcado con X) no s e utilizan.
83 1 33,3 S
84 1 33,3 S
85 1 33,3 S
86 1 33,3 S
87 1 33,3 S
88 1 33,3 S
89 1 33,3 S
91 1 33,3 S
92 1 33,3 S
93 1 33,3 S
95 1 33,3 S
96 1 33,3 S
98 1 33,3 S
99 1 33,3 S
100 1 33,3 S
- indica un valor extrem o bajo, m ientras que + i ndica un valor
extrem o alto. El rango util izado es (C1 - 1,5*AIC, C3 + 1,5*AIC).
a. Los cas os y las variabl es s e ordenan según los
patrones de los perdidos .
Análisis de valores perdidos

Estadísticos según lista


Medias según lista
Correlaciones según lista
Covarianzas según lista
Número de caso

opinion
salario
opinion
salario
opinion
salario

s alario 1
s alario 322607,08250
opinion -,634 1
opinion -567,92757 2,48451
71 1536,0563 4,7324

Estadísticos según pareja


Medias según pareja Desviaciones típicas según pareja
Frecuencias según pareja

opinion

opinion
salario

salario
opinion
salario

sexo

s alario 1536,0563 4,7324 s alario 567,98511 1,57623


s alario 71 opinion 1536,0563 4,2900 opinion 567,98511 1,77693
opinion 71 100 s exo 1536,0563 4,2900 s exo 567,98511 1,77693
s exo 71 100 100 Media de la variable cuantitativa Des viación típica de la variable cuantitativa
cuando es tá presente la otra variable. cuando es tá pres ente la otra variable.

Correlaciones según pareja


Covarianzas según pareja
opinion
salario
opinion
salario

s alario 1
s alario 322607,08250
opinion -,634 1
opinion -567,92757 3,15747
Análisis de valores perdidos

Estadísticos de EM estimados
Covarianzas de EMa Correlaciones de EMa
Medias de EMa

opinion
opinion

salario
salario
opinion
salario

s alario 357748,85539 s alario 1


1637,1620 4,2900
opinion -721,71074 3,15747 opinion -,679 1
a. Prueba MCAR de Little: Chi-cuadrado
a. Prueba MCAR de Little: Chi-cuadrado a. Prueba MCAR de Little: Chi-cuadrado
= 15,175, GL = 1, Sig. = ,000
= 15,175, GL = 1, Sig. = ,000 = 15,175, GL = 1, Sig. = ,000

Estadísticos de regresión estimados


Covarianzas de regresióna Correlaciones de regresióna
Medias de regresióna

opinion

opinion
salario

salario
opinion
salario

s alario 268223,95183 s alario 1


1585,1126 4,2900 opinion -611,10178 3,15747 opinion -,664 1
a. Se añade a cada estimación el res iduo a. Se añade a cada estimación el res iduo a. Se añade a cada estimación el res iduo
de un cas o elegido aleatoriamente. de un cas o elegido aleatoriamente. de un cas o elegido aleatoriamente.
Métodos para tratar valores perdidos

• Análisis de casos completos: para el conjunto de variables (Listwise,


Complete case)

• Análisis de casos completos: por pares de variables (Pairwise)


Métodos para tratar valores perdidos

Métodos de imputación de datos

1. Imputación simple

• Sustitución por la media de las observaciones con información.

• Imputación mediante regresión múltiple. Asigna a los valores missing los valores
predichos por una ecuación de regresión estimada a partir de los sujetos con
información completa.

• Algoritmo EM

2. Imputación múltiple
Referencias bibliográficas:

Allison, P.D. (2002). Missing values. Sage

Little, R. J. A. y Rubin, D. B. (1989) “The Analysis of Social Science Data with Missing Values.”
Sociological Methods and Research 18: 292-326.

Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data,

2nd edition. New York: Wiley.

Rejas, J. Imputación de datos ausentes en estudios de calidad de vida relacionados con la salud:
patrones de pérdida de datos y métodos de imputación. Investig. Clín. Farm. 2005, Vol. 2 (1):
23-29

Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological
Methods, Vol. 7, No. 2, 147–77

Tutorial sobre análisis de valores perdidos con SPSS 13.


http://www2.chass.ncsu.edu/garson/pa765/missing.htm
Capítulo 11
Análisis exploratorio
El procedimiento Explorar

Independientemente de la complejidad de los datos disponibles y del procedimiento estadístico


que se tenga intención de utilizar, una exploración minuciosa de los datos previa al inicio de
cualquier análisis posee importantes ventajas que un analista de datos no puede pasar por alto.
Una exploración minuciosa de los datos permite identificar, entre otras cosas: posibles errores
(datos mal introducidos, respuestas mal codificadas, etc.), valores extremos (valores que se
alejan demasiado del resto), pautas extrañas en los datos (valores que se repiten demasiado o
que no aparecen nunca, etc.), variabilidad no esperada (demasiados casos en una de las dos co-
las de la distribución, demasiada concentración en torno a determinado valor), etc. El procedi-
miento Explorar permite estudiar este tipo de problemas.

Explorar
Además de incluir gran parte de los estadísticos descriptivos ya estudiados en los procedimien-
tos Frecuencias y Descriptivos, el procedimiento Explorar permite obtener nuevos estadís-
ticos descriptivos, identificar casos atípicos y estudiar con mayor precisión la forma y otras
características de una distribución. También permite contrastar dos de los supuestos en que se
basan muchas de las técnicas de análisis que estudiaremos más adelante: normalidad y homo-
geneidad de varianzas. Para obtener todos estos estadísticos:
| Seleccionar la opción Estadísticos descriptivos > Explorar del menú Analizar para
acceder al cuadro de diálogo Explorar que muestra la figura 11.1.

Figura 11.1. Cuadro de diálogo Explorar.


188 Capítulo 11

Dependientes. Trasladando a la lista Dependientes una o más variables de la lista de variables


del archivo y pulsando el botón Aceptar obtenemos los estadísticos y gráficos que el proce-
dimiento Explorar ofrece por defecto: varios estadísticos descriptivos, un diagrama de tallo
y hojas y un diagrama de caja.
Factores. Si en lugar de un análisis referido a todos los casos del archivo, deseamos análisis
separados para diferentes grupos de casos (por ejemplo, para hombres y para mujeres, o para
cada categoría laboral, etc.), podemos introducir la variable que define esos grupos en la lista
Factores. Si introducimos más de una variable factor, obtendremos, para cada variable depen-
diente, un análisis completo referido a cada uno de los grupos definidos por cada variable
factor. (Mediante sintaxis, es posible obtener información referida a subgrupos definidos por
la combinación de dos o más factores).
Etiquetar los casos mediante. En los diagramas de cajas y en los resultados que incluyen
listados de casos, los casos individuales son identificados por el número de registro (fila) que
ocupan en el editor de datos. Si deseamos utilizar como identificadores de caso los valores de
alguna variable, no tenemos más que introducir esa variable en este cuadro.
Mostrar. Las opciones de este recuadro permiten seleccionar qué parte del análisis deseamos
obtener: estadísticos y gráficos, sólo estadísticos o sólo gráficos.

Estadísticos
La opción Estadísticos (ver figura 11.1) permite obtener algunos estadísticos adicionales a los
que ofrece el procedimiento Explorar por defecto. Para seleccionar estos estadísticos:
| Pulsar el botón Estadísticos... del cuadro de diálogo Explorar (ver figura 11.1) para acce-
der al subcuadro de diálogo Explorar: Estadísticos que muestra la figura 11.2.
Para que el botón Estadísticos... esté activo es necesario que en el recuadro Mostrar esté
marcada la opción Ambos o la opción Estadísticos.

Figura 11.2. Subcuadro de diálogo Explorar: Estadísticos.

G Descriptivos. Esta opción, que se encuentra activa por defecto, ofrece la media aritmética,
la mediana, la media truncada o recortada al 5 % (media aritmética calculada eliminando
el 5 % de los casos con valores más pequeños y el 5 % de los casos con valores más gran-
des con el objetivo obtener una media menos sensible a la presencia de valores extremos),
Análisis exploratorio 189

el intervalo de confianza para la media, el error típico de la media, la varianza, la desvia-


ción típica, el valor mínimo, el valor máximo, la amplitud, la amplitud intercuartílica, los
índices de asimetría y curtosis, y los errores típicos de los índices de asimetría y curtosis.
Intervalo de confianza para la media: k %. Permite fijar el nivel de confianza con
el que deseamos obtener el intervalo de confianza para la media. El valor de k por de-
fecto es 95, pero es posible introducir cualquier otro valor entre 1 y 99,99.

G Estimadores robustos centrales. Son estimadores de tendencia central basados en el


método de máxima verosimilitud (de ahí que también sean conocidos como estimadores-
M). En realidad, un estimador robusto central o estimador-M no es más que una media
ponderada en la que los pesos asignados a los casos dependen de la distancia de cada caso
al centro de la distribución: los casos centrales reciben un peso de 1 y los demás valores
reciben un peso tanto menor cuanto más alejados se encuentran del centro.
Al igual que ocurre con la media truncada, los estimadores-M son menos sensibles que
la media aritmética a la presencia de valores extremos. Por tanto, cuando las distribuciones
son muy asimétricas, es preferible utilizar como índices de tendencia central, en lugar de
la media aritmética, los estimadores-M.
Existen varios estimadores-M que difieren entre sí por la forma concreta de asignar
pesos a los casos. El procedimiento Explorar incluye cuatro de estos estimadores: Huber,
Andrew, Hampel y Tukey (puede encontrarse una descripción detallada de estos estimado-
res en Norusis, 1993, págs. 192-194; y en Palmer, 1999, págs. 125-162).

G Valores atípicos. Muestra los 5 casos con valores más pequeños y los cinco casos con
valores más grandes. Si existen empates en los valores ocupados por el quinto caso más
pequeño o el quinto más grande, la salida muestra un mensaje indicado tal circunstancia.
(Mediante sintaxis, puede controlarse el número de casos atípicos listados).

G Percentiles. Muestra los percentiles 5, 10, 25, 50, 75, 90 y 95. El SPSS incluye diferentes
métodos para calcular percentiles. Marcando esta opción se obtienen percentiles calculados
con el método HAVERAGE, que consiste en asignar al percentil buscado el valor que ocu-
pa la posición i = p (n + 1) cuando los casos están ordenados de forma ascendente; p se
refiere a la proporción de casos que acumula el percentil buscado (por ejemplo, el percentil
30 acumula una proporción de casos de 0,30), y n se refiere al tamaño de la muestra). Si
el valor de i no es un número entero, el valor del percentil se obtiene por interpolación:
donde Xi se refiere al valor que ocupa la posición correspondiente a
la parte entera de i, y d se refiere a la parte decimal de i.
El SPSS incluye (disponibles mediante sintaxis) otros cuatro métodos de cálculo de
percentiles:
• El método WAVEREAGE es idéntico en todo al método HAVERAGE excepto
en un detalle: i = np.
• El método ROUND asigna al percentil buscado el valor que ocupa la posición
correspondiente a la parte entera de i = np + 0,5 (o, lo que es lo mismo, la posi-
ción entera más próxima a i = np).
190 Capítulo 11

• El método EMPIRICAL asigna el valor que ocupa la posición i = np cuando i es


un número entero, y el valor que ocupa la posición siguiente a la parte entera de
i cuando i = np es un número decimal.
• El método AEMPIRICAL asigna la media de Xi y Xi+1 cuando i = np es un número
entero, y asigna el valor que ocupa la posición siguiente a la parte entera de i
cuando i = np es un número decimal.
Los resultados también muestran las bisagras de Tukey: una versión distinta de los clásicos
cuartiles. La primera bisagra (similar al percentil 25) es el valor que ocupa la posición
intermedia entre la mediana y el valor más pequeño de la distribución; la segunda bisagra
es la mediana; la tercera bisagra (similar al percentil 75) es el valor que ocupa la posición
intermedia entre la mediana y el valor más grande de la distribución.

Ejemplo (Estadísticos descriptivos > Explorar > Estadísticos)

Este ejemplo muestra cómo obtener los estadísticos del procedimiento Explorar. Vamos a
utilizar para ello la variable salario como dependiente y la variable sexo como factor.
| En el cuadro de diálogo Explorar (ver figura 11.1), trasladar la variable salario actual
a la lista Dependientes y la variable sexo del empleado a la lista Factores.
| Pulsar el botón Estadísticos... para acceder al subcuadro de diálogo Explorar: Esta-
dísticos (ver figura 11.2).
| En el subcuadro de diálogo Explorar: Estadísticos, marcar todas las opciones: Des-
criptivos, Estimadores robustos centrales, Valores atípicos y Percentiles.
Aceptando estas elecciones, el Visor ofrece varias tablas con la información solicitada.

Tabla 11.1. Tabla de Descriptivos del procedimiento Explorar.


Salario actual
Sexo
Hombre Mujer
Estadístico Error típ. Estadístico Error típ.
Media $41,441.78 $1,213.97 $26,031.92 $514.26
Intervalo de confianza Límite inferior $39,051.19 $25,018.29
para la media al 95% Límite superior $43,832.37 $27,045.55
Media recortada al 5% $39,445.87 $25,248.30
Mediana $32,850.00 $24,300.00
Varianza 380219336,303 57123688,268
Desv. típ. $19,499.21 $7,558.02
Mínimo $19,650 $15,750
Máximo $135,000 $58,125
Rango $115,350 $42,375
Amplitud intercuartil $22,675.00 $7,012.50
Asimetría 1,639 ,152 1,863 ,166
Curtosis 2,780 ,302 4,641 ,330
Análisis exploratorio 191

La tabla 11.1 muestra los estadísticos generados por la opción Descriptivos. Se trata de los
estadísticos descriptivos clásicos: media, mediana, varianza, desviación típica, rango, índices
de asimetría y curtosis, etc. Como novedad, encontramos dos estadísticos descriptivos no reco-
gidos en los procedimientos Frecuencias y Descriptivos: la media recortada al 5 por ciento,
que adopta un valor más cercano a la mediana que a la media aritmética (lo que demuestra que
es menos sensible que ésta a la presencia de valores extremos); y la amplitud intercuartílica,
que refleja la distancia existente entre los cuartiles 1 y 3. La salida ofrece también los límites
del intervalo de confianza para la media al 95 por ciento: podemos estimar, con una confianza
del 95 por ciento, que el salario medio verdadero de los hombres se encuentra entre 39.051,19
y 43.832,37 dólares.

Tabla 11.2. Tabla de Estimadores -M del procedimiento Explorar.


Salario actual
Estimador-M Biponderado Estimador-M Onda de
Sexo de Huber de Tukey de Hampel Andrews
Hombre $34,820.15 $31,779.76 $34,020.57 $31,732.27
Mujer $24,607.10 $24,014.73 $24,421.16 $24,004.51

La tabla 11.2 recoge los estimadores robustos centrales o estimadores-M. Todos ellos oscilan
en torno a 33.000 $ en el grupo de varones y en torno a 24.000 $ en el grupo de mujeres, lo
cual representa una estimación de la tendencia central más próxima a los valores de la mediana
y de la media recortada que a los de la media aritmética (lo que revela, de nuevo, la sensibili-
dad de la media aritmética a la presencia de valores extremos).

Tabla 11.3. Tabla Percentiles del procedimiento Explorar.


Salario actual
Sexo
Hombre Mujer
Percentiles Promedio ponderado Bisagras de Tukey Promedio ponderado Bisagras de Tukey
5 $23,212.50 $16,950.00
10 $25,500.00 $18,660.00
25 $28,050.00 $28,050.00 $21,487.50 $21,525.00
50 $32,850.00 $32,850.00 $24,300.00 $24,300.00
75 $50,725.00 $50,550.00 $28,500.00 $28,500.00
90 $69,325.00 $34,890.00
95 $81,312.50 $40,912.50

La tabla 11.3. muestra los percentiles 5, 10, 25, 50, 75, 90 y 95 calculados con el método Wa-
verage. Si nos detenemos a estudiar el valor de los percentiles, descubriremos que nos encon-
tramos ante una distribución asimétrica positiva: la distancia entre el percentil 10 y el 50 es de
2.200 $, mientras que la distancia entre el percentil 50 y el 90 es de 6.216 $ (más del triple).
Junto con los percentiles, aparecen las tres bisagras de Tukey. En el grupo de hombres,
la tercera bisagra difiere ligeramente del tercer cuartil (percentil 75) calculado con el método
Waverage; en el grupo de mujeres, la primera bisagra difiere ligeramente del primer cuartil
(percentil 25).
192 Capítulo 11

Tabla 11.4. Tabla Valores extremos del procedimiento Explorar.

Salario actual
Sexo
Hombre Mujer
Mayores Menores Mayores Menores
Número del Número del Número del Número del
caso Valor caso Valor caso Valor caso Valor
1 29 $135,000 192 $19,650 371 $58,125 378 $15,750
2 32 $110,625 258 $21,300 348 $56,750 338 $15,900
3 18 $103,750 372 $21,300 468 $55,750 411 $16,200
4 343 $103,500 22 $21,750 240 $54,375 224 $16,200
5 446 $100,000 65 $21,900 72 $54,000 90 $16,200

La tabla 11.4 ofrece un listado de los 10 casos con valores más extremos: los cinco casos con
los valores más pequeños y los cinco casos con los valores más grandes. Vemos, por ejemplo,
que por la parte alta de la distribución de los hombres, hay cinco casos con salarios de 100.000
$ o más, mientras que en la distribución de las mujeres los casos con mayor salario no llegan
a 60.000 $.

Gráficos
La opción Gráficos (ver figura 11.1) ofrece la posibilidad de obtener varios tipos de gráficos
(diagramas de caja, diagramas de tallo y hojas, histogramas, gráficos de normalidad y de dis-
persión) y algunos estadísticos relacionados con los supuestos de normalidad y homogeneidad
de varianzas. Para obtener estos gráficos y estadísticos:
| Pulsar el botón Gráficos... del cuadro de diálogo Explorar (ver figura 11.1) para acceder
al subcuadro de diálogo Explorar: Gráficos que muestra la figura 11.3.
El botón Gráficos... sólo se encuentra activo si en el recuadro Mostrar está marcada la
opción Ambos o la opción Gráficos.

Figura 11.3. Subcuadro de diálogo Explorar: Gráficos.


Análisis exploratorio 193

Diagramas de caja

La figura 11.4 describe los detalles de un diagrama de caja. El diagrama incluye la mediana,
los percentiles 25 y 75 (en realidad son las bisagras de Tukey), y una serie de valores (atípicos,
extremos) que junto con la mediana y la propia caja proporcionan información bastante
completa sobre, entre otras cosas, el grado de dispersión de los datos y el grado de asimetría
de la distribución (ver Tukey, 1977).

Figura 11.4. Destalles de un diagrama de caja.

Las opciones del recuadro Diagramas de caja (ver figura 11.3) permiten decidir si deseamos
o no obtener diagramas de caja y, en caso afirmativo, optar entre dos formas diferentes de or-
ganizar los diagramas solicitados:
F Niveles de los factores juntos. Muestra un gráfico diferente para cada variable depen-
diente. En cada uno de esos gráficos aparecen juntos los diagramas de caja correspon-
dientes a los grupos definidos por una variable factor. Si no se ha seleccionado ninguna
variable factor, cada gráfico muestra un solo diagrama de caja: el correspondiente a toda
la muestra. Esta opción resulta útil para comparar distintos grupos en la misma variable.
Es la opción por defecto.
194 Capítulo 11

| En el cuadro de diálogo Explorar (ver figura 11.1), trasladar las variables salario ini-
cial y salario actual a la lista Dependientes y la variable sexo del empleado a la lista
Factores.
| Pulsar el botón Gráficos... para acceder al subcuadro de diálogo Explorar: Gráficos
(ver figura 11.3) y marcar la opción Niveles de los factores juntos del recuadro Dia-
gramas de caja.
Aceptando estas elecciones, obtenemos los diagramas de caja que muestran las figuras
11.5.a y 11.5.b.

Figura 11.5.a. Diagramas de caja de la variable salini (salario inicial) en hombres y mujeres.
Niveles de los factores juntos
100000

80000 29

60000 343

205
160
431
32
446
198
456
173
40000 34
137
257
290
420
103
200
430
329
71
450
232
341
348
Salario inicial

134
20000 468
189
462
222
413
467
74

0
N= 258 216

Hombre Mujer

Sexo

Figura 11.5.b. Diagrama de caja de la variable salario (salario actual) en hombres y mujeres.
Niveles de los factores juntos
160000

140000
29

120000
32
18
343
100000 446
103
34
106
454
431
80000

60000 371
348
468
240
72
80
168
Salario actual

413
277
40000 134
242

20000

0
N= 258 216

Hombre Mujer

Sexo

Vemos, en primer lugar, que la opción Niveles de los factores juntos genera dos gráficos:
uno para cada variable dependiente seleccionada. En cada gráfico aparecen juntos los
diagramas de caja correspondientes a los grupos definidos por la variable factor (sexo en
este caso). Las medianas nos informan del salario medio de cada grupo: la mediana de los
hombres es algo mayor que la de las mujeres en ambas variables dependientes. Una media-
na desplazada del centro de la caja delata la presencia de asimetría: de nuevo en ambas va-
Análisis exploratorio 195

riables, la mediana del grupo de hombres está desplazada hacia abajo, lo que indica asime-
tría positiva. Las cajas (cuya altura representa la amplitud intercuartílica) muestran el
grado de dispersión del 50 % de los casos centrales: en ambas variables, las cajas corres-
pondientes al grupo de hombres reflejan una amplitud mayor que las cajas del grupo de
mujeres. Los bigotes y los casos atípicos y extremos indican hacia dónde se desplazan los
valores más alejados del centro. En todos los casos se observan valores extremos (aste-
riscos) y atípicos (círculos) por la parte alta de las distribuciones, lo cual indica, de nuevo,
asimetría positiva (de forma más acusada en el grupo de hombres).
F Dependientes juntas. Muestra un gráfico diferente para cada grupo de los definidos por
la variable factor. En cada uno de esos gráficos aparecen juntos los diagramas de caja co-
rrespondientes a cada variable dependiente. Si el número de variables dependientes y de
grupos es pequeño, el SPSS intenta mostrar en un solo gráfico todos los diagramas solici-
tados. Si no se ha seleccionado ninguna variable factor, aparece un solo gráfico con tantos
diagramas de caja como variables dependientes. Esta opción resulta útil para comparar di-
ferentes variables dentro del mismo grupo.
| Seleccionar las mismas variables dependientes (salini y salario) y la misma variable
factor (sexo), pero marcar en el recuadro Diagramas de caja la opción Dependientes
juntas. Obtenemos así el diagrama que muestra la figura 11.6.

Figura 11.6. Diagramas de caja de las variables salini (salario inicial) y salario (salario actual)
en cada nivel de la variable sexo.

Dependientes juntas
160000

140000
29

120000
32
18
343
100000 446
103
34
106
454
431
80000 29

60000 343 371


348
468
240
205 72
80
160
32
431 168
446
198
456
173 413
277
40000 34
137
134
242
257
290
420
103
430
71
200
450
329
232
341
348
134
20000 468
189
413
462
467
74
222 Salario inicial

0 Salario actual
N= 258 258 216 216
Hombre Mujer

Sexo

Ahora aparecen juntos los diagramas de caja correspondientes a cada variable dependiente.
Como el número de variables dependientes y de factores es pequeño, en lugar de generar
dos gráficos, uno para cada grupo, el SPSS ha construido un solo gráfico con los dos gru-
pos. Con estos diagramas podemos extraer las mismas conclusiones que con los diagramas
de las figuras 11.5.a y 11.5.b. Pero ahora, además, constatamos que los promedios de la
variable salario actual son más altos que los de la variable salario inicial.
F Ninguno. Suprime de los resultados los diagramas de caja.
196 Capítulo 11

Diagramas Descriptivos

Este recuadro incluye dos tipos de gráficos descriptivos: diagramas de tallo y hojas e histogra-
mas:
G Tallo y hojas. Esta opción, que se encuentra activa por defecto, permite obtener gráficos
similares a los histogramas, pero que proporcionan información más precisa que éstos (ver
Tukey, 1977). La figura 11.7 muestra el diagrama de tallo y hojas de la variable edad (ver
apéndice) obtenido con una muestra de 148 sujetos.

Figura 11.7. Diagrama de tallo y hojas de la variable edad.

Frequency Stem & Leaf


12.00 2 s 666677777777
28.00 2 . 8888888888888888888899999999
30.00 3 * 000000000000000111111111111111
13.00 3 t 2222222222333
7.00 3 f 4445555
4.00 3 s 6666
12.00 3 . 888899999999
15.00 4 * 000011111111111
4.00 4 t 3333
4.00 4 f 4444
7.00 4 s 6666666
4.00 4 . 8889
3.00 5 * 011
3.00 5 t 222
2.00 Extremes (59) (64)
Stem width: 10.00
Each leaf: 1 case(s)

Al igual que en un histograma, la longitud de las líneas refleja el número de casos que
pertenecen a cada intervalo. Cada caso (o grupo de casos) está representado por un número
que coincide con el valor de ese caso en la variable. En un diagrama de tallo y hojas cada
valor se descompone en dos partes: el primer o primeros dígitos (el tallo o stem) y el dígito
que sigue a los utilizados en el tallo (las hojas o leaf). Por ejemplo, el valor 23 puede
descomponerse en un tallo de 2 y una hoja de 3; el valor 12.300 puede descomponerse en
un tallo de 12 y una hoja de 3; etc.
Cada tallo puede ocupar una o más filas. Si un tallo ocupa una sola fila, sus hojas con-
tienen dígitos del 0 al 9. Si ocupa dos filas, las hojas de la primera fila contienen dígitos
del 0 al 4 y las de la segunda fila dígitos del 5 al 9. Etc. En el diagrama de la figura 11.7,
los tallos (excepto el primero y el último) ocupan cinco filas: la primera fila contiene los
dígitos 0 y 1 (encabezadas con un asterisco); la segunda, los dígitos 2 y 3 (t = two, three);
la tercera, los dígitos 4 y 5 (f = four, five); la cuarta, los dígitos 6 y 7 (s = six, seven); y la
quinta, los dígitos 8 y 9 (encabezadas con un punto).
El ancho del tallo viene indicado en la parte inferior del diagrama (stem width) y es
un dato imprescindible para interpretar correctamente el diagrama. En el ejemplo de la fi-
gura 11.7, el tallo tiene un ancho de 10, lo que significa que los valores del tallo hay que
multiplicarlos por 10. Así, un tallo de 1 vale 10, un tallo de 2 vale 20, un tallo de 5 vale
50, etc.
Análisis exploratorio 197

Las hojas completan la información al tallo. Así, un tallo de 4 con una hoja de 3 repre-
senta una edad de 43 años; un tallo de 5 con una hoja de 0 representa una edad de 50 años.
Etc. El número de casos que representa cada hoja (cada hoja puede representar a más de
un caso) viene indicado en each leaf. Así, en la figura 11.7: each leaf = 1 caso; en la figura
11.8: each leaf = 3 casos.
Cuando el ancho del tallo vale 10 (como en el diagrama de la figura 11.7), los dígitos
de las hojas son unidades; cuando el ancho del tallo vale 100, los dígitos de las hojas son
decenas; cuando el ancho del tallo vale 1.000 (como en el diagrama de la figura 11.8), los
dígitos de las hojas son centenas. Etc.
La figura 11.8 muestra el diagrama de tallo y hojas de la variable salario inicial (sali-
ni). El ancho del tallo ahora vale 1.000, lo que indica que un tallo de 1 equivale a 1.000,
un tallo de 2 equivale a 2.000, un tallo de 12 equivale a 12.000, etc. Así, en el tallo 10 hay
7(3) = 21 casos cuyo salario es de 10.200 $, 1(3) = 3 casos cuyo salario es 10.500 $, etc.

Figura 11.8. Diagrama de tallo y hojas de la variable salario inicial.

Frequency Stem & Leaf


11,00 9 . 077
42,00 10 . 2222222599999&
40,00 11 . 12222222224555
43,00 12 . 0000004477777&
46,00 13 . 025555555555899&
30,00 14 . 1222222245&
104,00 15 . 0000000000000000037777777777777777&
29,00 16 . 0555555555&
11,00 17 . 2224&
20,00 18 . 0000077
14,00 19 . 55559
4,00 20 . 2&
13,00 21 . 027&
1,00 22 . &
4,00 23 . 27
1,00 24 . &
1,00 25 . &
60,00 Extremes (>=25500)
Stem width: 1000
Each leaf: 3 case(s)

La última fila del diagrama muestra el número de casos con valores extremos y los valores
concretos que toman esos casos (entre paréntesis). Así, por ejemplo, en el diagrama de la
figura 11.7 aparecen 2 casos extremos, con edades de 59 y 64 años; y en el diagrama de
la figura 11.8, 60 casos extremos con un salario de al menos 25.500 $.
G Histograma. Un histograma se construye agrupando los datos en intervalos de la misma
amplitud y levantando barras de altura proporcional al número de casos de cada intervalo.
Aunque esta opción permite obtener histogramas con amplitud calculada de forma automá-
tica, tanto la amplitud de los intervalos y como otros aspectos del histograma pueden con-
trolarse utilizando el Editor de gráficos. La figura 11.9 muestra un histograma de la varia-
ble salini. Se trata de la misma variable representada en el diagrama de tallo y hojas de la
figura 11.8, por lo que podemos comparar ambos diagramas y observar las coincidencias
y diferencias existentes entre ellos.
198 Capítulo 11

Figura 11.9. Histograma de la variable salario inicial.


Histograma
300

200

100
Frecuencia

Desv. típ. = 7870,64


Media = 17016,1

0 N = 474,00
10000,0 20000,0 30000,0 40000,0 50000,0 60000,0 70000,0 80000,0
15000,0 25000,0 35000,0 45000,0 55000,0 65000,0 75000,0

Salario inicial

Cómo contrastar supuestos

Muchos de los procedimientos estadísticos que estudiaremos en los próximos capítulos se apo-
yan en dos supuestos básicos: 1) normalidad: las muestras con las que trabajamos proceden de
poblaciones normalmente distribuidas, y 2) homocedasticidad u homogeneidad de varianzas:
todas esas poblaciones normales poseen la misma varianza. El subcuadro de diálogo Explorar:
Gráficos (figura 11.3) incluye varios estadísticos y gráficos para contrastar estos supuestos.

Normalidad

| Gráficos con pruebas de normalidad. Esta opción permite obtener dos gráficos de nor-
malidad (Q-Q normal y Q-Q normal sin tendencia) junto con dos pruebas de significación:
Kolmogorov-Smirnov (Kolmogorov, 1933; Smirnov, 1948; Lillieffors, 1967) y Shapiro-
Wilk (Shapiro y Wilk, 1965).
Las pruebas de significación permiten contrastar la hipótesis de que las muestras obte-
nidas proceden de poblaciones normales. El SPSS ofrece, por defecto, el estadístico de
Kolmogorov-Smirnov (con las probabilidades de Lillieffors para el caso en el que la media
y la varianza poblacionales son desconocidas y necesitan ser estimadas). Y sólo en el caso
de que el tamaño muestral sea igual o menor que 50 ofrece además el estadístico de Sha-
piro y Wilk. Para obtener estos estadísticos:
| En el cuadro de diálogo Explorar (ver figura 11.1), trasladar la variable salario
actual a la lista Dependientes y la variable nivel de estudios (ver apéndice) a la
lista Factores.
| Pulsar el botón Gráficos... (ver figura 11.1) para acceder al subcuadro de diálogo
Explorar: Gráficos (ver figura 11.3), y marcar la opción Gráficos con pruebas
de normalidad para obtener el resultado que muestra la tabla 11.5.
Análisis exploratorio 199

Tabla 11.5. Tabla Prueba de normalidad del procedimiento Explorar.


Salario actual
Nivel de estudios
Primarios Secundarios Medios Superiores
Kolmogorov-Smirnov a Estadístico ,119 ,079 ,154 ,113
gl 53 190 181 50
Sig. ,057 ,006 ,000 ,148
Shapiro-Wilk Estadístico ,951
gl 50
Sig. ,076
a. Corrección de la significación de Lilliefors

La tabla 11.5 ofrece los estadísticos de Kolmogorov-Smirnov y de Shapiro-Wilk acompañados


de sus correspondientes niveles críticos (Sig. = Significación). Ambos permiten contrastar la
hipótesis nula de que los datos muestrales proceden de poblaciones normales. Rechazaremos
la hipótesis de normalidad cuando el nivel crítico (Sig. ) sea menor que el nivel de significación
establecido (generalmente 0,05). En el ejemplo, sólo los estadísticos del grupo primarios y del
grupo superiores tienen asociados niveles críticos mayores que 0,05, lo que debe llevarnos a
concluir que el salario de los grupos secundarios y medios no procede de poblaciones norma-
les. El estadístico de Shapiro-Wilk sólo aparece con el nivel de estudios superiores porque es
el único grupo con un tamaño igual o menor que 50.
El problema de estos y otros estadísticos de normalidad es que, con muestras muy grandes,
son demasiado sensibles a pequeñas desviaciones de la normalidad. Por esta razón, es conve-
niente acompañar estos estadísticos con algún gráfico de normalidad. Según hemos señalado
ya, el procedimiento Explorar ofrece dos gráficos de normalidad: el Q-Q normal y el Q-Q nor-
mal sin tendencia (ver figura 11.10).

Figura 11.10. Gráficos de normalidad del procedimiento Explorar.

Gráfico Q-Q normal de Salario inicial Gráfico Q-Q normal sin tendencias de Salario inicial
3 6

5
2

4
1

3
0
2
Normal esperado

Desv. de normal

-1
1

-2
0

-3 -1
-20000 0 20000 40000 60000 80000 100000 0 20000 40000 60000 80000 100000

Valor observado Valor observado

En un gráfico Q-Q normal, cada valor observado (Yi) es comparado con la puntuación típica
NZi que teóricamente le correspondería a ese valor en una distribución normal estandarizada
(para comprender cómo se calculan esas puntuaciones típicas normales puede consultarse, en
el capítulo 5, el apartado Asignar rangos: Tipos de rangos). En el eje de abscisas están repre-
sentados los valores observados ordenados desde el más pequeño al más grande (Yi); en el de
ordenadas están representadas las puntuaciones típicas normales (NZi). Cuando una muestra
200 Capítulo 11

procede de una población normal, los puntos correspondientes a cada par se encuentran agru-
pados en torno a la diagonal representada en el diagrama. Las desviaciones de la diagonal indi-
can desviaciones de la normalidad.
Un gráfico Q-Q normal sin tendencia muestra las diferencias existentes entre la puntuación
típica observada de cada valor (Zi) y su correspondiente puntuación típica normal (NZi). Es
decir, muestra las distancias verticales existentes entre cada punto del gráfico Q-Q normal y
la recta diagonal. En el eje de abscisas están representados los valores observados (Yi) y en el
de ordenadas el tamaño de las diferencias entre las puntuaciones típicas observadas y las
esperadas (Zi–NZi). Si la muestra procede de una población normal, esas diferencias deben os-
cilar de forma aleatoria en torno al valor cero (línea recta horizontal). La presencia de pautas
de variación no aleatorias indica desviaciones de la normalidad.
Los ejemplos de las figuras 11.11.a, 11.11.b y 11.11.c pueden ayudarnos a comprender el
significado de los gráficos de normalidad. Estos diagramas recogen el comportamiento de tres
muestras de puntuaciones aleatoriamente extraídas de tres distribuciones de probabilidad
diferentes: una distribución normal, una distribución uniforme y una distribución ji-cuadrado.

Figura 11.11.a. Gráficos de normalidad: muestra extraída de una distribución normal.

Gráfico Q-Q normal (variable normal) Gráfico Q-Q normal sin tendencias (variable normal)
3 .3

2 .2

1 .1

0 .0

-1 -.1
Normal esperado

Desv de normal

-2 -.2

-3 -.3
-10 -8 -6 -4 -2 0 2 4 6 8 -10 -8 -6 -4 -2 0 2 4 6 8

Valor observado Valor observado

Figura 11.11.b. Gráficos de normalidad: muestra extraída de una distribución uniforme.


Gráfico Q-Q normal (variable uniforme) Gráfico Q-Q normal sin tendencias (variable uniforme)
3 1.0

.5

0 0.0

-1
Normal esperado

Desv de normal

-.5

-2

-3 -1.0
-.4 -.2 0.0 .2 .4 .6 .8 1.0 1.2 1.4 -.2 0.0 .2 .4 .6 .8 1.0 1.2

Valor observado Valor observado


Análisis exploratorio 201

Figura 11.11.c. Gráficos de normalidad: muestra extraída de una distribución ji-cuadrado.

Gráfico Q-Q normal (variable ji-cuadrado) Gráfico Q-Q normal sin tendencias (variable ji-cuadrad
3 .8

2 .6

1 .4

0 .2

-1 0.0
Normal esperado

Desv de normal
-2 -.2

-3 -.4
-10 0 10 20 30 0 10 20 30

Valor observado Valor observado

Podemos observar que, cuando una muestra de puntuaciones se distribuye normalmente (figura
11.11.a), los puntos del diagrama Q-Q normal se ajustan a la diagonal y los puntos del dia-
grama Q-Q normal sin tendencia se distribuyen aleatoriamente sin mostrar una pauta clara. Por
el contrario, cuando una muestra de puntuaciones procede de una distribución uniforme (figura
11.11.b) o de una distribución ji-cuadrado (figura 11.11.c), los puntos del diagrama Q-Q nor-
mal no se ajustan a la diagonal y los puntos del diagrama Q-Q normal sin tendencia muestran
una pauta de variación claramente no aleatoria.

Homogeneidad de varianzas

Además del supuesto de normalidad recién estudiado, el procedimiento Explorar también per-
mite contrastar el supuesto de homogeneidad de varianzas (lo que requiere, obviamente, haber
seleccionado al menos una variable en la lista Factor del cuadro de diálogo Explorar –ver fi-
gura 11.1).
El recuadro Dispersión por nivel con prueba de Levene del subcuadro de diálogo Explo-
rar: Gráficos (ver figura 11.3) proporciona: 1) la prueba de Levene (1960) para contrastar la
hipótesis de que los grupos definidos por la variable factor proceden de poblaciones con la mis-
ma varianza y 2) un gráfico de dispersión de la variable dependiente en cada nivel definido por
la variable factor (gráfico de dispersión por nivel).
La prueba de Levene consiste en llevar a cabo una Análisis de varianza de un factor (ver
capítulo 14) utilizando como variable dependiente la diferencia en valor absoluto entre cada
puntuación individual y la media (o la mediana, o la media recortada) de su grupo. Para obtener
la prueba de Levene:
| En el cuadro de diálogo Explorar (ver figura 11.1), trasladar la variable salario actual
a la lista Dependientes y la variable nivel de estudios (ver apéndice) a la lista Facto-
res.
| Pulsar el botón Gráficos para acceder al cuadro de diálogo Explorar: Gráficos (ver
figura 11.3) y marcar la opción No transformados.
202 Capítulo 11

Aceptando estas elecciones, obtenemos el estadístico de Levene que recoge la tabla 11.6. Para
obtener el estadístico de Levene es necesario que en el recuadro Mostrar del cuadro de diálogo
Explorar (ver figura 11.1) esté marcada la opción Ambos.

Tabla 11.6. Tabla Prueba de homogeneidad de varianzas del procedimiento Explorar.


Salario actual
Estadístico
de Levene gl1 gl2 Sig.
Basándose en la media 28,085 3 470 ,000
Basándose en la mediana. 21,799 3 470 ,000
Basándose en la mediana y con gl corregido 21,799 3 266,893 ,000
Basándose en la media recortada 24,767 3 470 ,000

El nivel crítico (Sig.) asociado al estadístico de Levene permite contrastar la hipótesis de homo-
geneidad de varianzas: si el valor del nivel crítico es menor que 0,05, podemos rechazar la
hipótesis de homogeneidad. En el ejemplo, el nivel crítico (cualquiera que sea el estimador de
tendencia central a partir del cual obtengamos las diferencias) vale 0,000, por lo que podemos
afirmar que la varianza de la variable salario actual no es la misma en las cuatro poblaciones
definidas por la variable estudios.

Además de la prueba de Levene, el recuadro Dispersión por nivel con prueba de Levene (fi-
gura 11.3) contiene varias opciones relacionadas con el gráfico de dispersión por nivel:
F Ninguno. Con esta opción activa, el Visor de resultados no ofrece ni la prueba de Levene
sobre homogeneidad de varianzas ni el gráfico de dispersión por nivel. Es la opción por
defecto.
F Estimación de potencia. Cuando se incumple el supuesto de homogeneidad de varianzas
(supuesto necesario para poder utilizar con garantía algunos procedimientos estadísticos
como el análisis de varianza), es práctica frecuente aplicar algún tipo de transformación
a los datos originales para conseguir homogeneizar las varianzas.
Una transformación basada en potencias consiste en elevar las puntuaciones originales
a una potencia específica. Para determinar la potencia apropiada, el SPSS genera un gráfi-
co de dispersión comparando, para cada grupo, el logaritmo en base e de la mediana (en
el eje de abscisas) con el logaritmo de la amplitud intercuartílica (en el eje de ordenadas).
Cuando las varianzas son iguales, los puntos del gráfico se encuentran a la misma altura,
es decir, alineados horizontalmente. La figura 11.12 muestra uno de estos gráficos referido
a las variables salario actual (dispersión) y nivel de estudios (nivel).
El gráfico de Dispersión por nivel de la figura 11.12 muestra 4 puntos, uno por cada
nivel de la variable estudios. El hecho de que los puntos no se encuentren horizontalmente
alineados indica que las varianzas no son homogéneas (lo cual coincide con la información
proporcionada por el estadístico de Levene).
El gráfico también muestra el valor de la pendiente de la recta de regresión (ver ca-
pítulo 18) obtenida por el método de mínimos cuadrados (Inclinación = 0,973). A partir
del valor de la pendiente de la recta de regresión, el SPSS ofrece una estimación de la
potencia a la que habría que elevar las puntuaciones de la variable dependiente (salario
actual) para homogeneizar las varianzas de esa variable en cada nivel de la variable factor
Análisis exploratorio 203

(nivel de estudios); o, mejor, para intentar homogeneizarlas, porque lo cierto es que no


siempre se consigue.
La estimación del valor de esa potencia se obtiene restando a uno el valor de la pen-
diente de la recta de regresión; en el ejemplo: 1 – 0,212 = 0,788. La potencia así estimada
puede tomar cualquier valor. Sin embargo, lo habitual es utilizar potencias redondeadas
a múltiplos de 0,5 (incluyendo el cero). Algunas de las potencias más utilizadas para trans-
formar datos son las siguientes: –1 = recíproco; –½ = recíproco de la raíz cuadrada; 0 =
logaritmo natural; ½ = raíz cuadrada; 1 = sin transformación; 2 = cuadrado; 3 = cubo. To-
das estas transformaciones, que son las habitualmente recomendadas en la literatura
estadística, están recogidas en la opción Transformados.
Con el valor de potencia obtenido en el ejemplo (0,788), utilizaríamos una potencia
redondeada de 1, que equivale a no efectuar ningún tipo de transformación; lo cual signi-
fica que el SPSS no ha encontrado un valor de potencia que permita homogeneizar las
varianzas.

Figura 11.12. Gráfico de dispersión por nivel de salario actual por nivel de estudios.

18000

16000

14000

12000

10000
Dispersión

8000

6000
20000 30000 40000 50000 60000 70000

Nivel
Inclinación = ,212

F Trasformados. Una vez estimada la potencia apropiada para la homogeneización de las


varianzas, podemos utilizar la opción Transformados para aplicar la transformación suge-
rida por el SPSS. Esta opción incluye, dentro de la lista desplegable Potencia, las siguien-
tes transformaciones: logaritmo natural, recíproco de la raíz cuadrada, recíproco, raíz
cuadrada, cuadrado y cubo. Todas estas transformaciones intentan homogeneizar las va-
rianzas alterando (aumentando en unos casos y disminuyendo en otros) las varianzas de
las distribuciones y corrigiendo el grado de asimetría.
La transformación logarítmica es apropiada para corregir distribuciones positivamente
asimétricas. Y lo mismo vale decir de la transformación raíz cuadrada (si los valores de
la variable transformada son pequeños, es conveniente sumar 0,5 a cada puntuación antes
de obtener la raíz cuadrada). La transformación de los valores en sus recíprocos es adecua-
da cuando existen valores muy extremos por el lado positivo (cosa que ocurre, por ejem-
204 Capítulo 11

plo, con tiempos de reacción, donde los tiempos muy largos indican, probablemente, falta
de atención más que otra cosa). Las transformaciones cuadrado y cubo permiten corregir,
cada una en distinto grado, la asimetría negativa.
Al solicitar un gráfico de Dispersión por nivel seleccionando algún tipo de transfor-
mación, tanto la prueba de Levene como el gráfico de dispersión se obtienen a partir de los
datos transformados. Pero, excepto en el caso de la transformación logarítmica, al solicitar
una transformación basada en alguna de las potencias disponibles, el gráfico de dispersión
por nivel se obtiene a partir de la mediana y de la amplitud intercuartílica, no a partir de
sus logaritmos (estos valores, los logaritmos de la mediana y de la amplitud intercuartílica,
son los que se utilizan en las opciones Estimación de potencia y No transformados).

F No transformados. Esta opción permite obtener la prueba de Levene y el gráfico de


dispersión por nivel a partir de los datos originales, sin ningún tipo de transformación (lo
cual es equivalente a utilizar una potencia de 1). El gráfico de dispersión por nivel se ob-
tiene comparando, para cada grupo, el logaritmo (en base e) de la mediana (en el eje de
abscisas) con el logaritmo de la amplitud intercuartílica (en el eje de ordenadas).

Opciones
Las opciones del procedimiento Explorar permiten decidir qué tipo de tratamiento deseamos
dar a los valores perdidos. Para ello:
| Pulsar el botón Opciones... del cuadro de diálogo Explorar (figura 11.1) para acceder al
subcuadro de diálogo Explorar: Opciones que muestra la figura 11.13.

Figura 11.13. Subcuadro de diálogo Explorar: Opciones.

Valores perdidos. Las opciones de este recuadro permiten elegir una de las siguientes tres for-
mas de tratar los valores perdidos:
F Excluir casos según lista. Se excluyen de todos los análisis solicitados los casos con
algún valor perdido en cualquiera de las variables introducidas en las lista dependien-
tes o en la lista factores. Es la opción por defecto.
F Excluir casos según pareja. Se excluyen de cada análisis concreto los casos con al-
gún valor perdido en las variables que intervienen en ese análisis (no son excluidos de
un análisis concreto los casos que, aun teniendo algún valor perdido en alguna variable
de las listadas, no lo tienen en las variables objeto de ese análisis).
Análisis exploratorio 205

F Mostrar valores. Los casos con valores perdidos en la(s) variable(s) factor son trata-
dos como una categoría más de esa(s) variable(s). Las tablas de frecuencias muestran
los valores perdidos como una categoría más aunque esta opción no esté marcada.
Francisco M. Ocaña Peinado

Técnicas estadı́sticas en Nutrición y Salud

Tratamiento estadı́stico de outliers y datos faltantes

1. Datos Atı́picos o Outliers


Se denominan casos atı́picos u outliers a aquellas observaciones con ca-
racterı́sticas diferentes de las demás. Este tipo de casos no pueden ser ca-
racterizados categóricamente como benéficos o problemáticos sino que deben
ser contemplados en el contexto del análisis y debe evaluarse el tipo de in-
formación que pueden proporcionar.

Su principal problema radica en que son elementos que pueden no ser re-
presentativos de la población pudiendo distorsionar seriamente el comporta-
miento de los contrastes estadı́sticos. Por otra parte, aunque diferentes a la
mayor parte de la muestra, pueden ser indicativos de las caracterı́sticas de
un segmento válido de la población y, por consiguiente, una señal de la falta
de representatividad de la muestra.

1.1. Tipos de outliers


Los casos atı́picos pueden clasificarse en 4 categorı́as:

Casos atı́picos que surgen de un error de procedimiento, tales como


la entrada de datos o un error de codificación. Estos casos atı́picos
deberı́an subsanarse en el filtrado de los datos, y si no se puede, deberı́an
eliminarse del análisis o recodificarse como datos ausentes.

Observación que ocurre como consecuencia de un acontecimiento ex-


traordinario. En este caso, el outlier no representa ningún segmento
válido de la población y puede ser eliminado del análisis.

Observaciones cuyos valores caen dentro del rango de las variables ob-
servadas pero que son únicas en la combinación de los valores de dichas
variables. Estas observaciones deberı́an ser retenidas en el análisis pero
estudiando qué influencia ejercen en los procesos de estimación de los
modelos considerados.

Datos extraordinarios para las que el investigador no tiene explicación.


En estos casos lo mejor que se puede hacer es replicar el análisis con

1
y sin dichas observaciones con el fin de analizar su influencia sobre los
resultados. Si dichas observaciones son influyentes el analista deberı́a
reportarlo en sus conclusiones y deberı́a averiguar el por qué de dichas
observaciones.

1.2. Identificación de outliers


Se debe examinar la distribución de observaciones para cada variable,
seleccionando como casos atı́picos aquellos casos cuyos valores caigan fuera
de los rangos de la distribución. La cuestión principal consiste en el esta-
blecimiento de un umbral para la designación de caso atı́pico. Esto se puede
hacer gráficamente mediante histogramas o diagramas de caja o bien numéri-
camente, mediante el cálculo de puntuaciones tipificadas.

Para muestras pequeñas (de 80 o incluso menos observaciones), las pau-


tas sugeridas identifican como atı́picos aquellos casos con valores estándar
de 2.5 o superiores. Cuando los tamaños muestrales son mayores, las pautas
sugieren que el valor umbral sea 3.

2. Datos ausentes o missing


Los datos ausentes son algo habitual, de hecho, rara es la investigación en
la que no aparece este tipo de datos. En estos casos la ocupación primaria del
investigador debe ser determinar las razones que subyacen en el dato ausente
buscando entender el proceso principal de esta ausencia para seleccionar el
curso de acción más apropiado. Para ello se debe determinar cuál es el pro-
ceso de datos ausentes, entendido como cualquier evento sistemático externo
al encuestado (errores en la introducción de datos) o acción por parte del en-
cuestado (tales como rehusar a contestar) que da lugar a la ausencia de datos.

En particular, el investigador debe analizar si existe algún patrón no aleato-


rio en dicho proceso que pueda sesgar los resultados obtenidos debido a la
pérdida de representatividad de la muestra analizada.

2.1. Tipos de valores missing


Existen 2 tipos de valores missing:

Datos ausentes prescindibles: son resultado de procesos que se en-


cuentran bajo el control del investigador y pueden ser identificados

2
explı́citamente. En estos casos no se necesitan soluciones especı́ficas
para la ausencia de datos dado que dicha ausencia es inherente a la
técnica usada.
Ejemplos de estas situaciones son aquellas observaciones de una pobla-
ción que no están incluidas en la muestra o los llamados datos censura-
dos que son observaciones incompletas como consecuencia del proceso
de obtención de datos seguido en el análisis.
Datos ausentes no prescindibles: son resultado de procesos que no
se encuentran bajo el control del investigador y/o no pueden ser iden-
tificados explı́citamente. Ejemplos de estas situaciones son los errores
en la entrada de datos, la renuncia del encuestado a responder a ciertas
cuestiones o respuestas inaplicables. En estos casos se debe analizar si
existen o no patrones sistemáticos en el proceso que puedan sesgar los
resultados obtenidos.
Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar
el grado de aleatoriedad presente en los mismos. Según este grado el proceso
de datos ausentes se puede clasificar del siguiente modo:
1. Datos ausentes completamente aleatorios (MCAR): este es el
mayor grado de aleatoriedad y se da cuando los datos ausentes son una
muestra aleatoria simple de la muestra sin un proceso subyacente que
tiende a sesgar los datos observados. En este caso se podrı́a solucionar
el problema sin tener cuenta el impacto de otras variables
2. Datos ausentes aleatorios (MAR): en este caso el patrón de los
datos ausentes en una variable Y no es aleatorio sino que depende de
otras variables de la muestra X. Ahora bien, para cada valor de X, los
valores observados de Y sı́ representan una muestra aleatoria de Y. Ası́,
por ejemplo, si X es el sexo del encuestado e Y es su renta, un proceso
MAR se tendrı́a si existen más valores ausentes de Y en hombres que
en mujeres y, sin embargo, los datos son aleatorios para ambos sexos
en el sentido de que, tanto en los hombres como en las mujeres, el
patrón de ausentes es completamente aleatorio. Si, además, tampoco
existen diferencias por sexos los datos ausentes serı́an MCAR. Si los
datos ausentes son MAR cualquier solución al problema deberá tener
en cuenta los valores de X dado que afectan al proceso generador de
datos ausentes.
3. Datos ausentes no aleatorios: en este caso existen patrones sis-
temáticos en el proceso de datos ausentes y habrı́a que evaluar la mag-
nitud del problema calibrando, en particular, el tamaño de los sesgos

3
introducidos por dichos patrones. Si éstos son grandes habrı́a que ata-
car el problema directamente intentando averiguar cuáles son dichos
valores.

2.2. Localización de datos missing


El primer paso en el tratamiento de datos ausentes consiste en evaluar la
magnitud del problema. Para ello se comienza analizando el porcentaje de
datos ausentes por variables y por casos.

Si existen casos con un alto porcentaje de datos ausentes se deberı́an ex-


cluir del problema. Ası́ mismo si existe una variable con un alto porcentaje
de este tipo de casos su exclusión dependerá de la importancia teórica de la
misma y la posibilidad de ser reemplazada por variables con un contenido
informativo similar.

Como regla general, sin embargo, si dicha variable es dependiente deberı́a


ser eliminada ya que cualquier proceso de imputación de valores puede dis-
torsionar la significación estadı́stica y práctica de los modelos estimados para
ella.

2.3. Diagnóstico de la aleatoriedad de datos missing


Existen 3 métodos:

Para cada variable Y formar dos grupos (observaciones ausentes y pre-


sentes en Y) y aplicar contrastes de comparación de dos muestras para
determinar si existen diferencias significativas entre los dos grupos so-
bre otras variables de interés. Si se encuentran diferencias significativas
el proceso de datos ausentes no es aleatorio.

Utilizar correlaciones dicotomizadas para evaluar la correlación de los


datos ausentes en cualquier par de valores. Estas correlaciones indi-
carı́an el grado de asociación entre los valores perdidos sobre cada par
de variables. Bajas correlaciones implican aleatoriedad en el par de va-
riables y que los datos ausentes pueden clasificarse como MCAR. En
caso contrario son MAR.

Realizar contrastes conjuntos de aleatoriedad que determinen si los da-


tos ausentes pueden ser clasificados como MCAR. Estos contrastes ana-
lizan el patrón de datos ausentes sobre todas las variables y las compara
con el patrón esperado para un proceso de datos ausentes aleatorio. Si

4
no se encuentran diferencias significativas el proceso puede clasificarse
como MCAR; en caso contrario deben utilizarse los procedimientos a) y
b) anteriores para identificar los procesos especı́ficos de datos ausentes
que no son aleatorios.

2.4. Aproximaciones al tratamiento de datos ausentes


Si se encuentran procesos de datos ausentes MAR o no aleatorios, el in-
vestigador deberı́a aplicar sólo el método diseñado especı́ficamente para este
proceso. Sólo si el investigador determina que el proceso de ausencia de datos
puede clasificarse como MCAR pueden utilizarse las siguientes aproximacio-
nes:
Utilizar sólo los casos completos: conveniente si el tamaño muestral no
se reduce demasiado
Supresión de casos y/o variables con una alta proporción de datos
ausentes. Esta supresión deberá basarse en consideraciones teóricas y
empı́ricas. En particular, si algún caso tiene un dato ausente en una va-
riable dependiente, habitualmente excluirlo puesto que cualquier proce-
so de imputación puede distorsionar los modelos estimados. Ası́ mismo
una variable independiente con muchos datos ausentes podrá eliminarse
si existen otras variables muy similares con datos observados.
Imputar valores a los datos ausentes utilizando valores válidos de otras
variables y/o casos de la muestra:

1) Métodos de disponibilidad completa que utilizan toda la infor-


mación disponible a partir de un subconjunto de casos para ge-
neralizar sobre la muestra entera. Se utilizan habitualmente para
estimar medias, varianzas y correlaciones.
2) Métodos de sustitución que estiman valores de reemplazo para los
datos ausentes, sobre la base de otra información existente en la
muestra. Ası́ se podrı́a sustituir observaciones con datos ausentes
por observaciones no maestrales o sustituir dichos datos por la
media de los valores observados o mediante regresión sobre otras
variables muy relacionadas con aquella a la que le faltan observa-
ciones.
3) Métodos basados en modelos que construyen explı́citamente el me-
canismo por el que se producen los datos ausentes y lo estiman
por máxima verosimilitud. Entran en esta categorı́a el algoritmo
EM o los procesos de aumento de datos.

5
3. Referencias sobre Análisis de Outliers y
Missing
HAIR, J., ANDERSON, R., TATHAM, R. y BLACK, W. (1999). Análi-
sis Multivariante. 5a Edición. Prentice Hall.

LITTLE, R.J.A. and RUBIN, D. (1987) Statistical Analysis with Mis-


sing Data. New York. Wiley.

RIAL, A.; VARELA, J. y ROJAS, A. (2001). Depuración y Análisis


Preliminares de Datos en SPSS. Sistemas Informatizados para la In-
vestigación del Comportamiento. RA-MA.

6
DATOS ATIPICOS EN EXCEL

Un valor atípico es una observación que se encuentra anormalmente


alejada de otros valores en un conjunto de datos. Los valores atípicos
pueden ser problemáticos porque pueden afectar los resultados de un
análisis.
Usaremos el siguiente conjunto de datos en Excel para ilustrar dos métodos
para encontrar valores atípicos:
Método 1: utilice el rango intercuartílico
El rango Inter cuartil (IQR) es la diferencia entre el percentil 75 (Q3) y el
percentil 25 (Q1) en un conjunto de datos. Mide la propagación del 50%
medio de los valores.
Podemos definir una observación como un valor atípico si es 1,5 veces el
rango Inter cuartil mayor que el tercer cuartil (Q3) o 1,5 veces el rango Inter
cuartil menor que el primer cuartil (Q1).
A continuación, podemos usar la fórmula mencionada anteriormente para
asignar un «1» a cualquier valor que sea un valor atípico en el conjunto de
datos:
Método 2: utilizar puntuaciones z
Un puntaje z le dice cuántas desviaciones estándar tiene un valor dado de
la media. Usamos la siguiente fórmula para calcular una puntuación z:
z = (X – μ) / σ
dónde:

• X es un único valor de datos sin procesar


• μ es la media de la población
• σ es la desviación estándar de la población

Podemos definir una observación como un valor atípico si tiene una


puntuación z menor que -3 o mayor que 3.

La siguiente imagen muestra cómo calcular la desviación estándar y media


de un conjunto de datos en Excel:
Luego, podemos usar la media y la desviación estándar para encontrar el
puntaje z para cada valor individual en el conjunto de datos:
Luego, podemos asignar un «1» a cualquier valor que tenga una
puntuación z menor que -3 o mayor que 3:
Con este método, vemos que no hay valores atípicos en el conjunto de
datos.

Nota: A veces se usa una puntuación z de 2.5 en lugar de 3. En este caso,


el valor individual de 164 se consideraría un valor atípico ya que tiene una
puntuación z mayor que 2.5. Cuando utilice el método de puntuación z,
utilice su mejor criterio para determinar qué valor de puntuación z
considera que es un valor atípico.
Cómo manejar valores atípicos
Si hay un valor atípico en sus datos, tiene algunas opciones:

1. Asegúrese de que el valor atípico no sea el resultado de un error de


entrada de datos.
A veces, una persona simplemente ingresa el valor de datos incorrecto al
registrar datos. Si hay un valor atípico, primero verifique que el valor se
ingresó correctamente y que no fue un error.

2. Elimine el valor atípico.


Si el valor es un valor atípico verdadero, puede optar por eliminarlo si
tendrá un impacto significativo en su análisis general. Solo asegúrese de
mencionar en su informe o análisis final que eliminó un valor atípico.

3. Asigne un nuevo valor al valor atípico.


Si el valor atípico es el resultado de un error de entrada de datos, puede
decidir asignarle un nuevo valor, como la media o la mediana del conjunto
de datos.

También podría gustarte