Tema 2 PDF

ANÁLISIS MULTIVARIANTE
2º Curso: Grado de Psicología

EL ANÁLISIS PRELIMINAR DE LOS DATOS
§ Material complementario y de apoyo TEMA 2
§ Práctica interactiva
Dr. Jesús Varela Mallou

Dr. Antonio Rial Boubeta
Área de Metodología de las

Ciencias del Comportamiento
Dpto. Psicología Social, Básica y Metodología
Facultad de Psicología
Curso: 2022-2023
www.usc.es/psicom
ÍNDICE
1. Material complementario y de apoyo ……………... 3
2. Práctica Interactiva de Análisis Exploratorio …….. 59
Caso práctico 1 …………………………………… 60

Caso práctico 2 …………………………………… 88
Caso práctico 3 …………………………………… 93
BREVE RESUMEN DE LA PRIMERA PRÁCTICA INTERACTIVA
• La clase interactiva presencial de este tema consistirá en la ejecución del

CASO PRÁCTICO 3, página 93
• No olvides que a dicha clase debes de asistir con las páginas 93 a 98
impresas. La práctica va a consistir en resolver ese caso 3 ejecutando el
software SPSS y, después, respondiendo a las preguntas que se plantean
en las páginas 93 a 98
• Al finalizar esa clase interactiva debes de entregar las 6 hojas al profesor.
Esa misma entrega servirá para controlar la asistencia a dicha práctica.
• Importante: No es posible entregar la práctica resuelta en otro momento u

otro día, hay que hacerlo al finalizar la clase. Es por ello que te recomiendo
asistas a las clases interactivas habiendo trabajado previamente el material.
Para ello la USC pone a tu disposición la licencia de SPSS. El código de
licencia para SPSS V28 es: 406b1fbab4592427c964
• El CASO PRÁCTICO 1 sobre el “Turismo en Santiago” verás que consta

de 4 apartados. (1) La descripción y contextualización del caso, (2) la ficha
que conforma el ejercicio práctico a resolver, (3) un pequeño manual con el
procedimiento SPSS a seguir para resolver lo que se propone en la ficha y,
finalmente, (4) la propia ficha resuelta correctamente. Creemos que ello os
puede resultar útil para reforzar vuestro aprendizaje y autoevaluación. Os
proponemos que tratéis de ejecutarlo de manera individual y cumplimentéis
los espacios en blanco de este caso práctico 1, y luego vayáis a la solución,
para autoevaluar vuestro desempeño.
• De manera voluntaria puedes intentar resolver el CASO PRÁCTICO 2

sobre “Recursos Humanos”. En el último apartado de este CASO 2 se
muestra la solución correcta (páginas 91 y 92). No tienes que entregar nada
al profesor. Es material diseñado para facilitar tu aprendizaje del tema.
• Nota: en el campus virtual puedes descargar los 3 ficheros de datos.sav
2
TEMA 2: ANÁLISIS EXPLORATORIO DE DATOS
1. Material complementario y de apoyo
1. Introdución
En general toda investigación implica tener que recoger y analizar datos. Dichos
datos pueden ser analizados con distintos fines: descriptivos (tratando de
extraer la información más relevante que contienen y presentarla de una manera
sencilla y comprensiva) o inferenciales (tratando de estimar los parámetros
poblacionales a partir de los datos de la muestra o intentando contrastar las
posibles hipótesis que nos hayamos planteado). No obstante, antes de su
análisis, interpretación y tabulación que terminará con la elaboración del informe
correspondiente, es necesario proceder a un “análisis exploración de los datos”,
independientemente del tipo de tratamiento estadístico que vayamos a darle o
del objetivo que persigamos.
A pesar de la cantidad innumerable de pruebas estadísticas que podemos llevar
a cabo sobre un conjunto de datos, debemos conocer que si procedemos a su
análisis directamente, tal y como son recogidos, podemos encontrarnos con
distintos problemas: (1) errores debidos al instrumento de medida utilizado para
su recogida (cuestionario por correo, entrevista personal y telefónica, etc.), (2)
excesivo número de sujetos que dejan alguna pregunta sin responder, (3) errores
en la codificación, (4) errores en la grabación de los datos en un determinado
programa estadístico o, lo que es más grave, (5) no comprobar los supuestos
paramétricos y utilizar una técnica estadística equivocada, etc.
Necesitamos, por tanto, un conocimiento previo de los datos desde una
perspectiva exploratoria, que nos permita conocer la estructura y calidad de los
mismos, subsanar errores, examinarlos visualmente para poder entenderlos
antes de analizarlos en profundidad, comprobar si cumplen determinadas
características o supuestos e, incluso, puede ser conveniente trasformar alguna
de las variables que intervienen en el estudio, para ajustarlas al tipo de
distribuciones en que se basa el análisis que vayamos a llevar a cabo.
En resumen, podríamos decir que el análisis exploratorio se hace imprescindible
básicamente por dos razones:
2. Por las fuentes de error inherentes a la recogida de los datos, tales como los
errores de respuesta provocados por los instrumentos de medida, la
codificación y grabación, la no respuesta o casos “missing” e, incluso, por las
instrucciones informáticas de lectura y recodificación de variables y valores.
3. Porque la elección de una u otra técnica estadística está sujeta al
cumplimiento de una serie de supuestos teóricos que es preciso verificar. Es
conveniente examinar las distribuciones de los datos para los diferentes
grupos, hacer pruebas de normalidad, homogeneidad de varianzas, etc.
Desde el punto de vista Estadístico, el Análisis Exploratorio ordena y representa
los datos en tablas y gráficas, ofreciendo distintas pruebas que facilitan la
depuración de estos. Dicha depuración persigue básicamente tres objetivos:
3
a) Detectar posibles valores ausentes y casos extremos o “outliers” que puedan
ser “influyentes” en los resultados. En este caso puede recurrirse a uno de los
métodos de sustitución que ofrecen los distintos paquetes estadísticos.
b) Comprobar los supuestos paramétricos que intervienen tanto en la estimación
como en el contraste de hipótesis estadísticas. En concreto, los estadísticos
de Shapiro-Wilks y Lilliefors nos informan acerca de la normalidad, mientras
que el test de Levene lo hace acerca de la homocedasticidad.
c) Considerar la necesidad de transformar las variables con el fin de que se
ajusten a un tipo de distribución o que cumplan determinados supuestos. En
ocasiones las transformaciones pueden no ser pertinentes y, en ese caso,
habrá que recurrir a una técnica no paramétrica para el análisis de los datos.
El análisis exploratorio de los datos es, por tanto, el primer paso que debemos
llevar a cabo en el análisis de la información recogida. Independientemente de si
vamos a realizar una t de student, un ANOVA, un análisis de correlaciones, o a
aplicar cualquier técnica multivariante, siempre debemos comenzar examinando
con detalle el fichero de datos.
1.2. Los valores ausentes o casos missing. Su identificación y

sustitución
Debido a errores tanto en el diseño de los instrumentos de medida, como en las
respuestas de los sujetos, es frecuente encontrarse con variables que tienen
valores perdidos o “missing”, ítems de un cuestionario a los que o bien el sujeto
no responde, o bien su codificación es confusa. Esta falta de información puede
interferir en análisis posteriores, por lo que es conveniente prestarle la debida
atención.
Si decidimos no reconstruir la información sustituyendo los valores que faltan por
algún otro valor, debemos decidir qué hacemos con los sujetos que presentan
valores missing. Si queremos prescindir de ellos, podríamos optar por dos
alternativas que se conocen como listwise y pairwise, respectivamente. La
primera de ellas elimina o prescinde de aquellos sujetos que tienen un valor
perdido en cualquiera de las variables de nuestro fichero de datos. La segunda
es más flexible y elimina únicamente aquellos sujetos con valores perdidos sólo
en las variables intervinientes en un análisis concreto, por ejemplo, en el cálculo
de cada coeficiente de correlación. La principal ventaja del pairwise es que los
cálculos se realizarán con mayores tamaños muestrales, sin embargo, tiene
como inconveniente que cada coeficiente presenta un tamaño de muestra
distinto, lo cual dificulta su posterior comparación.
Efectivamente, si la ausencia de información es pequeña y repartida al azar, no
hay demasiado problema y los datos pueden ser analizados directamente, con lo
que prescindiríamos de la información que nos falta y seguiríamos adelante en
nuestros análisis. Ahora bien, si esta ausencia es grande y no debida al azar,
puede estar influyendo de forma importante en los resultados. En ese caso,
debemos plantearnos algún tipo de estrategia de sustitución.
Si bien es cierto que la mejor sustitución es la que no se hace, desgraciadamente,
la experiencia en proceso de datos nos indica que es difícil, o poco frecuente,
disponer de toda la información de cada una de las variables y para todos los
4
sujetos, por lo que la sustitución se hace necesaria. No obstante, en el fichero de
datos siempre debe mantenerse la variable original con el fin de comparar los
resultados de los casos con puntuaciones originales y asignadas.
Sabemos que cualquier procedimiento de sustitución de un valor “missing” por
nuevos valores va a reducir la variabilidad del grupo y/o variable, de manera que,
se introducen sesgos en la estimación de los parámetros ya que reducimos el
error típico. Sabemos también que la reducción del tamaño de la muestra, debido
a la falta de respuesta, aumenta los intervalos de confianza de las estimaciones,
limitando la potencia de los contrastes. Por todo ello, una vez que decidimos
sustituir los “missing” por nuevos valores, hemos de elegir qué procedimiento
utilizar.
El paquete estadístico SPSS permite crear una nueva variable, formada a partir
de otra original, en la que se sustituyen los valores perdidos por nuevos valores.
Para asignar estos valores, el programa ofrece varios métodos diferentes:
a) La Media de la serie: sustituye los valores perdidos de la serie por la media
de esa serie.
b) Media de puntos adyacentes: sustituye los valores perdidos por la media
de los valores válidos circundantes.
c) Mediana de puntos adyacentes: sustituye los valores perdidos por la
mediana de los valores válidos circundantes.
d) Interpolación lineal: sustituye los valores usando una interpolación lineal.
El último valor válido antes del valor perdido y el primer valor válido
después del valor perdido son los utilizados para la interpolación.
e) Tendencia lineal en el punto: sustituye los valores perdidos de la serie
nueva por la tendencia lineal en ese punto. Se hace una regresión de la
serie existente sobre una variable índice escalada de 1 a n y los valores
perdidos se sustituyen por sus valores pronosticados.
f) Un procedimiento adicional es el de la Media de subclases o intragrupos
(Kalton, 1986), especialmente indicado cuando las variables intervinientes
son medidas en una escala de intervalo. Este procedimiento consiste en
asignar a los casos perdidos de una variable la media, en esa misma
variable, del grupo de sujetos al que pertenecen esos casos perdidos.
1.2.1. Identificación y pertinencia de la sustitución
Para detectar el número de valores perdidos por cada sujeto, el SPSS dispone
de la posibilidad de transponer la matriz de datos mediante el comando FLIP
(Menú: DATOS / TRANSPONER). Una vez rotada la matriz clásica (casos x
variables) tendremos variables x casos. Si pedimos una distribución de
frecuencias de las variables, ahora sujetos, veremos el número de valores
perdidos por caso. El análisis puede completarse si solicitamos un listado para
ese sujeto en las variables que estamos considerando (Menú: ESTADÍSTICA /
RESUMIR / LISTAR CASOS).
5
Una vez identificados los sujetos con valores ausentes, ahora debemos referir el
análisis de los valores perdidos hacia las variables. Para ello debemos revisar los
cuestionarios (o el instrumento de medida utilizado) e intentar reconstruir esa
información que falta. En caso de que ello no sea posible, entonces podemos
optar por dos circunstancias: dejar los valores perdidos tal y como están, o bien
sustituirlos por algún valor.
Si elegimos la primera opción, estaremos asumiendo que los sujetos que no
contestaron son iguales que los que sí lo hicieron. Por ello decimos que incluso
en este caso podemos hablar de una decisión activa, ya que de alguna forma
estamos igualando los sujetos que contestan a los que no lo hacen y puede ser
que sean distintos, aunque no estaría de más comprobarlo. Una manera de
hacerlo puede ser mediante la selección de casos; esto es, se divide la muestra
en dos grupos, los que contestan y los que no contestan y, a continuación, se
comparan según distintas variables para ver si se observan diferencias
estadísticas significativas. La comparación de medias podría hacerse, por
ejemplo, a través de la prueba t de Student, o bien mediante otro estadístico
menos sensible a las diferencias de los tamaños muestrales, como puede ser
Kolmogorov - Smirnov.
EJEMPLO
Supongamos que preguntamos a 20 sujetos si están a favor o en contra de la ley del aborto
(X1), utilizando para ello una escala tipo Likert de 5 puntos. Asimismo, pedimos a los sujetos
que se posicionen en un continuum de 1 a10, según el grado de práctica religiosa. La matriz
de datos es la que se muestra a continuación:
X1: 1, 2, 1, 1, 5, 5, 5, -, 1, 2, 5, 5, 5, -, -, 3, 4, 5, -, -
X2: 7, 10, 8, 4, 3, 4, 5, 4, 5, 6, 10, 7, 3, 2, 8, 2, 6, 8, 4, 1
Si pedimos una distribución de frecuencias para la variable X1, obtendríamos la siguiente

información:
Tabla de frecuencia ACTITUD ABORTO
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 1 4 20,0 26,7 26,7
2 2 10,0 13,3 40,0
3 1 5,0 6,7 46,7
4 1 5,0 6,7 53,3
5 7 35,0 46,7 100,0
Total 15 75,0 100,0
Perdidos Perdidos del
5 25,0
sistema
Total 5 25,0
Total 20 100,0
Figura 1. Distribución de frecuencias para X1

(Menú: ESTADÍSTICOS / Resumir / Frecuencias)
6
En este caso fueron 5 los sujetos que no contestaron a la pregunta y el programa
los identifica como “missing” o perdidos del sistema. Si trabajamos sólo con los
15 sujetos que respondieron y los tomamos como una muestra representativa de
la población de la que se extrajo la muestra de 20 sujetos, estaremos asumiendo
que los 5 sujetos que no contestaron tienen la misma distribución de frecuencias
que los que contestaron. Obviamente esto puede no ser correcto y, en su caso,
sería un error que cometeríamos en todos los análisis en los que apareciese
implicada esta variable. En otras palabras, estamos optando por un modelo de
sustitución de semejanza entre los que contestan y los que no lo hacen. Es
incorrecto suponer que la falta de información sea totalmente aleatoria y, en
consecuencia, que ambos grupos son muestras aleatorias de la misma
población. Siempre cabe la pregunta de si esos valores ausentes pueden
introducir errores sistemáticos.
Para comprobarlo llevaremos a cabo una comparación entre la media de los
sujetos que contestan a la pregunta sobre el aborto (X1), y la de los que no
contestaron, por ejemplo, respecto a una segunda variable como podría ser la
práctica religiosa (X2).
En primer lugar debemos dividir la muestra en dos partes, los que contestaron a
X1 y los que no contestaron. Para ello seleccionaremos en el menú principal la
opción TRANSFORMAR / RECODIFICAR / EN DISTINTAS VARIABLES,
creando una nueva variable (X3) únicamente con ceros y unos, donde los ceros
serán los “missing” y los unos los que sí han contestado. La instrucción a utilizar
sería la siguiente:
RECODE x1 (SYSMIS=0) (ELSE=1) INTO X3 .
EXECUTE .
En segundo lugar, es preciso comparar (mediante una prueba “t” de Student, si

las medias en X2 (práctica religiosa) son significativamente distintas para los dos
grupos que acabamos de crear. La instrucción a utilizar sería la siguiente:
T-TEST GROUPS=x3 (0 1)
/MISSING=ANALYSIS
/VARIABLES=x2
/CRITERIA=CIN (.95) .
Si el contraste de diferencias entre medias no fuese significativo ello indicaría que

los valores ausentes y no ausentes son iguales en cuanto a la variable cruzada
(X2). En ese caso, la sustitución o imputación de valores nuevos sólo serviría
para aumentar el tamaño de la muestra, pudiéndose optar por hacer las
Estadísticos del grupo
Desviación Error típ. de la

X3 N Media típ. media
PRÁCTICA NO CONTESTARON EN X1 5 2,80 1,30 ,58
RELIGIOSA CONTESTARON EN X1 15 6,20 2,40 ,62
7
sustituciones según la distribución de frecuencias de los casos válidos ya que no
implica cambios en la distribución de frecuencias de la variable “actitud frente al
aborto”. Por el contrario, si la diferencia entre medias resultase estadísticamente
significativa, entonces debemos optar por la sustitución de los valores ausentes.
Veamos qué sucede en nuestro ejemplo (figura 1).
Prueba de muestras independientes
Prueba de Levene para la

igualdad de varianzas Prueba T para la igualdad de medias
Intervalo de confianza para
Diferencia de Error típ de la la media
F Sig. t gl Sig. (bilateral) medias diferencia Inferior Superior
PRÁCTICA Se han
RELIGIOSA asumido
2,224 ,153 -2,991 18 ,008 -3,40 1,14 -5,79 -1,01
varianzas
iguales
No se han
asumido
-3,999 13,272 ,001 -3,40 ,85 -5,23 -1,57
varianzas
iguales
Figura 2. Resultados de la prueba “t” de Student
(Menú: ESTADÍSTICOS /Comparar Medias / Prueba T para muestras independientes)
Como vemos en la figura anterior, existen diferencias estadísticamente

significativas a nivel de práctica religiosa, entre los sujetos que respondieron y no
respondieron a la pregunta sobre actitud (t= -2.99; p= .008), por lo que sí sería
aconsejable proceder a la imputación de los valores “missing”.
1.2.2. Ejemplo de Imputación por el procedimiento de

Walton de los casos missing en un estudio de selección
de personal
Supongamos que deseamos obtener un modelo explicativo que nos ayude a
predecir el desempeño laboral en un sector como puede ser el administrativo. En
caso de lograrlo estaremos en disposición de imputar o sustituir los posibles
casos missing en dicha variable por sus valores estimados, con un margen de
error mínimo. Dicho de otro modo, una vez identificadas las variables con mayor
capacidad predictiva, tendremos la posibilidad de estimar cuál será el desempeño
laboral de un futuro trabajador a partir de cómo puntúa en esas variables. Para
ello, previamente realizaremos un estudio con una muestra de 30 sujetos que ya
están desempeñando ese puesto, con el fin de obtener dicho modelo a partir de
cuatro variables predictoras.
Hemos seleccionado como variable criterio, la puntuación que alcancen los
sujetos en el Desempeño o Rendimiento Laboral, evaluado por sus superiores
(V1); con valores comprendidos entre 0 y 10, donde el 10 representa la máxima
valoración. Las variables predictoras fueron las siguientes:
v El número de errores obtenido en un test de Aptitudes Administrativas
(V2).
v La puntuación en autoestima (V3), medida en una escala de 0 a 10, donde
el 10 representa la máxima puntuación.
8
v La puntuación en un test de extraversión (V4).
v El nivel de habilidades sociales (V5), medida a través de un cuestionario,
que agrupa a los candidatos en tres categorías: bajo (entre 1 y 3),
moderado (entre 4 y 6) y alto (entre 7 y 9).
La información obtenida, aparece reflejada en el siguiente fichero de datos:
V1 V2 V3 V4 V5
7 0 8 4 4
8 2 8 0 3
6 0 7 12 6
8 3 7 0 3
4 19 6 20 8
9 0 9 0 3
5 24 6 25 7
8 4 6 0 3
9 0 8 0 7
8 4 7 3 2
7 2 7 4 2
8 0 9 0 1
6 32 5 15 2
8 4 6 0 5
7 6 7 0 4
7 8 5 4 5
8 0 4 0 3
6 19 3 0 8
4 27 3 25 1
7 12 3 5 3
4 28 4 25 5
6 12 4 25 3
6 4 7 6 2
7 0 8 0 5
8 6 7 0 1
4 32 5 25 2
4 36 5 25 5
9 0 8 0 1
7 7 6 5 5
4 16 9 25 8
Fichero de datos obtenido con la entrevista (n=30)
En primer lugar, conviene calcular los descriptivos básicos de la variable objeto

de estudio (Desempeño Laboral) y, a continuación, realizar un análisis de
correlación para ver si existe alguna variable que esté altamente relacionada con
ella.
Estadísticos
N
Válidos Perdidos Media Mediana Moda Desv. típ. Mínimo Máximo
DESEMPEÑO
30 0 6,63 7,00 8 1,65 4 9
LABORAL
9
Tabla de frecuencia DESEMPEÑO LABORAL
Válidos 4 6 20,0 20,0 20,0
5 1 3,3 3,3 23,3
6 5 16,7 16,7 40,0
7 7 23,3 23,3 63,3
8 8 26,7 26,7 90,0
9 3 10,0 10,0 100,0
Total 30 100,0 100,0
Total 30 100,0
Figura 3. Estadísticos descriptivos de la V1 (Desempeño Laboral)
(Menú: ESTADÍSTICOS / Resumir / Frecuencias)
Correlaciones
DESEMPEÑO APTITUDES HABILIDADES

LABORAL ADMINISTRATIVAS AUTOESTIMA EXTRAVERSIÓN SOCIALES
Correlación DESEMPEÑO LABORAL 1,000 -,825** ,444* -,896** -,345
de Pearson APTITUDES
-,825** 1,000 -,591** ,811** ,167
ADMINISTRATIVAS
AUTOESTIMA ,444* -,591** 1,000 -,383* -,029
EXTRAVERSIÓN -,896** ,811** -,383* 1,000 ,230
HABILIDADES SOCIALES -,345 ,167 -,029 ,230 1,000
Sig. DESEMPEÑO LABORAL , ,000 ,014 ,000 ,062
(bilateral) APTITUDES
,000 , ,001 ,000 ,377
ADMINISTRATIVAS
AUTOESTIMA ,014 ,001 , ,037 ,880
EXTRAVERSIÓN ,000 ,000 ,037 , ,221
HABILIDADES SOCIALES ,062 ,377 ,880 ,221 ,
N DESEMPEÑO LABORAL 30 30 30 30 30
APTITUDES
30 30 30 30 30
ADMINISTRATIVAS
AUTOESTIMA 30 30 30 30 30
EXTRAVERSIÓN 30 30 30 30 30
HABILIDADES SOCIALES 30 30 30 30 30
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
Figura 4. Matriz de correlaciones entre las 5 variables

(Menú: ESTADÍSTICOS / Correlaciones / Bivariadas)
Como se puede observar en la figura anterior, las variables que presentan una
mayor relación con el Desempeño o Rendimiento (V1) son: la puntuación en el
test de Aptitudes Administrativas (V2) (-0.82) y la extroversión (V4) (-0.89). A
partir de estos datos, podemos afirmar que existe una relación inversa entre el
desempeño y el número de errores en el test de aptitudes administrativas, por un
lado, y con la extroversión por otro. Ambas variables (V2 y V4) serán las que
utilizaremos como predictoras de la variable criterio (V1). No obstante, para poder
aplicar el procedimiento de imputación de la Media de Subclases de Kalton, es
preciso transformar ambas variables continuas en categóricas.
10
Para ello formaremos 2 grupos en función de la puntuación en Aptitudes
Administrativas (V2: menos de 18 errores y más de 19) y 3 grupos para la
extroversión (V4: sujetos con una puntuación de 0 en el test de introversión-
extroversión, entre 1 y 19, y finalmente aquellos que obtuvieron una puntuación
superior a 20). A continuación, combinaremos las dos variables entre sí,
construyendo una variable nueva, a la que llamaremos AE (Aptitud-Extroversión),
con valores comprendidos entre 1 y 6.
IF (v2 <= 18 & v4 = 0) AE = 1 .

EXECUTE .
IF (v2 <= 18 & (v4 >= 1 & v4 <= 20)) AE = 2 .
EXECUTE .
IF (v2 <= 18 & v4 > 20) AE = 3 .
EXECUTE .
IF (v2 >= 19 & v4 = 0) AE = 4 .
EXECUTE .
IF (v2 >= 19 & (v4 >= 1 & v4 <= 20)) AE = 5 .
EXECUTE .
IF (v2 >= 19 & v4 > 20) AE = 6 .
EXECUTE .
V1 V2 V3 V4 V5 AE
7 0 8 4 4 2
8 2 8 0 3 1
6 0 7 12 6 2
8 3 7 0 3 1
4 19 6 20 8 5
9 0 9 0 3 1
5 24 6 25 7 6
8 4 6 0 3 1
9 0 8 0 7 1
8 4 7 3 2 2
7 2 7 4 2 2
8 0 9 0 1 1
6 32 5 15 2 5
8 4 6 0 5 1
7 6 7 0 4 1
7 8 5 4 5 2
8 0 4 0 3 1
6 19 3 0 8 4
4 27 3 25 1 6
7 12 3 5 3 2
4 28 4 25 5 6
6 12 4 25 3 3
6 4 7 6 2 2
7 0 8 0 5 1
8 6 7 0 1 1
4 32 5 25 2 6
4 36 5 25 5 6
9 0 8 0 1 1
7 7 6 5 5 2
4 16 9 25 8 3
Figura 5. Procedimiento para calcular la variable AE
(Menú: TRANSFORMAR / Calcular)
11
Por último, calculamos la valoración media para cada una de las nuevas
categorías de la variable AE en cuanto al Desempeño Laboral, y realizaremos
un Análisis de Varianza para comprobar si existen diferencias significativas
entre ellas.
Informe
DESEMPEÑO LABORAL
1 Media 8,08
N 12
Desv. típ. ,67
2 Media 6,88
N 8
Desv. típ. ,64
3 Media 5,00
N 2
Desv. típ. 1,41
4 Media 6,00
N 1
Desv. típ. ,
5 Media 5,00
N 2
Desv. típ. 1,41
6 Media 4,20
N 5
Desv. típ. ,45
Total Media 6,63
N 30
Desv. típ. 1,65
Tabla de ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
DESEMPEÑO LABORAL * Inter-grupos (Combinada
66,375 5 13,275 25,302 ,000
APTITUD-EXTROVERSIÓN s)
Intra-grupos 12,592 24 ,525
Total 78,967 29
Figura 6. Procedimiento para calcular el Desempeño Laboral a partir de la variable AE.

(Menú: ESTADÍSTICOS / Comparar Medias / Medias / Opciones)
Como se puede observar en la figura anterior, se obtiene un valor de F=25.30

(p<.001), con lo que podemos afirmar que existen diferencias significativas entre
las distintas categorías de AE. A partir de estos datos, podríamos estimar el
desempeño laboral de un trabajador, sustituyendo el valor que alcanzase en la
variable Aptitud-Extroversión por la media en desempeño para ese grupo. Cabe
advertir que para aplicar este tipo de procedimientos es necesario contar con
muestras relativamente grandes. En nuestro ejemplo, sin embargo, nos
encontramos con que algunos de los grupos de la variable que hemos generado,
tienen un tamaño muy pequeño.
Supongamos ahora que, en la matriz de datos originales no tuviésemos la
puntuación de una serie de sujetos en la variable Desempeño Laboral (V1). Para
eso, creamos una nueva variable MV1, que representa las puntuaciones en
Desempeño Laboral de los sujetos, pero en la que se incluyen valores missing
para cuatro sujetos (8, 13, 16 y 27).
12
V1 V2 V3 V4 V5 AE MV1
1 7 0 8 4 4 2 7
2 8 2 8 0 3 1 8
3 6 0 7 12 6 2 6
4 8 3 7 0 3 1 8
5 4 19 6 20 8 5 4
6 9 0 9 0 3 1 9
7 5 24 6 25 7 6 5
8 8 4 6 0 3 1 ,
9 9 0 8 0 7 1 9
10 8 4 7 3 2 2 8
11 7 2 7 4 2 2 7
12 8 0 9 0 1 1 8
13 6 32 5 15 2 5 ,
14 8 4 6 0 5 1 8
15 7 6 7 0 4 1 7
16 7 8 5 4 5 2 ,
17 8 0 4 0 3 1 8
18 6 19 3 0 8 4 6
19 4 27 3 25 1 6 4
20 7 12 3 5 3 2 7
21 4 28 4 25 5 6 4
22 6 12 4 25 3 3 6
23 6 4 7 6 2 2 6
24 7 0 8 0 5 1 7
25 8 6 7 0 1 1 8
26 4 32 5 25 2 6 4
27 4 36 5 25 5 6 ,
28 9 0 8 0 1 1 9
29 7 7 6 5 5 2 7
30 4 16 9 25 8 3 4
Fichero de datos con la nueva variable MV1
Como primer paso, antes de realizar una sustitución de los valores ausentes por
la media intragrupo, debemos asegurarnos de que los análisis anteriores son
válidos para la nueva muestra. Si ejecutamos de nuevo el análisis de
correlaciones, nos encontramos que los coeficientes mayores se corresponden
de nuevo con la V2 y la V4 (-0.82 y -0.89 respectivamente). Por otro lado, las
medias en desempeño laboral a partir de los valores en Aptitud-Extroversión, son
muy similares a las que obteníamos con el total de la muestra, como se observa
en la siguiente figura.
13
Informe
MV1
1 Media 8,10
N 10
Desv. típ. ,74
2 Media 6,86
N 7
Desv. típ. ,69
3 Media 5,00
N 2
Desv. típ. 1,41
4 Media 6,00
N 1
Desv. típ. ,
5 Media 4,50
N 2
Desv. típ. ,71
6 Media 4,25
N 4
Desv. típ. ,50
Total Media 6,58
N 26
Desv. típ. 1,68
Figura 7. Medias en MV1 para los valores de AE

(Menú: ESTADÍSTICOS / Comparar Medias / Medias)
Una vez hechas estas comprobaciones procederemos a sustituir, los missing que
aparecen en la variable MV1 (sujetos 8, 13, 16 y 27), por las medias obtenidas
para cada valor de AE, redondeando los valores al entero más próximo.
DO IF (ae=1) .
RECODE mv1 (SYSMIS=8) .
END IF .
EXECUTE .
DO IF (ae=2) .
END IF .
EXECUTE .
DO IF (ae=5) .
END IF .
EXECUTE .
DO IF (ae=6) .
END IF .
EXECUTE .
14
V1 V2 V3 V4 V5 AE MV1
1 7 0 8 4 4 2 7
2 8 2 8 0 3 1 8
3 6 0 7 12 6 2 6
4 8 3 7 0 3 1 8
5 4 19 6 20 8 5 4
6 9 0 9 0 3 1 9
7 5 24 6 25 7 6 5
8 8 4 6 0 3 1 8
9 9 0 8 0 7 1 9
10 8 4 7 3 2 2 8
11 7 2 7 4 2 2 7
12 8 0 9 0 1 1 8
13 6 32 5 15 2 5 5
14 8 4 6 0 5 1 8
15 7 6 7 0 4 1 7
16 7 8 5 4 5 2 7
17 8 0 4 0 3 1 8
18 6 19 3 0 8 4 6
19 4 27 3 25 1 6 4
20 7 12 3 5 3 2 7
21 4 28 4 25 5 6 4
22 6 12 4 25 3 3 6
23 6 4 7 6 2 2 6
24 7 0 8 0 5 1 7
25 8 6 7 0 1 1 8
26 4 32 5 25 2 6 4
27 4 36 5 25 5 6 4
28 9 0 8 0 1 1 9
29 7 7 6 5 5 2 7
30 4 16 9 25 8 3 4
Figura 8. Sustitución de los Casos Missing a través del procedimiento de medias

intragrupos
(Menú: TRANSFORMAR / Recodificar / En las mismas variables)
Como podemos comprobar en la tabla anterior, el error que estamos cometiendo

a la hora de imputar los valores missing mediante el procedimiento de la Media
de Subclases es mínimo, ya que de los 4 sujetos únicamente nos equivocamos
en el sujeto número 13, al que asignamos un 5 en desempeño laboral (MV1),
cuando realmente había obtenido un 6 (V1).
Una vez hecha la sustitución, es aconsejable proceder al cálculo de los nuevos

estadísticos descriptivos de esa variable MV1, ahora sin valores “missing”.
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.

MV1 30 4 9 6,60 1,67
N válido (según
30
lista)
Figura 9. Estadísticos descriptivos de la variable sobre la que se realizó la imputación
15
(Menú: ESTADÍSTICOS / Resumir / Descriptivos)
Si comparamos los resultados de la variable MV1 sin valores “missing” (figura 9)

con los de la variable con valores ausentes (figura 7), observaremos que la media
aritmética sufrió un ligero aumento. Por el contrario, tal y como era de esperar, la
desviación típica se mantuvo prácticamente igual. El procedimiento determinista
utilizado para llevar a cabo la sustitución de valores, en caso de haber existido
un número mayor de valores “missing”, debería contribuir a reducir la variabilidad
de la variable “Desempeño Laboral” y, por lo tanto, su desviación típica. Esto es
lógico ya que a todos los sujetos de igual puntuación en Extroversión (V4) y en
Aptitudes Administrativas (V2), les asignamos de una manera determinista la
misma puntuación en Desempeño.
Tal y como se comentó anteriormente, la reducción de la variabilidad (desviación
típica) presenta inconvenientes en la estimación de la variabilidad poblacional,
así como en el contraste de hipótesis. Con una desviación típica pequeña los
intervalos de confianza de la estimación también serán más pequeños y, por ello,
los niveles de significación de los contrastes serán menores como consecuencia
de esta reducción artificial. Por el contrario, la principal ventaja es que se
consigue reducir el número de casos perdidos y, por consiguiente, aumentar
considerablemente el tamaño de la muestra. En cualquier caso, tal y como
advierte Sánchez (1995), siempre es conveniente distinguir entre los casos que
tienen valores reales, declarados por el entrevistado, y aquellos que tienen
valores imputados, por lo que es siempre aconsejable mantener en el archivo de
datos la variable original.
1.2.3. Imputación de valores missing en SPSS
Las observaciones perdidas pueden causar problemas en los análisis y algunas

medidas de la serie temporal no se pueden calcular si hay valores perdidos en la
serie. SPSS nos ofrece una opción a través del menú TRANSFORMAR /
Reemplazar los valores perdidos (figura 10) para crear nuevas variables de series
temporales a partir de otras existentes, reemplazando los valores perdidos por
estimaciones calculadas con uno de los métodos que se explican más adelante.
16
Los nombres de las nuevas variables creadas por defecto se componen de los
seis primeros caracteres de la variable existente utilizada para crearla, seguidos
de un carácter de subrayado y de un número secuencial. Por ejemplo, para la
variable X1, el nombre de la nueva variable sería X1_1. Las nuevas variables
conservan cualquier etiqueta de valor definida de las variables originales.
Figura 10. Cuadro de diálogo TRANSFORMAR / Reemplazar los valores perdidos
En este cuadro de diálogo nos encontramos con las siguientes opciones:

Nuevas variables: cuando seleccionamos una variable de nuestro fichero de
datos y la introducimos en este cuadro, nos mostrará el nuevo nombre de la
variable, el método utilizado para sustituir los valores perdidos, y la variable
antigua para la que se sustituirán los valores perdidos.
Nombre: especifica o cambia el nombre de la nueva variable que contendrá los
valores transformados. Los nombres de variable no pueden exceder de los ocho
caracteres.
Método: método utilizado para calcular los valores utilizados para sustituir los
valores perdidos. Los métodos disponibles son: Media de la serie, Media de
puntos adyacentes, Mediana de puntos adyacentes, Interpolación lineal y
Tendencia lineal en el punto.
Amplitud de puntos adyacentes: aquí tendremos que indicar el número de
valores válidos circundantes utilizados para calcular el valor que sustituirá cada
valor perdido. Esta opción sólo estará disponible para los métodos Media de
puntos adyacentes y Mediana de puntos adyacentes.
Veamos un ejemplo a partir de la matriz de datos del epígrafe 2.1, sobre la que
iremos aplicando los distintos métodos que acabamos de describir.
17
a) Media de la serie
Partiremos siempre del cuadro de diálogo REEMPLAZAR VALORES PERDIDOS
(figura 10), en el que seleccionaremos para el recuadro MÉTODO la opción
MEDIA DE LA SERIE. Además, debemos introducir la variable X1 en el recuadro
de NUEVAS VARIABLES, puesto que es la que contiene valores "missing".
Nótese que al seleccionar el método Media de la serie lo que estamos haciendo
es sustituir los valores perdidos por la media de la serie completa. Como
resultado el programa creará una nueva variable (X1_1) en la ventana de datos
que sería la siguiente:
X1_1: 1, 2, 1, 1, 5, 5, 5, 3.3, 1, 2, 5, 5, 3.3, 3.3, 3, 4, 5, 5, 3.3, 3,3
Podemos comprobar que, efectivamente, los valores missing fueron sustituidos

por la media de la serie completa.
b) Media de puntos adyacentes

La segunda opción consiste en seleccionar en la figura 12, el método de la Media
de puntos adyacentes, que sustituye los valores perdidos por la media de los
valores válidos circundantes. La Amplitud de puntos adyacentes hace referencia
al número de valores válidos por encima y por debajo del valor perdido utilizados
para calcular la media, existiendo dos opciones: o bien indicar un número de
valores circundantes en concreto, o bien indicar la opción Todos. Si nos
decidimos por la segunda opción utilizaremos todos los valores de la serie para
calcular el valor perdido, generándose un único valor para sustituir todos los
valores perdidos:
X1_2: 1, 2, 1, 1, 5, 5, 5, 3.3, 1, 2, 5, 5, 3.3, 3.3, 3, 4, 5, 5, 3.3, 3,3
Si, por el contrario, eligiésemos la primera opción, fijando la Amplitud de puntos

adyacentes en 2, obtendremos la siguiente nueva variable:
X1_3: 1, 2, 1, 1, 5, 5, 5, 3.3, 1, 2, 5, 5, 4.3, 4.3, 3, 4, 5, 5, …
c) Mediana de puntos adyacentes

Esta opción sustituye los valores perdidos por la mediana de los valores válidos
circundantes. Al igual que con el método de Media de puntos adyacentes, aquí
también tendremos que indicar la Amplitud de puntos adyacentes. Si fijamos ésta
en 2, la nueva variable sería:
X1_4: 1, 2, 1, 1, 5, 5, 5, 3.5, 1, 2, 5, 5, 4.5, 4.5, 3, 4, 5, 5, …
Mientras que seleccionando la opción Todos, obtendríamos:

X1_5: 1, 2, 1, 1, 5, 5, 5, 4, 1, 2, 5, 5, 4, 4, 3, 4, 5, 5, 4, 4
18
Interpolación lineal
Este método sustituye los valores perdidos utilizando una interpolación lineal.
Para ello toma el último valor válido antes del valor perdido y el primer valor válido
después del valor perdido. Si el primer o último caso de la serie tiene un valor
perdido, el valor perdido no se sustituye. La nueva variable creada sería la que
se muestra a continuación:
X1_6: 1, 2, 1, 1, 5, 5, 5, 3, 1, 2, 5, 5, 4.3, 3.7, 3, 4, 5, 5, …
e) Tendencia lineal en el punto

El método de Tendencia lineal en el punto sustituye los valores perdidos de la
serie por la tendencia lineal en ese punto. Se hace una regresión de la serie
existente sobre una variable índice escalada de 1 a n, sustituyéndose los valores
perdidos por sus valores pronosticados. Si siguiésemos este método la nueva
variable sería:
X1_7: 1, 2, 1, 1, 5, 5, 5, 3.2, 1, 2, 5, 5, 4, 4.2, 3, 4, 5, 5, 5, 5.2
1.3. Los valores extremos y outliers
Tal y como señalamos al inicio, el análisis exploratorio trata de depurar el fichero

de datos mediante una serie de comprobaciones acerca de las variables. En el
apartado anterior hemos abordado el problema de los casos missing; a
continuación, nos ocuparemos del análisis de los posibles casos extremos.
Recordemos que es importante ser capaces de detectar los sujetos o casos que
presentan valores aberrantes o que de alguna manera se salen de lo normal en
relación a los restantes sujetos de la muestra. En concreto, puede hablarse de
dos tipos de casos anómalos. Un primer tipo se refiere a casos que se distancia
de forma sensible de la normalidad, o de las puntuaciones del resto de los sujetos
de la muestra, y a los que se le denomina “outliers”. Un segundo tipo se refiere a
aquellos casos que se separan en mayor grado si cabe del resto de las
puntuaciones a los que se les denomina “valores externos” o “extreme”. Ambos
tipos de valores pueden distorsionar considerablemente los resultados de una
investigación, por lo que es necesario poder identificarlos.
1.3.1. ¿Cómo se detectan?
Una manera sencilla de hacerlo es solicitando al SPSS un Gráfico de Caja o

Boxplot. Éste nos permite comprobar cómo se agrupan los casos, si hay puntos
más altos o picos, valores extremos, etc. Ofrece además un conjunto de
estadísticos acerca de la distribución. En concreto, calcula la mediana, los
percentiles 25 y 75, nos informa de la existencia de valores extremos y outliers,
etc. A continuación, nos detendremos a explicar cada uno de los elementos de
19
las cajas que conforman este gráfico con el fin de que nos resulte más fácil su
comprensión.
* valores más 3 (extreme)

0 valores más 1,5 (outliers)
mayor valor observado (ni outliers ni extreme)
percentil 75
50% de
los casos con
valor comprendido mediana
en este intervalo
percentil 25
menor valor observado (ni outlier ni extreme)
0 valores menos 1,5 (outliers)

* valores menos 3 (extreme)
Figura 11. Gráfico de Caja.
Como vemos en la figura 11, el borde inferior de la caja representa el percentil

25 y el superior el percentil 75. La línea horizontal del interior de la caja representa
la mediana y el 50% de los casos tienen valores comprendidos entre los límites
de la caja. Las prolongaciones de las cajas se corresponden con el índice
intercuartílico (percentil 75 - percentil 25). Además, las cajas nos informan de la
presencia o no de dos categorías de casos:
a) aquellos que tienen valores de más o menos de 3 longitudes de cajas a
los que denominaremos valores extremos (designados mediante un *).
b) y aquellos otros que tienen valores comprendidos entre 1,5 y 3. A éstos se
les denomina outliers y se identifican mediante un círculo.
En general, con esta información, podemos determinar la tendencia central

(mediana), la variabilidad de los datos (longitud de caja), observar la curtosis y
asimetría (según la posición de la línea horizontal de la caja o mediana). Si la
mediana está en la parte inferior de la caja, entonces los datos son asimétricos
positivos; mientras que si la mediana se aproxima a la parte superior de la caja
diremos que la distribución es asimétrica negativa. Las prolongaciones de las
cajas informan de los valores extremos.
Pensemos en un ejemplo donde tenemos los ingresos económicos de 15 jóvenes
de reciente incorporación al mercado laboral (150000, 60000, 125000, 90000,
85000, 105000, 115000, 150000, 275000, 475000, 125000, 80000, 90000,
100000, 75000). Como vemos, la mayoría gana entre las 60.000 y las 150.000
pts., salvo un sujeto que gana 275.000 y otras 475.000 pesetas mensuales. En
este caso el valor de la media es de 140.000 pesetas, cifra que no resulta
20
representativa de los ingresos de los sujetos de nuestra muestra, mientras que
sí lo sería la mediana (Md = 105.000 pts.). Si representamos esta distribución en
un gráfico de caja veremos que el valor 475.000 (correspondiente al sujeto 10) lo
identifica mediante un asterisco, al tratarse de un valor extremo, mientras que el
valor 275.000 (correspondiente al sujeto 9) lo identifica con la letra “O”, al tratarse
de un “outlier” (ver figura 14).
500000
10
450000
400000
350000
300000
9
250000
200000
150000
100000
50000
0
N= 15
INGRESOS ECONÓMICOS
Figura 12. Gráfico de caja para la variable Ingresos económicos

(Menú: GRÁFICOS / Diagramas de caja / Resúmenes para distintas variables)
Los gráficos de caja o “boxplot” también resultan útiles cuando queremos

comparar la distribución de dos variables o de una misma variable para
subgrupos de una segunda. A continuación, compararemos las variables
Ingresos (V1), con una segunda variable (V2), que podrían ser los gastos
mensuales de cada sujeto (80000, 60000, 90000, 80000, 85000, 100000,
100000, 125000, 150000, 175000, 125000, 80000, 90000, 100000, 25000). Los
resultados podemos verlos en la figura 15.
500000
10
450000
400000
350000
300000
9
250000
200000
10
150000
100000
50000
15
0
N= 15 15
INGRESOS ECONÓMICOS GA STOS
Figura 13. Gráfico de caja para las variables Ingresos económicos y Gastos
(Menú: GRÁFICOS / Diagramas de caja / Resúmenes para distintas variables)
21
Como podemos comprobar en la figura anterior, la variable ingresos y gastos no
tienen la misma distribución, los casos anómalos (“extreme” o “outliers”) no se
corresponden exactamente con los mismos sujetos, la amplitud o rango
semiintercuartílico es distinta, al igual que la mediana.
1.3.2. Implicación de los outliers en la elección de estadísticos.

Los M-estimadores
En caso de que existan casos extremos o “outliers” conviene revisar si se trata

de un error de respuesta o de grabación de los datos, dado que puede incidir, por
ejemplo, en la elección del estadístico de tendencia central a elegir. Como hemos
podido comprobar en el ejemplo anterior, en algunos casos la mediana es más
representativa que la media pues es mucho menos sensible a los extremos y,
con ello, representa mejor a la mayoría de los datos.
Por otro lado, el análisis e interpretación de la representación gráfica de las
distribuciones de frecuencias debe completarse con una serie de estadísticos de
los que cabría comentar ciertas particularidades. Dado que la media presenta el
inconveniente de ser sensible a la presencia de casos anómalos, ya que para su
cálculo intervienen todos los valores de la distribución, es aconsejable utilizar en
su lugar la mediana. Del mismo modo, es necesario explorar los datos con la
finalidad de detectar no sólo la presencia de este tipo de casos, sino también para
comprobar hasta qué punto afectan a determinados supuestos tales como el de
distribución normal u homogeneidad de varianzas. Si éstos no se viesen
afectados, tendríamos la posibilidad de acudir al conjunto de pruebas
denominadas Paramétricas para contrastar nuestras hipótesis. En caso contrario
tendríamos que recurrir a las llamadas Pruebas No Paramétricas.
En otras palabras, cuando utilizamos la media aritmética para estimar la
tendencia central debemos saber que dicho estadístico está fuertemente
influenciado por los casos extremos de una distribución de frecuencias,
independientemente del tamaño de la muestra. Por el contrario, la mediana es
más resistente a la presencia de outliers, ya que su valor no depende de los
valores extremos de una distribución, sino del cuerpo central de los datos.
Conocido esto, hemos de tener en cuenta la sensibilidad de dichos índices a la
presencia de valores extremos. Obviamente, siempre nos decidiremos por aquel
estimador que menos dependa del cumplimiento de algunos supuestos acerca
de la población de la que proceden (o sea más insensible). Éstos serán
considerados estimadores robustos.
Por ejemplo, en caso de suponer que los datos proceden de una población con
distribución asimétrica, entonces la media aritmética debe sustituirse por un
estimador más robusto que denominaremos Trimmed Mean. El cálculo de esta
media reducida se lleva a cabo excluyendo algunos valores extremos de manera
que se realice, por ejemplo, sobre el 60% de los valores centrales, eliminando el
20% superior y el 20% inferior. De esta nueva media aritmética arreglada
22
podríamos decir que, al igual que la mediana, su valor no dependerá de los
valores extremos y, en consecuencia, será un estimador más robusto que el
inicial. Un ejemplo de esto último es la media reducida. Este índice consiste en
calcular la media de los casos comprendidos en un intervalo central de la
distribución. En otras palabras, cuando tenemos valores extremos este índice es
más representativo si eliminamos el 5% de los casos de cada lado de la
distribución. Se podría decir que la media reducida es una solución intermedia
entre la media aritmética y la mediana.
Pero no sólo la media es sensible a la presencia de casos extremos; también lo
es la desviación típica, ya que para su cálculo se eleva al cuadrado las
puntuaciones diferenciales. Un estadístico alternativo es la amplitud o Recorrido
Intercuartílico (IQR), que mide la diferencia entre el valor del primer cuartil y el
tercer cuartil.
En realidad, cuando hacemos este tipo de exclusiones, por ejemplo, cuando
arreglamos la media aritmética, estamos dividiendo los datos en dos grupos (los
utilizados y los no utilizados para su cálculo). Nótese que esto sería lo mismo que
calcular la Media Ponderada otorgando a algunos casos un peso de cero y a
otros de uno (Xw= åwiXi/n). Por lo tanto, la ventaja de la media ponderada es que
nos permite utilizar TODAS las observaciones y, al mismo tiempo, tratar
diferencialmente a aquellas observaciones consideradas anómalas.
A todo este conjunto de índices descriptivos alternativos se les denomina
genéricamente M-estimadores. Además de los mencionados hasta aquí, existen
otros M-Estimadores como el M-estimador de Huber (adecuado y más robusto
que la media, cuando la distribución se aproxima a la normal y existen valores
extremos), el de Tukey, el de Hampel o el de Andrews. En la página 193 del
manual del programa SPSS (Norusis, 1995) se muestran una serie de gráficos
con distintas formas de distribuciones. Según nuestra distribución muestral se
aproxime a ellas, entonces se utilizará uno u otro M-Estimador. Si se desea
profundizar en la robustez de los estimadores puede consultarse Hoaglin, D.,
Mosteller, J. y Tukey, W. (1985). Veamos un ejemplo para ilustrar lo que hemos
visto en este apartado.
1.3.3. Ejemplo de la influencia de los casos extremos y

“outliers” en un estudio de selección de personal
Supongamos que en nuestra investigación nos interesa describir, más

detalladamente, el tipo de relación que existe entre en las variables predictoras
con las que hemos trabajado y la variable criterio (desempeño). Con este
propósito, volvemos a aplicar las pruebas pertinentes a una nueva muestra de
trabajadores. En este caso, sólo pasamos el test de Aptitudes Administrativas y
una Escala de Introversión-Extroversión, por ser las únicas variables que se han
mostrado relevantes a la hora de predecir el desempeño. Las puntuaciones de
los sujetos aparecen en el siguiente fichero de datos:
23
V1 V2 V4
7 0 4
8 2 0
6 0 80
8 3 0
4 42 20
9 0 0
5 16 25
8 4 0
9 0 0
8 4 3
7 2 4
8 0 0
6 41 15
8 12 0
7 3 0
7 2 60
8 0 0
6 19 0
4 20 25
7 4 5
4 20 25
6 7 25
6 4 6
7 0 0
8 0 0
4 24 25
4 22 25
9 0 0
7 7 5
4 16 25
Fichero de datos obtenido con la entrevista (n=30)
En primer lugar, vamos a realizar un análisis de regresión para describir, más

detalladamente, la relación entre las variables, y obtener después la función
matemática que nos permita predecir la puntuación que alcanzará un sujeto en
el desempeño laboral, a partir de sus puntuaciones en las otras variables.
Variables introducidas/eliminadas b
Variables
Modelo Variables introducidas eliminadas Método
1 EXTRAVERSIÓN,
APTITUDES , Introducir
a
ADMINISTRATIVAS
a. Todas las variables solicitadas introducidas
b. Variable dependiente: DESEMPEÑO LABORAL
24
Resumen del modelo
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 ,821a ,675 ,651 ,98
a. Variables predictoras: (Constante), EXTRAVERSIÓN,
APTITUDES ADMINISTRATIVAS
ANOVA b
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 53,275 2 26,638 27,994 ,000a
Residual 25,692 27 ,952
Total 78,967 29
a. Variables predictoras: (Constante), EXTRAVERSIÓN, APTITUDES ADMINISTRATIVAS
Coeficientes a
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Error típ. Beta t Sig.
1 (Constante) 7,879 ,245 32,217 ,000
APTITUDES
-9,157E-02 ,016 -,652 -5,802 ,000
ADMINISTRATIVAS
EXTRAVERSIÓN -3,305E-02 ,010 -,379 -3,373 ,002
a. Variable dependiente: DESEMPEÑO LABORAL
Figura 14. Análisis de regresión

(Menú: ESTADÍSTICOS / Regresión / Lineal)
Como podemos ver en la figura anterior, obtenemos un R square de 0.67, lo que

significa que con este modelo sólo explicamos un 67% de la variable dependiente
a partir de las otras dos variables. Si utilizamos el modelo para predecir la
puntuación de un sujeto a partir de este análisis, estaremos cometiendo cierto
error, puesto que hay un porcentaje de varianza de la variable eficacia percibida
que queda sin explicar (33%).
Sin embargo, antes de desechar los resultados, vamos a hacer un análisis
exploratorio de los mismos, con el fin de detectar si existen “outliers” que puedan
estar perjudicando nuestro análisis. Comenzaremos realizando un gráfico de
caja.
25
100
80 3
60
5
13
40
20
-20
N= 30 30
Aptitud Adminis trati Ex troversión
Figura 15. Gráficos de caja para la V2 y V4

(Menú: GRÁFICOS / Diagramas de Caja / Simple / Resúmenes para distintas variables)
Como vemos en la gráfica anterior, aparecen tres casos extremos que pueden
estar incidiendo negativamente en el análisis de regresión: los sujetos 5 y 13
respecto a la variable Aptitudes Administrativas (con una puntuación de 42 y 41,
respectivamente) y, el sujeto número 3 respecto a la variable Extroversión (con
una puntuación de 80). Para ver si esto es cierto, volveremos a realizar el análisis
y excluiremos dichos casos, con la intención de comprobar si se alcanza un R
squared mayor.
26
Variables introducidas/eliminadas b
Variables
Modelo Variables introducidas eliminadas Método
1 EXTRAVERSIÓN,
APTITUDES , Introducir
a
ADMINISTRATIVAS
a. Todas las variables solicitadas introducidas
Resumen del modelo
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 ,904a ,817 ,801 ,73
a. Variables predictoras: (Constante), EXTRAVERSIÓN,
APTITUDES ADMINISTRATIVAS
ANOVA b
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 57,701 2 28,851 53,406 ,000a
Residual 12,965 24 ,540
Total 70,667 26
a. Variables predictoras: (Constante), EXTRAVERSIÓN, APTITUDES ADMINISTRATIVAS
Coeficientes a
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Error típ. Beta t Sig.
1 (Constante) 8,128 ,193 42,187 ,000
APTITUDES
-,152 ,020 -,744 -7,411 ,000
ADMINISTRATIVAS
EXTRAVERSIÓN -2,985E-02 ,011 -,265 -2,638 ,014
a. Variable dependiente: DESEMPEÑO LABORAL
Figura 18. Análisis de regresión excluyendo los outliers

(Menú: ESTADÍSTICOS / Regresión / Lineal)
Podemos comprobar en la figura anterior que el valor de R squared ha

aumentado hasta 0.81. Eliminando del análisis los tres sujetos “outliers” hemos
obtenido una mayor capacidad para explicar el rendimiento de los sujetos en el
puesto, a partir de las otras dos variables.
El cálculo de la recta de regresión se haría sustituyendo los valores obtenidos en
el análisis de regresión de la siguiente forma:
Y’ = a + b1X1 + b2 X2
27
Donde:
a = 8.128
b1 = -0.152
b2 = -0.029
X1 = Nº de errores en el test de Aptitudes Administrativas
X2 = Puntuación en Extroversión
Y’= Puntuación predicha en Desempeño Laboral
De este modo, si quisiéramos predecir el valor en el desempeño o rendimiento

de un sujeto cuyas puntuaciones en V2 y V4 fueron 8 y 20 respectivamente, sólo
tendríamos que sustituir los valores en la ecuación de la recta.
Y’ = 8.128 + (-0.152) 8 + (-0.029) 20
Y’ = 8.13 + (-1.2) + (-0.6) = 6.33
En este caso, el modelo nos permitirá asignar a ese sujeto una puntuación
estimada en “Desempeño Laboral” de 6,33.
Por último, nos detendremos un poco más en el estudio de las implicaciones que
los valores extremos tienen en el Análisis estadístico. Para ilustrar todo lo que
acabamos de mencionar en relación a los M-estimadores utilizaremos el ejemplo
del epígrafe 3.1. (página 25), donde teníamos los ingresos económicos de 15
sujetos.
En primer lugar, debemos seleccionar en el menú principal ESTADÍSTICOS /
RESUMIR /EXPLORAR (figura 17).
Figura 19. Selección de ESTADÍSTICOS / RESUMIR / EXPLORAR
28
Hecho esto, SPSS nos ofrecerá el siguiente cuadro de diálogo:
Figura 20. Cuadro de diálogo de EXPLORAR
A continuación, debemos introducir la V1 en el recuadro de DEPENDIENTES, y

a continuación pulsar el botón de ESTADÍTICOS, accediendo a la ventana de la
figura 21. Una vez aquí es donde debemos seleccionar ESTIMADORES
ROBUSTOS CENTRALES.
Figura 21. Cuadro de diálogo de EXPLORAR/ ESTADÍSTICOS
29
El resultado se ofrece en la figura 22.
Descriptivos
Estadístico Error típ.

INGRESOS Media 140000,00 27325,20
ECONÓMICOS Intervalo de confianza Límite
81393,27
para la media al 95% inferior
Límite
198606,73
superior
Media recortada al 5%
125833,33
Mediana 105000,00
Varianza 1,120E+10
Desv. típ. 105830,05
Mínimo 60000
Máximo 475000
Rango 415000
Amplitud intercuartil
65000,00
Asimetría 2,678 ,580

Curtosis 7,641 1,121
Estimadores-M
Estimador-M Biponderado Estimador-M Onda de

a b c d
de Huber de Tukey de Hampel Andrews
INGRESOS
107539,10 101825,72 102453,37 101841,08
ECONÓMICOS
a. La constante de ponderación es 1,339.
b. La constante de ponderación es 4,685.
c. Las constantes de ponderación son 1,700, 3,400 y 8,500.
d. La constante de ponderación es 1,340*pi.
Figura 22. Utilización de los M-estimadores

(Menú: ESTADÍSTICOS / Resumir / Explorar / Estadísticos)
En los resultados que se muestran en la figura anterior debemos prestar especial

atención a varias cuestiones. En primer lugar, cabe señalar que la media
aritmética está sobreestimada, con un valor de (140.000 pts.). Esto se debe a
que la distribución de frecuencias es asimétrica positiva (2,678) y, por lo tanto,
este valor se ve influenciado por los valores extremos. Sin embargo, podemos
comprobar que la media reducida o “media recortada”, que prescinde del 5% de
los valores superiores e inferiores, presenta un valor de 125.833,33 pts. De forma
similar, la mediana no se ve tan influenciada por los valores extremos y outliers,
obteniendo también un valor claramente más bajo que el de la media aritmética
(105.000pts). Por otro lado, podemos comprobar que la desviación típica
(sensible también a la presencia de casos anómalos), es mucho mayor que el
índice IQR (en la figura 22 “Amplitud Intercuartil”), con valores de 105.830,05 y
650.000, respectivamente.
Podemos observar también los valores de los distintos M-Estimadores calculados
(Huber, Tukey, Hampel y Andrews), todos ellos con valores claramente más
próximos a la mediana que a la media aritmética.
30
1.4. Comprobación de Supuestos Paramétricos
Tal y como señalamos al inicio, otro de los objetivos del análisis exploratorio es
el de comprobar que los datos de los que disponemos cumplen determinados
supuestos o se distribuyen de una forma determinada. Como ya señalamos, ello
resulta fundamental para la elección de la técnica estadística a utilizar y, por lo
tanto, para poder contrastar adecuadamente nuestras hipótesis. Las condiciones
más importantes que deben ser objeto de análisis son las siguientes:
a) Que las muestras pertenezcan a poblaciones con distribución normal de
las variables (normalidad).
b) Igualdad de varianzas entre los grupos (homocedasticidad)
1.4.1. El test de Normalidad (Lilliefors)
El supuesto de normalidad es muy importante en la estadística inferencial ya que

a menudo se parte de que nuestros datos se distribuyen normalmente. Una
manera de probarlo es a través del gráfico “Normal Probability Plot”. En éste cada
valor observado se representa junto al valor esperado en una distribución normal
(su cálculo se basa en el tamaño de la muestra y en el orden que ocupa ese caso
en la muestra). Si la muestra procede de una distribución normal entonces los
valores observados y esperados aparecerán más o menos en línea recta.
Siguiendo con el ejemplo anterior, podemos solicitar al programa SPSS los
gráficos de prueba de normalidad para la V1 “Ingresos Económicos”, pulsando
en la ventana inicial de EXPLORAR (figura 18), el botón de GRÁFICOS (figura
21) y solicitando los gráficos con prueba de normalidad. Los resultados podemos
verlos en la figura 24.
Figura 23. Cuadro de diálogo de EXPLORAR / GRÁFICOS
31
Gráfico Q-Q normal de INGRESOS ECONÓMICOS
2,0
1,5
1,0
,5
0,0
-,5
Normal esperado
-1,0
-1,5
-2,0
-100000 0 100000 200000 300000 400000 500000
Valor observado
Gráfico Q-Q normal sin tendencias de INGRESOS E.

2,0
1,5
1,0
,5
Desv. de normal
0,0
-,5
-1,0
0 100000 200000 300000 400000 500000
Valor observado
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
INGRESOS
,329 15 ,000 ,642 15 ,010**
ECONÓMICOS
**. Este es un límite superior de la significación verdadera.
a. Corrección de la significación de Lilliefors
Figura 24. Representación gráfica de la normalidad

(Menú: ESTADÍSTICOS / Resumir / Explorar...Gráficos)
32
En la primera representación de la figura 24 se observa que la nube de puntos
no tiene una tendencia lineal. Mientras que en la segunda representación
(Detrended Normal Plot) aparecen las desviaciones de los puntos respecto a esa
línea recta. Puede verse que el cluster de puntos no se ajusta realmente a la
horizontal cero. Todo parece indicar que los datos muestrales no proceden de
una población con distribución normal.
De manera complementaria al chequeo gráfico, resulta aconsejable calcular
diferentes test de hipótesis que nos permitan contrastar si los datos proceden de
una población con distribución normal. Los dos más usados son el de Shapiro-
Wilks y el de Lilliefors (ver los contrastes en la parte inferior de la figura 24). El
test de Lilliefors se basa en una modificación del test de Kolmogorov-Smirnow y
resulta especialmente útil en aquellos casos en que se desconocen las medias y
las varianzas poblacionales y éstas deben ser estimadas desde los datos
muestrales (Conover, 1980). En nuestro ejemplo, el test de normalidad de
Lilliefors para la variable Ingresos Económicos (K-S Lilliefors), tiene un valor
de=0,329 y una significación menor de 0,001 (significance, p=0,000), datos que
nos llevan a rechazar la hipótesis nula. En otras palabras, debemos afirmar que
esta variable no tiene una distribución normal.
Un ejercicio práctico especialmente útil para comprobar la influencia de los casos

anómalos (extremos y outliers) sobre el cumplimiento de los supuestos
paramétricos, consistiría en eliminar de la muestra los sujetos 9 y 10
(identificados en el epígrafe 3.1 como casos anómalos) y volver a solicitar las
gráficas y los estadísticos anteriores. Podremos observar que una vez eliminados
ambos sujetos, el valor de K-S Lilliefors pasa a ser de 0,152 (p=0,200), lo cual
llevaría a aceptar la hipótesis de normalidad.
1.4.2. El test de Homocedasticidad (Levene)
El supuesto de igualdad de varianzas es necesario comprobarlo en aquellas

situaciones en las que deseamos saber si existen diferencias entre grupos,
respecto a una variable dependiente dada (ej.: actitud frente al aborto en función
de tres tipos de profesiones). En este caso, si vamos a aplicar un Análisis de
Varianza, debemos asegurarnos antes de que las varianzas de los tres grupos
sean igual; de lo contrario, no podríamos interpretar la F como un índice de la
posible influencia del tipo de profesión en la actitud hacia el aborto, teniendo que
recurrir a las llamadas pruebas no paramétricas.
Una de las condiciones que deben cumplirse para que el contraste F sea válido,
o lo que es lo mismo para que el Análisis de Varianza pueda ser aplicado con
garantías, es que las varianzas de los grupos sean iguales; es lo que se conoce
como homocedasticidad. Para poner a prueba este supuesto debemos realizar
la prueba de Levene, que es la que menos depende del supuesto de normalidad
de la distribución y, en consecuencia, es el procedimiento más robusto.
Veamos precisamente un ejemplo donde tenemos la actitud hacia el aborto (X1)
de 21 sujetos, que se corresponden con tres profesiones distintas (X2:
administrativo, profesor y empresario).
33
X1 X2
1 1 1
2 1 3
3 1 1
4 1 2
5 2 2
6 2 3
7 3 1
8 4 3
9 5 2
10 5 2
11 5 1
12 5 3
13 5 2
14 2 2
15 3 3
16 4 1
17 5 3
18 1 1
19 4 3
20 5 2
21 2 1
Fichero de datos correspondientes a la actitud hacia el aborto (n=21)
Partiendo de estos datos, debemos acudir al cuadro de diálogo de EXPLORAR

(figura 18) e introducir la V1 en el recuadro de DEPENDIENTES y V2 en el de
FACTORES. A continuación, pulsaremos en GRÁFICOS y seleccionaremos la
opción Dispersión por nivel con prueba de Levene (marcando cualquiera de las
opciones que ofrece). En realidad, el programa nos ofrecerá distintas
representaciones gráficas que nos permitirá controlar como afecta la
transformación de una variable al supuesto de homogeneidad de varianzas. No
obstante, en este ejemplo nos quedaremos únicamente con la tabla que ofrece
como resultado de aplicar la prueba de Levene (figura 23). Ésta calcula un
estadístico que mide la diferencia en valores absolutos entre las varianzas de las
diferencias S2 - Si2, tratando de contrastar la hipótesis nula de que las varianzas
de todos los grupos son iguales o, lo que es lo mismo, que las varianzas
obtenidas en los grupos provienen de una misma población. El cálulo lo hace
mediante un ONEWAY.
H0: S12 = S22 = ... = Sn2 = S2
H1: S12 ¹ S22 ¹ ... ¹ Sn2
Prueba de homogeneidad de la varianza
Estadístico de
Levene gl1 gl2 Sig.
ACTITUD
,758 2 18 ,483
ABORTO
Figura 25. Prueba de Levene para homogeneidad de varainzas

(Menú: ESTADÍSTICOS / Resumir / Explorar...Gráficos)
34
En nuestro caso, vemos que la probabilidad asociada al test de Levene (Sig.) es
de 0,4828. Esto quiere decir que se mantiene H0; esto es, al rechazar la hipótesis
nula nos equivocaremos con una probabilidad del 0,4828, lo que permite aceptar
la hipótesis de igualdad de varianzas. Si como resultado de aplicar la prueba de
Levene obtuviésemos una probabilidad menor de .05, diríamos que las varianzas
de los grupos son diferentes y, en ese caso, debería llevarse a cabo una
transformación de los datos con el objetivo de igualar las varianzas, ya que el
incumplimiento de este supuesto haría desaconsajable la utilización de
contrastes o pruebas paramétricas en el proceso de datos.
1.5. Transformación de Variables
Una vez probados los supuestos de normalidad o igualdad de varianzas, si éstos

no se cumplen entonces podemos acudir a un contraste no paramétrico,
sabiendo que es menos potente que su equivalente paramétrico. Precisamente,
debido a esta falta de potencia, en ocasiones podemos optar por transformar la
variable y mantener el contraste paramétrico elegido.
A la hora de llevar a cabo la transformación de una variable hemos de tener en
cuenta las características y forma de su distribución de frecuencias. Al respecto,
Tukey recomienda distintos tipos de transformaciones según sea el grado de
asimetría, así como la dirección de los casos extremos. Recordemos que una
distribución es asimétrica positiva si la mediana, en el gráfico de caja, está cerca
de su parte inferior y la cola extendida hacia los valores grandes; al revés la
distribución sería asimétrica negativa.
Erikson y Nosanchuk (1977) representan los diferentes tipos de transformaciones
propuestas por Tukey a través de la siguiente escala:
-1/X2 -1/X log X ÖX X X2 X3 antilog X
Fuerte Suave Sin cambio Suave Fuerte

Asimetría + Asimetría -
Cola hacia arriba Cola hacia abajo
Casos próximos al valor pequeño Casos próximo valor grande
Así, por ejemplo, si la distribución es asimétrica negativa basta con elevar al

cuadrado o al cubo los valores; incluso si la asimetría negativa es fuerte una
transformación en base a su antilogaritmo puede corregir la asimetría. Veamos
un ejemplo de cómo abordar la transformación de un conjunto de valores cuya
distribución es asimétrica positiva (X1: 8, 10, 12, 14, 96).
35
Por un lado, debemos saber que en una distribución normal (y por lo tanto
simétrica) los valores de la media y la mediana coinciden y, en consecuencia, la
razón de estos valores debe ser igual a 1. Pues bien, éste es el criterio para
determinar cuál es la mejor transformación, que el cociente entre ambos
estadísticos se aproxime a la unidad. En la siguiente figura se ofrecen algunas
transformaciones de la variable X1.
Distribución Media Mediana X/Md
Distribución original (X1)**: 8 10 12 14 96 28 12 2.33
Distribución logarítmica: .90 1 1.08 1.15 1.98 1.222 1.079 1.13
Distrib. raiz cuadrada: 2.83 3.16 3.46 3.74 9.80 4.599 3.464 1.32
Distrib. al cuadrado: 64 100 144 196 9216 1944 144 13.5
Distrib.-1/X1: -0.13 -0.10 -0.08 -0.07 -0.01 -0.078 -0.083 0.94

** donde, Skewness = 2,217 y S.E. Skew: 0,913 (asimétrica positiva)
Figura 26. Valores originales y transformados de la variable X1

(Menú: TRANSFORMAR / Calcular)
La última columna de la figura anterior (cociente entre Media y Mediana) nos

indica el efecto de las distintas transformaciones. Las distribuciones que más se
aproximan a la normal son las que sufrieron una transformación del tipo -1/X1 y
logarítmica, respectivamente q, con valores de 0.94 y 1.13.
Para finalizar, presentamos en la figura 27 los estadísticos del análisis
exploratorio para las cinco distribuciones de frecuencias de la variable X1
(original y 4 transformaciones).
36
Descriptivos
Estadístico Error típ.

Di str ib. Medi a 28,00 17,03
original Intervalo de confianza Lím ite
-19,28
para la m edia al 95% inferi or
Lím ite
75,28
superior
Medi a recor tada al 5%
25,33
Medi ana 12,00

Var ianza 1450,000
Desv. típ. 38,08
Mínimo 8
Máximo 96
Rango 88
Amplitud intercuar ti l
46,00

Curtosi s 4,931 2,000
Di str ib log. Medi a 1,2220 ,1940
Intervalo de confianza Lím ite
,6833
Lím ite
1,7607
superior
1,1978
Medi ana 1,0800

Var ianza ,188
Desv. típ. ,4338
Mínimo ,90
Máximo 1,98
Rango 1,08
,6150

Curtosi s 4,128 2,000
Di str ib. raiz c. Medi a 4,5980 1,3093
,9628
Lím ite
8,2332
superior
4,4072
Medi ana 3,4600

Var ianza 8,571
Desv. típ. 2,9277
Mínimo 2,83
Máximo 9,80
Rango 6,97
3,7750

Curtosi s 4,736 2,000
Di str ib. Medi a 1944,00 1818,13
cudrado Intervalo de confianza Lím ite
-3103,95
Lím ite
6991,95
superior
1644,44
Medi ana 144,00

Var ianza 16528056,0
Desv. típ. 4065,47
Mínimo 64
Máximo 9216
Rango 9152
4624,00

Curtosi s 4,997 2,000
Di str ib -1/X Medi a -7,8000E-02 1,985E-02
-,1331
Lím ite
-2,2889E-02
superior
-7,8889E-02
Medi ana -8,0000E-02

Var ianza 1,970E-03
Desv. típ. 4,438E-02
Mínimo -,13
Máximo -,01
Rango ,12
7,500E-02
Asimetría ,780 ,913

Curtosi s 1,319 2,000
37
a
Kolmogorov-Smirnov Shapiro-Wilk
Distrib. original ,443 5 ,002 ,642 5 ,010**
Distrib log. ,366 5 ,027 ,780 5 ,071
Distrib. raiz c. ,415 5 ,005 ,694 5 ,013
Distrib. cudrado ,466 5 ,001 ,599 5 ,010**
Distrib -1/X ,228 5 ,200* ,971 5 ,837
**. Este es un límite superior de la significación verdadera.
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
Figura 27. Estadísticos del análisis exploratorio de las cinco distribuciones de

frecuencias
(Menú: ESTADÍSTICOS / Resumir / Explorar)
Efectivamente en la figura anterior, si nos fijamos en el estadístico K-S (Lilliefors)

podemos observar que para la variable original es de 0,443 (p=0,002); lo que nos
indica que la distribución no procede de una población normal. Sin embargo, el
estadístico K-S (Lilliefors) de la variable transformada (-1/X1) vale 2,228
(p=0,200). En efecto, esta variable transformada ya puede ser considerada
normal. No obstante, si bien la transformación consiguió hacerla normal, hay que
observar que su distribución es asimétrica. Éste es un caso típico en el que
encontramos una transformación que permite alcanzar una distribución normal
sin disminuir su asimetría. En estas circunstancias lo más adecuado es trabajar
con la distribución original.
1.6. Cómo explorar los datos mediante los menús y

cuadros de diálogo de SPSS
El procedimiento de análisis exploratorio que se incluye en el SPSS ofrece una

considerable variedad de gráficos y estadísticos, así como pruebas destinadas a
comprobar distintos supuestos relacionados con la distribución que siguen las
variables. Están disponibles el test de Levene de homogeneidad de varianzas, el
estadístico de Shapiro-Wilks, el test de Lilliefors para normalidad, así como los
M-estimadores. Si bien a lo largo de éste capítulo hemos tenido oportunidad de
ir viendo distintas opciones que el SPSS ofrece para realizar una exploración de
los datos, así como las principales ventanas implicadas, veremos a continuación
con más detalle las posibilidades que ofrece.
En principio, para obtener los gráficos y estadísticos exploratorios mencionados
partiremos siempre de la ventana de EXPLORAR (figura 26), a la cual
accedemos seleccionando en el menú principal ESTADÍSTICOS / RESUMIR /
EXPLORAR.
38
Figura 28. Cuadro de diálogo de EXPLORAR
La lista de variables del fichero activo de datos aparecerá en el recuadro de la

izquierda. Seleccionando una o más variables dependientes numéricas y
pulsando ACEPTAR, obtendremos una serie de análisis por defecto, que incluyen
diagramas de cajas, gráficos de tallo y hojas y varios descriptivos básicos para
cada una de las variables. Además, por defecto, los casos con valores ausentes
en cualquiera de las variables dependientes o factores serán excluidos del
análisis.
Si se desea pueden llevarse a cabo análisis independientes para grupos de casos
basados en valores obtenidos en una variable factor o de cadena. En caso de
seleccionar más de una variable factor, entonces se realizarán análisis de cada
variable dependiente para cada factor por separado. Cuando el resultado
muestra casos individuales (como los outliers o casos aberrantes), éstos son
identificados por defecto por su situación en el fichero de datos. Si se desea
pueden etiquetarse los casos con sus valores para una variable determinada, que
puede ser de cadena larga, corta, o numérica. Para las de cadena corta se usan
los 15 primeros caracteres.
A través de MOSTRAR, pueden elegirse diversas opciones para los resultados:
Ambos: Ofrece los gráficos y los estadísticos solicitados. Por defecto.
Estadísticos: Ofrece únicamente los estadísticos.
Gráficos: Ofrece únicamente los gráficos.
Para obtener estimadores robustos, percentiles, outliers, tablas de frecuencias,

etc., seleccionaremos: AMBOS o ESTADÍSTICOS y, a continuación, haremos
“clic” en el botón de ESTADÍSTICOS (figura 27).
39
Figura 29. Cuadro de diálogo de EXPLORAR / ESTADÍSTICOS
En este cuadro debe seleccionarse al menos un estadístico de entre los

siguientes:
Descriptivos: Incluye la media y los intervalos de confianza para la media, la
mediana, la media recortada al 5%, el error típico, la desviación típica, la varianza,
los valores mínimo y máximo, la amplitud, la amplitud intercauartílica, asimetría
y curtosis. Los intervalos confidenciales para la media se calculan utilizando por
defecto el 95%. No obstante, puede especificarse cualquier intervalo entre 1 y
99.99 %.
Estimadores Robustos Centrales: Ofrece los estimadores robustos de máxima
verosimilitud de la tendencia central. Muestra 4 estimadores distintos, que se
diferencian en las ponderaciones aplicadas a los casos (M-estimadores). Ofrece
los estimadores de Huber, Andrew, Hampel y Tukey.
Valores atípicos: Ofrece los casos aberrantes o outliers, es decir, los 5 casos
extremos inferiores y los 5 casos extremos superiores.
Percentiles: Ofrece los percentiles 5, 10, 25, 50, 75, 90 y 95.
Tablas de frecuencias agrupadas: Ofrece tablas para la muestra total y para
las submuestras establecidas según los factores. Permite la tabulación de
variables contínuas mostrando la frecuencia de casos para intervalos de valores.
Para obtener histogramas, gráficos con pruebas de normalidad o gráficos de
dispersión con la prueba de Levene, seleccionaremos Ambos o Gráficas y
haremos "clic" en GRÁFICOS. De ese modo abriremos el cuadro de diálogo de
la figura 30.
40
Figura 30. Cuadro de diálogo EXPLORAR / GRÁFICOS
En este cuadro de diálogo debe ser seleccionada, por lo menos, una gráfica, de
entre las siguientes:
Diagramas de Cajas: Puede elegirse una de las siguientes posibilidades de
diagramas de cajas:
a) Niveles de factores juntos: Para una variable dependiente determinada,
origina un diagrama separado para cada grupo. Los diagramas de cajas
se muestran para cada una de las celdas (niveles de la variable
independiente). Puede verse fácilmente cómo varían los valores de la
variable dependiente a través de las celdas.
b) Dependientes juntas: Origina una visualización separada para cada celda
(nivel de la variable independiente). Dentro de cada visualización, los
diagramas de cajas se muestran para cada una de las variables
dependientes. Puede compararse fácilmente la evolución de los valores
de las variables dependientes dentro de una celda. Resulta muy útil
cuando las diferentes variables dependientes representan una sola
característica medida en momentos diferentes.
c) Ninguno: Suprime cualquier diagrama de cajas.
Descriptivos: Permite elegir entre dos opciones:
a) Gráficos de tallo y hojas: Es el que ofrece por defecto. Cada valor
observado es dividido en dos componentes los primeros dígitos (tallo) y
los siguientes (hojas).
b) Histograma: La amplitud de los valores observados se divide en intervalos
iguales, ofreciendo el número de casos dentro de cada intervalo.
Dispersión por nivel con prueba de Levene: Resulta útil cuando se quiere
controlar la transformación de datos deseada. Ofrece siempre la pendiente de la
recta de regresión y el test de Levene de homogeneidad de varianzas. Si se
especifica una transformación, esta prueba se basará en los datos
transformados. Caben varias alternativas:
a) Estimación de potencia: Crea un gráfico con los logaritmos naturales de
las amplitudes intercuartiles frente a los logaritmos naturales de las
41
medianas para todas las celdas, así como una estimación de la
transformación de la potencia necesaria a fin de obtener varianzas iguales
en las celdas.
b) Transformado: Permite transformar los datos de acuerdo con la alternativa
seleccionada en Potencia, y crea gráficos de los datos transformados.
Existen varias alternativas para la Potencia:
Log natural: Transforma los datos en su logaritmo natural. Es la opción
ofrecida por defecto.
1/raíz cuadrada: Transforma cada valor en el recíproco de su raíz
cuadrada.
Recíproca: Transforma los datos en sus respectivos recíprocos.
Raíz cuadrada: Ofrece la raíz cuadrada de cada valor original.
Cuadrado: Ofrece el cuadrado de cada valor original.
Cubo: Ofrece el cubo de cada valor original.
c) No transformado: Crea gráficos de los datos originales. Esto es
equivalente a una transformación con una potencia de 1.
Gráficos de normalidad con pruebas: Permite obtener gráficos de probabilidad
normal y de probabilidad normal eliminada la tendencia. Así como los contrastes
de Shapiro-Wilks y de Kolmogorov-Smirnov, con el nivel de significación de
Lilliefors para la prueba de normalidad. El contraste de Shapiro-Wilks no es
calculado si el tamaño de la muestra es superior a 50.
En cuanto al botón de OPCIONES, cabe decir que se utiliza para modificar el
tratamiento otorgado a los valores ausentes o “missing” (figura 29).
Figura 31. Cuadro de diálogo EXPLORAR / OPCIONES
Puede elegirse una de las siguientes opciones:

Excluir casos según lista: Aquellos casos que tienen valores ausentes en
cualquiera de las variables dependientes serán excluídos de todos los análisis.
Es la opción utilizada por defecto.
Excluir casos según pareja: Son excluídos únicamente aquellos casos que
tienen valores ausentes para la variable independiente o la variable de factor que
estén siendo analizados.
Mostrar valores: Realiza un informe de los casos con valores perdidos para las
variables dependientes en los resultados de frecuencias, pero los excluye de los
42
análisis y los gráficos estadísticos. Los casos con valores perdidos para una
variable de factor son incluidos, pero se etiquetan como missing.
Cabe señalar además que existen una serie de opciones adicionales, a las que
se puede acceder ejecutando el comando EXAMINE a través de la ventana de
sintaxis, entre las que se incluiría:
v Posibilidad de obtener resultados para celdas originadas a partir de
combinaciones de factores (a través de la especificación BY).
v Especificar el número de outliers ofrecido (a través del subcomando
STATISTICS).
v Especificar el valor inicial y de incremento para crear la tabla de frecuencias
(con el subcomando FREQUENCIES).
v Utilizar métodos alternativos de estimación de los percentiles (con el
subcomando PERCENTILES).
v Especificar valores adicionales de la potencia para las transformaciones de
los gráficos de dispersión por nivel (con el subcomando PLOT).
v Especificar los puntos críticos para los M-estimadores (con el subcomando
MESTIMATORS).
Otra posibilidad de llevar a cabo el análisis exploratorio de los datos con el
paquete estadístico SPSS es a través de la opción ESTADISTICOS / ANÁLISIS
DE LOS VALORES PERDIDOS (figura 30).
Figura 32. Selección de ANÁLISIS DE VALORES PERDIDOS
A continuación, el programa nos ofrecerá el siguiente cuadro de diálogo:
43
Figura 33. Selección de ANÁLISIS DE VALORES PERDIDOS
Situados aquí debemos seleccionar al menos una variable cuantitativa, o bien

variables categóricas (numéricas o de cadena) introduciendo un límite en el
número de categorías (MÁXIMO). Debemos pulsar en PATRONES o
DESCRIPTIVOS para obtener descripciones de los valores perdidos y
seleccionar un método para la estimación de los estadísticos y de los propios
valores perdidos. En caso de decidirnos por los métodos EM o Regresión,
pulsaremos también en VARIABLES para especificar el subconjunto que se va a
utilizar para la estimación. Veamos las distintas opciones con más detalle.
Mediante la opción PATRONES, el programa describirá el patrón de los datos
perdidos: su ubicación, su extensión, si las variables tienden a tener valores
perdidos en casos diferentes, si los valores de datos son extremos o si los valores
se pierden de forma aleatoria. En la figura 34 se ofrece el cuadro de diálogo de
ANÁLISIS DE VALORES PERDIDOS / PATRONES.
44
Figura 34. Cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS / PATRONES
Mostrar. Ofrece distintas tablas de patrones que contienen casos en variables.

Las casillas de la tabla contienen símbolos que indican el tipo de valor. Para
Casos tabulados, se utilizan los de X para indicar valores perdidos. Para Todos
los casos y Casos con valores perdidos, los símbolos en la visualización son:
+ Valor extremadamente alto
- Valor extremadamente bajo
S Valor perdido por el sistema
A Primer tipo de valor perdido por el usuario
B Segundo tipo de valor perdido por el usuario
C Tercer tipo de valor perdido por el usuario
Casos tabulados. Tabula la frecuencia de cada patrón de valor perdido,
clasificando los recuentos y las variables según la similaridad de los patrones. La
opción Patrones omitidos con menos de n % de casos permite eliminar los
patrones menos frecuentes.
Casos con valores perdidos. Los patrones de caso por variable de valores
perdidos y extremos se muestran sólo para los casos que posean valores
perdidos. Los casos y las variables se clasifican según la similaridad de los
patrones.
Todos los casos. Para cada caso, se muestra el patrón de los valores perdidos
y extremos. Los casos se enumeran en el orden en que aparecen en el archivo
de datos, a menos que se especifique una variable de ordenación.
45
Variables. Puede especificar variables para etiquetar y clasificar las
representaciones de patrones.
Patrones perdidos para. Enumera todas las variables cuantitativas y
categóricas del cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS.
Información adicional acerca de. Ofrece una lista de los valores para cada
caso. Para patrones tabulados, esta opción enumera la media de las variables
cuantitativas o, para las variables categóricas, el número de casos que tienen el
patrón en cada categoría.
Ordenar por. Los casos se listan según el orden ascendente o descendente de
los valores de la variable especificada. Esta opción está disponible sólo si se
selecciona Todos los casos.
Estima medias, desviación típica, covarianzas y correlaciones utilizando un
método por lista, por parejas, de regresión, o bien EM (maximización esperada).
El método por parejas muestra además recuentos de los casos completos por
parejas. Rellena (imputa) valores perdidos con valores estimados utilizando el
método EM o el de regresión.
Podemos obtener también una serie de estadísticos univariados para cada
variable, incluyendo el número de valores no perdidos, la media, la desviación
típica, el número de valores perdidos y el número de valores extremos, etc.
Veamos con detalle las distintas alternativas que se ofrecen en el cuadro de
diálogo de ANÁLISIS DE VALORES PERDIDOS / DESCRIPTIVOS (figura 33).
Figura 35. Cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS/DESCRIPTIVOS
Estadísticos univariados, muestra para cada variable el número de valores no

perdidos, la media, la desviación típica y el número y porcentaje de valores
perdidos. Además, ofrece los recuentos y porcentajes de los valores perdidos y
los recuentos de los valores extremadamente altos y bajos. Cabe advertir que las
medias, la desviación típica y los recuentos de los valores extremos no se indican
si se trata de variables categóricas.
Estadísticos variable indicador. Para cada variable, SPSS crea una variable
que indica si el valor de la variable está presente o perdido. Las variables de
indicador no se muestran, pero se utilizan para la creación de las tablas de
46
frecuencia, discordancia y prueba t. Para reducir el tamaño de la tabla, pueden
omitirse los estadísticos que se calculan sólo para un pequeño número de casos.
Porcentaje de discordancia. Para cada par de variables, muestra el porcentaje
de casos en los que una variable tiene un valor perdido y la otra variable tiene un
valor no perdido. Cada elemento diagonal de la tabla contiene el porcentaje de
valores perdidos para una sola variable.
Pruebas t con los grupos formados por las variables de indicador. Compara
las medias de los dos grupos para cada variable cuantitativa, utilizando el
estadístico t de Student. Los grupos se determinan según si la variable de
indicador está codificada como presente o perdida. Se ofrece el estadístico t, los
grados de libertad, los recuentos de valores perdidos y no perdidos, las medias
de los dos grupos y los niveles de significación.
Tablas de contingencia de variables categóricas y de indicador, ofrece para
cada variable categórica una tabla, donde se muestra la frecuencia y el
porcentaje de valores no perdidos para las demás variables, respecto a cada una
de las categorías. Se muestran además los porcentajes de cada tipo de valor
perdido.
La opción de ESTIMACIÓN, se utiliza para estimar las medias, desviaciones
típicas, covarianzas y correlaciones. Para ello pueden utilizarse distintos
métodos: por lista, por parejas, por regresión, o bien EM (maximización
esperada). Si se utilizan estos dos últimos métodos Regresión o EM, pueden
imputarse además los valores perdidos y guardarlos en un nuevo archivo de
datos para utilizarlos en posteriores análisis. Si nos decidimos por el método EM,
debemos acceder al cuadro de diálogo de VARIABLES (figura 34).
Figura 36. Cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS / VARIABLES
Podemos utilizar todas las variables cuantitativas de nuestro archivo de datos, o

bien una selección de estas, no así las categóricas. Debemos especificar también
cuáles van a ser utilizadas como predictores y cuáles a pronosticar.
47
A continuación, debemos acceder también al cuadro de diálogo de EM, donde
debemos precisar también diversas especificaciones (figura 35).
Figura 37. Cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS / EM
EM estima las medias, la matriz de covarianza y la correlación de las variables

cuantitativas con los valores perdidos, utilizando un proceso iterativo,
permitiendo, a partir de aquí imputar sus valores. Pueden presuponerse distintas
distribuciones para los datos: normal, normal mixta y t de Student. Para un
supuesto de distribución normal mixta, puede especificar la proporción y la razón
de la desviación típica. Para la distribución t de Student, deberá especificar los
grados de libertad. Debemos establecer también el N° máximo de iteraciones, ya
que el procedimiento se detiene cuando se alcanza un número de iteraciones
especificado, incluso en aquellos casos en que no hayan convergido las
estimaciones. Finalmente, mediante la opción Guardar datos completados, el
programa crea un archivo de datos nuevo, en el que reemplaza los valores
perdidos con los valores estimados por el método EM.
En caso de habernos decidido por llevar a cabo la imputación mediante el método
de Regresión debemos acudir también al cuadro de diálogo de VARIABLES
(figura 34), al igual que hacíamos con el método EM, pero a continuación
pulsaremos el botón de REGRESIÓN, accediendo de ese modo al cuadro de
diálogo de la figura 38.
48
Figura 38. Cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS / REGRESIÓN
Este método estima mediante la regresión lineal múltiple, mostrando además las
medias, la matriz de covarianza y la matriz de correlaciones de las variables
pronosticadas. Mediante la opción Corrección de la estimación, el método de
regresión permite añadir un componente aleatorio a las estimaciones de
regresión, utilizando para ello los residuos, una distribución normal, o una
distribución t de Student. Puede especificarse además un número máximo de
variables predictoras, a utilizar en el proceso de estimación. Para terminar, al
igual que en el método EM, mediante la opción Guardar datos completados,
SPSS crea un nuevo archivo de datos en el que reemplaza los valores perdidos
con los valores estimados por el método de regresión.
49
1.7. Análisis Exploratorio de Datos. Resúmen
El análisis exploratorio permite explorar la distribución de frecuencias

identificando características tales como: valores atípicos o outliers, saltos o
discontinuidades, concentraciones de valores, forma de la distribución, etc.
También permite comprobar, mediante técnicas gráficas y contrastes no
paramétricos, si los datos han sido extraídos de una población con distribución
aproximadamente normal.
Para realizar un análisis exploratorio, la secuencia de instrucciones es:
Analizar
Estadísticos Descriptivos
Explorar
• Si el análisis de la variable se realiza conjuntamente para todos los casos es

suficiente indicar la o las variables en la ventana Dependientes.
• Si el análisis de la variable se realiza por grupos es necesario indicar también
la variable que define los grupos en la ventana Factores.
Opcionalmente se puede indicar en la ventana Etiquetar los casos mediante una

variable cuyos valores se tomarán para etiquetar los outliers.
El análisis exploratorio calcula, por defecto, los estadísticos más importantes, así
como el intervalo de confianza para la media al 95%, el gráfico de tallo y hojas y
el diagrama de caja. Para ampliar este análisis se puede acceder a los siguientes
cuadros de diálogo intervalo media:
50
• Estadísticos: Permite modificar el grado de confianza del intervalo para la
media, calcular Estimadores robustos centrales (estimador M de Huber,
estimador en onda de Andrews, estimador M redescendente de Hampel,
estimador biponderado de Tukey), y hallar los Valores atípicos (se obtienen los 5
mayores y los 5 menores valores de la distribución) y algunos Percentiles (los
cuartiles y el 5º, 10º, 90º y 95º centil).
• Gráficos:
- Las opciones del Diagrama de caja se utilizan sólo cuando se han
seleccionado varias variables dependientes. Por defecto, se presentan en
gráficos distintos las variables dependientes seleccionadas, y para cada una
de ellas, en el mimo gráfico, las cajas de los distintos grupos definidos por el
factor. Si se selecciona Dependientes juntas se representan en un único
gráfico las cajas correspondientes a todas las variables dependientes. Con la
opción Ninguno se omite la presentación de los diagramas de caja.
51
- Las alternativas de Descriptivos son el gráfico de tallo y hojas, activado por
defecto, y el histograma. Estos gráficos se elaboran por separado para todos
los grupos definidos para cada una de las variables dependientes.
- Si se activa la opción Gráficos con pruebas de normalidad se obtienen para
cada una de las variables dependientes y para cada uno de los grupos el
correspondiente gráfico Q-Q Normal y el gráfico Q-Q Normal sin tendencia.
Estos gráficos permiten comprobar si las poblaciones de las que se han
extraído las muestras presentan distribución normal. El Q-Q Normal presenta
simultáneamente para cada elemento el valor observado y el valor esperado
bajo el supuesto de normalidad. Si los datos proceden de una distribución
normal los puntos aparecen agrupados en torno a la línea recta esperada. El
Q-Q Normal sin tendencia se basa en las diferencias entre los valores
observados y los valores esperados bajo la hipótesis de normalidad. Si estas
diferencias se distribuyen aleatoriamente alrededor del eje de abscisas puede
suponerse que la hipótesis de normalidad es sostenible. Además, esta opción
permite contrastar la hipótesis de normalidad con las prueba de Kolgomorov-
Smirnov y de Shapiro-Wilks.
- La opción Dispersión por nivel con prueba de Levene, activando No
transformados, permite contrastar la hipótesis de igualdad de varianza para
los grupos definidos por un factor.
• Opciones controla el tratamiento de los valores missing en el análisis

exploratorio.
- Por defecto está activada la opción Excluir casos según lista con la
que se eliminan de todos los cálculos y gráficos los casos que presentan
algún valor missing, ya sea en alguna de las variables dependientes o
52
en algún factor. Con esta opción el número de casos válidos es el mismo
en todos los resultados.
- Si se activa Excluir casos según pareja, los casos que presentan algún
valor missing en alguna variable dependiente sólo se excluyen en los
cálculos de estadísticos correspondientes a dicha variable, y sí que se
incluyen en los de otras variables dependientes. Con esta opción el
número de casos válidos no tiene porque coincidir en todos los
resultados.
- Con la opción Mostrar valores, los valores missing de un factor definen
un nuevo grupo de casos. Si los valores missing son de la variable
dependiente éstos no se incluyen en el cálculo de los estadísticos.
El análisis exploratorio de datos puede aplicarse a variables cuantitativas. La

variable factor debe presentar un número limitado de categorías y es conveniente
expresarlas numéricamente o con una cadena alfanumérica corta.
EJEMPLOS
Ejemplo 1. Con la base de datos Enctran.sav realizar el análisis exploratorio

básico de las variables: Alt y Peso, diferenciando por las variables
Genero y Curso. Etiquetar los valores atípicos con la variable Num.
En el cuadro de diálogo Explorar se seleccionan las siguientes variables:
Con ello se obtendrá el análisis exploratorio básico de las variables dependientes

(Altura y Peso). Los factores Género y Curso son variables cualitativas con dos
modalidades cada una; por lo tanto, para cada dependiente quedarán definidos
dos grupos con respecto al género (Hombres y Mujeres) y dos con respecto al
curso (Primero y Segundo). La variable Num se selecciona para etiquetar los
valores outliers.
53
Los resultados que se obtienen con las opciones activadas por defecto son:
• Descriptivos:
Contiene los valores de los estadísticos más utilizados para las variables
Altura y Peso en función de los grupos inducidos por las variables factores.
En la tabla siguiente se recogen los resultados de ambas variables
correspondientes a los grupos asociados al factor Genero. El lector puede
comprobar que el output contiene también el cuadro análogo
correspondiente a los grupos definidos por elfactor Curso.
• Gráficos:
En el visor de resultados se obtienen los gráficos de tallo y hoja y los

diagramas de caja.
54
Como puede observarse la distribución de la variable Altura para el grupo mujer
presenta dos outliers o valores extremos, con valores superiores a 182 cm.
Gráficos similares se obtienen también para el resto de las combinaciones
variable-factor.
55
En el diagrama de caja anterior se observa que el valor central de la distribución
de la variable Altura es notablemente superior en el grupo de hombres; la
distribución de la altura en ambos grupos es prácticamente simétrica y,
aparentemente, presentan dispersiones parecidas. Obsérvese que los valores
outliers están etiquetados con el número de caso.
Ejemplo 2. Para las mismas variables del ejemplo anterior y diferenciando

Únicamente por el factor género comprobar:
• La hipótesis de que las muestras provienen de poblaciones normales;

En el cuadro de diálogo que se abre con la
secuencia Analizar > Explorar > Gráficos se activa la opción Gráficos con
pruebas de normalidad:
56
El estadístico del contraste Kolmogorov-Smirnov para la variable Altura en el
grupo hombres toma el valor 0,95 que no permite rechazar la hipótesis nula de
normalidad para niveles de significación inferiores a 0,2. En el grupo de mujeres,
57
por el contrario, el estadístico toma el valor 0,161 con el que se rechaza la
hipótesis de normalidad para niveles de significación superiores a 0,001. De la
misma forma se interpretan los resultados correspondientes a la variable peso.
En el gráfico Q-Q normal de la variable Altura se observa, para el grupo de los
hombres, que los puntos están situados casi sobre la línea recta lo cual es un
indicio de normalidad de la población de origen. Este resultado es compatible con
el del contraste de Kolmogorov-Smirnov.
• La hipótesis de que las muestras provienen de poblaciones con igual varianza.
Esta prueba debe realizarse cuando se desea contrastar hipótesis referidas a las
medias de dos o más poblaciones definidas mediante una variable factor.
En el cuadro de diálogo Explorar: Gráficos se activa la opción No
transformados del recuadro Dispersión por nivel con prueba de Levene.
El estadístico de Levene, en todos los casos, permite no rechazar la hipótesis de

homogeneidad de la varianza (obsérvese que los niveles de significación para
los que se rechazaría esta hipótesis son todos superiores a 0,4, por lo tanto, para
los niveles de significación habituales no se rechaza la hipótesis nula).
58
2. Práctica Interactiva de Análisis Exploratorio
ANÁLISIS MULTIVARIANTE

2022-2023

PRÁCTICA 1

ANÁLISIS PRELIMINAR O EXPLORATORIO DE DATOS
****************
Dr. Jesús Varela Mallou
Dr. Antonio Rial Boubeta
USC-PSICOM
****************
ÍNDICE
1. OBJETIVOS .............................................................................................................. 60
2. CASO 1 RESUELTO SOBRE “TURISMO DE SANTIAGO”.................................... 60
Descripción del Caso 1 .................................................................................................... 60
Ficha para la resolución del Caso 1: “Turismo de Compostela” ...................................... 62
Procedimiento del SPSS para el Caso 1. Pasos a seguir............................................ 65
Ficha cubierta con el Caso 1 resuelto .............................................................................. 84
3. CASO 2 DE “RECURSOS HUMANOS”................................................................... 88
Descripción del Caso 2 .................................................................................................... 88
Ficha para la resolución del Caso 2. Autoevaluación ...................................................... 89
Ficha con el Caso 2 resuelto. .......................................................................................... 91
4. CASO 3 --- CLASE INTERACTIVA---....................................................................... 93
Descripción del Caso 3 sobre el Comportamiento Turístico ............................................ 93
Ficha para la resolución del Caso 3 ................................................................................. 93
Ficha con el Caso 3 resuelto. Resuelto. .......................................................................... 99
59
1. OBJETIVOS DE LA PRÁCTICA DEL TEMA 2
El objetivo fundamental de esta primera práctica es familiarizar al alumno con las

estrategias más comunes a la hora de realizar un “Análisis Preliminar de los
Datos”, de una investigación empírica cualquiera. Los objetivos específicos que
se plantean para esta práctica son los siguientes:
1. Ser capaz de detectar y depurar los errores e incoherencias en una matriz
de datos
2. Saber Identificar y tratar los valores missing, evaluando la magnitud del
problema en caso de la falta de respuestas
3. Identificar la presencia de casos anómalos (extremos y outliers) y evaluar
su impacto sobre la distribución de los datos
4. Realizar un análisis descriptivo a nivel univariado, incorporando
soluciones gráficas como el boxplot, el gráfico de tallo y hojas o el
histograma
5. Evaluar el cumplimiento de la normalidad y sugerir estrategias de
transformación una vez comprobado su efecto
2. CASO 1 RESUELTO, sobre “Turismo de Santiago”
2.1. Descripción del Caso 1 y cuestionario utilizado

Para esta práctica emplearemos un archivo de datos denominado
“EXPLORATORIO_CASO1.SAV”, en el que se recoge la matriz de datos
correspondiente a un estudio del destino turístico Santiago de Compostela. Contiene
la información correspondiente a 100 sujetos en 12 variables (100x12) que han visitado
Santiago de Compostela.
P1: Valoración de la variedad de atracciones culturales e históricas (0-10)
P2: Valoración de la variedad de oferta actividades lúdicas (0-10)
P3: Valoración global de las vacaciones (0-10)
P4: Probabilidad de recomendar Santiago a familia y amistades
P5: Saber que Santiago de Compostela fue capital europea de la cultura
P6: Su visita sirvió para saber que fue capital europea de la cultura
P7: Principal motivación para visitar Santiago de Compostela
P8: Primera visita
P9: Días de vacaciones
P10: País de procedencia
P11: Sexo
P12: Edad
El fichero de datos “exploratorio_caso1.sav” es el resultado de haber utilizado el
siguiente cuestionario, a la muestra seleccionada de 100 visitantes
** Si lo deseas puedes pasar este cuestionario a 20 personas de manera on-line o
mediante entrevista, grabar sus respuestas en una plantilla de SPSS y, después,
ejecutar esta práctica sobre tus propios datos. Sería maravilloso!!!
60
CUESTIONARIO: “SU EXPERIENCIA EN SANTIAGO DE COMPOSTELA”
P1. VARIEDAD DE ATRACCIONES CULTURALES E HISTÓRICAS

POCA 0 1 2 3 4 5 6 7 8 9 10 MUCHA
P2. VARIEDAD DE OFERTA ACTIVIDADES LÚDICAS

POCA 0 1 2 3 4 5 6 7 8 9 10 MUCHA
P3. VALORACIÓN GLOBAL DE LAS VACACIONES

NEGATIVA 0 1 2 3 4 5 6 7 8 9 10 POSITIVA
P4. ¿CUÁL ES LA PROBABILIDAD DE QUE RECOMIENDE SANTIAGO A SU FAMILIA Y AMISTADES?

MUY BASTANTE BASTANTE MUY
NO LO SÉ
IMPROBABLE IMPROBABLE PROBABLE PROBABLE
P5. ¿SABÍA QUE SANTIAGO DE COMPOSTELA FUE CAPITAL EUROPEA DE LA CULTURA?

NO (PASE A P6) SÍ (PASE A P7)
P6. ¿LLEGÓ A SABERLO DURANTE SU VISITA?
SÍ, GRACIAS AL PERSONAL SÍ, GRACIAS A LA SÍ, A TRAVÉS DE
NO
DE TURISMO COMUNIDAD LOCAL OTRAS FUENTES
P7. ¿CUÁL FUE LA PRINCIPAL MOTIVACIÓN PARA VISITAR SANTIAGO DE COMPOSTELA?
SU HISTORIA Y CULTURA OCIO Y ENTRETENIMIENTO POR TRABAJO
HABER SIDO CAPITAL VISITAR AMISTADES O
MEJORAR EL IDIOMA
EUROPEA DE LA CULTURA FAMILIARES
P8. ¿FUE SU PRIMERA VISITA A SANTIAGO DE COMPOSTELA?
NO SÍ
P9. ¿CUÁNTOS DÍAS DURARON SUS VACACIONES? ______________
PARA TERMINAR, CUBRA LOS SIGUIENTES DATOS SOCIODEMOGRÁFICOS
P10. País de procedencia __________________
P11. Sexo Hombre Mujer Otro
P12. Edad ________
MUCHAS GRACIAS POR SU COLABORACIÓN
61
Nombre ….……....………………………….…Grupo………….… Curso 202_ -……
2.2. Ficha para que el alumno cumplimente con los

datos del Caso 1: “Turismo de Santiago”
EJERCICIO CON BASE DE DATOS: “EXPLORATORIO_CASO1.SAV”
1. Depurar el archivo de datos, subsanando en la medida de lo posible

todos los errores que encuentres. No olvides que para ello debes
servirte de tablas de frecuencias. Rellena las siguientes casillas
registrando el nº de errores detectado en cada variable. A continuación,
sustitúyelos por un valor admisible.
Valores erróneos en P1 Valores erróneos en P2
§ Subsana también las incoherencias que encuentres. No olvides que para

ello debes servirte de tablas de contingencia.
¿Entre qué variables has detectado incoherencias?
¿Cuántos sujetos tenían una respuesta incoherente? Sujeto Nº
2. Comprueba si existe algún sujeto con un elevado porcentaje de

respuestas “missing”. Utiliza el menú ANÁLISIS DE VALORES
PERDIDOS del SPSS. Si es preciso elimina algún sujeto de la muestra.
§ ¿Cuántos sujetos están en esa situación?
§ ¿Qué porcentaje de missing presenta cada uno?

Nº sujeto % Missing
§ ¿Cuál es el “n” definitivo?
62
§ Informa del porcentaje de Missing para cada variable
VARIABLE % MISSING
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
3. Realiza un análisis descriptivo de la variable P12, utilizando el menú

EXPLORAR del SPSS. Solicita un Boxplot, un histograma y la tabla de
estadísticos descriptivos y M-estimadores. Dibuja el Boxplot e
interprétalo.
BOXPLOT P12
ESTADÍSTICO VALOR
Media
Media recortada
Mediana
Varianza
Amplitud intercuartil (IQR)
Rango
Asimetría
Curtosis
M-estimador de Tukey
M-estimador de Huber
M-estimador de Hampel
M-estimador de Andrews
Nº VALOR Nº SUJETO
Casos extremos
Outliers
TOTAL ANÓMALOS
INTERPRETACIÓN (integrando la información de las gráficas y las tablas)
63
§ Intenta hacer lo mismo con la variable P3 por tu cuenta.
BOXPLOT P3
ESTADÍSTICO VALOR
Media
Media recortada
Mediana
Varianza
Rango
Asimetría
Curtosis
Casos extremos
Outliers
TOTAL ANÓMALOS
________________________________________________________________
4. Comprueba el supuesto de normalidad para la Variable P12
K-S Lilliefors Sig INTERPRETACIÓN
§ ¿Qué se puede hacer si no se cumple la normalidad?
§ ¿Qué tipo de transformación recomendarías?

_______________________________________________________
64
Tema 2
2.3. Procedimiento y manejo del SPSS para resolver el

Caso 1: “Turismo de Santiago”
1. Depurar el archivo de datos, subsanando en la medida de lo posible todos

los errores que encuentres. No olvides que para ello debes servirte de
tablas de frecuencias. Rellena las siguientes casillas registrando el nº de
errores detectado en cada variable. A continuación, sustitúyelos por un
valor admisible.
Si vamos a “Analizar” > “Descriptivos” > “Frecuencias”, y seleccionamos todas
las variables menos “SUJETO”, obtenemos varias tablas de frecuencia, una por
cada variable. Estas tablas, además de conocer la frecuencia de las distintas
respuestas, nos permiten detectar valores fuera de rango (no admitidos para
una determinada variable).
Cuando tratamos con variables cualitativas, y si los valores que la van a

conformar están correctamente etiquetados (Por ej.: “1 = MUY IMPROBABLE”
hasta “5 = MUY PROBABLE”), no debería aparecer ningún otro valor. Vemos en
el siguiente ejemplo un “44”, que no debería estar presente:
PROBABILIDAD DE RECOMENDAR A FAMILIARES Y AMISTADES
Válido MUY IMPROBABLE 4 4,0 4,0 4,0
IMPROBABLE 5 5,0 5,0 9,0
NO LO SÉ 11 11,0 11,0 20,0
PROBABLE 63 63,0 63,0 83,0
MUY PROBABLE 16 16,0 16,0 99,0
44 1 1,0 1,0 100,0
Total 100 100,0 100,0
La columna de frecuencia nos indicaría el número de veces que aparece dicho

valor, así como el porcentaje es un indicativo de esa misma cantidad, pero como
una fracción en 100 partes iguales. En este caso, al ser 100 sujetos quienes
componen la base de datos, coinciden la frecuencia y el porcentaje. También
vemos una columna de “Porcentaje válido” y “Porcentaje acumulado”, siendo esta
última simplemente la acumulación de los porcentajes de cada categoría.
“Porcentaje válido” indica el porcentaje sobre los sujetos que presentan algún
valor en esa variable, obviando aquellos que presenten valores perdidos
(“missing”). De esta manera, si todos los sujetos presentan respuestas en la
variable, coincidirán el “Porcentaje” y el “Porcentaje Válido”, tal y como sucede
en la variable “Probabilidad de recomendar”. Por ejemplo, en “Principal
motivación para visitar Santiago de Compostela” ambos porcentajes no
coinciden, pues hay cuatro valores perdidos que no entran en el recuento de
“Válido”.
PRINCIPAL MOTIVACIÓN PARA VISITAR

Válido HISTORIA Y CULTURA 24 24,0 25,0 25,0
OCIO Y ENTRETENIMIENTO 29 29,0 30,2 55,2
TRABAJO 12 12,0 12,5 67,7
MEJORAR EL IDIOMA 10 10,0 10,4 78,1
CAPITAL EUROPEA DE LA CULTURA 13 13,0 13,5 91,7
VISITAR AMISTADES O FAMILIARES 8 8,0 8,3 100,0
Total 96 96,0 100,0
Perdidos Sistema 4 4,0
Total 100 100,0
Una vez detectados estos valores fuera de rango, debemos localizar el

cuestionario a través del número que le hayamos asignado, para así saber cuál
66
es su respuesta real en ese ítem en concreto y poder subsanar el error en la base
de datos.

Las incoherencias se producen cuando una pregunta es filtro de otra. Si echamos
un vistazo al cuestionario del ANEXO, vemos que si responde “Sí” en la pregunta
“¿Sabía que Santiago de Compostela fue capital europea de la cultura?”, no
debería responder a “¿Llegó a saberlo durante su visita?”. Para detectarlas
vamos a “Analizar” > “Estadísticos Descriptivos” > “Tablas Cruzadas”, y
solicitamos en filas la P5 (“¿Sabía que Santiago de Compostela fue capital
europea de la cultura?”) y en columnas la P6 (“¿Llegó a saberlo durante su
visita?”).
67
Tabla cruzada SABER QUE FUE CAPITAL EUROPEA DE LA CULTURA*SU VISITA
SIRVIÓ PARA SABER QUE FUE CAPITAL EUROPEA DE LA CULTURA
Recuento
SU VISITA SIRVIÓ PARA SABER QUE FUE CAPITAL EUROPEA
DE LA CULTURA
SÍ, GRACIAS SÍ, GRACIAS A LA SÍ, A TRAVÉS
PERSONAL DE COMUNIDAD DE OTRAS
TURISMO LOCAL FUENTES NO Total
SABER QUE FUE SÍ 0 0 0 2 2
CAPITAL EUROPEA NO 2 15 6 45 68
DE LA CULTURA
Total 2 15 6 47 70
En esta tabla apreciamos filas con la respuesta “SÍ” y “NO” en “¿Sabía que
Santiago de Compostela fue capital europea de la cultura?”, y en las columnas,
las distintas respuestas a “¿Llegó a saberlo durante su visita?”. Que parezca
algún valor en la fila de “SÍ” es un error, pues no deberían haber respondido a P6
en caso de haber sabido antes de la visita que Santiago fue Capital Europea de
Cultura. Esto puede ser una incoherencia por parte del sujeto, que realmente ha
respondido así, o que al grabar la base de datos se ha cometido un error. Al igual
que en el caso de los valores fuera de rango, deberíamos acudir al cuestionario
del sujeto en cuestión para saber cuál de ambas posibilidades es.
¿Cómo se depura una base de datos?

Cada vez que detecte valores fuera de rango, incoherencias, valores perdidos, o
cualquier otro posible error en mi base de datos, debo acudir a la fuente de la
información a comprobar si realmente el sujeto ha dado esa respuesta (por ej.:
ha indicado que su edad es “118”), o si la persona que registró la información ha
introducido mal ese valor en concreto. Muchas veces nos encontramos que lo
que ha ocurrido es esto último, así que sustituiremos en la base de datos el valor
erróneo por la verdadera respuesta del sujeto.
Podemos emplear la herramienta de búsqueda de SPSS para localizar los
valores erróneos u ordenar las variables de forma ascendente o descendente en
función de dónde esté el error para localizarlo rápidamente, y entonces sustituirlo.
La búsqueda aparece simbolizada como unos prismáticos justo debajo del
comando de “Utilidades” (a la derecha de “Analizar”), mientras que para ordenar
debemos hacer click con el botón derecho del ratón sobre el nombre de la
variable para que nos aparezca esa opción entre otras.
68
Para detectar otro tipo de errores más sutiles (no son valores fuera de rango ni
incoherencias), está la comprobación al azar de la base de datos. Así
escogeremos sujetos al azar, y verificaremos que la información de la fuente de
información primaria se corresponde con lo que ha sido registrado en la base. De
una buena depuración de datos depende la calidad de nuestro estudio. Si nuestra
base de datos contiene errores, también nuestros resultados.
Con este ejercicio, hemos cumplido el objetivo 1 de esta práctica.
69
Comprueba si existe algún sujeto con un elevado porcentaje de respuestas
“missing”. Utiliza el menú ANÁLISIS DE VALORES PERDIDOS del SPSS. Si
es preciso elimina algún sujeto de la muestra.
Este ejercicio se plantea para abordar el objetivo 2 de esta práctica.
Además de seleccionar “Analizar” > “Análisis de valores perdidos”, debemos
marcar en la pestaña que se nos abre “Patrones” > “Casos con valores perdidos,
ordenados por patrones de valores perdidos”. Debemos escoger en qué recuadro
ponemos cada una de las variables atendiendo a la escala de medida a que
pertenece. Las “Variables cuantitativas” son aquellas de tipo escala (de intervalo
o razón) y las “Variables categóricas” incluyen tanto las nominales como las
ordinales.
70
Obtenemos dos tablas, en la primera aparecen los valores perdidos para las
variables, es decir, el recuento de casos en que no existe un valor para la
variable en cuestión.
Estadísticos univariados
Desv. Perdidos Número de extremosa
N Media Desviación Recuento Porcentaje Menor Mayor
P1 98 7,09 2,051 2 2,0 5 0
P2 99 6,63 1,562 1 1,0 0 0
P3 99 6,75 1,650 1 1,0 5 0
P9 99 7,58 3,523 1 1,0 0 6
EDAD 99 26,97 7,511 1 1,0 0 4
P4 100 0 ,0
P5 100 0 ,0
P6 70 30 30,0
P7 96 4 4,0
P8 96 4 4,0
PAÍS 100 0 ,0
SEXO 99 1 1,0
a. Número de casos fuera del rango (Q1 - 1,5*IQR, Q3 + 1,5*IQR).
La columna de “N” nos indica la frecuencia de valores válidos (no perdidos), o lo

que es lo mismo, el número de sujetos que presentan una respuesta en esa
variable. Las columnas “Media” y “Desviación estándar”, como sus propios
nombren indican, son la media y desviación estándar de esa variable. SPSS no
tiene en cuenta si la variable es cualitativa, en cuyo caso no tiene sentido informar
de ninguno de esos descriptivos. Si hemos sido cuidadosos con el tipo de variable
que estábamos analizando (poniendo las cualitativas en el recuadro de “Variables
categóricas”, y las cuantitativas en el de “Variables cuantitativas”), esto no
sucederá, sólo nos indicará la media y desviación para las variables que hemos
indicado como cuantitativas. Lo mismo ocurre en las columnas de “Números de
extremos”, donde se nos informa de la presencia de posibles casos anómalos,
sin indicarnos si son de tipo “outlier” o “extremo”. Tal y como nos indica el pie de
tabla, en la columna de “Menor” aparecen aquellos valores que estarían por
debajo de la distribución normal de nuestra variable (Q1 - 1,5*IQR), mientras en
“Mayor” aparecen aquellos que están por encima (Q3 + 1,5*IQR). El comando
“Explorar” que veremos en la pregunta 3 nos permitirá detectar e interpretar mejor
los casos anómalos.
Para esta práctica nos vamos a fijar en las columnas de “Perdidos”. Podría estar
llamándonos la atención el elevado número de valores perdidos de “p6” (30% o
32% si hemos eliminado en el paso anterior estas incoherencias). Debemos
recordar que a esta pregunta sólo respondían las personas que no supieran que
Santiago había sido capital de Cultura antes de su visita, por tanto, es normal que
muchas la dejasen en blanco en el cuestionario.
71
En la siguiente tabla que encontramos en el visor de resultados vemos los casos
(sujetos) y los valores perdidos (missing) que presenta cada uno de ellos. Los
sujetos aparecerán ordenados según el número de missing que presenten,
siendo fácil detectar cuáles presentan el mayor número porque estarán en las
últimas filas de la tabla. Ojo: la tabla que se presenta a continuación está
simplificada con respecto a la que aparece originalmente en SPSS.
Patrones perdidos (casos con valores perdidos)

# % de Patrones de valor extremo y perdidoa
Caso perdido perdido P4 P5 PAÍS P9 EDAD P2 P3 P1 SEXO P8 P7 P6
57 1 8,3 S
59 1 8,3 S
64 1 8,3 S
65 1 8,3 S
68 1 8,3 S
69 1 8,3 S
73 1 8,3 S
75 1 8,3 S
81 1 8,3 S
85 1 8,3 S
35 1 8,3 S
54 1 8,3 S
66 1 8,3 S
21 1 8,3 S
53 3 25,0 S S S
- indica un valor bajo extremo, mientras que + indica un valor alto extremo. El rango utilizado es (Q1 -
1,5*IQR, Q3 + 1,5*IQR).
a. Los casos y las variables se ordenan en los patrones perdidos.
Las variables en las que el sujeto presenta un missing aparecen indicadas con “S”
Esta tabla también nos indica valores extremos, tanto por encima de la media (o
“altos”, tal y como les llama el programa, señalados con “+”), como por debajo de
ella (“bajos”, señalizados con un “-”).
Debemos tener en cuenta que SPSS no nos informa del Nº de Sujeto, ya que la
variable “SUJETO” sólo es una variable más para el software. La manera que
tiene de localizar e informar de cada sujeto y su número de valores perdidos, es
teniendo en cuenta la fila que ocupaba en el momento del análisis. Así, vemos
que en la tabla anterior el sujeto ocupa la fila 53, que coincide con su número de
sujeto (ya que la base de datos estaba ordenada por número de sujeto al realizar
el análisis de valores perdidos). Eliminaremos ese sujeto que presenta un 25%
de missing, con lo cual el tamaño de nuestra muestra (n) se verá reducido de 100
a 99.
La decisión de cómo actuar con los missing es personal, y muchas veces se
tomará en función de los objetivos de la investigación. En esta ocasión se ha
72
optado por eliminar a los sujetos con 25% o más del de variables en blanco, pero
podría haberse optado por imputar los valores perdidos. Para saber más,
consultar apuntes tema 2, páginas 24-40.

estadísticos descriptivos y M-estimadores. Dibuja el Boxplot e interprétalo.
Para poder abordar el objetivo 3 y el objetivo 4 de esta práctica, vamos a
“Analizar > Descriptivos > Explorar”, donde nos encontraremos un recuadro en
que podremos situar variables bien en “Lista de dependientes”, en “Lista de
factores” o en “Etiquetar los casos mediante”. Las variables que nos interese
explorar deberían situarse en “Lista de dependientes”. Si indicásemos alguna
variable en “Lista de factores”, las que estuviesen como dependientes serían
exploradas con relación al factor (por ejemplo, podríamos explorar la edad en
función del sexo, y entonces en los resultados encontraríamos la distribución de
la edad para cada categoría de sexo: “hombre”, “mujer” u “otro”). “Etiquetar los
casos mediante” nos permite seleccionar una variable de identificación para
etiquetar los casos anómalos de la otra variable (por ej. indicando si son
“hombre”, “mujer” u “otro”).
73
En “Estadísticos” está preseleccionado
los “Descriptivos”, a los que podemos
añadir “Estimadores M” (M-estimador de
Tukey, M-estimador de Huber, M-
estimador de Hampel, M-estimador de
Andrews), valores atípicos, percentiles.
Si además en la opción “Gráficos”

seleccionamos “Gráficos de normalidad
con pruebas” ya obtenemos también la
tabla con la que podremos resolver el
ejercicio 4 (objetivo 5). Aquí por defecto
está seleccionado el gráfico de tallo y
hojas.
En los resultados obtenemos una tabla de descriptivos, en las que encontramos

varios indicadores de la tendencia central, empezando por la media y siguiendo
por la Media recortada al 5% y la Mediana. Estos últimos son estadísticos
robustos, esto es, más resistentes a los valores extremos de la variable (los más
altos y los más bajos). La media recortada es calculada obviando parte de la
muestra, en el caso del 5%, obvia el 5% de los valores superiores y el 5% de los
inferiores, de este modo también dejando fuera del cálculo a los posibles outliers.
Salvo eso, la fórmula empleada es la misma que en la media común. Por otra
parte, la mediana informa del percentil 50 (es decir, el valor que ocupa la mitad
exacta de la muestra, o el 50%) En la tabla siguiente a los Descriptivos
encontramos otros indicadores de tendencia central robustos: M-estimador de
Tukey, M-estimador de Huber, M-estimador de Hampel, M-estimador de
Andrews, todos ellos emplean coeficientes de ponderación, estando al pide la
tabla indicado el que emplea cada uno.
74
Descriptivos
Estadístico Desv. Error
DEMOGRÁFICOS. EDAD Media 27,02 ,761
95% de intervalo de Límite inferior 25,51
confianza para la media Límite superior 28,53
Media recortada al 5% 26,21
Mediana 25,00
Varianza 56,742
Desv. Desviación 7,533
Mínimo 18
Máximo 59
Rango 41
Rango intercuartil 8
Curtosis 4,893 ,483
Estimadores M
Estimador M de Biponderado de Estimador M de Onda de
Hubera Tukeyb Hampelc Andrewsd
DEMOGRÁFICOS. EDAD 25,73 25,22 25,63 25,22
a. La constante de ponderación es 1,339.
b. La constante de ponderación es 4,685.
c. Las constantes de ponderación son 1,700, 3,400 y 8,500
d. La constante de ponderación es 1,340*pi.
En la tabla de Descriptivos también encontramos varias medidas de dispersión,

que son indicativas de la variabilidad de los datos. Encontramos la varianza, la
desviación típica, los valores mínimos y máximos, el rango intercuartil, el valor de
la asimetría y la curtosis. El rango intercuartil, amplitud intercuartílica o IQR, toma
como medida de posición central la mediana en vez de la media. Se trata de la
diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). La asimetría es la
medida que indica la simetría de la distribución de una variable respecto a la
media aritmética mientras que la curtosis indica la distribución de datos con
respecto a la media (si se encuentran cerca o lejos de la misma).
Una forma de poder interpretar fácilmente la Asimetría y Curtosis es

estandarizándolos, lo cual podemos conseguir al dividir cada estadístico entre su
error (Desv. Error) correspondiente, del siguiente modo:
Asimetría: 1,856/0,244 = 7,606

Curtosis: 4,893/0,483 = 10,130
75
Así, podemos interpretar ambos valores de la siguiente forma:
• Asimetría: cuando el valor de la asimetría que hemos estandarizado se
encuentra entre +3 y -3, estaríamos hablando de distribución simétrica,
mientras que si se encuentra por encima de +3 sería una asimetría
positiva, y por debajo de -3 estamos ante una asimetría negativa.
• Curtosis: cuando el valor de la curtosis que hemos estandarizado se
encuentra entre +3 y -3, estaríamos hablando de distribución mesocúrtica,
mientras que si se encuentra por encima de +3 sería leptocúrtica, y por
debajo de -3 se trata de una distribución platicúrtica.
En este ejercicio, la variable EDAD muestra una asimetría positiva (7,606 > 3) y
una curtosis leptocúrtica (10,13 > 3).
A parte de la forma numérica de interpretar la variabilidad de los datos, también
podemos hacerlo gráficamente, siendo para eso extremadamente útil el Boxplot,
o Diagrama de caja y bigotes. Este es un tipo de gráfico mediante el cual se
visualiza la distribución de un conjunto de datos mediante cuatro elementos
claves: la caja, los bigotes, la mediana y los valores que se encuentran fuera de
los bigotes.
A continuación, se muestra el Diagrama de caja y bigotes para la variable EDAD
con algunos de los elementos clave ya señalizados:
Valores extremos
Valores atípicos
Outlier
s
Q3 (Percentil 75)
Mediana (Q2)
Q1 (Percentil 25)
76
Uno de los principales elementos que captan nuestra atención son los valores
atípicos (anómalos): los outliers (indicados con un círculo) y los extremos (en
forma de estrella). Los outliers son aquellos valores que se desvían entre 1,5 y 3
veces el rango intercuartílico (entre 1,5*IQR y 3*IQR), mientras que los extremos
se desvían 3 o más veces (≥ 3*IQR). Dado que en este caso IQR = 8, sabemos
que 1,5*8 = 12 y 3*8 = 24, los outliers se sitúan entre 12 y 24 años por encima
de la edad del sujeto que ocupa el percentil 75 (Q3), y los extremos 24 o más
años.
Como se mencionó antes, el IQR es la diferencia entre el tercer cuartil (Q3,
también le podemos llamar percentil 75) y el primer cuartil (Q1 o percentil 25), y
en el Boxplot simboliza la caja del diagrama. El número que aparece al lado del
circulo o estrella es la fila que ocupa el sujeto que presenta ese determinado
valor, que deberemos localizar en nuestra base de datos si queremos saber el
valor exacto en cuestión. A la izquierda del diagrama, en el eje Y, vemos una
serie de valores (en este caso, años), que van del diez al 60. Aunque nos
permiten tener una orientación acerca de qué valores alcanza cada uno de los
elementos del diagrama, deberemos recurrir a los descriptivos de la tabla anterior
para precisar más. Así sabremos por ejemplo que la mediana es 25 (señalizada
en el diagrama por una línea que atraviesa la caza de extremo izquierdo a
derecho), o que el IQR es 8 (el tamaño de la caja).
La posición de la mediana (Q2 o percentil 50) también nos ofrece información
con respecto a la asimetría. Si la mediana se encuentra centrada en la caja,
coincidiendo pues con la media, estaríamos ante una distribución simétrica,
mientras que si se encuentra desplazada por debajo de la media (es decir, más
cercana al extremo inferior de la caja) sería una asimetría positiva, y si se
encuentra por encima de la media (más cerca del extremo superior) se trataría
de asimetría negativa.
El último elemento que nos aporta información es el tamaño de los bigotes del
diagrama, que indica la curtosis. Cuando estos son alargados con respecto al
tamaño de la caja, la distribución es leptocúrtica. Si son cortos y la caja parece
bastante ancha, la distribución es platicúrtica. Cuando parece que tanto los
bigotes como la caja están compensados, estamos ante una distribución
mesocúrtica. A continuación, podemos ver un ejemplo:
77
Leptocúrtica Mesocúrtica Platicúrtica
Para abordar el objetivo 5 de esta práctica, tenemos dos opciones: en el paso

anterior seleccionar “Gráficos con normalidad de pruebas” (en cuyo caso nos
aparece tanto la prueba KS como la Shapiro-Wilk), o ir a “Analizar > Pruebas no
paramétricas > Cuadros de diálogo antiguos > Prueba KS para una muestra” (en
cuyo caso no calculará Shapiro-Wilk). La principal diferencia entre ambas
pruebas es que Shapiro-Wilk es la recomendable para n = 30 o menos. Para una
muestra de mayor tamaño, como es nuestro caso, optaremos por Kolmogorov-
Smirnov (K-S).
78
Esto nos devuelve la siguiente tabla:
Prueba de Kolmogorov-Smirnov para una muestra

DEMOGRÁFICOS. EDAD
N 99
Parámetros normalesa,b Media 26,97
Desv. Desviación 7,511
Máximas diferencias Absoluto ,179
extremas Positivo ,179
Negativo -,116
Estadístico de prueba ,179
Sig. asintótica(bilateral) ,000c
a. La distribución de prueba es normal.
b. Se calcula a partir de datos.
c. Corrección de significación de Lilliefors.
Por otra parte, la tabla que hemos obtenido en el ejercicio anterior es algo más
sencilla. Ignoraremos los resultados de Shapiro-Wilk, ya que es K-S la que nos
interesa:
Kolmogorov-Smirnova Shapiro-Wilk
DEMOGRÁFICOS. EDAD ,179 99 ,000 ,841 99 ,000
a. Corrección de significación de Lilliefors
79
En el caso de la prueba Kolmogorov-Smirnov, H0 indicaría que la distribución es
normal, o lo que es lo mismo, que nuestros datos se ajustan a la curva normal
(campana de Gauss). El valor de corte mínimo aceptable para rechazar H0 es p
< 0,05. Así, en este caso concluimos que la variable estudiada no presenta una
distribución normal. Por otra parte, aunque en la tabla de SPSS indique
explícitamente “,000” en la columna de la significación (Sig.), a la hora de
presentar un informe es más correcto redactarlo como p < 0,001. Esto se debe a
que indicar esos tres decimales como ceros puede conducir a error, ya que SPSS
sólo nos está informando de los tres primeros decimales (en los que hay ceros),
pero estos son seguidos de más decimales en los que acaba habiendo un valor
distinto a cero.
Cuando no se cumple la normalidad, podemos recurrir a estadísticos robustos
(por ej. en vez de informar de la media de esta variable, informa de la mediana o
de los M-Estimadores), a pruebas no paramétricas (existen varias, pero por poner
un ejemplo, la prueba de Kruskal-Wallis es la equivalente no paramétrica de
ANOVA), o a transformar los datos. Esto último puede hacerse de muy diversas
formas. Si la asimetría es positiva, el problema será que los valores son
demasiado grandes y queremos hacerlos más pequeños (por ej.: lnx, √𝑋, 1/x),
mientras que en el caso de la asimetría negativa querremos hacer los valores
más grandes (x2, x3, ….). Otra opción cuando no se cumple la normalidad, es
eliminar a los casos anómalos, tal y como se recomienda en el material teórico
de la asignatura (capítulo 2, página 54). Esto generalmente tendrá un impacto
positivo sobre la distribución de nuestra variable, haciendo que se ajuste en
mayor medida a la curva normal. Así, también podríamos ver la importancia de
detectar estos casos anómalos. Podemos consultar las páginas 52-54 en el Tema
2 para más información.
Para saber más

Dado el escaso tiempo disponible en la práctica, nos hemos centrado en
comprobar el supuesto de normalidad, pero debemos tener en cuenta la
existencia de otros supuestos que deben ser comprobados para la aplicación de
determinados análisis (por ejemplo, una t de Student). En la página 54 del Tema
2 podemos leer más sobre el test de Homocedasticidad, por ejemplo. Por otra
parte, también nos hemos centrado en el Diagrama de caja y bigotes (o Boxplot),
como la opción gráfica para explorar la distribución de una variable. Sin embargo,
podemos solicitar otro tipo de gráficos para visualizar la distribución de nuestras
variables.
En primer lugar, un histograma es una representación gráfica de una variable en
forma de barras. El tamaño de cada una de las barras es indicativo de la
frecuencia de aparición de un determinado valor. Los diferentes valores aparecen
en el eje X y las frecuencias en el eje Y. A continuación, presentamos el
histograma de “EDAD”:
80
Por otra parte, podemos observar la distribución de frecuencias mediante el
diagrama de tallo y hojas. Un diagrama de tallos y hojas consiste en una serie
de filas horizontales de números. En la primera columna aparecen las
frecuencias, seguida por el tallo (stem), y a la derecha, en cada fila se escriben
las correspondientes hojas. El número utilizado para designar una fila es su tallo,
el resto de los números de la fila se denominan hojas. En nuestra variable
(“EDAD”), vemos que aparecen los números “1.”, “2.”, “3.”, y “4.”. Algunos de
ellos, más de una vez (1., 2., 3.). Las hojas añaden información acerca del
número, teniendo que combinarlas con el tallo para tener el número completo (1.
Y 8 indicarán un 18, por ejemplo). Aparecerán tantas hojas como número de
veces que aparezca ese valor (por ejemplo, que aparezcan tres “8” en la hoja que
sigue el “1.” Implica que hay tres veces el valor “18”). La columna “Frecuencia”
indicará el número de veces que aparezca la combinación de ese tallo y esas
hojas (siguiendo con el ejemplo, los valores 18 y 19 son 12 en total, tres “18” y
nueve “19”). Este gráfico también nos informa del número de valores anómalos,
aunque no de sus valores. En nuestro ejemplo hay cuatro, con un valor > a 45.
Hay que tener en cuenta que denomina “extremos” no sólo a los verdaderos
extremos, sino también a los outlier.
Vemos el Gráfico de tallo y hojas a continuación:
81
DEMOGRÁFICOS. EDAD Gráfico de tallo y hojas
Frecuencia Stem & Hoja
,00 1.
12,00 1 . 888999999999
8,00 2 . 00001111
14,00 2 . 22222333333333
23,00 2 . 44444444444555555555555
7,00 2 . 6666677
5,00 2 . 88899
9,00 3 . 000011111
9,00 3 . 222233333
2,00 3 . 45
2,00 3 . 67
3,00 3 . 888
1,00 4. 1
4,00 Extremos (>=45)
Ancho del tallo: 10

Cada hoja: 1 caso(s)
Al haber solicitado “Gráficos de normalidad con pruebas”, también obtenemos

dos Gráficos Q-Q, el “normal” y el “normal sin tendencia”. En el gráfico Q-Q
normal el eje X indica el valor observado (los valores que aparecen en nuestra
muestra), mientras que el eje Y presenta el valor esperado (según una
distribución normal). La combinación de ambos ejes permite crear una línea de
tendencia y que los puntos se distribuyan sobre la línea de tendencia esperada
es un indicio de normalidad. Para la variable “EDAD”, vemos que los puntos
empiezan estando situados casi sobre la línea recta, pero llegados a en torno al
valor 40 dejan de estarlo, lo cual indica que la distribución no es normal.
82
El gráfico Q-Q normal sin tendencia muestra las diferencias existentes entre la
puntuación típica observada de cada valor y su correspondiente puntuación típica
normal. En el eje Y están representados los valores observados y en el eje X el
tamaño de las diferencias entre las puntuaciones típicas observadas y las
esperadas. Si la distribución es normal, esas diferencias oscilan aleatoriamente
en torno al valor cero (representado como la línea recta horizontal). La presencia
de pautas de variación no aleatorias indicaría la ausencia de normalidad, como
es el caso de la variable “EDAD”.
83
2.4. Ficha cubierta con el Caso 1 resuelto
EJERCICIOS
1. Depurar el archivo de datos, subsanando en la medida de lo posible todos

los errores que encuentres. No olvides que para ello debes servirte de
tablas de frecuencias. Rellena las siguientes casillas registrando el nº de
errores detectado en cada variable. A continuación, sustitúyelos por un
valor admisible.
66 -
Valores erróneos en P3 - Valores erróneos en P4 44
- -
- 1
- 44
Valores erróneos en P9 Valores erróneos P10
0, 22 118
Valores erróneos S11 Valores erróneos P12

P5 y P6
¿Entre qué variables has detectado incoherencias?
¿Cuántos sujetos tenían una respuesta incoherente? 2 Sujeto Nº 6 y 100
2. Comprueba si existe algún sujeto con un elevado porcentaje de

respuestas “missing”. Utiliza el menú ANÁLISIS DE VALORES PERDIDOS
del SPSS. Si es preciso elimina algún sujeto de la muestra.
1
¿Cuántos sujetos están en esa situación?
§ ¿Qué porcentaje de missing presenta cada uno? 25%
Nº sujeto 53 % Missing 25%
¿Cuál es el “n” definitivo? 99
84
§ Informa del porcentaje de Missing para cada variable
VARIABLE % MISSING
P1 1
P2 0
P3 0
P4 0
P5 0
P6 32
P7 4
P8 4
P9 1
PAÍS 0
SEXO 1
EDAD 1

estadísticos descriptivos y M-estimadores. Dibuja el Boxplot e interprétalo.
ESTADÍSTICO VALOR
Media 27,02
Media recortada 26,21
Mediana 25,00
Varianza 56,742
(IQR)
8
Rango 41
1,856/0,244
Asimetría
(Estandarizada:7,606)
4,893/0,483
Curtosis
(Estandarizada:10,130)
M-estimador de Tukey 25,22
M-estimador de Huber 25,73
M-estimador de Hampel 25,63
M-estimador de
Andrews
25,22
Casos extremos 2 45 y 48 25 y 32
Outliers 2 59 y 57 27 y 40
TOTAL ANÓMALOS 4
85
Nos encontramos ante una variable que presenta 4 casos atípicos, dos outliers y
dos extremos, todos ellos por encima de la media. A esto además se suma una
asimetría positiva, confirmada tanto de forma numérica (7,606 > 3) como gráfica
mediante Boxplot, el cual presenta la mediana inferior a la media y una forma
estirada hacía el extremo superior, donde el bigote también es más largo y se
ubican todos los casos atípicos. Por otra parte, la distribución es leptocúrtica, lo
cual confirmamos de forma numérica (10,13 > 3), es decir, la mayoría de los
sujetos presentan valores cercanos a la media. Sin embargo, una minoría de los
sujetos presentan valores los suficientemente altos como para que Media y
Mediana no coincidan, siendo la última inferior a la primera.
§ Intenta hacer lo mismo con la variable P3 por tu cuenta.
ESTADÍSTICO VALOR
Media 6,75
Mediana 7,00
Varianza 2,721
Amplitud intercuartil 2
(IQR)
Rango 7
Asimetría -0,337/0,243
(Estandarizada: -1,387)
Curtosis -0,212/0,481
(Estandarizada:-0,441)
M-estimador de Hampel 6,84
M-estimador de 6,93
Andrews
Casos extremos 0 - -
Outliers 0 - -
TOTAL ANÓMALOS 0
En este caso, no existen valores atípicos, y tanto de forma numérica como

gráfica puede percibirse que la distribución es simétrica y mesocúrtica.
86

0,177 < 0,001 La variable “Edad” no se distribuye normalmente.
§ ¿Qué se puede hacer si no se cumple la normalidad?
Podemos recurrir a estadísticos robustos, a pruebas no paramétricas, a

transformar los datos o a eliminar los cuatro outliers detectados.
Dado que la asimetría es positiva, querremos hacer los valores más pequeños
(por ej.: lnx, √𝑋, 1/x), mientras que en el caso de la asimetría negativa querríamos
hacer los valores más grandes (x2, x3, ….).
87
Nombre …………....……………………….….…Curso………….…Año………….…
3. CASO 2 de “Recursos Humanos”
3.1. Descripción del Caso 2
Con el fin de que tú mismo puedas comprobar tu nivel de aprendizaje del tema 2
de la asignatura, te proponemos que realices el siguiente caso práctico. Para ello
debes de utilizar el archivo denominado “EXPLORATORIO_CASO2.SAV”, en
el que se recoge la matriz de datos correspondiente a un proceso de “selección
de personal de una PyME” (Pequeña y Mediana Empresa). Contiene la
información de 32 personas entrevistadas a las que se les aplicó una serie de
test psicológicos, a la vez que se les realizó una serie de observaciones por parte
de los entrevistadores. De ellos conocemos 10 variables: (32x10)
V1: Valoración de la interacción social otorgada por Entrevistador 1

V2: Valoración de la interacción social otorgada por Entrevistador 2
V3: Conocimiento de la empresa
V4: Conocimiento del trabajo a desempeñar
V5: Capacidad de resolución problemas (0-10)
V6: Capacidad de aprendizaje (0-10)
V7: Tipo de personalidad
V8: Titulación más alta conseguida
V9: Experiencia previa
V10: Puntuación muestra de trabajo (0-10)
** Esta base de datos ya ha sido depurada, así que el siguiente paso

es realizar un análisis descriptivo para saber más de las
características de las personas candidatas
88
Nombre y apellidos…………....…………………………….…Curso…….… Año…..
3.2. Autoevaluación. Ficha para que el alumno

cumplimento con los datos del Caso 2: Recursos
Humanos
EJERCICIOS
1. Observa en la base de datos cómo han sido registradas las variables para
saber en qué escala de medida están y cuáles han sido las opciones de
respuesta. No es necesario que informes del rango de respuesta de las
variables cuantitativas.
Opciones de
VARIABLE Escala de medida
Respuesta
V1: Interacción social Entrevistador 1
V2: Interacción social Entrevistador 2
V3: Conocimiento de la empresa
V4: Conocimiento del trabajo a desempeñar
V5: Capacidad de resolución problemas
V6: Capacidad de aprendizaje
V7: Tipo de personalidad
V8: Titulación más alta conseguida
V9: Experiencia previa
V10: Puntuación muestra de trabajo
2. Informa del porcentaje de personas en la muestra que cumplan las

características descritas en la tabla. Para ello debes servirte de tablas de
frecuencias y escoger el porcentaje adecuado.
CARACTERÍSTICA TOTAL (%)

Valoración “Buena” por parte del Entrevistador 1 (V1)
Valoración “Mala” por parte del Entrevistador 2 (V2)
Conocimiento “Bajo” de la empresa (V3)
Conocimiento “Alto” del trabajo a desempeñar (V4)
Capacidad de resolución de problemas de “9” (V5)
Capacidad de aprendizaje de “7” o menos (V6)
Personalidad diplomática (V7)
Estudios de “Grado/Licenciatura” (V8)
Sin experiencia previa (V9)
Obtuvieron un 10 en la Muestra de trabajo (V10)
89
3. Nos interesa saber cuánto coinciden las valoraciones de la interacción
social entre ambos entrevistadores (V1 y V2). Para ello, debemos usar el
menú de tablas de contingencia en SPSS.
Valoración Valoración Entrevistador 1

Entrevistador 2 Muy Mala Mala Buena Muy Buena
Muy Mala
Mala
Buena
Muy Buena
4. Realiza un análisis descriptivo de la variable V10, tanto de forma

numérica como gráfica, y luego interpreta los resultados. Usa “Explorar”
para ello.
BOXPLOT V10
ESTADÍSTICO VALOR
Media
Media recortada
Mediana
Varianza
Desviación Típica
(IQR)
Rango
Asimetría
Curtosis
¿Se ha detectado algún caso anómalo?
______________________________________________________________
_______________________________________________________________
90
3.3. El Caso 2 de “Recursos Humanos” resuelto
EJERCICIOS
1. Observa en la base de datos cómo han sido registradas las variables para
saber en qué escala de medida están y cuáles han sido las opciones de
respuesta. No es necesario que informes del rango de respuesta de las
variables cuantitativas.
Escala de Opciones de
VARIABLE
medida Respuesta
Muy mala, Mala,
V1: Interacción social Entrevistador 1 Ordinal
Buena, Muy buena
Muy mala, Mala,
V2: Interacción social Entrevistador 2 Ordinal
Buena, Muy buena
V3: Conocimiento de la empresa Ordinal Bajo, Alto
V4: Conocimiento del trabajo a
Ordinal Bajo, Alto
desempeñar
V5: Capacidad de resolución problemas Razón
V6: Capacidad de aprendizaje Razón
Analista,
Diplomática,
V7: Tipo de personalidad Nominal
Exploradora,
Centinela
Secundaria,
V8: Titulación más alta conseguida Ordinal Grado/licenciatura,
Post-graduado
V9: Experiencia previa Nominal No, Sí
V10: Puntuación muestra de trabajo Razón
2. Informa del porcentaje de personas en la muestra que cumplan las

características descritas en la tabla. Para ello debes servirte de tablas de
frecuencias y escoger el porcentaje adecuado.
CARACTERÍSTICA TOTAL (%)

Valoración “Buena” por parte del Entrevistador 1 (V1) 34,4
Valoración “Mala” por parte del Entrevistador 2 (V2) 9,4
Conocimiento “Bajo” de la empresa (V3) 62,5
Conocimiento “Alto” del trabajo a desempeñar (V4) 65,6
Capacidad de resolución de problemas de “9” (V5) 9,4
Capacidad de aprendizaje de “7” o menos (V6) 56,3
Personalidad diplomática (V7) 31,3
Estudios de “Grado/Licenciatura” (V8) 81,3
Sin experiencia previa (V9) 53,1
Obtuvieron un 10 en la Muestra de trabajo (V10) 3,1
91
3. Nos interesa saber cuánto coinciden las valoraciones de la interacción
social entre ambos entrevistadores (V1 y V2). Para ello, debemos usar el
menú de tablas de contingencia en SPSS.
Valoración Valoración Entrevistador 1
Entrevistador 2 Muy Mala Mala Buena Muy Buena
Muy Mala 0 1 0 0
Mala 0 0 2 1
Buena 0 0 1 4
Muy Buena 0 0 8 15
4. Realiza un análisis descriptivo de la variable V10, tanto de forma

numérica como gráfica, y luego interpreta los resultados. Usa “Explorar”
para ello.
ESTADÍSTICO VALOR
Media 7,16
Mediana 7,00
Varianza 1,620
Desviación Típica 1,273
Amplitud
2
intercuartil (IQR)
Rango 5
0,089/0,414
Asimetría (Estandarizada:
0,215)
-0,564/0,809
Curtosis (Estandarizada:
-0,697)
¿Se ha detectado algún caso anómalo?

No, tal y como se puede ver en el diagrama de caja y bigotes, no existe ningún
caso anómalo.
Nos encontramos ante una variable sin valores atípicos. De forma numérica
podemos percibir que tanto la asimetría como la curtosis presentan valores entre
-3 y +3, lo cual se traduce gráficamente en una mediada centrada en el diagrama
de caja y unos bigotes con un tamaño bastante proporcionado, si bien el bigote
inferior es algo más corto. Por tanto, podemos concluir que la distribución es
simétrica y mesocúrtica.
92
Nombre ………………....……………………………Grupo…… Curso……………
4. CASO 3 sobre “Comportamiento Turístico”
4.1. Descripción del Caso
Para resolver esta práctica utilizaremos el fichero de datos que está en el campus
virtual: “EXPLORATORIO_CASO3.SAV”. En él se recoge parte de la matriz de
datos correspondiente a un “estudio sobre turismo” realizado entre la población
gallega. Más concretamente, podrás ver la información correspondiente a 100
personas que han ido de vacaciones el pasado año y a las que se le han realizado
10 preguntas, obteniendo así una matriz de orden 100x10 (sujetos x variables).
P1: Sexo (nominal)
P2: Edad (escala)
P3: Nivel de estudios (ordinal-nominal)
P4: Provincia de residencia (nominal)
P5: Gastos vacacionales en el último año (escala)
P6: Días de Vacaciones (escala)
P7: Valoración de las vacaciones (0-10) (escala)
P8: Principal medio de transporte utilizado (nominal)
P9: ¿Utilizó una agencia de viajes? (nominal) - variable filtro de la P10
P10: Nivel de satisfacción con la agencia (0-10) (escala)
4.2. Ficha que el alumno debe cumplimentar y entregar
EJERCICIO
1. DEFINICIÓN DE VARIABLES. Abre el fichero de datos

EXPLORATORIO_CASO3.SAV, vete al “visor de variables” revisa si las
variables están correctamente etiquetadas y comprueba que el “tipo de
escala” está bien seleccionado (nominal, ordinal u escala), cambia lo
que sea necesario
En concreto, hay 3 variables incorrectas, ¿podrías señalar cuáles?
Variable: P3, Nivel de Estudios, Escala …..
Variable:
Variable:
2. DEPURACIÓN FICHERO DE DATOS: Identifica los posibles valores fuera

de rango del fichero de datos. Para ello, utiliza los comandos del SPSS
que consideres oportuno. Por ejemplo, puedes seguir el siguiente
cuadro de diálogo del SPSS: ANALIZAR / ESTADÍSTICOS
DESCRIPTIVOS / FRECUENCIAS / VARIABLES.
• Puedes utilizar el comando “tablas de frecuencias”, luego ir a la
“plantilla de datos” y sustitúyelos por un valor cualquiera admisible
93
Una vez los tengas identificados, responde a lo que se te pregunta más abajo.
Indica cuántos valores fuera de rango hay e indica cuáles son esos valores.
Valores erróneos en sexo P1 e indica cuáles son
Valores erróneos en edad P2 e indica cuáles son
Valores erróneos en P3 e indica cuáles son
* En una investigación real ahora deberías de ir a la matriz de datos (ventana de datos) y

corregir dichos esos “valores fuera de rango” por un valor cualquiera siempre y cuando sea
admisible según el rango definido.
** Para encontrar los casos en el fichero de datos y proceder a reemplazarlos o sustituirlos
por valores válidos, te recomiendo que te sitúes en la columna de esa variable, y luego
selecciones “los prismáticos” para “ir al caso” situarte encima de la casilla y proceder a la
corrección del error detectado
3. BUSCAR POSIBLES INCOHERENCIAS EN RESPUESTAS PARA DOS

VARIABLES FILTRO y después busca posibles incoherencias o
cualquier valor no admisible en una variable teniendo en cuenta lo que
haya respondido en su variable condicionada
Para localizarlas deberás servirte del comando que consideres… Te

proponemos que utilices: ANALIZAR / DESCRIPTIVOS / TABLAS DE
CONTINGENCIA entre las variables que decidas
• ¿Cuáles son esas variables filtro o condicionadas?

:___
• ¿Cuántos sujetos o casos tenían una respuesta incoherente?
• Identifica esos sujetos (que número ocupan en la matriz de datos)
94
** Para visualizar las contradicciones e identificar esos valores se recomienda ir a la “Ventana
de Datos” y proceder a ordenar los casos en función de esas variables afectadas. Más
concretamente, puedes ir a DATOS / ORDENAR CASOS / Seleccionar las 2 variables.
*** Una vez acabes con este ejercicio se recomienda seleccionar en el cuadro de diálogo el
botón de REESTABLECER, para que el fichero quede como estaba y proseguir con el
análisis. Otra alternativa es repetir la opción de DATOS/ORDENAR CASOS, pero ahora
seleccionando la variable “número de sujetos”
4. VALORES MISSING para los casos de la muestra. Comprueba si existe algún

caso o sujeto con un elevado porcentaje de respuestas “MISSING”. Utiliza para
ello el menú: ANALIZAR / ANÁLISIS DE VALORES MISSING / PATRONES /
CASOS CON VALORES PERDIDOS. Después vete a la “Ventana de
Resultados” y observa la columna % de perdidos para cada sujeto”. Si decidimos
eliminar a aquellos sujetos con más del 45% de missing (o valores ausentes) en
sus variables, en nuestro caso concreto tendríamos que eliminar algún sujeto de
la muestra y, en ese caso, reducir el tamaño de la muestra?
§ En concreto, ¿Cuántos sujetos o CASOS habría que eliminar?
§ Podrías indicar qué porcentaje de MISSING presenta cada uno de ellos y,

sobre todo, número de sujeto son?
• Nº sujeto % Missing por parte de este sujeto?
• Nº sujeto % Missing por parte de este sujeto?
• Ahora debes de suprimir (eliminar) en la base de datos a esos sujetos con

MISSING
§ Entonces, ahora, ¿Cuál es el “n” definitivo o tamaño de la muestra sobre

la que se van a llevar a cabo los análisis estadísticos siguientes? N=
§ A continuación, sobre la nueva matriz de datos (N) debes de repetir el

análisis exploratorio de datos e informar del porcentaje de MISSING para
cada una de las variables.
VARIABLE % MISSING
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
95
5. OUTLIERS o IDENTIFICACIÓN DE CASOS ANÓMALOS. CÁLCULO DE M-
ESTIMADORES. El gráfico BoxPlot es útil para identificar los casos extremos
y outliers; así como los estadísticos de tendencia central, variabilidad y otros
M-estimadores
• Ahora debes de realizas este análisis para la Variable P5, GASTOS

VACACIONALES, mediante el cuadro de diálogo o menú del SPSS:
ANALIZAR / ESTADÍSTICOS DESCRIPTIVOS / EXPLORAR. Solicita
lo que consideres oportuno, por ejemplo un Boxplot, Histograma,
descriptivos, M-estimadores, etc. En determinadas distribuciones los
M-estimadores son estadísticos de tendencia central más robustos
• A continuación dibuja o transcribe en el espacio que tienes más abajo,

el BoxPlot que acabas de obtener y, a su derecha, copia los valores
resultantes para los diferentes estadísticos
BOXPLOT P5 ESTADÍSTICO VALOR

Media
Media recortada
Mediana
Varianza
Rango
Asimetría / error típico
Curtosis /error típico
• Completar la siguiente tabla de valores anómalos
TOTAL VALOR Nº SUJETO
Casos extremos
---- ----
Menos extremos o Outliers
Total de casos anómalos
• Para finalizar, deberás de INTERPRETAR la distribución de esa

VARIABLE P5: “gastos vacacionales en el último año”.
96
________________________________________________________________
________________________________________________________________
Notas que te pueden ayudar a completar la interpretación:

b) Recuerda que los M-estimadores son valores más próximos a la Mediana y sus cálculos se
basan en ponderaciones.
c) Para interpretar el valor de la asimetría, ésta debe ser estandarizada por lo que antes debes
de dividirla por su error típico que también te proporciona el SPSS (será simétrica siempre
que su valor esté comprendido entre – 3 y + 3)
d) Si te sitúas encima del histograma que proporciona el SPSS, pulsas un doble click, podrás
pedirle que te muestre la curva de esa distribución
e) En general, de cara a la interpretación de la curtosis recordarte que si es próxima a 0 es
mesocúrtica, >0 leptocúrtica y <0 platicúrtica.
§ Ahora haz lo mismo con la variable P7 “Valoración de las

Vacaciones”. En el cuadro de diálogo del SPSS puedes seleccionar:
ANALIZAR / ESTADÍSTICOS DESCRIPTIVOS / EXPLORAR /
ESTADÍSTICOS
BOXPLOT P7 ESTADÍSTICO VALOR

Media
Media recortada
Mediana
Varianza
(IQR)
Rango
Asimetría
Curtosis
M-estimador de
Hampel
M-estimador de
Andrews
97
• Completar la siguiente tabla de valores anómalos
Casos extremos
Outliers
TOTAL ANÓMALOS
• Para finalizar, deberás de INTERPRETAR la distribución de esa

VARIABLE P7: “valoración de las vacaciones”.
________________________________________________________________
________________________________________________________________
________________________________________________________
6. COMPROBACIÓN SUPUESTOS PARAMÉTRICOS. En concreto

comprobaremos el supuesto de NORMALIDAD de la Variable P5 (gastos
vacacionales). Para ello calculamos e interpretamos el valor de Lilliefors.
Este cálculo ya lo tienes en la tabla de pruebas de normalidad de la “Ventana
de Resultados”, cuando resolviste el apartado 5 de esta práctica.
Nota: Recuerda que para contrastar la hipótesis nula de si la variable P5 se ajusta a la curva
normal, la hipótesis que se contrasta es que H0 = curva normal.
- Para ello se utiliza el estadístico de Kolmogorv-Smirnov, que es matizado por la prueba
de Lilliefors cuando las varianzas de las poblaciones son desconocidas. Y por Shapiro-
Wilks cuando las muestras son pequeñas (n<30).
- Si el nivel de significación asociado al estadístico es “significativo (menor que 0.000)
entonces rechazamos la Ho de igualdad; es decir, que no se distribuye normalmente
§ ¿Qué se puede hacer si no se cumple la normalidad (distribuye

normalmente)?
____________________________________________________________________________
98
4.3. Ficha con el Caso 3 resuelto. Resuelto.
EJERCICIOS
1. DEFINICIÓN DE VARIABLES. En primer lugar, vete al visor de variables y

revisa si las variables están correctamente etiquetadas, comprobando si el
“tipo de escala” está bien seleccionado (nominal, ordinal u escala).
En concreto, hay 3 variables incorrectas, ¿podrías señalar cuáles? P3, P8, P9
2. DEPURACIÓN FICHERO DE DATOS, VALORES FUERA DE RANGO.

Identifica posibles errores del fichero de datos utilizando, para ello, los
comandos del SPSS que consideres oportuno (Por Ej. ANALIZAR /
ESTADÍSTICOS DESCRIPTIVOS / FRECUENCIAS / VARIABLES). Una vez los
tengas identificados, por favor, rellena las siguientes casillas especificando
el nº total de errores detectados en cada Variable y los valores concretos.
A continuación, vete a la “ventana de datos” y sustitúyelos por un valor
admisible de cara a seguir adelante con el análisis Estadístico.
Valores erróneos en P1 3 e indica cuáles son 0, 3, 22
Valores erróneos en P2 2 e indica cuáles son 118, 250
Valores erróneos en P3 1 e indica cuáles son 44
1 44
0 -
Valores erróneos en P6 0 e indica cuáles son -
1 66
Valores erróneos en P10 0 e indica cuáles son -
** Para encontrar los casos en el fichero de datos y proceder a reemplazarlos por

valores válidos, te recomiendo que te sitúes en la columna de esa variable, y
luego selecciones “los prismáticos” y corrijas el error.
99
3. DEPURACIÓN FICHERO DE DATOS PARA VARIABLES FILTRO.
Busca posibles incoherencias o cualquier valor no admisible en una
variable teniendo en cuenta lo que haya respondido en su variable filtro.
Para localizarlas deberás servirte del comando estadístico que consideres…

(Por Ej.: ANALIZAR / DESCRIPTIVOS / TABLAS DE CONTINGENCIA entre
las variables condicionadas o filtro que existan en tu fichero de datos. Una se
pone en las filas y la otra en las columnas).
¿Cuáles son las variables filtro o condicionadas existentes? P9 y P10
¿Cuántos sujetos tenían una respuesta incoherente? 2
Identifica esos sujetos (indica el número que ocupan en la matriz de datos) 28 y 82
** Para visualizar las contradicciones e identificar esos valores ir a la “ventana

de datos” y ordenar los casos para las variables afectadas (Por ej.: DATOS /
ORDENAR CASOS / seleccionar las dos variables…)
4. VALORES MISSING PARA LOS CASOS DE LA MUESTRA. Comprueba si

existe algún caso o sujeto con un elevado porcentaje de respuestas “MISSING”.
Utiliza para ello el menú ANALIZAR / ANÁLISIS DE VALORES MISSING /
PATRONES / CASOS CON VALORES PERDIDOS. Después vete a la “Ventana
de Resultados” y observa la columna % de perdidos para cada caso”. Si es
preciso toma la decisión eliminar algún sujeto de la muestra (fichero) en la
“Ventana de Datos”.
§ ¿Cuántos sujetos o CASOS habría que eliminar? 2
§ ¿Qué porcentaje de MISSSING presenta cada uno y qué número de sujeto

es?
Nº sujeto 32 % Missing por parte de este sujeto? 50
Nº sujeto 46 % Missing por parte de este sujeto? 50
** Puedes recurrir al criterio de eliminar aquellos sujetos con más

del 45% de missing (o valores ausentes) en sus variables
§ Según el % de Missing que encontraste, ¿Cuál es el “n” definitivo o tamaño

de la muestra sobre la que se van a llevar a cabo los análisis estadísticos
siguientes?
98
§ Informa del porcentaje de MISSING para cada una de las variables. Esta
información del % puede encontrarse en la Tabla de Estadísticos Univariantes
100
VARIABLE % MISSING
P1 0
P2 1
P3 2
P4 0
P5 10,2
P6 1
P7 6,1
P8 0
P9 0
P10 total muestra 41,8
**P10 seleccionada 43,9
** Para calcular el porcentaje de valores MISSING en la variable P10 (por

depender de la variable filtro P9), deberás antes de ir a: “DATOS /
SELECCIONAR CASOS…. …. Si P9=1=SI, y pulsar ANALIZAR. Nótese
que el porcentaje de P9=1 es del 15,4%. Para hacer el apartado 5, antes
hay que eliminar la selección de casos de la P9=1
5. IDENTIFICACIÓN DE OUTLIERS (CASOS ANÓMALOS) Y CÁLCULO DE M-

ESTIMADORES. El gráfico BoxPlot es útil para identificar los casos extremos y
outliers; así como los estadísticos de tendencia central y variabilidad. Realiza
este análisis para la Variable P5 mediante el cuadro de diálogo o menú:
ANALIZAR / ESTADÍSTICOS DESCRIPTIVOS / EXPLORAR del SPSS. Solicita
un Boxplot, un Histograma y los descriptivos incluyendo los M-estimadores.
A continuación, transcribe el BoxPlot en el espacio que aparece más abajo y, a

su derecha, copia los valores de los estadísticos.
Para finalizar, deberás de INTERPRETAR la distribución de esa VARIABLE P5:

“gastos vacacionales en el último año”.
101
ESTADÍSTICO VALOR
Media 1587,05
Mediana 1400
Varianza 693
(IQR)
Rango 4600
Asimetría 2’182/0’257=
8,49
Curtosis 6’65/0’508=
13,08
M-estimador de 1437,37
Hampel
M-estimador de 1399,72
Andrews
Casos extremos 1 5300 (39) 40
Outliers 2 4000, 5000 (87) 89, (97) 99
TOTAL ANÓMALOS 3

En esta variable existen 3 casos anómalos (1 extremo y 2 outliers). También
debemos de conocer su grado de Asimetría y Curtosis tanto numéricamente
como de forma gráfica.
SIMETRÍA-ASIMETRÍA
Observamos una Asimetría Positiva porque la Media se sitúa por encima de la
mediana, estando la mediana situada en la parte inferior de la caja. El brazo
superior de la caja presenta mayor longitud que el brazo inferior. Numéricamente,
podemos comprobar que la media (1587,05) es superior a la mediana (1400) y
que el valor de la asimetría estandarizada es de 8,49, por tanto > a +3, todo lo
cual indica que la Asimetría es Positiva.
CURTOSIS
En cuanto a la Curtosis, vemos que presenta una distribución leptocúrtica
porque se observa que el tamaño de la caja es más pequeño que la longitud de
los brazos/bigotes. Si el tamaño de la caja en relación con la longitud de los brazos fuese
similares o iguales entonces sería MESOCÚRTICA; mientras que si la longitud de la caja es
mayor que la de los brazos entonces sería PLATICÚRTICA. En caso de duda, dado que
uno de los bigotes es más largo que el otro, podemos comprobar numéricamente,
Como el valor de la curtosis estandarizada (13,08) es mayor que +3, siendo por
tanto leptocúrtica. Cuando la Curtosis estandarizada está entre -3 y +3 será MESOCÚRTICA,
si es >+3 LEPTOCÚRTICA Y <-3 PLATICÚRTICA
102
Notas:
a) Te recuerdo que los M-estimadores son valores más próximos a la Mediana
y sus cálculos se basan en ponderaciones.
b) Que, para interpretar el valor de la asimetría, ésta debe ser estandarizada por
lo que antes debes de dividirla por su error típico que también te proporciona
el SPSS (será simétrica siempre que su valor esté comprendido entre – 3 y +
3)
c) Que, si te sitúas encima del histograma que proporciona el SPSS, pulsas un
doble click, podrás pedirle que te muestre la curva de esa distribución
d) En general, de cara a la interpretación de la curtosis recordarte que si es
próxima a 0 es mesocúrtica, >0 leptocúrtica y <0 platicúrtica.
• Ahora haz lo mismo con la variable P7 “Valoración de las Vacaciones”.
En el cuadro de diálogo del SPSS puedes seleccionar: ANALIZAR /
ESTADÍSTICOS DESCRIPTIVOS / EXPLORAR / ESTADÍSTICOS con
estimadores robustos centrales y valores atípicos / GRÁFICOS con
Histograma y prueba de normalidad.
ESTADÍSTICO VALOR
Media 5,72
Mediana 6
Varianza 3,39
(IQR)
Rango 10
Asimetría -0,349/0,251=
-1,39
Curtosis 0,372/0,498=0,75
M-estimador de 5,79
Hampel
M-estimador de 5,85
Andrews
Casos extremos 0 -- --
Outliers 2 1; 0 11; 14
TOTAL ANÓMALOS 2
Existen 2 casos anómalos, concretamente, outliers (aquellos que se alejan del

cuerpo central de la distribución entre 1,5 y 3 veces el valor del IQR). La variable
presenta una distribución simétrica (mediana en el centro de la caja. La media y
mediana coinciden). Ambos brazos son de la misma longitud.
103
El valor de la asimetría estandarizada está entre más y menos 3 (-1,39) por lo
tanto es simétrica. La distribución de la variable es Mesocúrtica porque la longitud
de los brazos es similar al tamaño de la caja y el valor de la curtosis estandarizada
está entre más y menos 3 (0,75).
6. COMPROBACIÓN SUPUESTOS PARAMÉTRICOS. En concreto

comprobaremos el supuesto de NORMALIDAD de la Variable P5 (GASTOS
VACACIONALES). Esto es, tendremos que calcular el valor de Lilliefors e
interpretarlo. Este cálculo ya lo tienes en la “Ventana de Resultados” cuando
resolviste el apartado 5 de esta práctica.
Nota: te recuerdo que para contrastar la hipótesis nula de que la curva de
la variable P5 es igual a la curva normal se contrasta la (H0: son iguales).
Para ello utilizamos el estadístico de Kolmogorv-Smirnov que es matizado
por la prueba de Lilliefors cuando las varianzas de las poblaciones son
desconocidas; y por Shapiro-Wilks cuando las muestras son pequeñas
(n<30). Si el nivel de significación asociado al estadístico es “significativo”
entonces rechazamos la Ho, que no se distribuye normalmente

El resultado es significativo (<0.001) por lo que
0,146 < 0,001 concluimos que la variable NO se distribuye
normalmente. Se rechaza la Ho, la igualdad.
§ ¿Qué se puede hacer si no se cumple la normalidad (distribuye

normalmente)?
a) Recurrir al uso de una prueba no paramétrica
b) Transformar la variable para que se cumpla la normalidad
Fuerza asimetría
Suave Fuerte
Positiva
(haciendo
que los
Log X ó X1/2 -1/X3 ó -1/X
valores sean
Dirección asimetría más
pequeños)
Negativa
(haciéndolos X2 ó X3 Antilog X
más altos)
104

Tema 2 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 2 PDF

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS MULTIVARIANTE

2º Curso: Grado de Psicología

Dr. Jesús Varela Mallou

Área de Metodología de las

1. Material complementario y de apoyo ……………... 3

2. Práctica Interactiva de Análisis Exploratorio …….. 59

Caso práctico 1 …………………………………… 60

BREVE RESUMEN DE LA PRIMERA PRÁCTICA INTERACTIVA

• La clase interactiva presencial de este tema consistirá en la ejecución del

• Importante: No es posible entregar la práctica resuelta en otro momento u

• El CASO PRÁCTICO 1 sobre el “Turismo en Santiago” verás que consta

• De manera voluntaria puedes intentar resolver el CASO PRÁCTICO 2

• Nota: en el campus virtual puedes descargar los 3 ficheros de datos.sav

1. Material complementario y de apoyo

1.2. Los valores ausentes o casos missing. Su identificación y

1.2.1. Identificación y pertinencia de la sustitución

X2: 7, 10, 8, 4, 3, 4, 5, 4, 5, 6, 10, 7, 3, 2, 8, 2, 6, 8, 4, 1

Si pedimos una distribución de frecuencias para la variable X1, obtendríamos la siguiente

Tabla de frecuencia ACTITUD ABORTO

Figura 1. Distribución de frecuencias para X1

RECODE x1 (SYSMIS=0) (ELSE=1) INTO X3 .

En segundo lugar, es preciso comparar (mediante una prueba “t” de Student, si

Si el contraste de diferencias entre medias no fuese significativo ello indicaría que

Estadísticos del grupo

Desviación Error típ. de la

Prueba de muestras independientes

Prueba de Levene para la

Figura 2. Resultados de la prueba “t” de Student

(Menú: ESTADÍSTICOS /Comparar Medias / Prueba T para muestras independientes)

Como vemos en la figura anterior, existen diferencias estadísticamente

1.2.2. Ejemplo de Imputación por el procedimiento de

En primer lugar, conviene calcular los descriptivos básicos de la variable objeto

Figura 3. Estadísticos descriptivos de la V1 (Desempeño Laboral)

(Menú: ESTADÍSTICOS / Resumir / Frecuencias)

DESEMPEÑO APTITUDES HABILIDADES

*. La correlación es significante al nivel 0,05 (bilateral).

Figura 4. Matriz de correlaciones entre las 5 variables

IF (v2 <= 18 & v4 = 0) AE = 1 .

Figura 6. Procedimiento para calcular el Desempeño Laboral a partir de la variable AE.

Como se puede observar en la figura anterior, se obtiene un valor de F=25.30

Figura 7. Medias en MV1 para los valores de AE

Figura 8. Sustitución de los Casos Missing a través del procedimiento de medias

Como podemos comprobar en la tabla anterior, el error que estamos cometiendo

Una vez hecha la sustitución, es aconsejable proceder al cálculo de los nuevos

N Mínimo Máximo Media Desv. típ.

Figura 9. Estadísticos descriptivos de la variable sobre la que se realizó la imputación

Si comparamos los resultados de la variable MV1 sin valores “missing” (figura 9)

1.2.3. Imputación de valores missing en SPSS

Las observaciones perdidas pueden causar problemas en los análisis y algunas

Figura 10. Cuadro de diálogo TRANSFORMAR / Reemplazar los valores perdidos

En este cuadro de diálogo nos encontramos con las siguientes opciones:

X1_1: 1, 2, 1, 1, 5, 5, 5, 3.3, 1, 2, 5, 5, 3.3, 3.3, 3, 4, 5, 5, 3.3, 3,3

Podemos comprobar que, efectivamente, los valores missing fueron sustituidos

b) Media de puntos adyacentes

X1_2: 1, 2, 1, 1, 5, 5, 5, 3.3, 1, 2, 5, 5, 3.3, 3.3, 3, 4, 5, 5, 3.3, 3,3

Si, por el contrario, eligiésemos la primera opción, fijando la Amplitud de puntos

X1_3: 1, 2, 1, 1, 5, 5, 5, 3.3, 1, 2, 5, 5, 4.3, 4.3, 3, 4, 5, 5, …

c) Mediana de puntos adyacentes

Mientras que seleccionando la opción Todos, obtendríamos:

e) Tendencia lineal en el punto

1.3. Los valores extremos y outliers

Tal y como señalamos al inicio, el análisis exploratorio trata de depurar el fichero

1.3.1. ¿Cómo se detectan?