Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Psicología
Curso: 2022-2023
www.usc.es/psicom
ÍNDICE
2
TEMA 2: ANÁLISIS EXPLORATORIO DE DATOS
1. Introdución
En general toda investigación implica tener que recoger y analizar datos. Dichos
datos pueden ser analizados con distintos fines: descriptivos (tratando de
extraer la información más relevante que contienen y presentarla de una manera
sencilla y comprensiva) o inferenciales (tratando de estimar los parámetros
poblacionales a partir de los datos de la muestra o intentando contrastar las
posibles hipótesis que nos hayamos planteado). No obstante, antes de su
análisis, interpretación y tabulación que terminará con la elaboración del informe
correspondiente, es necesario proceder a un “análisis exploración de los datos”,
independientemente del tipo de tratamiento estadístico que vayamos a darle o
del objetivo que persigamos.
A pesar de la cantidad innumerable de pruebas estadísticas que podemos llevar
a cabo sobre un conjunto de datos, debemos conocer que si procedemos a su
análisis directamente, tal y como son recogidos, podemos encontrarnos con
distintos problemas: (1) errores debidos al instrumento de medida utilizado para
su recogida (cuestionario por correo, entrevista personal y telefónica, etc.), (2)
excesivo número de sujetos que dejan alguna pregunta sin responder, (3) errores
en la codificación, (4) errores en la grabación de los datos en un determinado
programa estadístico o, lo que es más grave, (5) no comprobar los supuestos
paramétricos y utilizar una técnica estadística equivocada, etc.
Necesitamos, por tanto, un conocimiento previo de los datos desde una
perspectiva exploratoria, que nos permita conocer la estructura y calidad de los
mismos, subsanar errores, examinarlos visualmente para poder entenderlos
antes de analizarlos en profundidad, comprobar si cumplen determinadas
características o supuestos e, incluso, puede ser conveniente trasformar alguna
de las variables que intervienen en el estudio, para ajustarlas al tipo de
distribuciones en que se basa el análisis que vayamos a llevar a cabo.
En resumen, podríamos decir que el análisis exploratorio se hace imprescindible
básicamente por dos razones:
2. Por las fuentes de error inherentes a la recogida de los datos, tales como los
errores de respuesta provocados por los instrumentos de medida, la
codificación y grabación, la no respuesta o casos “missing” e, incluso, por las
instrucciones informáticas de lectura y recodificación de variables y valores.
3. Porque la elección de una u otra técnica estadística está sujeta al
cumplimiento de una serie de supuestos teóricos que es preciso verificar. Es
conveniente examinar las distribuciones de los datos para los diferentes
grupos, hacer pruebas de normalidad, homogeneidad de varianzas, etc.
Desde el punto de vista Estadístico, el Análisis Exploratorio ordena y representa
los datos en tablas y gráficas, ofreciendo distintas pruebas que facilitan la
depuración de estos. Dicha depuración persigue básicamente tres objetivos:
3
a) Detectar posibles valores ausentes y casos extremos o “outliers” que puedan
ser “influyentes” en los resultados. En este caso puede recurrirse a uno de los
métodos de sustitución que ofrecen los distintos paquetes estadísticos.
b) Comprobar los supuestos paramétricos que intervienen tanto en la estimación
como en el contraste de hipótesis estadísticas. En concreto, los estadísticos
de Shapiro-Wilks y Lilliefors nos informan acerca de la normalidad, mientras
que el test de Levene lo hace acerca de la homocedasticidad.
c) Considerar la necesidad de transformar las variables con el fin de que se
ajusten a un tipo de distribución o que cumplan determinados supuestos. En
ocasiones las transformaciones pueden no ser pertinentes y, en ese caso,
habrá que recurrir a una técnica no paramétrica para el análisis de los datos.
El análisis exploratorio de los datos es, por tanto, el primer paso que debemos
llevar a cabo en el análisis de la información recogida. Independientemente de si
vamos a realizar una t de student, un ANOVA, un análisis de correlaciones, o a
aplicar cualquier técnica multivariante, siempre debemos comenzar examinando
con detalle el fichero de datos.
4
sujetos, por lo que la sustitución se hace necesaria. No obstante, en el fichero de
datos siempre debe mantenerse la variable original con el fin de comparar los
resultados de los casos con puntuaciones originales y asignadas.
Sabemos que cualquier procedimiento de sustitución de un valor “missing” por
nuevos valores va a reducir la variabilidad del grupo y/o variable, de manera que,
se introducen sesgos en la estimación de los parámetros ya que reducimos el
error típico. Sabemos también que la reducción del tamaño de la muestra, debido
a la falta de respuesta, aumenta los intervalos de confianza de las estimaciones,
limitando la potencia de los contrastes. Por todo ello, una vez que decidimos
sustituir los “missing” por nuevos valores, hemos de elegir qué procedimiento
utilizar.
El paquete estadístico SPSS permite crear una nueva variable, formada a partir
de otra original, en la que se sustituyen los valores perdidos por nuevos valores.
Para asignar estos valores, el programa ofrece varios métodos diferentes:
a) La Media de la serie: sustituye los valores perdidos de la serie por la media
de esa serie.
b) Media de puntos adyacentes: sustituye los valores perdidos por la media
de los valores válidos circundantes.
c) Mediana de puntos adyacentes: sustituye los valores perdidos por la
mediana de los valores válidos circundantes.
d) Interpolación lineal: sustituye los valores usando una interpolación lineal.
El último valor válido antes del valor perdido y el primer valor válido
después del valor perdido son los utilizados para la interpolación.
e) Tendencia lineal en el punto: sustituye los valores perdidos de la serie
nueva por la tendencia lineal en ese punto. Se hace una regresión de la
serie existente sobre una variable índice escalada de 1 a n y los valores
perdidos se sustituyen por sus valores pronosticados.
f) Un procedimiento adicional es el de la Media de subclases o intragrupos
(Kalton, 1986), especialmente indicado cuando las variables intervinientes
son medidas en una escala de intervalo. Este procedimiento consiste en
asignar a los casos perdidos de una variable la media, en esa misma
variable, del grupo de sujetos al que pertenecen esos casos perdidos.
Para detectar el número de valores perdidos por cada sujeto, el SPSS dispone
de la posibilidad de transponer la matriz de datos mediante el comando FLIP
(Menú: DATOS / TRANSPONER). Una vez rotada la matriz clásica (casos x
variables) tendremos variables x casos. Si pedimos una distribución de
frecuencias de las variables, ahora sujetos, veremos el número de valores
perdidos por caso. El análisis puede completarse si solicitamos un listado para
ese sujeto en las variables que estamos considerando (Menú: ESTADÍSTICA /
RESUMIR / LISTAR CASOS).
5
Una vez identificados los sujetos con valores ausentes, ahora debemos referir el
análisis de los valores perdidos hacia las variables. Para ello debemos revisar los
cuestionarios (o el instrumento de medida utilizado) e intentar reconstruir esa
información que falta. En caso de que ello no sea posible, entonces podemos
optar por dos circunstancias: dejar los valores perdidos tal y como están, o bien
sustituirlos por algún valor.
Si elegimos la primera opción, estaremos asumiendo que los sujetos que no
contestaron son iguales que los que sí lo hicieron. Por ello decimos que incluso
en este caso podemos hablar de una decisión activa, ya que de alguna forma
estamos igualando los sujetos que contestan a los que no lo hacen y puede ser
que sean distintos, aunque no estaría de más comprobarlo. Una manera de
hacerlo puede ser mediante la selección de casos; esto es, se divide la muestra
en dos grupos, los que contestan y los que no contestan y, a continuación, se
comparan según distintas variables para ver si se observan diferencias
estadísticas significativas. La comparación de medias podría hacerse, por
ejemplo, a través de la prueba t de Student, o bien mediante otro estadístico
menos sensible a las diferencias de los tamaños muestrales, como puede ser
Kolmogorov - Smirnov.
EJEMPLO
Supongamos que preguntamos a 20 sujetos si están a favor o en contra de la ley del aborto
(X1), utilizando para ello una escala tipo Likert de 5 puntos. Asimismo, pedimos a los sujetos
que se posicionen en un continuum de 1 a10, según el grado de práctica religiosa. La matriz
de datos es la que se muestra a continuación:
X1: 1, 2, 1, 1, 5, 5, 5, -, 1, 2, 5, 5, 5, -, -, 3, 4, 5, -, -
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 1 4 20,0 26,7 26,7
2 2 10,0 13,3 40,0
3 1 5,0 6,7 46,7
4 1 5,0 6,7 53,3
5 7 35,0 46,7 100,0
Total 15 75,0 100,0
Perdidos Perdidos del
5 25,0
sistema
Total 5 25,0
Total 20 100,0
6
En este caso fueron 5 los sujetos que no contestaron a la pregunta y el programa
los identifica como “missing” o perdidos del sistema. Si trabajamos sólo con los
15 sujetos que respondieron y los tomamos como una muestra representativa de
la población de la que se extrajo la muestra de 20 sujetos, estaremos asumiendo
que los 5 sujetos que no contestaron tienen la misma distribución de frecuencias
que los que contestaron. Obviamente esto puede no ser correcto y, en su caso,
sería un error que cometeríamos en todos los análisis en los que apareciese
implicada esta variable. En otras palabras, estamos optando por un modelo de
sustitución de semejanza entre los que contestan y los que no lo hacen. Es
incorrecto suponer que la falta de información sea totalmente aleatoria y, en
consecuencia, que ambos grupos son muestras aleatorias de la misma
población. Siempre cabe la pregunta de si esos valores ausentes pueden
introducir errores sistemáticos.
Para comprobarlo llevaremos a cabo una comparación entre la media de los
sujetos que contestan a la pregunta sobre el aborto (X1), y la de los que no
contestaron, por ejemplo, respecto a una segunda variable como podría ser la
práctica religiosa (X2).
En primer lugar debemos dividir la muestra en dos partes, los que contestaron a
X1 y los que no contestaron. Para ello seleccionaremos en el menú principal la
opción TRANSFORMAR / RECODIFICAR / EN DISTINTAS VARIABLES,
creando una nueva variable (X3) únicamente con ceros y unos, donde los ceros
serán los “missing” y los unos los que sí han contestado. La instrucción a utilizar
sería la siguiente:
EXECUTE .
T-TEST GROUPS=x3 (0 1)
/MISSING=ANALYSIS
/VARIABLES=x2
/CRITERIA=CIN (.95) .
7
sustituciones según la distribución de frecuencias de los casos válidos ya que no
implica cambios en la distribución de frecuencias de la variable “actitud frente al
aborto”. Por el contrario, si la diferencia entre medias resultase estadísticamente
significativa, entonces debemos optar por la sustitución de los valores ausentes.
Veamos qué sucede en nuestro ejemplo (figura 1).
8
v La puntuación en un test de extraversión (V4).
v El nivel de habilidades sociales (V5), medida a través de un cuestionario,
que agrupa a los candidatos en tres categorías: bajo (entre 1 y 3),
moderado (entre 4 y 6) y alto (entre 7 y 9).
La información obtenida, aparece reflejada en el siguiente fichero de datos:
V1 V2 V3 V4 V5
7 0 8 4 4
8 2 8 0 3
6 0 7 12 6
8 3 7 0 3
4 19 6 20 8
9 0 9 0 3
5 24 6 25 7
8 4 6 0 3
9 0 8 0 7
8 4 7 3 2
7 2 7 4 2
8 0 9 0 1
6 32 5 15 2
8 4 6 0 5
7 6 7 0 4
7 8 5 4 5
8 0 4 0 3
6 19 3 0 8
4 27 3 25 1
7 12 3 5 3
4 28 4 25 5
6 12 4 25 3
6 4 7 6 2
7 0 8 0 5
8 6 7 0 1
4 32 5 25 2
4 36 5 25 5
9 0 8 0 1
7 7 6 5 5
4 16 9 25 8
Fichero de datos obtenido con la entrevista (n=30)
Estadísticos
N
Válidos Perdidos Media Mediana Moda Desv. típ. Mínimo Máximo
DESEMPEÑO
30 0 6,63 7,00 8 1,65 4 9
LABORAL
9
Tabla de frecuencia DESEMPEÑO LABORAL
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 4 6 20,0 20,0 20,0
5 1 3,3 3,3 23,3
6 5 16,7 16,7 40,0
7 7 23,3 23,3 63,3
8 8 26,7 26,7 90,0
9 3 10,0 10,0 100,0
Total 30 100,0 100,0
Total 30 100,0
Correlaciones
Como se puede observar en la figura anterior, las variables que presentan una
mayor relación con el Desempeño o Rendimiento (V1) son: la puntuación en el
test de Aptitudes Administrativas (V2) (-0.82) y la extroversión (V4) (-0.89). A
partir de estos datos, podemos afirmar que existe una relación inversa entre el
desempeño y el número de errores en el test de aptitudes administrativas, por un
lado, y con la extroversión por otro. Ambas variables (V2 y V4) serán las que
utilizaremos como predictoras de la variable criterio (V1). No obstante, para poder
aplicar el procedimiento de imputación de la Media de Subclases de Kalton, es
preciso transformar ambas variables continuas en categóricas.
10
Para ello formaremos 2 grupos en función de la puntuación en Aptitudes
Administrativas (V2: menos de 18 errores y más de 19) y 3 grupos para la
extroversión (V4: sujetos con una puntuación de 0 en el test de introversión-
extroversión, entre 1 y 19, y finalmente aquellos que obtuvieron una puntuación
superior a 20). A continuación, combinaremos las dos variables entre sí,
construyendo una variable nueva, a la que llamaremos AE (Aptitud-Extroversión),
con valores comprendidos entre 1 y 6.
V1 V2 V3 V4 V5 AE
7 0 8 4 4 2
8 2 8 0 3 1
6 0 7 12 6 2
8 3 7 0 3 1
4 19 6 20 8 5
9 0 9 0 3 1
5 24 6 25 7 6
8 4 6 0 3 1
9 0 8 0 7 1
8 4 7 3 2 2
7 2 7 4 2 2
8 0 9 0 1 1
6 32 5 15 2 5
8 4 6 0 5 1
7 6 7 0 4 1
7 8 5 4 5 2
8 0 4 0 3 1
6 19 3 0 8 4
4 27 3 25 1 6
7 12 3 5 3 2
4 28 4 25 5 6
6 12 4 25 3 3
6 4 7 6 2 2
7 0 8 0 5 1
8 6 7 0 1 1
4 32 5 25 2 6
4 36 5 25 5 6
9 0 8 0 1 1
7 7 6 5 5 2
4 16 9 25 8 3
Figura 5. Procedimiento para calcular la variable AE
(Menú: TRANSFORMAR / Calcular)
11
Por último, calculamos la valoración media para cada una de las nuevas
categorías de la variable AE en cuanto al Desempeño Laboral, y realizaremos
un Análisis de Varianza para comprobar si existen diferencias significativas
entre ellas.
Informe
DESEMPEÑO LABORAL
1 Media 8,08
N 12
Desv. típ. ,67
2 Media 6,88
N 8
Desv. típ. ,64
3 Media 5,00
N 2
Desv. típ. 1,41
4 Media 6,00
N 1
Desv. típ. ,
5 Media 5,00
N 2
Desv. típ. 1,41
6 Media 4,20
N 5
Desv. típ. ,45
Total Media 6,63
N 30
Desv. típ. 1,65
Tabla de ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
DESEMPEÑO LABORAL * Inter-grupos (Combinada
66,375 5 13,275 25,302 ,000
APTITUD-EXTROVERSIÓN s)
Intra-grupos 12,592 24 ,525
Total 78,967 29
12
V1 V2 V3 V4 V5 AE MV1
1 7 0 8 4 4 2 7
2 8 2 8 0 3 1 8
3 6 0 7 12 6 2 6
4 8 3 7 0 3 1 8
5 4 19 6 20 8 5 4
6 9 0 9 0 3 1 9
7 5 24 6 25 7 6 5
8 8 4 6 0 3 1 ,
9 9 0 8 0 7 1 9
10 8 4 7 3 2 2 8
11 7 2 7 4 2 2 7
12 8 0 9 0 1 1 8
13 6 32 5 15 2 5 ,
14 8 4 6 0 5 1 8
15 7 6 7 0 4 1 7
16 7 8 5 4 5 2 ,
17 8 0 4 0 3 1 8
18 6 19 3 0 8 4 6
19 4 27 3 25 1 6 4
20 7 12 3 5 3 2 7
21 4 28 4 25 5 6 4
22 6 12 4 25 3 3 6
23 6 4 7 6 2 2 6
24 7 0 8 0 5 1 7
25 8 6 7 0 1 1 8
26 4 32 5 25 2 6 4
27 4 36 5 25 5 6 ,
28 9 0 8 0 1 1 9
29 7 7 6 5 5 2 7
30 4 16 9 25 8 3 4
Fichero de datos con la nueva variable MV1
Como primer paso, antes de realizar una sustitución de los valores ausentes por
la media intragrupo, debemos asegurarnos de que los análisis anteriores son
válidos para la nueva muestra. Si ejecutamos de nuevo el análisis de
correlaciones, nos encontramos que los coeficientes mayores se corresponden
de nuevo con la V2 y la V4 (-0.82 y -0.89 respectivamente). Por otro lado, las
medias en desempeño laboral a partir de los valores en Aptitud-Extroversión, son
muy similares a las que obteníamos con el total de la muestra, como se observa
en la siguiente figura.
13
Informe
MV1
1 Media 8,10
N 10
Desv. típ. ,74
2 Media 6,86
N 7
Desv. típ. ,69
3 Media 5,00
N 2
Desv. típ. 1,41
4 Media 6,00
N 1
Desv. típ. ,
5 Media 4,50
N 2
Desv. típ. ,71
6 Media 4,25
N 4
Desv. típ. ,50
Total Media 6,58
N 26
Desv. típ. 1,68
Una vez hechas estas comprobaciones procederemos a sustituir, los missing que
aparecen en la variable MV1 (sujetos 8, 13, 16 y 27), por las medias obtenidas
para cada valor de AE, redondeando los valores al entero más próximo.
DO IF (ae=1) .
RECODE mv1 (SYSMIS=8) .
END IF .
EXECUTE .
DO IF (ae=2) .
RECODE mv1 (SYSMIS=7) .
END IF .
EXECUTE .
DO IF (ae=5) .
RECODE mv1 (SYSMIS=5) .
END IF .
EXECUTE .
DO IF (ae=6) .
RECODE mv1 (SYSMIS=4) .
END IF .
EXECUTE .
14
V1 V2 V3 V4 V5 AE MV1
1 7 0 8 4 4 2 7
2 8 2 8 0 3 1 8
3 6 0 7 12 6 2 6
4 8 3 7 0 3 1 8
5 4 19 6 20 8 5 4
6 9 0 9 0 3 1 9
7 5 24 6 25 7 6 5
8 8 4 6 0 3 1 8
9 9 0 8 0 7 1 9
10 8 4 7 3 2 2 8
11 7 2 7 4 2 2 7
12 8 0 9 0 1 1 8
13 6 32 5 15 2 5 5
14 8 4 6 0 5 1 8
15 7 6 7 0 4 1 7
16 7 8 5 4 5 2 7
17 8 0 4 0 3 1 8
18 6 19 3 0 8 4 6
19 4 27 3 25 1 6 4
20 7 12 3 5 3 2 7
21 4 28 4 25 5 6 4
22 6 12 4 25 3 3 6
23 6 4 7 6 2 2 6
24 7 0 8 0 5 1 7
25 8 6 7 0 1 1 8
26 4 32 5 25 2 6 4
27 4 36 5 25 5 6 4
28 9 0 8 0 1 1 9
29 7 7 6 5 5 2 7
30 4 16 9 25 8 3 4
Estadísticos descriptivos
15
(Menú: ESTADÍSTICOS / Resumir / Descriptivos)
16
Los nombres de las nuevas variables creadas por defecto se componen de los
seis primeros caracteres de la variable existente utilizada para crearla, seguidos
de un carácter de subrayado y de un número secuencial. Por ejemplo, para la
variable X1, el nombre de la nueva variable sería X1_1. Las nuevas variables
conservan cualquier etiqueta de valor definida de las variables originales.
Veamos un ejemplo a partir de la matriz de datos del epígrafe 2.1, sobre la que
iremos aplicando los distintos métodos que acabamos de describir.
17
a) Media de la serie
Partiremos siempre del cuadro de diálogo REEMPLAZAR VALORES PERDIDOS
(figura 10), en el que seleccionaremos para el recuadro MÉTODO la opción
MEDIA DE LA SERIE. Además, debemos introducir la variable X1 en el recuadro
de NUEVAS VARIABLES, puesto que es la que contiene valores "missing".
Nótese que al seleccionar el método Media de la serie lo que estamos haciendo
es sustituir los valores perdidos por la media de la serie completa. Como
resultado el programa creará una nueva variable (X1_1) en la ventana de datos
que sería la siguiente:
18
Interpolación lineal
Este método sustituye los valores perdidos utilizando una interpolación lineal.
Para ello toma el último valor válido antes del valor perdido y el primer valor válido
después del valor perdido. Si el primer o último caso de la serie tiene un valor
perdido, el valor perdido no se sustituye. La nueva variable creada sería la que
se muestra a continuación:
X1_6: 1, 2, 1, 1, 5, 5, 5, 3, 1, 2, 5, 5, 4.3, 3.7, 3, 4, 5, 5, …
19
las cajas que conforman este gráfico con el fin de que nos resulte más fácil su
comprensión.
percentil 75
50% de
los casos con
valor comprendido mediana
en este intervalo
percentil 25
500000
10
450000
400000
350000
300000
9
250000
200000
150000
100000
50000
0
N= 15
INGRESOS ECONÓMICOS
450000
400000
350000
300000
9
250000
200000
10
150000
100000
50000
15
0
N= 15 15
Figura 13. Gráfico de caja para las variables Ingresos económicos y Gastos
(Menú: GRÁFICOS / Diagramas de caja / Resúmenes para distintas variables)
21
Como podemos comprobar en la figura anterior, la variable ingresos y gastos no
tienen la misma distribución, los casos anómalos (“extreme” o “outliers”) no se
corresponden exactamente con los mismos sujetos, la amplitud o rango
semiintercuartílico es distinta, al igual que la mediana.
22
podríamos decir que, al igual que la mediana, su valor no dependerá de los
valores extremos y, en consecuencia, será un estimador más robusto que el
inicial. Un ejemplo de esto último es la media reducida. Este índice consiste en
calcular la media de los casos comprendidos en un intervalo central de la
distribución. En otras palabras, cuando tenemos valores extremos este índice es
más representativo si eliminamos el 5% de los casos de cada lado de la
distribución. Se podría decir que la media reducida es una solución intermedia
entre la media aritmética y la mediana.
Pero no sólo la media es sensible a la presencia de casos extremos; también lo
es la desviación típica, ya que para su cálculo se eleva al cuadrado las
puntuaciones diferenciales. Un estadístico alternativo es la amplitud o Recorrido
Intercuartílico (IQR), que mide la diferencia entre el valor del primer cuartil y el
tercer cuartil.
En realidad, cuando hacemos este tipo de exclusiones, por ejemplo, cuando
arreglamos la media aritmética, estamos dividiendo los datos en dos grupos (los
utilizados y los no utilizados para su cálculo). Nótese que esto sería lo mismo que
calcular la Media Ponderada otorgando a algunos casos un peso de cero y a
otros de uno (Xw= åwiXi/n). Por lo tanto, la ventaja de la media ponderada es que
nos permite utilizar TODAS las observaciones y, al mismo tiempo, tratar
diferencialmente a aquellas observaciones consideradas anómalas.
A todo este conjunto de índices descriptivos alternativos se les denomina
genéricamente M-estimadores. Además de los mencionados hasta aquí, existen
otros M-Estimadores como el M-estimador de Huber (adecuado y más robusto
que la media, cuando la distribución se aproxima a la normal y existen valores
extremos), el de Tukey, el de Hampel o el de Andrews. En la página 193 del
manual del programa SPSS (Norusis, 1995) se muestran una serie de gráficos
con distintas formas de distribuciones. Según nuestra distribución muestral se
aproxime a ellas, entonces se utilizará uno u otro M-Estimador. Si se desea
profundizar en la robustez de los estimadores puede consultarse Hoaglin, D.,
Mosteller, J. y Tukey, W. (1985). Veamos un ejemplo para ilustrar lo que hemos
visto en este apartado.
23
V1 V2 V4
7 0 4
8 2 0
6 0 80
8 3 0
4 42 20
9 0 0
5 16 25
8 4 0
9 0 0
8 4 3
7 2 4
8 0 0
6 41 15
8 12 0
7 3 0
7 2 60
8 0 0
6 19 0
4 20 25
7 4 5
4 20 25
6 7 25
6 4 6
7 0 0
8 0 0
4 24 25
4 22 25
9 0 0
7 7 5
4 16 25
Fichero de datos obtenido con la entrevista (n=30)
Variables introducidas/eliminadas b
Variables
Modelo Variables introducidas eliminadas Método
1 EXTRAVERSIÓN,
APTITUDES , Introducir
a
ADMINISTRATIVAS
a. Todas las variables solicitadas introducidas
24
Resumen del modelo
ANOVA b
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 53,275 2 26,638 27,994 ,000a
Residual 25,692 27 ,952
Total 78,967 29
a. Variables predictoras: (Constante), EXTRAVERSIÓN, APTITUDES ADMINISTRATIVAS
b. Variable dependiente: DESEMPEÑO LABORAL
Coeficientes a
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Error típ. Beta t Sig.
1 (Constante) 7,879 ,245 32,217 ,000
APTITUDES
-9,157E-02 ,016 -,652 -5,802 ,000
ADMINISTRATIVAS
EXTRAVERSIÓN -3,305E-02 ,010 -,379 -3,373 ,002
a. Variable dependiente: DESEMPEÑO LABORAL
25
100
80 3
60
5
13
40
20
-20
N= 30 30
Aptitud Adminis trati Ex troversión
Como vemos en la gráfica anterior, aparecen tres casos extremos que pueden
estar incidiendo negativamente en el análisis de regresión: los sujetos 5 y 13
respecto a la variable Aptitudes Administrativas (con una puntuación de 42 y 41,
respectivamente) y, el sujeto número 3 respecto a la variable Extroversión (con
una puntuación de 80). Para ver si esto es cierto, volveremos a realizar el análisis
y excluiremos dichos casos, con la intención de comprobar si se alcanza un R
squared mayor.
26
Variables introducidas/eliminadas b
Variables
Modelo Variables introducidas eliminadas Método
1 EXTRAVERSIÓN,
APTITUDES , Introducir
a
ADMINISTRATIVAS
a. Todas las variables solicitadas introducidas
ANOVA b
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 57,701 2 28,851 53,406 ,000a
Residual 12,965 24 ,540
Total 70,667 26
a. Variables predictoras: (Constante), EXTRAVERSIÓN, APTITUDES ADMINISTRATIVAS
b. Variable dependiente: DESEMPEÑO LABORAL
Coeficientes a
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Error típ. Beta t Sig.
1 (Constante) 8,128 ,193 42,187 ,000
APTITUDES
-,152 ,020 -,744 -7,411 ,000
ADMINISTRATIVAS
EXTRAVERSIÓN -2,985E-02 ,011 -,265 -2,638 ,014
a. Variable dependiente: DESEMPEÑO LABORAL
27
Donde:
a = 8.128
b1 = -0.152
b2 = -0.029
X1 = Nº de errores en el test de Aptitudes Administrativas
X2 = Puntuación en Extroversión
Y’= Puntuación predicha en Desempeño Laboral
28
Hecho esto, SPSS nos ofrecerá el siguiente cuadro de diálogo:
29
El resultado se ofrece en la figura 22.
Descriptivos
Mediana 105000,00
Varianza 1,120E+10
Desv. típ. 105830,05
Mínimo 60000
Máximo 475000
Rango 415000
Amplitud intercuartil
65000,00
Estimadores-M
30
1.4. Comprobación de Supuestos Paramétricos
Tal y como señalamos al inicio, otro de los objetivos del análisis exploratorio es
el de comprobar que los datos de los que disponemos cumplen determinados
supuestos o se distribuyen de una forma determinada. Como ya señalamos, ello
resulta fundamental para la elección de la técnica estadística a utilizar y, por lo
tanto, para poder contrastar adecuadamente nuestras hipótesis. Las condiciones
más importantes que deben ser objeto de análisis son las siguientes:
a) Que las muestras pertenezcan a poblaciones con distribución normal de
las variables (normalidad).
b) Igualdad de varianzas entre los grupos (homocedasticidad)
31
Gráfico Q-Q normal de INGRESOS ECONÓMICOS
2,0
1,5
1,0
,5
0,0
-,5
Normal esperado
-1,0
-1,5
-2,0
-100000 0 100000 200000 300000 400000 500000
Valor observado
1,5
1,0
,5
Desv. de normal
0,0
-,5
-1,0
0 100000 200000 300000 400000 500000
Valor observado
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
INGRESOS
,329 15 ,000 ,642 15 ,010**
ECONÓMICOS
**. Este es un límite superior de la significación verdadera.
32
En la primera representación de la figura 24 se observa que la nube de puntos
no tiene una tendencia lineal. Mientras que en la segunda representación
(Detrended Normal Plot) aparecen las desviaciones de los puntos respecto a esa
línea recta. Puede verse que el cluster de puntos no se ajusta realmente a la
horizontal cero. Todo parece indicar que los datos muestrales no proceden de
una población con distribución normal.
De manera complementaria al chequeo gráfico, resulta aconsejable calcular
diferentes test de hipótesis que nos permitan contrastar si los datos proceden de
una población con distribución normal. Los dos más usados son el de Shapiro-
Wilks y el de Lilliefors (ver los contrastes en la parte inferior de la figura 24). El
test de Lilliefors se basa en una modificación del test de Kolmogorov-Smirnow y
resulta especialmente útil en aquellos casos en que se desconocen las medias y
las varianzas poblacionales y éstas deben ser estimadas desde los datos
muestrales (Conover, 1980). En nuestro ejemplo, el test de normalidad de
Lilliefors para la variable Ingresos Económicos (K-S Lilliefors), tiene un valor
de=0,329 y una significación menor de 0,001 (significance, p=0,000), datos que
nos llevan a rechazar la hipótesis nula. En otras palabras, debemos afirmar que
esta variable no tiene una distribución normal.
Estadístico de
Levene gl1 gl2 Sig.
ACTITUD
,758 2 18 ,483
ABORTO
34
En nuestro caso, vemos que la probabilidad asociada al test de Levene (Sig.) es
de 0,4828. Esto quiere decir que se mantiene H0; esto es, al rechazar la hipótesis
nula nos equivocaremos con una probabilidad del 0,4828, lo que permite aceptar
la hipótesis de igualdad de varianzas. Si como resultado de aplicar la prueba de
Levene obtuviésemos una probabilidad menor de .05, diríamos que las varianzas
de los grupos son diferentes y, en ese caso, debería llevarse a cabo una
transformación de los datos con el objetivo de igualar las varianzas, ya que el
incumplimiento de este supuesto haría desaconsajable la utilización de
contrastes o pruebas paramétricas en el proceso de datos.
35
Por un lado, debemos saber que en una distribución normal (y por lo tanto
simétrica) los valores de la media y la mediana coinciden y, en consecuencia, la
razón de estos valores debe ser igual a 1. Pues bien, éste es el criterio para
determinar cuál es la mejor transformación, que el cociente entre ambos
estadísticos se aproxime a la unidad. En la siguiente figura se ofrecen algunas
transformaciones de la variable X1.
Distribución Media Mediana X/Md
Distrib. raiz cuadrada: 2.83 3.16 3.46 3.74 9.80 4.599 3.464 1.32
36
Descriptivos
37
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Distrib. original ,443 5 ,002 ,642 5 ,010**
Distrib log. ,366 5 ,027 ,780 5 ,071
Distrib. raiz c. ,415 5 ,005 ,694 5 ,013
Distrib. cudrado ,466 5 ,001 ,599 5 ,010**
Distrib -1/X ,228 5 ,200* ,971 5 ,837
**. Este es un límite superior de la significación verdadera.
38
Figura 28. Cuadro de diálogo de EXPLORAR
39
Figura 29. Cuadro de diálogo de EXPLORAR / ESTADÍSTICOS
40
Figura 30. Cuadro de diálogo EXPLORAR / GRÁFICOS
En este cuadro de diálogo debe ser seleccionada, por lo menos, una gráfica, de
entre las siguientes:
Diagramas de Cajas: Puede elegirse una de las siguientes posibilidades de
diagramas de cajas:
a) Niveles de factores juntos: Para una variable dependiente determinada,
origina un diagrama separado para cada grupo. Los diagramas de cajas
se muestran para cada una de las celdas (niveles de la variable
independiente). Puede verse fácilmente cómo varían los valores de la
variable dependiente a través de las celdas.
b) Dependientes juntas: Origina una visualización separada para cada celda
(nivel de la variable independiente). Dentro de cada visualización, los
diagramas de cajas se muestran para cada una de las variables
dependientes. Puede compararse fácilmente la evolución de los valores
de las variables dependientes dentro de una celda. Resulta muy útil
cuando las diferentes variables dependientes representan una sola
característica medida en momentos diferentes.
c) Ninguno: Suprime cualquier diagrama de cajas.
Descriptivos: Permite elegir entre dos opciones:
a) Gráficos de tallo y hojas: Es el que ofrece por defecto. Cada valor
observado es dividido en dos componentes los primeros dígitos (tallo) y
los siguientes (hojas).
b) Histograma: La amplitud de los valores observados se divide en intervalos
iguales, ofreciendo el número de casos dentro de cada intervalo.
Dispersión por nivel con prueba de Levene: Resulta útil cuando se quiere
controlar la transformación de datos deseada. Ofrece siempre la pendiente de la
recta de regresión y el test de Levene de homogeneidad de varianzas. Si se
especifica una transformación, esta prueba se basará en los datos
transformados. Caben varias alternativas:
a) Estimación de potencia: Crea un gráfico con los logaritmos naturales de
las amplitudes intercuartiles frente a los logaritmos naturales de las
41
medianas para todas las celdas, así como una estimación de la
transformación de la potencia necesaria a fin de obtener varianzas iguales
en las celdas.
b) Transformado: Permite transformar los datos de acuerdo con la alternativa
seleccionada en Potencia, y crea gráficos de los datos transformados.
Existen varias alternativas para la Potencia:
Log natural: Transforma los datos en su logaritmo natural. Es la opción
ofrecida por defecto.
1/raíz cuadrada: Transforma cada valor en el recíproco de su raíz
cuadrada.
Recíproca: Transforma los datos en sus respectivos recíprocos.
Raíz cuadrada: Ofrece la raíz cuadrada de cada valor original.
Cuadrado: Ofrece el cuadrado de cada valor original.
Cubo: Ofrece el cubo de cada valor original.
c) No transformado: Crea gráficos de los datos originales. Esto es
equivalente a una transformación con una potencia de 1.
Gráficos de normalidad con pruebas: Permite obtener gráficos de probabilidad
normal y de probabilidad normal eliminada la tendencia. Así como los contrastes
de Shapiro-Wilks y de Kolmogorov-Smirnov, con el nivel de significación de
Lilliefors para la prueba de normalidad. El contraste de Shapiro-Wilks no es
calculado si el tamaño de la muestra es superior a 50.
En cuanto al botón de OPCIONES, cabe decir que se utiliza para modificar el
tratamiento otorgado a los valores ausentes o “missing” (figura 29).
Excluir casos según pareja: Son excluídos únicamente aquellos casos que
tienen valores ausentes para la variable independiente o la variable de factor que
estén siendo analizados.
Mostrar valores: Realiza un informe de los casos con valores perdidos para las
variables dependientes en los resultados de frecuencias, pero los excluye de los
42
análisis y los gráficos estadísticos. Los casos con valores perdidos para una
variable de factor son incluidos, pero se etiquetan como missing.
Cabe señalar además que existen una serie de opciones adicionales, a las que
se puede acceder ejecutando el comando EXAMINE a través de la ventana de
sintaxis, entre las que se incluiría:
v Posibilidad de obtener resultados para celdas originadas a partir de
combinaciones de factores (a través de la especificación BY).
v Especificar el número de outliers ofrecido (a través del subcomando
STATISTICS).
v Especificar el valor inicial y de incremento para crear la tabla de frecuencias
(con el subcomando FREQUENCIES).
v Utilizar métodos alternativos de estimación de los percentiles (con el
subcomando PERCENTILES).
v Especificar valores adicionales de la potencia para las transformaciones de
los gráficos de dispersión por nivel (con el subcomando PLOT).
v Especificar los puntos críticos para los M-estimadores (con el subcomando
MESTIMATORS).
Otra posibilidad de llevar a cabo el análisis exploratorio de los datos con el
paquete estadístico SPSS es a través de la opción ESTADISTICOS / ANÁLISIS
DE LOS VALORES PERDIDOS (figura 30).
43
Figura 33. Selección de ANÁLISIS DE VALORES PERDIDOS
44
Figura 34. Cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS / PATRONES
45
Variables. Puede especificar variables para etiquetar y clasificar las
representaciones de patrones.
Patrones perdidos para. Enumera todas las variables cuantitativas y
categóricas del cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS.
Información adicional acerca de. Ofrece una lista de los valores para cada
caso. Para patrones tabulados, esta opción enumera la media de las variables
cuantitativas o, para las variables categóricas, el número de casos que tienen el
patrón en cada categoría.
Ordenar por. Los casos se listan según el orden ascendente o descendente de
los valores de la variable especificada. Esta opción está disponible sólo si se
selecciona Todos los casos.
Estima medias, desviación típica, covarianzas y correlaciones utilizando un
método por lista, por parejas, de regresión, o bien EM (maximización esperada).
El método por parejas muestra además recuentos de los casos completos por
parejas. Rellena (imputa) valores perdidos con valores estimados utilizando el
método EM o el de regresión.
Podemos obtener también una serie de estadísticos univariados para cada
variable, incluyendo el número de valores no perdidos, la media, la desviación
típica, el número de valores perdidos y el número de valores extremos, etc.
Veamos con detalle las distintas alternativas que se ofrecen en el cuadro de
diálogo de ANÁLISIS DE VALORES PERDIDOS / DESCRIPTIVOS (figura 33).
46
frecuencia, discordancia y prueba t. Para reducir el tamaño de la tabla, pueden
omitirse los estadísticos que se calculan sólo para un pequeño número de casos.
Porcentaje de discordancia. Para cada par de variables, muestra el porcentaje
de casos en los que una variable tiene un valor perdido y la otra variable tiene un
valor no perdido. Cada elemento diagonal de la tabla contiene el porcentaje de
valores perdidos para una sola variable.
Pruebas t con los grupos formados por las variables de indicador. Compara
las medias de los dos grupos para cada variable cuantitativa, utilizando el
estadístico t de Student. Los grupos se determinan según si la variable de
indicador está codificada como presente o perdida. Se ofrece el estadístico t, los
grados de libertad, los recuentos de valores perdidos y no perdidos, las medias
de los dos grupos y los niveles de significación.
Tablas de contingencia de variables categóricas y de indicador, ofrece para
cada variable categórica una tabla, donde se muestra la frecuencia y el
porcentaje de valores no perdidos para las demás variables, respecto a cada una
de las categorías. Se muestran además los porcentajes de cada tipo de valor
perdido.
La opción de ESTIMACIÓN, se utiliza para estimar las medias, desviaciones
típicas, covarianzas y correlaciones. Para ello pueden utilizarse distintos
métodos: por lista, por parejas, por regresión, o bien EM (maximización
esperada). Si se utilizan estos dos últimos métodos Regresión o EM, pueden
imputarse además los valores perdidos y guardarlos en un nuevo archivo de
datos para utilizarlos en posteriores análisis. Si nos decidimos por el método EM,
debemos acceder al cuadro de diálogo de VARIABLES (figura 34).
47
A continuación, debemos acceder también al cuadro de diálogo de EM, donde
debemos precisar también diversas especificaciones (figura 35).
48
Figura 38. Cuadro de diálogo ANÁLISIS DE VALORES PERDIDOS / REGRESIÓN
Este método estima mediante la regresión lineal múltiple, mostrando además las
medias, la matriz de covarianza y la matriz de correlaciones de las variables
pronosticadas. Mediante la opción Corrección de la estimación, el método de
regresión permite añadir un componente aleatorio a las estimaciones de
regresión, utilizando para ello los residuos, una distribución normal, o una
distribución t de Student. Puede especificarse además un número máximo de
variables predictoras, a utilizar en el proceso de estimación. Para terminar, al
igual que en el método EM, mediante la opción Guardar datos completados,
SPSS crea un nuevo archivo de datos en el que reemplaza los valores perdidos
con los valores estimados por el método de regresión.
49
1.7. Análisis Exploratorio de Datos. Resúmen
50
• Estadísticos: Permite modificar el grado de confianza del intervalo para la
media, calcular Estimadores robustos centrales (estimador M de Huber,
estimador en onda de Andrews, estimador M redescendente de Hampel,
estimador biponderado de Tukey), y hallar los Valores atípicos (se obtienen los 5
mayores y los 5 menores valores de la distribución) y algunos Percentiles (los
cuartiles y el 5º, 10º, 90º y 95º centil).
• Gráficos:
- Las opciones del Diagrama de caja se utilizan sólo cuando se han
seleccionado varias variables dependientes. Por defecto, se presentan en
gráficos distintos las variables dependientes seleccionadas, y para cada una
de ellas, en el mimo gráfico, las cajas de los distintos grupos definidos por el
factor. Si se selecciona Dependientes juntas se representan en un único
gráfico las cajas correspondientes a todas las variables dependientes. Con la
opción Ninguno se omite la presentación de los diagramas de caja.
51
- Las alternativas de Descriptivos son el gráfico de tallo y hojas, activado por
defecto, y el histograma. Estos gráficos se elaboran por separado para todos
los grupos definidos para cada una de las variables dependientes.
- Si se activa la opción Gráficos con pruebas de normalidad se obtienen para
cada una de las variables dependientes y para cada uno de los grupos el
correspondiente gráfico Q-Q Normal y el gráfico Q-Q Normal sin tendencia.
Estos gráficos permiten comprobar si las poblaciones de las que se han
extraído las muestras presentan distribución normal. El Q-Q Normal presenta
simultáneamente para cada elemento el valor observado y el valor esperado
bajo el supuesto de normalidad. Si los datos proceden de una distribución
normal los puntos aparecen agrupados en torno a la línea recta esperada. El
Q-Q Normal sin tendencia se basa en las diferencias entre los valores
observados y los valores esperados bajo la hipótesis de normalidad. Si estas
diferencias se distribuyen aleatoriamente alrededor del eje de abscisas puede
suponerse que la hipótesis de normalidad es sostenible. Además, esta opción
permite contrastar la hipótesis de normalidad con las prueba de Kolgomorov-
Smirnov y de Shapiro-Wilks.
- La opción Dispersión por nivel con prueba de Levene, activando No
transformados, permite contrastar la hipótesis de igualdad de varianza para
los grupos definidos por un factor.
- Por defecto está activada la opción Excluir casos según lista con la
que se eliminan de todos los cálculos y gráficos los casos que presentan
algún valor missing, ya sea en alguna de las variables dependientes o
52
en algún factor. Con esta opción el número de casos válidos es el mismo
en todos los resultados.
- Si se activa Excluir casos según pareja, los casos que presentan algún
valor missing en alguna variable dependiente sólo se excluyen en los
cálculos de estadísticos correspondientes a dicha variable, y sí que se
incluyen en los de otras variables dependientes. Con esta opción el
número de casos válidos no tiene porque coincidir en todos los
resultados.
- Con la opción Mostrar valores, los valores missing de un factor definen
un nuevo grupo de casos. Si los valores missing son de la variable
dependiente éstos no se incluyen en el cálculo de los estadísticos.
EJEMPLOS
Contiene los valores de los estadísticos más utilizados para las variables
Altura y Peso en función de los grupos inducidos por las variables factores.
En la tabla siguiente se recogen los resultados de ambas variables
correspondientes a los grupos asociados al factor Genero. El lector puede
comprobar que el output contiene también el cuadro análogo
correspondiente a los grupos definidos por elfactor Curso.
• Gráficos:
54
Como puede observarse la distribución de la variable Altura para el grupo mujer
presenta dos outliers o valores extremos, con valores superiores a 182 cm.
Gráficos similares se obtienen también para el resto de las combinaciones
variable-factor.
55
En el diagrama de caja anterior se observa que el valor central de la distribución
de la variable Altura es notablemente superior en el grupo de hombres; la
distribución de la altura en ambos grupos es prácticamente simétrica y,
aparentemente, presentan dispersiones parecidas. Obsérvese que los valores
outliers están etiquetados con el número de caso.
56
El estadístico del contraste Kolmogorov-Smirnov para la variable Altura en el
grupo hombres toma el valor 0,95 que no permite rechazar la hipótesis nula de
normalidad para niveles de significación inferiores a 0,2. En el grupo de mujeres,
57
por el contrario, el estadístico toma el valor 0,161 con el que se rechaza la
hipótesis de normalidad para niveles de significación superiores a 0,001. De la
misma forma se interpretan los resultados correspondientes a la variable peso.
En el gráfico Q-Q normal de la variable Altura se observa, para el grupo de los
hombres, que los puntos están situados casi sobre la línea recta lo cual es un
indicio de normalidad de la población de origen. Este resultado es compatible con
el del contraste de Kolmogorov-Smirnov.
• La hipótesis de que las muestras provienen de poblaciones con igual varianza.
Esta prueba debe realizarse cuando se desea contrastar hipótesis referidas a las
medias de dos o más poblaciones definidas mediante una variable factor.
En el cuadro de diálogo Explorar: Gráficos se activa la opción No
transformados del recuadro Dispersión por nivel con prueba de Levene.
58
2. Práctica Interactiva de Análisis Exploratorio
ANÁLISIS MULTIVARIANTE
2022-2023
PRÁCTICA 1
ANÁLISIS PRELIMINAR O EXPLORATORIO DE DATOS
****************
Dr. Jesús Varela Mallou
Dr. Antonio Rial Boubeta
USC-PSICOM
****************
ÍNDICE
1. OBJETIVOS .............................................................................................................. 60
2. CASO 1 RESUELTO SOBRE “TURISMO DE SANTIAGO”.................................... 60
Descripción del Caso 1 .................................................................................................... 60
Ficha para la resolución del Caso 1: “Turismo de Compostela” ...................................... 62
Procedimiento del SPSS para el Caso 1. Pasos a seguir............................................ 65
Ficha cubierta con el Caso 1 resuelto .............................................................................. 84
3. CASO 2 DE “RECURSOS HUMANOS”................................................................... 88
Descripción del Caso 2 .................................................................................................... 88
Ficha para la resolución del Caso 2. Autoevaluación ...................................................... 89
Ficha con el Caso 2 resuelto. .......................................................................................... 91
4. CASO 3 --- CLASE INTERACTIVA---....................................................................... 93
Descripción del Caso 3 sobre el Comportamiento Turístico ............................................ 93
Ficha para la resolución del Caso 3 ................................................................................. 93
Ficha con el Caso 3 resuelto. Resuelto. .......................................................................... 99
59
1. OBJETIVOS DE LA PRÁCTICA DEL TEMA 2
60
CUESTIONARIO: “SU EXPERIENCIA EN SANTIAGO DE COMPOSTELA”
61
Nombre ….……....………………………….…Grupo………….… Curso 202_ -……
62
§ Informa del porcentaje de Missing para cada variable
VARIABLE % MISSING
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
BOXPLOT P12
ESTADÍSTICO VALOR
Media
Media recortada
Mediana
Varianza
Amplitud intercuartil (IQR)
Rango
Asimetría
Curtosis
M-estimador de Tukey
M-estimador de Huber
M-estimador de Hampel
M-estimador de Andrews
Nº VALOR Nº SUJETO
Casos extremos
Outliers
TOTAL ANÓMALOS
63
§ Intenta hacer lo mismo con la variable P3 por tu cuenta.
BOXPLOT P3
ESTADÍSTICO VALOR
Media
Media recortada
Mediana
Varianza
Amplitud intercuartil (IQR)
Rango
Asimetría
Curtosis
M-estimador de Tukey
M-estimador de Huber
M-estimador de Hampel
M-estimador de Andrews
Nº VALOR Nº SUJETO
Casos extremos
Outliers
TOTAL ANÓMALOS
________________________________________________________________
64
Tema 2
66
es su respuesta real en ese ítem en concreto y poder subsanar el error en la base
de datos.
67
Tabla cruzada SABER QUE FUE CAPITAL EUROPEA DE LA CULTURA*SU VISITA
SIRVIÓ PARA SABER QUE FUE CAPITAL EUROPEA DE LA CULTURA
Recuento
SU VISITA SIRVIÓ PARA SABER QUE FUE CAPITAL EUROPEA
DE LA CULTURA
SÍ, GRACIAS SÍ, GRACIAS A LA SÍ, A TRAVÉS
PERSONAL DE COMUNIDAD DE OTRAS
TURISMO LOCAL FUENTES NO Total
SABER QUE FUE SÍ 0 0 0 2 2
CAPITAL EUROPEA NO 2 15 6 45 68
DE LA CULTURA
Total 2 15 6 47 70
En esta tabla apreciamos filas con la respuesta “SÍ” y “NO” en “¿Sabía que
Santiago de Compostela fue capital europea de la cultura?”, y en las columnas,
las distintas respuestas a “¿Llegó a saberlo durante su visita?”. Que parezca
algún valor en la fila de “SÍ” es un error, pues no deberían haber respondido a P6
en caso de haber sabido antes de la visita que Santiago fue Capital Europea de
Cultura. Esto puede ser una incoherencia por parte del sujeto, que realmente ha
respondido así, o que al grabar la base de datos se ha cometido un error. Al igual
que en el caso de los valores fuera de rango, deberíamos acudir al cuestionario
del sujeto en cuestión para saber cuál de ambas posibilidades es.
68
Para detectar otro tipo de errores más sutiles (no son valores fuera de rango ni
incoherencias), está la comprobación al azar de la base de datos. Así
escogeremos sujetos al azar, y verificaremos que la información de la fuente de
información primaria se corresponde con lo que ha sido registrado en la base. De
una buena depuración de datos depende la calidad de nuestro estudio. Si nuestra
base de datos contiene errores, también nuestros resultados.
69
Comprueba si existe algún sujeto con un elevado porcentaje de respuestas
“missing”. Utiliza el menú ANÁLISIS DE VALORES PERDIDOS del SPSS. Si
es preciso elimina algún sujeto de la muestra.
Este ejercicio se plantea para abordar el objetivo 2 de esta práctica.
Además de seleccionar “Analizar” > “Análisis de valores perdidos”, debemos
marcar en la pestaña que se nos abre “Patrones” > “Casos con valores perdidos,
ordenados por patrones de valores perdidos”. Debemos escoger en qué recuadro
ponemos cada una de las variables atendiendo a la escala de medida a que
pertenece. Las “Variables cuantitativas” son aquellas de tipo escala (de intervalo
o razón) y las “Variables categóricas” incluyen tanto las nominales como las
ordinales.
70
Obtenemos dos tablas, en la primera aparecen los valores perdidos para las
variables, es decir, el recuento de casos en que no existe un valor para la
variable en cuestión.
Estadísticos univariados
Desv. Perdidos Número de extremosa
N Media Desviación Recuento Porcentaje Menor Mayor
P1 98 7,09 2,051 2 2,0 5 0
P2 99 6,63 1,562 1 1,0 0 0
P3 99 6,75 1,650 1 1,0 5 0
P9 99 7,58 3,523 1 1,0 0 6
EDAD 99 26,97 7,511 1 1,0 0 4
P4 100 0 ,0
P5 100 0 ,0
P6 70 30 30,0
P7 96 4 4,0
P8 96 4 4,0
PAÍS 100 0 ,0
SEXO 99 1 1,0
a. Número de casos fuera del rango (Q1 - 1,5*IQR, Q3 + 1,5*IQR).
71
En la siguiente tabla que encontramos en el visor de resultados vemos los casos
(sujetos) y los valores perdidos (missing) que presenta cada uno de ellos. Los
sujetos aparecerán ordenados según el número de missing que presenten,
siendo fácil detectar cuáles presentan el mayor número porque estarán en las
últimas filas de la tabla. Ojo: la tabla que se presenta a continuación está
simplificada con respecto a la que aparece originalmente en SPSS.
Las variables en las que el sujeto presenta un missing aparecen indicadas con “S”
Esta tabla también nos indica valores extremos, tanto por encima de la media (o
“altos”, tal y como les llama el programa, señalados con “+”), como por debajo de
ella (“bajos”, señalizados con un “-”).
Debemos tener en cuenta que SPSS no nos informa del Nº de Sujeto, ya que la
variable “SUJETO” sólo es una variable más para el software. La manera que
tiene de localizar e informar de cada sujeto y su número de valores perdidos, es
teniendo en cuenta la fila que ocupaba en el momento del análisis. Así, vemos
que en la tabla anterior el sujeto ocupa la fila 53, que coincide con su número de
sujeto (ya que la base de datos estaba ordenada por número de sujeto al realizar
el análisis de valores perdidos). Eliminaremos ese sujeto que presenta un 25%
de missing, con lo cual el tamaño de nuestra muestra (n) se verá reducido de 100
a 99.
La decisión de cómo actuar con los missing es personal, y muchas veces se
tomará en función de los objetivos de la investigación. En esta ocasión se ha
72
optado por eliminar a los sujetos con 25% o más del de variables en blanco, pero
podría haberse optado por imputar los valores perdidos. Para saber más,
consultar apuntes tema 2, páginas 24-40.
73
En “Estadísticos” está preseleccionado
los “Descriptivos”, a los que podemos
añadir “Estimadores M” (M-estimador de
Tukey, M-estimador de Huber, M-
estimador de Hampel, M-estimador de
Andrews), valores atípicos, percentiles.
74
Descriptivos
Estadístico Desv. Error
DEMOGRÁFICOS. EDAD Media 27,02 ,761
95% de intervalo de Límite inferior 25,51
confianza para la media Límite superior 28,53
Media recortada al 5% 26,21
Mediana 25,00
Varianza 56,742
Desv. Desviación 7,533
Mínimo 18
Máximo 59
Rango 41
Rango intercuartil 8
Asimetría 1,856 ,244
Curtosis 4,893 ,483
Estimadores M
Estimador M de Biponderado de Estimador M de Onda de
Hubera Tukeyb Hampelc Andrewsd
DEMOGRÁFICOS. EDAD 25,73 25,22 25,63 25,22
a. La constante de ponderación es 1,339.
b. La constante de ponderación es 4,685.
c. Las constantes de ponderación son 1,700, 3,400 y 8,500
d. La constante de ponderación es 1,340*pi.
En este ejercicio, la variable EDAD muestra una asimetría positiva (7,606 > 3) y
una curtosis leptocúrtica (10,13 > 3).
A parte de la forma numérica de interpretar la variabilidad de los datos, también
podemos hacerlo gráficamente, siendo para eso extremadamente útil el Boxplot,
o Diagrama de caja y bigotes. Este es un tipo de gráfico mediante el cual se
visualiza la distribución de un conjunto de datos mediante cuatro elementos
claves: la caja, los bigotes, la mediana y los valores que se encuentran fuera de
los bigotes.
A continuación, se muestra el Diagrama de caja y bigotes para la variable EDAD
con algunos de los elementos clave ya señalizados:
Valores extremos
Valores atípicos
Outlier
s
Q3 (Percentil 75)
Mediana (Q2)
Q1 (Percentil 25)
76
Uno de los principales elementos que captan nuestra atención son los valores
atípicos (anómalos): los outliers (indicados con un círculo) y los extremos (en
forma de estrella). Los outliers son aquellos valores que se desvían entre 1,5 y 3
veces el rango intercuartílico (entre 1,5*IQR y 3*IQR), mientras que los extremos
se desvían 3 o más veces (≥ 3*IQR). Dado que en este caso IQR = 8, sabemos
que 1,5*8 = 12 y 3*8 = 24, los outliers se sitúan entre 12 y 24 años por encima
de la edad del sujeto que ocupa el percentil 75 (Q3), y los extremos 24 o más
años.
Como se mencionó antes, el IQR es la diferencia entre el tercer cuartil (Q3,
también le podemos llamar percentil 75) y el primer cuartil (Q1 o percentil 25), y
en el Boxplot simboliza la caja del diagrama. El número que aparece al lado del
circulo o estrella es la fila que ocupa el sujeto que presenta ese determinado
valor, que deberemos localizar en nuestra base de datos si queremos saber el
valor exacto en cuestión. A la izquierda del diagrama, en el eje Y, vemos una
serie de valores (en este caso, años), que van del diez al 60. Aunque nos
permiten tener una orientación acerca de qué valores alcanza cada uno de los
elementos del diagrama, deberemos recurrir a los descriptivos de la tabla anterior
para precisar más. Así sabremos por ejemplo que la mediana es 25 (señalizada
en el diagrama por una línea que atraviesa la caza de extremo izquierdo a
derecho), o que el IQR es 8 (el tamaño de la caja).
La posición de la mediana (Q2 o percentil 50) también nos ofrece información
con respecto a la asimetría. Si la mediana se encuentra centrada en la caja,
coincidiendo pues con la media, estaríamos ante una distribución simétrica,
mientras que si se encuentra desplazada por debajo de la media (es decir, más
cercana al extremo inferior de la caja) sería una asimetría positiva, y si se
encuentra por encima de la media (más cerca del extremo superior) se trataría
de asimetría negativa.
El último elemento que nos aporta información es el tamaño de los bigotes del
diagrama, que indica la curtosis. Cuando estos son alargados con respecto al
tamaño de la caja, la distribución es leptocúrtica. Si son cortos y la caja parece
bastante ancha, la distribución es platicúrtica. Cuando parece que tanto los
bigotes como la caja están compensados, estamos ante una distribución
mesocúrtica. A continuación, podemos ver un ejemplo:
77
Leptocúrtica Mesocúrtica Platicúrtica
78
Esto nos devuelve la siguiente tabla:
Por otra parte, la tabla que hemos obtenido en el ejercicio anterior es algo más
sencilla. Ignoraremos los resultados de Shapiro-Wilk, ya que es K-S la que nos
interesa:
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
DEMOGRÁFICOS. EDAD ,179 99 ,000 ,841 99 ,000
a. Corrección de significación de Lilliefors
79
En el caso de la prueba Kolmogorov-Smirnov, H0 indicaría que la distribución es
normal, o lo que es lo mismo, que nuestros datos se ajustan a la curva normal
(campana de Gauss). El valor de corte mínimo aceptable para rechazar H0 es p
< 0,05. Así, en este caso concluimos que la variable estudiada no presenta una
distribución normal. Por otra parte, aunque en la tabla de SPSS indique
explícitamente “,000” en la columna de la significación (Sig.), a la hora de
presentar un informe es más correcto redactarlo como p < 0,001. Esto se debe a
que indicar esos tres decimales como ceros puede conducir a error, ya que SPSS
sólo nos está informando de los tres primeros decimales (en los que hay ceros),
pero estos son seguidos de más decimales en los que acaba habiendo un valor
distinto a cero.
Cuando no se cumple la normalidad, podemos recurrir a estadísticos robustos
(por ej. en vez de informar de la media de esta variable, informa de la mediana o
de los M-Estimadores), a pruebas no paramétricas (existen varias, pero por poner
un ejemplo, la prueba de Kruskal-Wallis es la equivalente no paramétrica de
ANOVA), o a transformar los datos. Esto último puede hacerse de muy diversas
formas. Si la asimetría es positiva, el problema será que los valores son
demasiado grandes y queremos hacerlos más pequeños (por ej.: lnx, √𝑋, 1/x),
mientras que en el caso de la asimetría negativa querremos hacer los valores
más grandes (x2, x3, ….). Otra opción cuando no se cumple la normalidad, es
eliminar a los casos anómalos, tal y como se recomienda en el material teórico
de la asignatura (capítulo 2, página 54). Esto generalmente tendrá un impacto
positivo sobre la distribución de nuestra variable, haciendo que se ajuste en
mayor medida a la curva normal. Así, también podríamos ver la importancia de
detectar estos casos anómalos. Podemos consultar las páginas 52-54 en el Tema
2 para más información.
80
Por otra parte, podemos observar la distribución de frecuencias mediante el
diagrama de tallo y hojas. Un diagrama de tallos y hojas consiste en una serie
de filas horizontales de números. En la primera columna aparecen las
frecuencias, seguida por el tallo (stem), y a la derecha, en cada fila se escriben
las correspondientes hojas. El número utilizado para designar una fila es su tallo,
el resto de los números de la fila se denominan hojas. En nuestra variable
(“EDAD”), vemos que aparecen los números “1.”, “2.”, “3.”, y “4.”. Algunos de
ellos, más de una vez (1., 2., 3.). Las hojas añaden información acerca del
número, teniendo que combinarlas con el tallo para tener el número completo (1.
Y 8 indicarán un 18, por ejemplo). Aparecerán tantas hojas como número de
veces que aparezca ese valor (por ejemplo, que aparezcan tres “8” en la hoja que
sigue el “1.” Implica que hay tres veces el valor “18”). La columna “Frecuencia”
indicará el número de veces que aparezca la combinación de ese tallo y esas
hojas (siguiendo con el ejemplo, los valores 18 y 19 son 12 en total, tres “18” y
nueve “19”). Este gráfico también nos informa del número de valores anómalos,
aunque no de sus valores. En nuestro ejemplo hay cuatro, con un valor > a 45.
Hay que tener en cuenta que denomina “extremos” no sólo a los verdaderos
extremos, sino también a los outlier.
81
DEMOGRÁFICOS. EDAD Gráfico de tallo y hojas
,00 1.
12,00 1 . 888999999999
8,00 2 . 00001111
14,00 2 . 22222333333333
23,00 2 . 44444444444555555555555
7,00 2 . 6666677
5,00 2 . 88899
9,00 3 . 000011111
9,00 3 . 222233333
2,00 3 . 45
2,00 3 . 67
3,00 3 . 888
1,00 4. 1
4,00 Extremos (>=45)
82
El gráfico Q-Q normal sin tendencia muestra las diferencias existentes entre la
puntuación típica observada de cada valor y su correspondiente puntuación típica
normal. En el eje Y están representados los valores observados y en el eje X el
tamaño de las diferencias entre las puntuaciones típicas observadas y las
esperadas. Si la distribución es normal, esas diferencias oscilan aleatoriamente
en torno al valor cero (representado como la línea recta horizontal). La presencia
de pautas de variación no aleatorias indicaría la ausencia de normalidad, como
es el caso de la variable “EDAD”.
83
2.4. Ficha cubierta con el Caso 1 resuelto
EJERCICIOS
- -
Valores erróneos en P5 Valores erróneos en P6
- 1
Valores erróneos en P7 Valores erróneos en P8
- 44
Valores erróneos en P9 Valores erróneos P10
0, 22 118
Valores erróneos S11 Valores erróneos P12
84
§ Informa del porcentaje de Missing para cada variable
VARIABLE % MISSING
P1 1
P2 0
P3 0
P4 0
P5 0
P6 32
P7 4
P8 4
P9 1
PAÍS 0
SEXO 1
EDAD 1
ESTADÍSTICO VALOR
Media 27,02
Media recortada 26,21
Mediana 25,00
Varianza 56,742
Amplitud intercuartil
(IQR)
8
Rango 41
1,856/0,244
Asimetría
(Estandarizada:7,606)
4,893/0,483
Curtosis
(Estandarizada:10,130)
M-estimador de Tukey 25,22
M-estimador de Huber 25,73
M-estimador de Hampel 25,63
M-estimador de
Andrews
25,22
Nº VALOR Nº SUJETO
Casos extremos 2 45 y 48 25 y 32
Outliers 2 59 y 57 27 y 40
TOTAL ANÓMALOS 4
85
INTERPRETACIÓN (integrando la información de las gráficas y las tablas)
Nos encontramos ante una variable que presenta 4 casos atípicos, dos outliers y
dos extremos, todos ellos por encima de la media. A esto además se suma una
asimetría positiva, confirmada tanto de forma numérica (7,606 > 3) como gráfica
mediante Boxplot, el cual presenta la mediana inferior a la media y una forma
estirada hacía el extremo superior, donde el bigote también es más largo y se
ubican todos los casos atípicos. Por otra parte, la distribución es leptocúrtica, lo
cual confirmamos de forma numérica (10,13 > 3), es decir, la mayoría de los
sujetos presentan valores cercanos a la media. Sin embargo, una minoría de los
sujetos presentan valores los suficientemente altos como para que Media y
Mediana no coincidan, siendo la última inferior a la primera.
ESTADÍSTICO VALOR
Media 6,75
Media recortada 6,90
Mediana 7,00
Varianza 2,721
Amplitud intercuartil 2
(IQR)
Rango 7
Asimetría -0,337/0,243
(Estandarizada: -1,387)
Curtosis -0,212/0,481
(Estandarizada:-0,441)
M-estimador de Tukey 6,92
M-estimador de Huber 6,86
M-estimador de Hampel 6,84
M-estimador de 6,93
Andrews
Nº VALOR Nº SUJETO
Casos extremos 0 - -
Outliers 0 - -
TOTAL ANÓMALOS 0
86
4. Comprueba el supuesto de normalidad para la Variable P12
Dado que la asimetría es positiva, querremos hacer los valores más pequeños
(por ej.: lnx, √𝑋, 1/x), mientras que en el caso de la asimetría negativa querríamos
hacer los valores más grandes (x2, x3, ….).
87
Nombre …………....……………………….….…Curso………….…Año………….…
Con el fin de que tú mismo puedas comprobar tu nivel de aprendizaje del tema 2
de la asignatura, te proponemos que realices el siguiente caso práctico. Para ello
debes de utilizar el archivo denominado “EXPLORATORIO_CASO2.SAV”, en
el que se recoge la matriz de datos correspondiente a un proceso de “selección
de personal de una PyME” (Pequeña y Mediana Empresa). Contiene la
información de 32 personas entrevistadas a las que se les aplicó una serie de
test psicológicos, a la vez que se les realizó una serie de observaciones por parte
de los entrevistadores. De ellos conocemos 10 variables: (32x10)
88
Nombre y apellidos…………....…………………………….…Curso…….… Año…..
EJERCICIOS
1. Observa en la base de datos cómo han sido registradas las variables para
saber en qué escala de medida están y cuáles han sido las opciones de
respuesta. No es necesario que informes del rango de respuesta de las
variables cuantitativas.
Opciones de
VARIABLE Escala de medida
Respuesta
V1: Interacción social Entrevistador 1
V2: Interacción social Entrevistador 2
V3: Conocimiento de la empresa
V4: Conocimiento del trabajo a desempeñar
V5: Capacidad de resolución problemas
V6: Capacidad de aprendizaje
V7: Tipo de personalidad
V8: Titulación más alta conseguida
V9: Experiencia previa
V10: Puntuación muestra de trabajo
BOXPLOT V10
ESTADÍSTICO VALOR
Media
Media recortada
Mediana
Varianza
Desviación Típica
Amplitud intercuartil
(IQR)
Rango
Asimetría
Curtosis
______________________________________________________________
_______________________________________________________________
90
3.3. El Caso 2 de “Recursos Humanos” resuelto
EJERCICIOS
1. Observa en la base de datos cómo han sido registradas las variables para
saber en qué escala de medida están y cuáles han sido las opciones de
respuesta. No es necesario que informes del rango de respuesta de las
variables cuantitativas.
Escala de Opciones de
VARIABLE
medida Respuesta
Muy mala, Mala,
V1: Interacción social Entrevistador 1 Ordinal
Buena, Muy buena
Muy mala, Mala,
V2: Interacción social Entrevistador 2 Ordinal
Buena, Muy buena
V3: Conocimiento de la empresa Ordinal Bajo, Alto
V4: Conocimiento del trabajo a
Ordinal Bajo, Alto
desempeñar
V5: Capacidad de resolución problemas Razón
V6: Capacidad de aprendizaje Razón
Analista,
Diplomática,
V7: Tipo de personalidad Nominal
Exploradora,
Centinela
Secundaria,
V8: Titulación más alta conseguida Ordinal Grado/licenciatura,
Post-graduado
V9: Experiencia previa Nominal No, Sí
V10: Puntuación muestra de trabajo Razón
91
3. Nos interesa saber cuánto coinciden las valoraciones de la interacción
social entre ambos entrevistadores (V1 y V2). Para ello, debemos usar el
menú de tablas de contingencia en SPSS.
Valoración Valoración Entrevistador 1
Entrevistador 2 Muy Mala Mala Buena Muy Buena
Muy Mala 0 1 0 0
Mala 0 0 2 1
Buena 0 0 1 4
Muy Buena 0 0 8 15
ESTADÍSTICO VALOR
Media 7,16
Media recortada 7,14
Mediana 7,00
Varianza 1,620
Desviación Típica 1,273
Amplitud
2
intercuartil (IQR)
Rango 5
0,089/0,414
Asimetría (Estandarizada:
0,215)
-0,564/0,809
Curtosis (Estandarizada:
-0,697)
Nos encontramos ante una variable sin valores atípicos. De forma numérica
podemos percibir que tanto la asimetría como la curtosis presentan valores entre
-3 y +3, lo cual se traduce gráficamente en una mediada centrada en el diagrama
de caja y unos bigotes con un tamaño bastante proporcionado, si bien el bigote
inferior es algo más corto. Por tanto, podemos concluir que la distribución es
simétrica y mesocúrtica.
92
Nombre ………………....……………………………Grupo…… Curso……………
Para resolver esta práctica utilizaremos el fichero de datos que está en el campus
virtual: “EXPLORATORIO_CASO3.SAV”. En él se recoge parte de la matriz de
datos correspondiente a un “estudio sobre turismo” realizado entre la población
gallega. Más concretamente, podrás ver la información correspondiente a 100
personas que han ido de vacaciones el pasado año y a las que se le han realizado
10 preguntas, obteniendo así una matriz de orden 100x10 (sujetos x variables).
P1: Sexo (nominal)
P2: Edad (escala)
P3: Nivel de estudios (ordinal-nominal)
P4: Provincia de residencia (nominal)
P5: Gastos vacacionales en el último año (escala)
P6: Días de Vacaciones (escala)
P7: Valoración de las vacaciones (0-10) (escala)
P8: Principal medio de transporte utilizado (nominal)
P9: ¿Utilizó una agencia de viajes? (nominal) - variable filtro de la P10
P10: Nivel de satisfacción con la agencia (0-10) (escala)
EJERCICIO
94
** Para visualizar las contradicciones e identificar esos valores se recomienda ir a la “Ventana
de Datos” y proceder a ordenar los casos en función de esas variables afectadas. Más
concretamente, puedes ir a DATOS / ORDENAR CASOS / Seleccionar las 2 variables.
*** Una vez acabes con este ejercicio se recomienda seleccionar en el cuadro de diálogo el
botón de REESTABLECER, para que el fichero quede como estaba y proseguir con el
análisis. Otra alternativa es repetir la opción de DATOS/ORDENAR CASOS, pero ahora
seleccionando la variable “número de sujetos”
VARIABLE % MISSING
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
95
5. OUTLIERS o IDENTIFICACIÓN DE CASOS ANÓMALOS. CÁLCULO DE M-
ESTIMADORES. El gráfico BoxPlot es útil para identificar los casos extremos
y outliers; así como los estadísticos de tendencia central, variabilidad y otros
M-estimadores
Casos extremos
---- ----
Menos extremos o Outliers
________________________________________________________________
________________________________________________________________
97
• Completar la siguiente tabla de valores anómalos
Nº VALOR Nº SUJETO
Casos extremos
Outliers
TOTAL ANÓMALOS
________________________________________________________________
________________________________________________________________
________________________________________________________
Nota: Recuerda que para contrastar la hipótesis nula de si la variable P5 se ajusta a la curva
normal, la hipótesis que se contrasta es que H0 = curva normal.
- Para ello se utiliza el estadístico de Kolmogorv-Smirnov, que es matizado por la prueba
de Lilliefors cuando las varianzas de las poblaciones son desconocidas. Y por Shapiro-
Wilks cuando las muestras son pequeñas (n<30).
- Si el nivel de significación asociado al estadístico es “significativo (menor que 0.000)
entonces rechazamos la Ho de igualdad; es decir, que no se distribuye normalmente
____________________________________________________________________________
98
4.3. Ficha con el Caso 3 resuelto. Resuelto.
EJERCICIOS
1 44
Valores erróneos en P4 e indica cuáles son
0 -
Valores erróneos en P5 e indica cuáles son
1 66
Valores erróneos en P7 e indica cuáles son
99
3. DEPURACIÓN FICHERO DE DATOS PARA VARIABLES FILTRO.
Busca posibles incoherencias o cualquier valor no admisible en una
variable teniendo en cuenta lo que haya respondido en su variable filtro.
§ Informa del porcentaje de MISSING para cada una de las variables. Esta
información del % puede encontrarse en la Tabla de Estadísticos Univariantes
100
VARIABLE % MISSING
P1 0
P2 1
P3 2
P4 0
P5 10,2
P6 1
P7 6,1
P8 0
P9 0
P10 total muestra 41,8
**P10 seleccionada 43,9
101
ESTADÍSTICO VALOR
Media 1587,05
Media recortada 1487,75
Mediana 1400
Varianza 693
Amplitud intercuartil 1020
(IQR)
Rango 4600
Asimetría 2’182/0’257=
8,49
Curtosis 6’65/0’508=
13,08
M-estimador de Tukey 1399,71
M-estimador de Huber 1429,58
M-estimador de 1437,37
Hampel
M-estimador de 1399,72
Andrews
Nº VALOR Nº SUJETO
Casos extremos 1 5300 (39) 40
Outliers 2 4000, 5000 (87) 89, (97) 99
TOTAL ANÓMALOS 3
102
Notas:
a) Te recuerdo que los M-estimadores son valores más próximos a la Mediana
y sus cálculos se basan en ponderaciones.
b) Que, para interpretar el valor de la asimetría, ésta debe ser estandarizada por
lo que antes debes de dividirla por su error típico que también te proporciona
el SPSS (será simétrica siempre que su valor esté comprendido entre – 3 y +
3)
c) Que, si te sitúas encima del histograma que proporciona el SPSS, pulsas un
doble click, podrás pedirle que te muestre la curva de esa distribución
d) En general, de cara a la interpretación de la curtosis recordarte que si es
próxima a 0 es mesocúrtica, >0 leptocúrtica y <0 platicúrtica.
• Ahora haz lo mismo con la variable P7 “Valoración de las Vacaciones”.
En el cuadro de diálogo del SPSS puedes seleccionar: ANALIZAR /
ESTADÍSTICOS DESCRIPTIVOS / EXPLORAR / ESTADÍSTICOS con
estimadores robustos centrales y valores atípicos / GRÁFICOS con
Histograma y prueba de normalidad.
ESTADÍSTICO VALOR
Media 5,72
Media recortada 5,75
Mediana 6
Varianza 3,39
Amplitud intercuartil 2
(IQR)
Rango 10
Asimetría -0,349/0,251=
-1,39
Curtosis 0,372/0,498=0,75
M-estimador de Tukey 5,85
M-estimador de Huber 5,82
M-estimador de 5,79
Hampel
M-estimador de 5,85
Andrews
Nº VALOR Nº SUJETO
Casos extremos 0 -- --
Outliers 2 1; 0 11; 14
TOTAL ANÓMALOS 2
Fuerza asimetría
Suave Fuerte
Positiva
(haciendo
que los
Log X ó X1/2 -1/X3 ó -1/X
valores sean
Dirección asimetría más
pequeños)
Negativa
(haciéndolos X2 ó X3 Antilog X
más altos)
104