Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anlisis Univariado 1
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Anlisis Univariado 2
Anlisis de datos con SPSS Mara Dolores Paz Caballero
1 2 3 4 1
Variables ordinales : las que presentan varios niveles que son susceptibles de ser
ordenados de menor a mayor. La asignacin de nmeros a cada uno de los niveles ya
tiene sentido en estas variables, aunque los nmeros hay que considerarlos
simplemente como rangos y no pueden realizarse con ellos operaciones aritmticas.
1 2 3 4
Variables cuantitativas : las que se miden con una escala de intervalos o de razn.
Para poder medir en una escala de intervalos no slo necesitamos, como en el nivel
anterior, que los niveles de la variable puedan ser ordenados. Tambin necesitamos
que haya una unidad de medida constante : que la diferencia, por ejemplo, entre los
valores 3 y 4 sea la misma que hay entre los valores 9 y 10. Si, adems de lo
anterior, contamos con un cero absoluto, tenemos una escala de razn. La
temperatura en grados Celsius est medida en una escala de intervalos (el valor 0 se
asigna de manera arbitraria), la longitud se mide en una escala de razn. La unidad
de medida constante permite realizar las operaciones aritmticas de adicin y
sustraccin. Las escalas de razn, es decir, la existencia de un cero absoluto,
permiten tambin la multiplicacin y la divisin entre sus valores.
Anlisis Univariado 3
Anlisis de datos con SPSS Mara Dolores Paz Caballero
1 2 3
Anlisis Univariado 4
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos ,00 22 11,0 11,0 11,0
1,00 50 25,0 25,0 36,0
2,00 66 33,0 33,0 69,0
3,00 42 21,0 21,0 90,0
4,00 12 6,0 6,0 96,0
5,00 6 3,0 3,0 99,0
6,00 1 ,5 ,5 99,5
7,00 1 ,5 ,5 100,0
Total 200 100,0 100,0
De los 200 sujetos de la muestra hay 22 que no tienen hijos, 50 que tienen
slo un hijo, 66 con dos hijos, etc.
La segunda columna incluye los porcentajes correspondientes a cada nivel.
Para pasar de frecuencia a porcentaje basta con multiplicar por 100/N, donde
N es el nmero de casos de la muestra. As, 22 x 100/200 = 11%, 50 x
100/200 = 25%, etc.
La ltima columna (Porcentaje acumulado) nos indica, para cada puntuacin, el
porcentaje de casos que obtienen esa puntuacin o puntuaciones inferiores a
la misma. Por ejemplo, observando dicha columna podemos ver que un 36% de
los sujetos (11% + 25%) tienen 1 hijo o menos, un 69% (11% + 25% + 33%)
tienen dos o menos hijos, un 90% (11% + 25% + 33% + 21%) tienen 3 o menos
de tres, y as sucesivamente.
Por ltimo, la diferencia entre la columna de Porcentaje y la de Porcentaje
vlido es que en la primera el porcentaje de casos que obtiene cada
puntuacin se calcula sobre el total de la muestra, mientras que los
porcentajes vlidos se calculan teniendo en cuenta nicamente el nmero de
sujetos que tienen puntuacin en esa variable. Supongamos, como es el caso
de la siguiente tabla, que nuestra muestra fuera de 210 sujetos, pero no
conociramos el nmero de hijos de 10 de ellos por lo que la casilla
correspondiente a esta variable aparecera vaca. Estos 10 sujetos sin
puntuacin seran considerados casos perdidos por el sistema. Podemos ver
que a la puntuacin 0 le corresponde un porcentaje del 10,5%, que resulta de
multiplicar 22 por 100/210, aunque el porcentaje vlido para esta puntuacin,
es decir, el calculado sobre los sujetos que tienen puntuacin en esta
variable, es 22 x 100/200 = 11%
Anlisis Univariado 5
Anlisis de datos con SPSS Mara Dolores Paz Caballero
P o rc e n ta je P o rc e n ta je
F re c u e n c ia P o rc e n ta je v lid o a c u m u la d o
V lid o s ,0 0 22 1 0 ,5 1 1 ,0 1 1 ,0
1 ,0 0 50 2 3 ,8 2 5 ,0 3 6 ,0
2 ,0 0 66 3 1 ,4 3 3 ,0 6 9 ,0
3 ,0 0 42 2 0 ,0 2 1 ,0 9 0 ,0
4 ,0 0 12 5 ,7 6 ,0 9 6 ,0
5 ,0 0 6 2 ,9 3 ,0 9 9 ,0
6 ,0 0 1 ,5 ,5 9 9 ,5
7 ,0 0 1 ,5 ,5 1 0 0 ,0
T o ta l 200 9 5 ,2 1 0 0 ,0
P e rd id o s S is te m a 10 4 ,8
T o ta l 210 1 0 0 ,0
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos hombre 80 40,0 40,0 40,0
mujer 120 60,0 60,0 100,0
Total 200 100,0 100,0
nivel socio-econmico
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos bajo 10 5,0 5,0 5,0
medio-bajo 40 20,0 20,0 25,0
medio 100 50,0 50,0 75,0
medio-alto 40 20,0 20,0 95,0
alto 10 5,0 5,0 100,0
Total 200 100,0 100,0
Anlisis Univariado 6
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Ntese que existe separacin entre un rectngulo y otro, lo que quiere decir que no hay
posibilidad de obtener valores intermedios entre dos valores consecutivos.
70
60
50
40
30
20
Frecuencia
10
0
,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00
hombre
mujer
Anlisis Univariado 7
Anlisis de datos con SPSS Mara Dolores Paz Caballero
nivel socio-econmico
120
100
80
60
40
Frecuencia
20
0
bajo medio-bajo medio medio-alto alto
nivel socio-econmico
aos en la empresa
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos 1,00 10 10,0 10,0 10,0
2,00 20 20,0 20,0 30,0
3,00 26 26,0 26,0 56,0
4,00 18 18,0 18,0 74,0
5,00 14 14,0 14,0 88,0
6,00 8 8,0 8,0 96,0
7,00 4 4,0 4,0 100,0
Total 100 100,0 100,0
Anlisis Univariado 8
Anlisis de datos con SPSS Mara Dolores Paz Caballero
aos en la empresa
30
20
10
Frecuencia
aos en la empresa
30
20
10
Frecuencia
0
1,00 2,00 3,00 4,00 5,00 6,00 7,00
aos en la empresa
Otra forma de describir los datos de una variable es mediante los ndices de
tendencia central y de variabilidad. Veamos en qu consisten.
Los ndices de tendencia central nos indican eso, los valores centrales o los ms
frecuentes de una distribucin. Los ms utilizados son :
La moda (Mo) que sera el valor, o el nivel, de la variable que aparece con
mayor frecuencia. Por ejemplo, si consideramos la tabla de frecuencias de la
variable nivel socio-econmico, vemos que la moda corresponde al nivel medio
Anlisis Univariado 9
Anlisis de datos con SPSS Mara Dolores Paz Caballero
La mediana (Md), o valor que deja por debajo la mitad de las puntuaciones y
por encima la otra mitad. Tambin se conoce como percentil 50 o cuartil 2.
Slo puede calcularse cuando la variable est, al menos, al nivel de medida
ordinal.
Para calcular la mediana de una serie de puntuaciones (no agrupadas en
intervalos), lo primero que hay que hacer es ordenarlas de menor a mayor. Por
ejemplo :
4, 7, 8, 5, 1 1, 4, 5, 7, 8
Entonces la mediana sera la puntuacin 5, porque es la que ocupa la posicin
central.
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos ,00 22 11,0 11,0 11,0
1,00 50 25,0 25,0 36,0 36%
2,00 66 33,0 33,0 69,0 33%
3,00 42 21,0 21,0 90,0
4,00 12 6,0 6,0 96,0
5,00 6 3,0 3,0 99,0 31%
6,00 1 ,5 ,5 99,5
7,00 1 ,5 ,5 100,0
Total 200 100,0 100,0
Anlisis Univariado 10
Anlisis de datos con SPSS Mara Dolores Paz Caballero
aos en la empresa
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos 1,00 10 10,0 10,0 10,0
2,00 20 20,0 20,0 30,0
3,00 26 26,0 26,0 56,0
4,00 18 18,0 18,0 74,0
5,00 14 14,0 14,0 88,0
6,00 8 8,0 8,0 96,0
7,00 4 4,0 4,0 100,0
Total 100 100,0 100,0
En la tabla podemos ver que un 10% de los sujetos ha trabajado entre 0,5
y 1,5 aos, luego, por debajo de 0,5 aos no hay ningn sujeto (0%) y por debajo
de ao y medio queda el 10%. Por tanto, por debajo de la puntuacin 1 quedar
(0+10)/2 = 5%.
Anlisis Univariado 11
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Sabemos que en 0,5 unidades hay un 13% de casos y queremos saber cuntas
unidades ocupar el primer 7%, que es lo que va de 43% a 50%.
Como suponemos que los casos se reparten de forma uniforme a lo largo del
intervalo, podemos aplicar una regla de tres :
Punt. Frecuencia
1 3
2 8
3 10
4 4
25
Anlisis Univariado 12
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Frec.
2.000.000 1
100.000 8
80.000 1
Indices de variabilidad
7, 8, 10, 12, 13
1, 2, 10, 18, 19
vemos que la media (y tambin la mediana) en ambos casos es 10. Sin embargo hay
mucha diferencia entre las dos distribuciones : en la primera las puntuaciones se
apartan muy poco de la media, mientras que en el segundo caso estn mucho ms
alejadas de la misma.
Anlisis Univariado 13
Anlisis de datos con SPSS Mara Dolores Paz Caballero
7, 8, 10, 12, 13
1, 2, 10, 18, 19
El valor que nos va a dar el ordenador, sin embargo, es algo distinto. La razn es
que, as como la media de la muestra representa bastante bien el valor de la
media de la poblacin, la varianza de la muestra, calculada segn la frmula
anterior, es siempre algo menor que la que obtendramos en la poblacin. Una
forma de aumentar un poco el valor de la varianza de la muestra para acercarlo
ms al que posiblemente se d en la poblacin es dividiendo la suma de
diferencias cuadrticas, no entre el nmero de observaciones, sino entre el
nmero de observaciones menos uno. Hacindolo as, las varianzas de las dos
distribuciones del ejemplo seran 6,5 y 72,5, valores ms altos, como se ve, que
los obtenidos antes (5,2 y 58). A la varianza obtenida de este modo se la
denomina varianza insesgada. El programa SPSS calcula siempre la varianza (y
desviacin tpica) insesgada.
Anlisis Univariado 14
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Asimetra y curtosis
Anlisis Univariado 15
Anlisis de datos con SPSS Mara Dolores Paz Caballero
120
100
80
60
40
Peso (Kg)
120 120
100 100
80 80
60 60
40 40
20 Des 20 Des
Med Med
0 N= 0 N=
16,5 17,5 18,5 19,5 20,5 21,5 22,5 23,5 24,5 25,5 16,5 17,5 18,5 19,5 20,5 21,5 22,5 23,5 24,5 25,5
Una situacin que puede dar lugar a una distribucin asimtrica es la existencia
de casos extremos (o outliers) y simplemente la supresin de stos puede convertir la
distribucin en simtrica. Ms adelante se tratar la cuestin de la identificacin de
valores extremos.
Anlisis Univariado 16
Anlisis de datos con SPSS Mara Dolores Paz Caballero
20
10
30
20
10
20
10
Anlisis Univariado 17
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Vamos a ver las posibilidades que ofrece el programa SPSS para la obtencin de
estadsticos descriptivos y representacin grfica de los datos. Trabajaremos con los
datos del archivo univariado.sav. Se recomienda que el alumno abra dicho archivo y vaya
siguiendo de forma activa todos los pasos.
Anlisis Univariado 18
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Una vez definidas las variables y etiquetados los valores de las variables
categricas (estado civil y nivel socio-econmico) pasamos a describir la muestra en
funcin de las mismas.
Anlisis Univariado 19
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Anlisis Univariado 20
Anlisis de datos con SPSS Mara Dolores Paz Caballero
ESTADO CIVIL
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos soltero 23 38,3 38,3 38,3
casado 16 26,7 26,7 65,0
pareja 19 31,7 31,7 96,7
otros 2 3,3 3,3 100,0
Total 60 100,0 100,0
Total 60 100,0
Anlisis Univariado 21
Anlisis de datos con SPSS Mara Dolores Paz Caballero
otros
pareja soltero
casado
Esta variable puede ser ya considerada como categrica-ordinal, puesto que sus
distintos niveles pueden ordenarse de menor a mayor. En este caso tiene sentido
considerar los porcentajes acumulados (porcentaje de casos que quedan por debajo de
un determinado nivel). En Grficos pedimos el grfico de barras.
Anlisis Univariado 22
Anlisis de datos con SPSS Mara Dolores Paz Caballero
NIVEL SOCIO-ECONMICO
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos bajo 6 10,0 10,0 10,0
medio-bajo 9 15,0 15,0 25,0
medio 22 36,7 36,7 61,7
medio-alto 15 25,0 25,0 86,7
alto 8 13,3 13,3 100,0
Total 60 100,0 100,0
Total 60 100,0
30
20
10
F re0c u e n c ia
b a jo m e d io -b a jo m e d io m e d io -a lto a lto
N IV E L S E
Anlisis Univariado 23
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Variable 3 : edad
Ventana de resultados:
Anlisis Univariado 24
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Estadsticos
N
Vlidos Perdidos Asimetra
Estadstico Estadstico Estadstico Error tp.
EDAD 60 0 ,845 ,309
20
10
D e s v . tp . = 1 6 ,8 3
M e d ia = 3 6 ,0
F re0c u e n c ia N = 6 0 ,0 0
2 0 ,0 3 0 ,0 4 0 ,0 5 0 ,0 6 0 ,0 7 0 ,0
2 5 ,0 3 5 ,0 4 5 ,0 5 5 ,0 6 5 ,0
EDAD
Anlisis Univariado 25
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Estadsticos
N Percentiles
Vlidos Perdidos 25 50 75
EDAD 60 0 21,8000a 30,5000 46,5000
a. Los percentiles se calcularn a partir de los datos agrupados.
Como puede verse en la salida del SPSS, la mediana (o P50) es 30,5 y la amplitud
intercuartil 46,5 - 21,8 = 24,7. La interpretacin es clara : la mitad de los sujetos
tienen ms de 30 aos y medio y, por otra parte, el 50% central de la muestra est
comprendido entre 21,8 y 46,5 aos (es decir, en 24,7 unidades).
Anlisis Univariado 26
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Conviene sealar que, al especificar al ordenador que los valores son puntos
medios de los grupos, se considera que la puntuacin 22 representa a todos los sujetos
que tienen entre 21,5 y 22,5 aos. Por tanto, los valores de esta variable deben haber
sido codificados de esta manera. En este caso concreto, se les ha pedido a los sujetos
su fecha de nacimiento y, en funcin de la misma, se les ha asignado al intervalo
correspondiente. Por ejemplo, la puntuacin 24 representa a todos los sujetos con
edades comprendidas entre 23 aos y medio y 24 aos y medio. Caso de no haberlo
hecho de esta manera, o de no poder hacerlo porque solamente se les ha preguntado a
los sujetos su edad en aos, habra que sumar 0,5 a cada uno de los valores para que de
verdad fueran los puntos medios de los intervalos (los sujetos que dicen tener 24 aos
estn, en realidad, entre 24 y 25, por lo que el valor medio de todos ellos es 24,5).
Anlisis Univariado 27
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Variable 4 : depresin
Estadsticos
N
Vlidos Perdidos Asimetra
Estadstico Estadstico Estadstico Error tp.
DEPRESIO 60 0 ,322 ,309
Anlisis Univariado 28
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Estadsticos
N
Vlidos Perdidos Media Desv. tp.
DEPRESIO 60 0 24,5333 5,6403
Anlisis Univariado 29
Anlisis de datos con SPSS Mara Dolores Paz Caballero
12
10
DEPRESIO
Otra opcin que podemos utilizar para describir una variable cuantitativa es la
de Explorar (tambin incluida en Estadsticos descriptivos). Esta opcin tiene la
ventaja de que nos da por defecto todos los estadsticos de inters. El inconveniente
Anlisis Univariado 30
Anlisis de datos con SPSS Mara Dolores Paz Caballero
que tiene esta opcin frente a la de Frecuencias es que calcula la mediana y la amplitud
intercuartil considerando que la variable es discreta, es decir, no permite especificar
que los valores son puntos medios de los grupos.
Descriptivos
Estadstico Error tp.
DEPRESIO Media 24,5333 ,7282
Intervalo de confianza Lmite
23,0763
para la media al 95% inferior
Lmite
25,9904
superior
Media recortada al 5%
24,4259
Mediana 24,0000
Varianza 31,812
Desv. tp. 5,6403
Mnimo 13,00
Mximo 39,00
Rango 26,00
Amplitud intercuartil
7,0000
Asimetra ,322 ,309
Curtosis ,026 ,608
Anlisis Univariado 31
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Anlisis Univariado 32
Anlisis de datos con SPSS Mara Dolores Paz Caballero
40
30
20
10
N= 10
EDAD
Anlisis Univariado 33
Anlisis de datos con SPSS Mara Dolores Paz Caballero
Mediana
Percentil 25
Valor menor (no llega a ser outlier)
Anlisis Univariado 34
Anlisis de datos con SPSS Mara Dolores Paz Caballero
RESUMEN
Anlisis Univariado 35