Está en la página 1de 35

Anlisis de datos con SPSS Mara Dolores Paz Caballero

MDULO I. ANLISIS UNIVARIADO

El anlisis de los datos obtenidos en una investigacin comienza necesariamente


en el nivel univariado, es decir, en la consideracin por separado de cada una de las
variables medidas.

Cundo realizamos un anlisis univariado ?

Aunque el objetivo prioritario de una investigacin es el estudio de relaciones


entre variables, en cualquier investigacin que hagamos tenemos que pasar por el nivel
univariado

A la hora de exponer los resultados obtenidos es conveniente comenzar


describiendo la muestra utilizada en funcin de una serie de caractersticas
socio-demogrficas o de cualquier otro tipo.

Adems, el nivel univariado ha de ser siempre tenido en cuenta de forma


implcita para determinar qu tipo de anlisis bivariados o multivariados
permiten los datos. Por ejemplo, si para una determinada variable no es
adecuado el clculo de la media, al comparar las puntuaciones de dos grupos
en la misma no podremos utilizar un contraste de medias.

Es un error relativamente frecuente equiparar estadstica univariada y


estadstica descriptiva. Sin embargo, dentro del anlisis univariado podemos considerar
un nivel descriptivo, centrado en la muestra, y un nivel inferencial, en el que, a partir de
los datos de la muestra hacemos inferencias a la poblacin a la que, supuestamente, esa
muestra representa. Por ejemplo, si tenemos una muestra aleatoria de 100 nios de 8
aos y hemos considerado la variable peso, nos movemos en el nivel descriptivo si
afirmamos que el peso medio de los 100 nios es de 30 kg. Pasamos al nivel inferencial
si estimamos que el peso medio de la poblacin de 8 aos oscila entre 28 y 32 Kg. A los
datos obtenidos en la muestra los denominamos estadsticos y a los estimados en la
poblacin parmetros. La media de la muestra es un estadstico y la media que
estimamos en la poblacin un parmetro.

As, el anlisis univariado incluye :

El resumen de los datos de cada variable mediante una serie de estadsticos


descriptivos y la representacin grfica de los mismos (ANLISIS
DESCRIPTIVO).
La comprobacin de hiptesis acerca del valor de los parmetros y del tipo de
distribucin poblacional (ANLISIS INFERENCIAL).

Anlisis Univariado 1
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Tema 1 : ANLISIS UNIVARIADO DESCRIPTIVO

Existen distintas formas de describir numrica y grficamente los datos


obtenidos por nuestra muestra en una variable. Ahora bien, para elegir la forma
adecuada debemos tener en cuenta el nivel de medida de la variable, es decir, las
operaciones que podemos hacer con los datos. As pues, dentro de este tema vamos a
ver :

- Clasificacin de las variables en funcin de su nivel de medida


- Cmo describir los datos de una variable
- Distribucin de frecuencias y su representacin grfica
- Indices de tendencia central
- Indices de variabilidad
- Asimetra y curtosis
- Un ejemplo de anlisis descriptivo con SPSS
- Cmo detectar casos extremos

1.1. Clasificacin de las variables en funcin de su nivel de medida

Una variable es una caracterstica que puede manifestarse segn dos o ms


modalidades o niveles. Entre estos niveles podemos establecer distintas relaciones:
podemos, por ejemplo, decir que un nivel es distinto de otro, mayor, el doble de grande,
etc. Pues bien, segn las relaciones que podamos establecer entre los niveles, podemos
considerar tres tipos de variables :

Variables categricas, que tambin se denominan cualitativas o nominales: aqullas


que pueden manifestarse segn dos o ms modalidades o niveles no susceptibles de
ser ordenados. Las que slo tienen dos niveles (por ejemplo, el sexo) se denominan
dicotmicas y las que pueden presentar ms de dos niveles (por ejemplo, el estado
civil) politmicas. Los nmeros asignados a los distintos niveles de una variable
categrica deben considerarse simplemente como etiquetas, es decir, no permiten
ser ordenados de menor a mayor ni realizar con ellos operaciones aritmticas.

La variable color es un ejemplo de variable categrica. Podemos asignar nmeros


a sus distintos niveles y no habra ninguna regla para hacerlo, a excepcin de la de
igualdad - desigualdad : a dos estmulos del mismo color les tenemos que asignar el
mismo nmero y a dos de distinto color distintos nmeros. As, si asignamos el valor
1 al verde tendremos que asignar cualquier otro nmero al azul, por ejemplo el 2,
pero eso no nos permite decir que azul sea mayor que verde. Asimismo, si al rojo le
asignamos el 3, tampoco podemos decir que verde + azul = rojo.

Anlisis Univariado 2
Anlisis de datos con SPSS Mara Dolores Paz Caballero

1 2 3 4 1

Variables ordinales : las que presentan varios niveles que son susceptibles de ser
ordenados de menor a mayor. La asignacin de nmeros a cada uno de los niveles ya
tiene sentido en estas variables, aunque los nmeros hay que considerarlos
simplemente como rangos y no pueden realizarse con ellos operaciones aritmticas.

Si consideramos el tono de estos cuatro cuadrados vemos que vara de ms claro a


ms oscuro. As, a diferencia de la variable color, los niveles de la variable tono
pueden ser ordenados y los nmeros asignados a los mismos deben respetar este
orden. Por lo dems, no tenemos ninguna limitacin para asignarlos. Podemos asignar
los valores 1, 2, 3, 4 o 1, 2, 6, 8, o cualquier otra serie numrica, siempre que a un
tono ms oscuro que otro le asignemos un valor mayor. Lo que no podemos decir es
que la diferencia entre el primer estmulo y el segundo sea la misma que entre el
tercero y el cuarto o que esta ltima sea el doble que la primera, porque no existe
una unidad de medida constante. Por la misma razn, tampoco podemos decir que la
suma de los dos primeros estmulos d como resultado el tercero.

1 2 3 4

Variables cuantitativas : las que se miden con una escala de intervalos o de razn.
Para poder medir en una escala de intervalos no slo necesitamos, como en el nivel
anterior, que los niveles de la variable puedan ser ordenados. Tambin necesitamos
que haya una unidad de medida constante : que la diferencia, por ejemplo, entre los
valores 3 y 4 sea la misma que hay entre los valores 9 y 10. Si, adems de lo
anterior, contamos con un cero absoluto, tenemos una escala de razn. La
temperatura en grados Celsius est medida en una escala de intervalos (el valor 0 se
asigna de manera arbitraria), la longitud se mide en una escala de razn. La unidad
de medida constante permite realizar las operaciones aritmticas de adicin y
sustraccin. Las escalas de razn, es decir, la existencia de un cero absoluto,
permiten tambin la multiplicacin y la divisin entre sus valores.

El tamao de los tres estmulos siguientes es una variable cuantitativa. Podemos


afirmar que el tercer estmulo es la suma de los dos primeros. Somos libres para
asignar el valor que queramos al primero, pero ese valor va a determinar todos los
dems. Si asignamos 1 al primer estmulo, el siguiente ser 2 y el ltimo 3, porque
debe verificarse que 3 = 1 + 2. Si asignamos el valor 2 al primer estmulo, el siguiente
valdr 4 y el siguiente 6, de forma que vuelve a verificarse que 6 = 2 + 4. Adems,
como el tamao tiene un cero absoluto, se mide con una escala de razn, y eso nos
permite decir que el segundo estmulo es el doble del primero y el tercero el triple.

Anlisis Univariado 3
Anlisis de datos con SPSS Mara Dolores Paz Caballero

1 2 3

Las variables cuantitativas pueden ser continuas o discretas dependiendo de que


admitan o no infinitos puntos intermedios entre dos cualesquiera de sus valores. La
longitud, por ejemplo, es una variable continua puesto que entre 1,52 y 1,53 metros
podemos seguir sacando infinitos decimales. Si nuestro instrumento de medida no
nos permite ir ms all del centmetro, asignaremos a un sujeto la puntuacin 1,52 si
est ms cerca de sta que de 1,51 o de 1,53. El nmero de hijos, por el contrario,
es una variable discreta : se pueden tener 2 o hasta 3 hijos, pero nunca 2.6.

La mayor parte de las variables son categricas o cuantitativas, lo que resulta


ms difcil es encontrar variables ordinales puras. La variable tono, que consideramos
antes para ejemplificar lo que es una variable ordinal, sera en realidad una variable
cuantitativa si dispusiramos del instrumento adecuado para medirla. En general, lo que
se conoce como variables ordinales pueden ser variables de dos tipos : variables
categricas, cuyos niveles pueden ser ordenados de menor a mayor (como, por ejemplo,
el nivel de estudios) o variables originalmente cuantitativas pero que, por diversos
motivos que ms adelante consideraremos, son tratadas como ordinales.

Pasamos, a continuacin a considerar los recursos que ofrece la estadstica para


describir los datos de una variable, desde los aplicables a variables de cualquier tipo
hasta los restringidos a variables de tipo cuantitativo.

1.2.Cmo describir los datos de una variable

Distribucin de frecuencias y su representacin grfica

La forma ms simple de describir los datos de un grupo de sujetos en una


variable es mediante una distribucin de frecuencias. Una distribucin de frecuencias
es una tabla donde aparecen los valores o niveles de una variable junto con la
frecuencia (nmero) de sujetos que han obtenido cada valor o que estn en cada nivel.
Adems de las frecuencias, se suelen incluir los porcentajes correspondientes a las
mismas. Se muestra, a continuacin, un ejemplo de una distribucin de
frecuencias correspondiente a la variable nmero de hijos medida en una muestra de
200 sujetos:

Anlisis Univariado 4
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos ,00 22 11,0 11,0 11,0
1,00 50 25,0 25,0 36,0
2,00 66 33,0 33,0 69,0
3,00 42 21,0 21,0 90,0
4,00 12 6,0 6,0 96,0
5,00 6 3,0 3,0 99,0
6,00 1 ,5 ,5 99,5
7,00 1 ,5 ,5 100,0
Total 200 100,0 100,0

La forma de interpretar la tabla de distribucin de frecuencias es sencilla :

De los 200 sujetos de la muestra hay 22 que no tienen hijos, 50 que tienen
slo un hijo, 66 con dos hijos, etc.
La segunda columna incluye los porcentajes correspondientes a cada nivel.
Para pasar de frecuencia a porcentaje basta con multiplicar por 100/N, donde
N es el nmero de casos de la muestra. As, 22 x 100/200 = 11%, 50 x
100/200 = 25%, etc.
La ltima columna (Porcentaje acumulado) nos indica, para cada puntuacin, el
porcentaje de casos que obtienen esa puntuacin o puntuaciones inferiores a
la misma. Por ejemplo, observando dicha columna podemos ver que un 36% de
los sujetos (11% + 25%) tienen 1 hijo o menos, un 69% (11% + 25% + 33%)
tienen dos o menos hijos, un 90% (11% + 25% + 33% + 21%) tienen 3 o menos
de tres, y as sucesivamente.
Por ltimo, la diferencia entre la columna de Porcentaje y la de Porcentaje
vlido es que en la primera el porcentaje de casos que obtiene cada
puntuacin se calcula sobre el total de la muestra, mientras que los
porcentajes vlidos se calculan teniendo en cuenta nicamente el nmero de
sujetos que tienen puntuacin en esa variable. Supongamos, como es el caso
de la siguiente tabla, que nuestra muestra fuera de 210 sujetos, pero no
conociramos el nmero de hijos de 10 de ellos por lo que la casilla
correspondiente a esta variable aparecera vaca. Estos 10 sujetos sin
puntuacin seran considerados casos perdidos por el sistema. Podemos ver
que a la puntuacin 0 le corresponde un porcentaje del 10,5%, que resulta de
multiplicar 22 por 100/210, aunque el porcentaje vlido para esta puntuacin,
es decir, el calculado sobre los sujetos que tienen puntuacin en esta
variable, es 22 x 100/200 = 11%

Anlisis Univariado 5
Anlisis de datos con SPSS Mara Dolores Paz Caballero

P o rc e n ta je P o rc e n ta je
F re c u e n c ia P o rc e n ta je v lid o a c u m u la d o
V lid o s ,0 0 22 1 0 ,5 1 1 ,0 1 1 ,0
1 ,0 0 50 2 3 ,8 2 5 ,0 3 6 ,0
2 ,0 0 66 3 1 ,4 3 3 ,0 6 9 ,0
3 ,0 0 42 2 0 ,0 2 1 ,0 9 0 ,0
4 ,0 0 12 5 ,7 6 ,0 9 6 ,0
5 ,0 0 6 2 ,9 3 ,0 9 9 ,0
6 ,0 0 1 ,5 ,5 9 9 ,5
7 ,0 0 1 ,5 ,5 1 0 0 ,0
T o ta l 200 9 5 ,2 1 0 0 ,0
P e rd id o s S is te m a 10 4 ,8
T o ta l 210 1 0 0 ,0

Cuando la variable que tenemos es categrica, o categrica-ordinal, en la tabla


de distribucin de frecuencias lo que se representa son los niveles de la variable (no las
puntuaciones) con las frecuencias y porcentajes que hay en cada nivel. Es el caso de las
dos tablas siguientes donde se han considerado las variables sexo (categrica) y nivel
socio-econmico (categrica-ordinal) de los 200 sujetos anteriores.
SEXO

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos hombre 80 40,0 40,0 40,0
mujer 120 60,0 60,0 100,0
Total 200 100,0 100,0

nivel socio-econmico

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos bajo 10 5,0 5,0 5,0
medio-bajo 40 20,0 20,0 25,0
medio 100 50,0 50,0 75,0
medio-alto 40 20,0 20,0 95,0
alto 10 5,0 5,0 100,0
Total 200 100,0 100,0

La forma de interpretar estas tablas es la misma que en el ejemplo anterior.


Podemos ver, por ejemplo, que, de los 200 sujetos, 80 son hombre y 120 mujeres, lo
que suponen un porcentaje del 40% y del 60% respectivamente. Vemos tambin, que un
50% de la muestra tiene un nivel socio-econmico medio y que con un nivel medio o
inferior hay un 75%. Hay, sin embargo, un dato en la primera tabla cuya interpretacin
resultara absurda : es la columna de porcentaje acumulado. Esta columna slo tiene
sentido cuando las puntuaciones o niveles pueden ser ordenadas de menor a mayor.

En lo que respecta a la representacin grfica de la distribucin de frecuencias,


sta va a depender del nivel de medida de la variable. En el caso del "nmero de hijos"
se trata de una variable cuantitativa discreta, por lo que el grfico adecuado es el
grfico de barras. En dicho grfico se representan, en el eje horizontal los valores de
la variable (nmero de hijos) mientras que la altura de los rectngulos es proporcional
al nmero de sujetos que han obtenido cada valor (o, si as se prefiere, al porcentaje).

Anlisis Univariado 6
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Ntese que existe separacin entre un rectngulo y otro, lo que quiere decir que no hay
posibilidad de obtener valores intermedios entre dos valores consecutivos.

70

60

50

40

30

20
Frecuencia

10

0
,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00

En el caso de las variables categricas (sexo), lo ms frecuente es la


representacin de la distribucin de frecuencias mediante un grfico de sectores
donde cada sector representa un nivel de la variable y tiene un rea proporcional al
nmero de sujetos que hay en ese nivel.
SEXO

hombre

mujer

Cuando los niveles de la variable categrica pueden ser ordenados, como es el


caso del nivel socio-econmico, la distribucin de frecuencias puede representarse
mediante un grfico de sectores o, como es ms habitual, mediante un grfico de
barras que permite ordenar de menor a mayor los niveles de la variable.

Anlisis Univariado 7
Anlisis de datos con SPSS Mara Dolores Paz Caballero

nivel socio-econmico
120

100

80

60

40

Frecuencia
20

0
bajo medio-bajo medio medio-alto alto

nivel socio-econmico

Adems de los grficos de barras y de sectores, un tercer tipo de grfico


utilizado habitualmente para representar una distribucin de frecuencias es el
histograma. El histograma es idntico al grfico de barras, con la excepcin de que los
rectngulos no estn separados entre s sino que aparecen adosados. Esta es la forma
de representar grficamente la distribucin de frecuencias de una variable
cuantitativa continua. Por ejemplo, supngase que hemos considerado los aos que llevan
trabajando en una empresa 50 sujetos y hemos obtenido la siguiente distribucin de
frecuencias :

aos en la empresa

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos 1,00 10 10,0 10,0 10,0
2,00 20 20,0 20,0 30,0
3,00 26 26,0 26,0 56,0
4,00 18 18,0 18,0 74,0
5,00 14 14,0 14,0 88,0
6,00 8 8,0 8,0 96,0
7,00 4 4,0 4,0 100,0
Total 100 100,0 100,0

La diferencia entre esta distribucin de frecuencias y la que tenamos para la


variable nmero de hijos es que ahora los valores 1, 2, 3, etc, no son valores puntuales
sino que representan los puntos medios de una serie o intervalo de valores. Por qu
decimos esto ?
Resulta evidente que la variable tiempo tiene un carcter continuo : entre 3 y 4
aos, por ejemplo, hay infinitos valores intermedios. As pues, como sera imposible
precisar los aos, meses, das, horas, minutos, segundos, etc. que lleva trabajando cada
empleado, lo que se hace es agrupar las puntuaciones en intervalos. Es decir, a los 10
empleados que llevan trabajando entre medio ao y ao y medio les asignamos el valor 1.
Del mismo modo, el valor 5 englobara todos los valores que van desde 4 aos y medio
hasta 5 y medio.
Si queremos representar grficamente estos datos no podemos utilizar el
grfico de barras, donde la separacin entre los rectngulos que representan los

Anlisis Univariado 8
Anlisis de datos con SPSS Mara Dolores Paz Caballero

distintos valores de la variable excluye la posibilidad de que existan valores


intermedios entre ellos. Necesitamos otro tipo de grfico en el que no exista
separacin entre los rectngulos y este grfico es el histograma.

aos en la empresa
30

20

10
Frecuencia

Desv. tp. = 1,59


Media = 3,5
0 N = 100,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0

aos en la empresa

El histograma puede sustituirse, si as se prefiere, por un grfico de lneas, que


resulta de unir los puntos medios superiores de los rectngulos del histograma. Para los
datos del ejemplo anterior, el grfico de lneas sera el siguiente :

30

20

10
Frecuencia

0
1,00 2,00 3,00 4,00 5,00 6,00 7,00

aos en la empresa

Otra forma de describir los datos de una variable es mediante los ndices de
tendencia central y de variabilidad. Veamos en qu consisten.

Indices de tendencia central

Los ndices de tendencia central nos indican eso, los valores centrales o los ms
frecuentes de una distribucin. Los ms utilizados son :

La moda (Mo) que sera el valor, o el nivel, de la variable que aparece con
mayor frecuencia. Por ejemplo, si consideramos la tabla de frecuencias de la
variable nivel socio-econmico, vemos que la moda corresponde al nivel medio

Anlisis Univariado 9
Anlisis de datos con SPSS Mara Dolores Paz Caballero

porque la mayora de los sujetos estn en ese nivel. En el caso de la ltima


variable considerada aos en la empresa, la moda corresponde al valor 3 que
es el que se da con mayor frecuencia. Este ndice de tendencia central puede
utilizarse con cualquier tipo de variables.

La mediana (Md), o valor que deja por debajo la mitad de las puntuaciones y
por encima la otra mitad. Tambin se conoce como percentil 50 o cuartil 2.
Slo puede calcularse cuando la variable est, al menos, al nivel de medida
ordinal.
Para calcular la mediana de una serie de puntuaciones (no agrupadas en
intervalos), lo primero que hay que hacer es ordenarlas de menor a mayor. Por
ejemplo :
4, 7, 8, 5, 1 1, 4, 5, 7, 8
Entonces la mediana sera la puntuacin 5, porque es la que ocupa la posicin
central.

Este procedimiento sigue siendo vlido para calcular la mediana a partir de


una distribucin de frecuencias, es decir, con las puntuaciones agrupadas en
intervalos. Si consideramos la variable "nmero de hijos", la mediana
correspondera a la puntuacin 2. La razn es sencilla : observando la tabla
vemos que hay un 36% de sujetos con 1 hijo o ninguno y un 33% con 2. As
pues, con ms de dos hijos habr un 31%. Por tanto, si ordenamos a los
sujetos en funcin del nmero de hijos, el que quede en el centro tiene 2
hijos.

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos ,00 22 11,0 11,0 11,0
1,00 50 25,0 25,0 36,0 36%
2,00 66 33,0 33,0 69,0 33%
3,00 42 21,0 21,0 90,0
4,00 12 6,0 6,0 96,0
5,00 6 3,0 3,0 99,0 31%
6,00 1 ,5 ,5 99,5
7,00 1 ,5 ,5 100,0
Total 200 100,0 100,0

Cuando la variable es cuantitativa continua, como es el caso de la variable


"aos en la empresa", el clculo de la mediana es algo ms complicado. Como
antes se indic, las puntuaciones que aparecen en la tabla son puntos medios de
los intervalos.

Anlisis Univariado 10
Anlisis de datos con SPSS Mara Dolores Paz Caballero

aos en la empresa

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos 1,00 10 10,0 10,0 10,0
2,00 20 20,0 20,0 30,0
3,00 26 26,0 26,0 56,0
4,00 18 18,0 18,0 74,0
5,00 14 14,0 14,0 88,0
6,00 8 8,0 8,0 96,0
7,00 4 4,0 4,0 100,0
Total 100 100,0 100,0

En la tabla podemos ver que un 10% de los sujetos ha trabajado entre 0,5
y 1,5 aos, luego, por debajo de 0,5 aos no hay ningn sujeto (0%) y por debajo
de ao y medio queda el 10%. Por tanto, por debajo de la puntuacin 1 quedar
(0+10)/2 = 5%.

Al porcentaje de casos que quedan por debajo de una puntuacin es a lo


que se denomina percentil. As, a la puntuacin 2 le corresponde de nuevo la
media de los porcentajes acumulados correspondientes a sus lmites inferior y
superior : por debajo de 1,5 queda el 10% y por debajo de 2,5 podemos ver en la
columna de porcentaje acumulado que queda el 30%. As, el percentil
correspondiente a la puntuacin 2 es (10+30)/2 = 20. Del mismo modo, el
percentil correspondiente a la puntuacin 3 es (30+56)/2 = 43. La mediana sera
la puntuacin a la que le corresponde el percentil 50. Veamos cmo se calcula :

0,5 1 1,5 1,5 2 2,5 2,5 3 3,5

0% 5% 10% 10% 20% 30% 30% 43% 56%

En la tabla anterior se representan los tres primeros intervalos de la


distribucin de frecuencias anterior con sus lmites inferior y superior y su
punto medio (en negrita). Puede observarse que el lmite superior de cada
intervalo coincide con el inferior del intervalo siguiente. En la segunda fila de la
tabla se indican los porcentajes que quedan por debajo de cada puntuacin, es
decir, los percentiles correspondientes a las mismas. Los que nos vienen dados
en la tabla (10, 30, 56) aparecen en negrita. Como ya se dijo antes, a la
puntuacin 1 le corresponde el percentil 5 [(0+10)/2], a la puntuacin 2 el
percentil 20, [(10+30)/2] y a la puntuacin 3 el percentil 43 [(30+56)/2]. El
percentil 50 (o mediana) tiene que corresponder, entonces, a una puntuacin que
se encuentre entre 3 y 3,5, puesto que 3 deja por debajo el 43% de los casos y
3,5 el 56%.

Anlisis Univariado 11
Anlisis de datos con SPSS Mara Dolores Paz Caballero

3 X 3,5 3,5 - 3 = 0,5 unidades


43% 56% 56% - 43% = 13%
50%

Sabemos que en 0,5 unidades hay un 13% de casos y queremos saber cuntas
unidades ocupar el primer 7%, que es lo que va de 43% a 50%.
Como suponemos que los casos se reparten de forma uniforme a lo largo del
intervalo, podemos aplicar una regla de tres :

si el 13% ocupa 0,5 unidades (de 3 a 3,5), el 7% ocupar (7 x 0,5) / 13 = 0,27.

Entonces, la mediana es Md = 3 + 0,27 = 3,27.

Este es el procedimiento ms idneo para el clculo de la mediana y de los


percentiles en general. El SPSS, sin embargo, utiliza un algoritmo algo distinto,
si bien los resultados son muy similares.

El ndice de tendencia central ms utilizado es la media (X) y se calcula


sumando todas las puntuaciones y dividiendo entre el nmero de las mismas.

Por ejemplo, la media de estas 4 puntuaciones : 2, 4, 7, 3


es (2+4+7+3)/4 = 4

Cuando tenemos una distribucin de frecuencias, es decir, cuando las


puntuaciones estn agrupadas en intervalos, la media se calcula del mismo
modo, aunque ponderando cada puntuacin por la frecuencia de sujetos que la
han obtenido. Por ejemplo :

Punt. Frecuencia
1 3
2 8
3 10
4 4
25

X = (1+1+1+2+2+2+.......4+4+4+4) / 25 = (1x3 + 2x8 + 3x10 + 4x4) / 25 = 2,6

La media slo puede calcularse cuando la variable es de tipo cuantitativo, es


decir, cuando tenemos, al menos, una unidad de medida constante. Sin
embargo, cuando existen puntuaciones extremas o outliers (puntuaciones
muy alejadas del resto) y/o la distribucin de frecuencias es muy asimtrica
(ver siguiente apartado), el uso de la media no es muy aconsejable y es mucho
ms conveniente utilizar la mediana como ndice de tendencia central. La

Anlisis Univariado 12
Anlisis de datos con SPSS Mara Dolores Paz Caballero

razn es que la mediana no se vera afectada, como la media, por las


puntuaciones extremas.

Por ejemplo, si tenemos estas 5 puntuaciones : 4, 7, 5, 6, 3,


la media es (4+7+5+6+3) / 4 = 5
La mediana tambin sera 5, porque si ordenamos las puntuaciones de menor a
mayor : 3, 4, 5, 6, 7, el 5 es la puntuacin que ocupa el valor central.
Ahora bien, supongamos que, en lugar de un 7, tuviramos una puntuacin de
20. La mediana seguira siendo 5, pero la media subira mucho debido a esta
puntuacin extrema. De hecho sera : (3 + 4 + 5 + 6+ 20) 5 = 7,6. Esta media
no representa nada bien la tendencia central de las puntuaciones : tngase en
cuenta que todas menos una quedaran por debajo de la media. Del mismo
modo, si los sueldos mensuales de los 10 empleados de una empresa fueran :

Frec.
2.000.000 1
100.000 8
80.000 1

la media sera (2.000.000 + (8) 100.000 + 80.000) / 10 = 288.000, pero sera


completamente absurdo decir que los empleados cobran al mes 288.000 pts
como media porque un 90% cobra bastante menos.

Indices de variabilidad

Adems de la tendencia central de los datos, otra cuestin que es interesante


conocer es su dispersin, es decir, si estn ms o menos agrupados en torno a los
valores centrales. Si consideramos estas dos series de puntuaciones :

7, 8, 10, 12, 13
1, 2, 10, 18, 19

vemos que la media (y tambin la mediana) en ambos casos es 10. Sin embargo hay
mucha diferencia entre las dos distribuciones : en la primera las puntuaciones se
apartan muy poco de la media, mientras que en el segundo caso estn mucho ms
alejadas de la misma.

Cmo podemos indicar, mediante un solo valor numrico, la dispersin o variabilidad


de los datos ? Existen varios ndices, los ms utilizados son :

La amplitud total (o rango), que sera la diferencia entre la puntuacin mxima


y la mnima. En el ejemplo anterior, la amplitud total sera 13-7= 6 en la

Anlisis Univariado 13
Anlisis de datos con SPSS Mara Dolores Paz Caballero

primera distribucin y 19-1= 18 en la segunda. Ahora bien, si la variable fuera


cuantitativa continua, la amplitud total sera puntuacin mxima - puntuacin
mnima + 1. La razn de ello es que, entonces, cada puntuacin sera el punto
medio de su intervalo, es decir, representara a todas las que estn en el
rango de 0,5 unidades. En las dos series de puntuaciones que estamos
considerando sera 13,5 - 6,5 = 7 y 19,5 - 0,5 = 19.
La amplitud intercuartil. Los cuartiles (que tambin se conocen con el nombre
de bisagras de Tukey) son las puntuaciones que, en una distribucin, dejan
entre ellas el 25% (es decir, la cuarta parte) de los casos. As el cuartil 1
(Q1) es la puntuacin que deja por debajo el 25% de los casos (sera el
percentil 25), el cuartil 2 (Q2) dejara el 50%, as que corresponde al
percentil 50 o mediana, y el cuartil 3 (Q3) el 75%. La amplitud intercuartil es
la diferencia entre el cuartil 3 y el cuartil 1, es decir, (Q3 - Q1), o (P75 - P25 ).
Lgicamente, cuanto mayor sea la amplitud intercuartil mayor dispersin
muestran los datos.
La desviacin tpica -Sx- ( y la varianza -S2x-). Si calculamos, para cada
sujeto, la diferencia entre su puntuacin y la media, elevamos dicha
diferencia al cuadrado y hallamos la media de estas diferencias cuadrticas
tenemos la varianza, cuya raiz cuadrada es la desviacin tpica. Por ejemplo,
consideremos de nuevo las dos series de puntuaciones del ejemplo anterior
para las que ya habamos calculado la media (10):

7, 8, 10, 12, 13
1, 2, 10, 18, 19

En el primer caso, la varianza sera


S2x= [(7-10)2 + (8-10)2 + (10-10)2 + (12-10)2 + (13-10)2 ] / 5 = 5,2
y la desviacin tpica Sx = 5,2 = 2,28

Comprubese que, en la segunda serie de puntuaciones, la varianza es 58


y la desviacin tpica 7,61.

El valor que nos va a dar el ordenador, sin embargo, es algo distinto. La razn es
que, as como la media de la muestra representa bastante bien el valor de la
media de la poblacin, la varianza de la muestra, calculada segn la frmula
anterior, es siempre algo menor que la que obtendramos en la poblacin. Una
forma de aumentar un poco el valor de la varianza de la muestra para acercarlo
ms al que posiblemente se d en la poblacin es dividiendo la suma de
diferencias cuadrticas, no entre el nmero de observaciones, sino entre el
nmero de observaciones menos uno. Hacindolo as, las varianzas de las dos
distribuciones del ejemplo seran 6,5 y 72,5, valores ms altos, como se ve, que
los obtenidos antes (5,2 y 58). A la varianza obtenida de este modo se la
denomina varianza insesgada. El programa SPSS calcula siempre la varianza (y
desviacin tpica) insesgada.

Anlisis Univariado 14
Anlisis de datos con SPSS Mara Dolores Paz Caballero

La amplitud total (o rango) y la varianza (y desviacin tpica) slo son aplicables a


las variables cuantitativas, mientras que la amplitud intercuartil exige, como
mnimo, un nivel de medida ordinal. Sin embargo, hay situaciones en las que, aun
tratndose de una variable cuantitativa no tiene mucho sentido el clculo del
rango ni el de la varianza. Esta situacin se da cuando existen puntuaciones muy
extremas. Una puntuacin extrema puede, por s sola, hacer variar
dramticamente la amplitud total de las puntuaciones. Por otra parte, si en caso
de puntuaciones extremas no resulta adecuado el clculo de la media como ndice
de tendencia central, resulta claro que tampoco se podr calcular la varianza,
puesto que sta se basa en las diferencias entre las puntuaciones y la media.

Asimetra y curtosis

La asimetra y la curtosis hacen referencia a la forma de la distribucin


de frecuencias de una variable cuantitativa.

Cuando la distribucin es simtrica X = Md = Mo. Adems, Q2 - Q1 = Q3 -


Q2. Basados en lo anterior se han propuesto distintos procedimientos para
calcular el ndice de asimetra. El valor de dicho ndice sera cero cuando la
distribucin es perfectamente simtrica. Valores mayores que cero indicara una
asimetra positiva (la media queda por encima de la mediana) y menores que cero
una asimetra negativa (la media queda por debajo de la mediana).
Se muestran a continuacin los histogramas correspondientes a tres
distribuciones de frecuencias distintas. En los tres casos se ha considerado la
variable peso. Puede verse que, en el primer caso, la distribucin es
perfectamente simtrica : si trazamos una lnea vertical por el centro del
histograma, la parte izquierda y la derecha coinciden exactamente. En el
segundo histograma, por el contrario, se observa una asimetra importante : hay
muchos ms sujetos con puntuaciones altas que con puntuaciones bajas (la altura
de los rectngulos es mucho mayor en la parte derecha del histograma). Se dice,
entonces, aunque resulte algo contraintuitivo, que existe una asimetra negativa.
En el tercer grfico ocurre lo contrario: hay ms sujetos con puntuaciones bajas
que con puntuaciones altas : existe una asimetra positiva.
Un modo sencillo de saber si la asimetra es positiva o negativa es
considerando hacia donde va la cola de la distribucin : si est a la izquierda se
trata de asimetra negativa y si est a la derecha, positiva.

Anlisis Univariado 15
Anlisis de datos con SPSS Mara Dolores Paz Caballero

120

100

80

60

40

20 Desv. tp. = 1,82


Media = 21,0
0 N = 446,00
15,5 17,7 19,9 22,1 24,3 26,5
16,6 18,8 21,0 23,2 25,4

Peso (Kg)

120 120

100 100

80 80

60 60

40 40

20 Des 20 Des
Med Med
0 N= 0 N=
16,5 17,5 18,5 19,5 20,5 21,5 22,5 23,5 24,5 25,5 16,5 17,5 18,5 19,5 20,5 21,5 22,5 23,5 24,5 25,5

Peso (Kg) Peso (Kg)

Una situacin que puede dar lugar a una distribucin asimtrica es la existencia
de casos extremos (o outliers) y simplemente la supresin de stos puede convertir la
distribucin en simtrica. Ms adelante se tratar la cuestin de la identificacin de
valores extremos.

En cuanto a la curtosis, o apuntamiento, se refiere a la altura de la distribucin.


Aunque se entender mejor despus de ver el siguiente apartado, hay una determinada
altura que es considerada normal (distribucin mesocrtica). Cuando el apuntamiento es
mayor que el normal se habla de distribucin leptocrtica y cuando es menor,
platicrtica.

Anlisis Univariado 16
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Ejemplo de distribucin mesocrtica:


30

20

10

Desv. tp. = 1,87


Media = 5,0
0 N = 104,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

Ejemplo de distribucin leptocrtica:


40

30

20

10

Desv. tp. = 1,85


Media = 5,0
0 N = 119,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

Ejemplo de distribucin platicrtica:

20

10

Desv. tp. = 1,84


Media = 5,0
0 N = 93,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

Anlisis Univariado 17
Anlisis de datos con SPSS Mara Dolores Paz Caballero

1.3. Anlisis univariado con SPSS

Vamos a ver las posibilidades que ofrece el programa SPSS para la obtencin de
estadsticos descriptivos y representacin grfica de los datos. Trabajaremos con los
datos del archivo univariado.sav. Se recomienda que el alumno abra dicho archivo y vaya
siguiendo de forma activa todos los pasos.

En el archivo univariado.sav se recogen las puntuaciones de 60 sujetos en 4


variables : var 1 : estado civil (1=soltero, 2=casado, 3=en pareja, 4=otros), var 2 : nivel
socio-econmico (1=bajo, 2=medio-bajo, 3=medio, 4=medio-alto, 5=alto), var 3 : edad, y
var 4 : puntuaciones en un test de depresin. Las filas corresponden a los sujetos y las
columnas a las variables.

Previamente al anlisis descriptivo debemos definir las variables y etiquetar los


niveles de las variables categricas. Para ello, en al parte inferior izquierda de la
pantalla activamos Vista de variables y obtenemos una pantalla en cuya primera
columna introducimos el nombre abreviado de cada variable (no admite espacios en
blanco, para escribir el nombre completo con espacios en blanco debemos hacerlo en la
columna Etiquetas).

Anlisis Univariado 18
Anlisis de datos con SPSS Mara Dolores Paz Caballero

En la columna Valores se definen los niveles de las variables categricas, es


decir, se establece la equivalencia entre los niveles y los valores numricos asignados a
los mismos. Para ello, despus de introducir el valor y la etiqueta del valor se pulsa
Aadir.

Una vez definidas las variables y etiquetados los valores de las variables
categricas (estado civil y nivel socio-econmico) pasamos a describir la muestra en
funcin de las mismas.

Anlisis Univariado 19
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Desplegamos el men ANALIZAR y seleccionamos la opcin Estadsticos descriptivos


Dentro de esta opcin podemos elegir entre tres posibilidades :

FRECUENCIAS : Por defecto slo da la distribucin de frecuencias (y porcentajes


asociados de la variable o variables que especifiquemos).
En Estadsticos podemos pedir todos los de tendencia central (media, mediana y
moda) y dispersin (varianza, desviacin tpica, amplitud, etc.), as como los percentiles
(cuartiles, deciles o los percentiles que especifiquemos). Si la variable es cuantitativa
continua hay que especificar que los valores son puntos medios de los grupos. Dentro de
este apartado estn incluidos los ndices de asimetra y curtosis.
En Grficas se puede pedir el histograma (slo para variables cuantitativas) y los
grficos de barras y de sectores.

DESCRIPTIVOS : Adems de ofrecer los estadsticos descriptivos (para los


percentiles no considera los valores como puntos medios), ofrece la opcin de tipificar
la variable creando una nueva columna en la matriz de datos con las puntuaciones tpicas
de los sujetos (diferencia entre su puntuacin y la media dividida entre la desviacin
tpica).

EXPLORAR : En Estadsticos, adems de los descriptivos se incluye el intervalo


confidencial para la media poblacional. Ofrece tambin la posibilidad de obtener
distintos grficos para describir la distribucin de frecuencias y para la deteccin de
casos extremos.

Anlisis Univariado 20
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Variable 1 : estado civil

Puesto que se trata de una variable categrica, para describir la muestra en


funcin de la misma lo nico que podemos hacer es ver cuntos sujetos (y qu
porcentaje) estn en cada nivel. Estos datos pueden representarse mediante un grfico
de sectores. Utilizamos la opcin Estadsticos descriptivos - Frecuencias e
introducimos en el recuadro central (utilizando el botn "flecha") la variable estado
civil. Esta opcin nos da por defecto la tabla de frecuencias, as que lo nico que
tenemos que pedir, en Grficos, es el grfico de sectores.

En la ventana de resultados del SPSS nos aparece :

ESTADO CIVIL
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos soltero 23 38,3 38,3 38,3
casado 16 26,7 26,7 65,0
pareja 19 31,7 31,7 96,7
otros 2 3,3 3,3 100,0
Total 60 100,0 100,0
Total 60 100,0

Anlisis Univariado 21
Anlisis de datos con SPSS Mara Dolores Paz Caballero

otros

pareja soltero

casado

En la distribucin de frecuencias se muestra el nmero de casos que


pertenecen a cada nivel y el porcentaje que constituye sobre el total. Cuando
hay casos perdidos (sin puntuacin en la variable) lo que debe considerarse es el
porcentaje vlido, es decir, el calculado sobre los casos vlidos. En cuanto a la
ltima columna de Porcentaje acumulado, recordemos que no tiene ningn
sentido si la variable no est, al menos, a nivel ordinal.
El grfico de sectores representa de forma grfica la distribucin de
frecuencias anterior. Como se recordar, el rea de cada sector es proporcional
al nmero (y al porcentaje) de sujetos que hay en cada nivel. Para no ser
redundantes en nuestra descripcin de la muestra podemos mostrar solamente
este grfico incluyendo en cada sector el nmero o porcentaje de casos que
contiene (ver apndice de grficos).

Variable 2 : nivel socio-econmico

Esta variable puede ser ya considerada como categrica-ordinal, puesto que sus
distintos niveles pueden ordenarse de menor a mayor. En este caso tiene sentido
considerar los porcentajes acumulados (porcentaje de casos que quedan por debajo de
un determinado nivel). En Grficos pedimos el grfico de barras.

Anlisis Univariado 22
Anlisis de datos con SPSS Mara Dolores Paz Caballero

La distribucin de frecuencias y el grfico de barras solicitado se muestran a


continuacin.

NIVEL SOCIO-ECONMICO
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos bajo 6 10,0 10,0 10,0
medio-bajo 9 15,0 15,0 25,0
medio 22 36,7 36,7 61,7
medio-alto 15 25,0 25,0 86,7
alto 8 13,3 13,3 100,0
Total 60 100,0 100,0
Total 60 100,0

30

20

10

F re0c u e n c ia
b a jo m e d io -b a jo m e d io m e d io -a lto a lto

N IV E L S E

Podemos observar que la mayor parte de los sujetos de nuestra muestra,


concretamente un 36,7% tienen un nivel socio-econmico medio, que por debajo del
nivel medio (es decir, con un nivel medio-bajo o bajo) hay un 25% de la muestra y, por
tanto, el 38,3% restante tienen un nivel medio-alto o alto.

Anlisis Univariado 23
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Variable 3 : edad

La variable edad es cuantitativa, por lo que, en principio, podramos calcular


todos los estadsticos para describirla. Sin embargo, como ya se seal, cuando la
distribucin es muy asimtrica, en lugar de la media conviene usar la mediana como
estadstico de tendencia central, y, como estadstico de variabilidad la amplitud
intercuartil (diferencia entre el percentil 75 y el percentil 25) en lugar de la desviacin
tpica.
Teniendo en cuenta lo anterior, en la opcin Estadsticos descriptivos-
Frecuencias pedimos, en Estadsticos, el ndice de asimetra y, en Grficos, el
histograma. Si el cociente entre el estadstico de asimetra y su error tpico (en valor
absoluto) es mayor que 1,96 podemos considerar la distribucin como muy asimtrica. El
tipo de asimetra nos vendr indicado por el signo del estadstico de asimetra y por la
forma del histograma.

Ventana de resultados:

Anlisis Univariado 24
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Estadsticos
N
Vlidos Perdidos Asimetra
Estadstico Estadstico Estadstico Error tp.
EDAD 60 0 ,845 ,309

20

10

D e s v . tp . = 1 6 ,8 3
M e d ia = 3 6 ,0
F re0c u e n c ia N = 6 0 ,0 0
2 0 ,0 3 0 ,0 4 0 ,0 5 0 ,0 6 0 ,0 7 0 ,0
2 5 ,0 3 5 ,0 4 5 ,0 5 5 ,0 6 5 ,0

EDAD

Los resultados obtenidos nos indican que la distribucin de las edades de la


muestra es muy asimtrica. El cociente entre el estadstico de asimetra y su error
tpico es 0,845/0,309 = 2,73. Como, adems, el signo del estadstico es positivo
tenemos una clara asimetra positiva : hay muchos sujetos con puntuaciones bajas y
pocos con puntuaciones altas. Ello puede observarse tambin en el histograma.
Puesto que la variable es asimtrica, vamos a utilizar la mediana (Q2 o P50 ) como
ndice de tendencia central y la amplitud intercuartil (diferencia entre el P75 -o Q3- y
el P25 -o Q1-) como ndice de variabilidad. Para ello repetimos el anlisis pidiendo en
Estadsticos los cuartiles y especificando, puesto que es una variable cuantitativa
continua, que los valores son puntos medios de los grupos.

Anlisis Univariado 25
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Estadsticos
N Percentiles
Vlidos Perdidos 25 50 75
EDAD 60 0 21,8000a 30,5000 46,5000
a. Los percentiles se calcularn a partir de los datos agrupados.

Como puede verse en la salida del SPSS, la mediana (o P50) es 30,5 y la amplitud
intercuartil 46,5 - 21,8 = 24,7. La interpretacin es clara : la mitad de los sujetos
tienen ms de 30 aos y medio y, por otra parte, el 50% central de la muestra est
comprendido entre 21,8 y 46,5 aos (es decir, en 24,7 unidades).

A continuacin, y mientras que no desactivemos esa opcin, el SPSS nos ofrece


la distribucin de frecuencias de la variable. Si queremos calcular el percentil
correspondiente a cada puntuacin (o porcentaje acumulado por debajo de la misma)
habr que hacerlo por interpolacin lineal a partir de la columna de porcentajes
acumulados. Recurdese que cada valor de la tabla es el punto medio de su intervalo, y
los porcentajes acumulados corresponden a los lmites superiores de los mismos. As, la
puntuacin 22 representa a todas las comprendidas entre 21,5 y 22,5 y es, por tanto,
22,5 la puntuacin que deja por debajo el 30% de los sujetos (es decir, el P30). Del
mismo modo, 21,5 deja por debajo el 23,3% de los casos. Con estos datos podemos
saber el porcentaje que deja por debajo la puntuacin 22 : puesto que 22 es el punto
medio entre 21,5 y 22,5, el porcentaje que deja por debajo ser la media entre 23,3 y
30, es decir, el 26,65%.

Anlisis Univariado 26
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Tabla de frecuencia EDAD


Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vli 18,00 3 5,0 5,0 5,0
dos 19,00 2 3,3 3,3 8,3
20,00 3 5,0 5,0 13,3
21,00 6 10,0 10,0 23,3
22,00 4 6,7 6,7 30,0
23,00 3 5,0 5,0 35,0
24,00 2 3,3 3,3 38,3
25,00 1 1,7 1,7 40,0
26,00 1 1,7 1,7 41,7
27,00 1 1,7 1,7 43,3
28,00 2 3,3 3,3 46,7
29,00 1 1,7 1,7 48,3
30,00 1 1,7 1,7 50,0
31,00 1 1,7 1,7 51,7
32,00 2 3,3 3,3 55,0
34,00 1 1,7 1,7 56,7
35,00 1 1,7 1,7 58,3
36,00 1 1,7 1,7 60,0
37,00 2 3,3 3,3 63,3
38,00 2 3,3 3,3 66,7
39,00 3 5,0 5,0 71,7
40,00 1 1,7 1,7 73,3
46,00 1 1,7 1,7 75,0
47,00 1 1,7 1,7 76,7
54,00 2 3,3 3,3 80,0
56,00 1 1,7 1,7 81,7
57,00 1 1,7 1,7 83,3
59,00 1 1,7 1,7 85,0
60,00 1 1,7 1,7 86,7
65,00 2 3,3 3,3 90,0
67,00 2 3,3 3,3 93,3
68,00 1 1,7 1,7 95,0
69,00 1 1,7 1,7 96,7
70,00 2 3,3 3,3 100,0
Total 60 100,0 100,0
Total 60 100,0

Conviene sealar que, al especificar al ordenador que los valores son puntos
medios de los grupos, se considera que la puntuacin 22 representa a todos los sujetos
que tienen entre 21,5 y 22,5 aos. Por tanto, los valores de esta variable deben haber
sido codificados de esta manera. En este caso concreto, se les ha pedido a los sujetos
su fecha de nacimiento y, en funcin de la misma, se les ha asignado al intervalo
correspondiente. Por ejemplo, la puntuacin 24 representa a todos los sujetos con
edades comprendidas entre 23 aos y medio y 24 aos y medio. Caso de no haberlo
hecho de esta manera, o de no poder hacerlo porque solamente se les ha preguntado a
los sujetos su edad en aos, habra que sumar 0,5 a cada uno de los valores para que de
verdad fueran los puntos medios de los intervalos (los sujetos que dicen tener 24 aos
estn, en realidad, entre 24 y 25, por lo que el valor medio de todos ellos es 24,5).

Anlisis Univariado 27
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Variable 4 : depresin

Las puntuaciones en el test de depresin, como las de cualquier otro test


psicolgico, se consideran generalmente como una variable cuantitativa continua. Es
decir, se considera que hay una unidad de medida constante y que cada puntuacin en el
test (expresada en nmeros enteros) representa todas las que van de media unidad por
debajo a media unidad por encima. Existe, sin embargo, cierta polmica sobre el status
mtrico de las puntuaciones de los tests que algunos autores consideran que no
sobrepasa el nivel ordinal de medida. Sin entrar en dicha polmica, considerando la
variable como cuantitativa continua debemos examinar en primer lugar el ndice de
asimetra para determinar los estadsticos descriptivos a utilizar.

Estadsticos
N
Vlidos Perdidos Asimetra
Estadstico Estadstico Estadstico Error tp.
DEPRESIO 60 0 ,322 ,309

Puesto que el cociente entre el estadstico de asimetra y su error tpico es


menor que 1,96 (.322/.309 = 1.04) consideramos que las puntuaciones de esta variable
se distribuyen ms o menos de forma simtrica y utilizamos la media como ndice de
tendencia central y la desviacin tpica como ndice de variabilidad. Volvemos, pues, a
repetir el anlisis, desactivando asimetra y pidiendo la media y la desviacin
tpica.

Anlisis Univariado 28
Anlisis de datos con SPSS Mara Dolores Paz Caballero

En grficos pedimos el histograma.

Estadsticos
N
Vlidos Perdidos Media Desv. tp.
DEPRESIO 60 0 24,5333 5,6403

Anlisis Univariado 29
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Tabla de frecuencia DEPRESIO


Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vli 13,00 1 1,7 1,7 1,7
dos 14,00 1 1,7 1,7 3,3
15,00 1 1,7 1,7 5,0
16,00 1 1,7 1,7 6,7
17,00 3 5,0 5,0 11,7
18,00 2 3,3 3,3 15,0
20,00 4 6,7 6,7 21,7
21,00 5 8,3 8,3 30,0
22,00 5 8,3 8,3 38,3
23,00 4 6,7 6,7 45,0
24,00 5 8,3 8,3 53,3
25,00 5 8,3 8,3 61,7
26,00 1 1,7 1,7 63,3
27,00 6 10,0 10,0 73,3
28,00 3 5,0 5,0 78,3
29,00 2 3,3 3,3 81,7
30,00 2 3,3 3,3 85,0
31,00 1 1,7 1,7 86,7
32,00 3 5,0 5,0 91,7
33,00 1 1,7 1,7 93,3
34,00 2 3,3 3,3 96,7
38,00 1 1,7 1,7 98,3
39,00 1 1,7 1,7 100,0
Total 60 100,0 100,0
Total 60 100,0

12

10

Desv. tp. = 5,64


2
Media = 24,5
Frecuencia
0 N = 60,00
12,5 17,5 22,5 27,5 32,5 37,5
15,0 20,0 25,0 30,0 35,0 40,0

DEPRESIO

Otra opcin que podemos utilizar para describir una variable cuantitativa es la
de Explorar (tambin incluida en Estadsticos descriptivos). Esta opcin tiene la
ventaja de que nos da por defecto todos los estadsticos de inters. El inconveniente

Anlisis Univariado 30
Anlisis de datos con SPSS Mara Dolores Paz Caballero

que tiene esta opcin frente a la de Frecuencias es que calcula la mediana y la amplitud
intercuartil considerando que la variable es discreta, es decir, no permite especificar
que los valores son puntos medios de los grupos.

Descriptivos
Estadstico Error tp.
DEPRESIO Media 24,5333 ,7282
Intervalo de confianza Lmite
23,0763
para la media al 95% inferior
Lmite
25,9904
superior
Media recortada al 5%
24,4259

Mediana 24,0000
Varianza 31,812
Desv. tp. 5,6403
Mnimo 13,00
Mximo 39,00
Rango 26,00
Amplitud intercuartil
7,0000
Asimetra ,322 ,309
Curtosis ,026 ,608

La mayor parte de los descriptivos de la tabla anterior han sido ya definidos.


Solamente dos son nuevos para el alumno : el intervalo confidencial para la media (que
trataremos en el siguiente tema) y la media recortada al 5%. Esta ltima es, como su
nombre indica, la media de la variable calculada sobre el 90% de las observaciones

Anlisis Univariado 31
Anlisis de datos con SPSS Mara Dolores Paz Caballero

centrales, es decir, despus de eliminar el 5% superior y el 5% inferior de las


puntuaciones. Cuando la distribucin es ms o menos simtrica, la media recortada es
muy similar a la media de todas las puntuaciones. Si la distribucin es muy asimtrica
es preferible utilizar la media recortada o la mediana.

1.4. Cmo detectar casos extremos

Una de las causas de asimetra, sobre todo cuando el tamao muestral es


pequeo, es la presencia de outliers o puntuaciones extremas. Un procedimiento para
detectar la presencia de outliers se basa en el examen del Diagrama de cajas, est
incluido en la opcin Estadsticos descriptivos- Explorar. Vamos a aplicarlo a los datos
de un ejemplo en el que se han considerado las edades de 10 sujetos.

En el cuadro de dilogo de "Explorar", introducimos la variable que queremos


examinar en el recuadro central y activamos "Grficos".

Anlisis Univariado 32
Anlisis de datos con SPSS Mara Dolores Paz Caballero

En el visor de resultados nos aparece el siguiente grfico:


50

40

30

20

10
N= 10

EDAD

Anlisis Univariado 33
Anlisis de datos con SPSS Mara Dolores Paz Caballero

La forma de interpretarlo es la siguiente:

Valor mayor (no llega a ser outlier)


Percentil 75

Mediana
Percentil 25
Valor menor (no llega a ser outlier)

La altura de la caja representa la amplitud intercuartil (AIC). Dentro de la caja


estara el 50% central de los sujetos (los que estn entre el percentil 25 y el 75). Los
casos muy alejados del resto (outliers) se representan con un crculo (los que se alejan
entre 1,5 y 3 AICs del extremo de la caja) o con un asterisco (los que se alejan ms de
3 AICs). As, en nuestro ejemplo, encontramos un outlier que es el sujeto 5.

Anlisis Univariado 34
Anlisis de datos con SPSS Mara Dolores Paz Caballero

RESUMEN

En el siguiente cuadro se incluyen los descriptivos (y tipos de


representacin grfica) ms utilizados para cada tipo de variable. Todos
ellos estn disponibles en la opcin Estadsticos descriptivos -
frecuencias del SPSS.

Tipo de variable Estadsticos Representacin grfica


descriptivos
Categrica Frecuencias y Grfico de barras o
porcentajes sectores

Ordinal Mediana y Grfico de barras


percentiles
Cuantitativa Media, Grfico de barras (si la
desviacin variable es discreta)
tpica, ndices Histograma o grfico de
de asimetra y lneas (si es continua)
curtosis.

Es importante tener en cuenta que :

Las variables categricas ordinales se tratan como categricas.

Si la distribucin de la variable cuantitativa es muy asimtrica, es


aconsejable tratarla como ordinal. La distribucin se considera muy
asimtrica cuando el cociente entre el estadstico de asimetra y su
error tpico es mayor que 1,96 en valor absoluto.

El tipo de variable cuantitativa -continua o discreta- debe ser tenido


en cuenta, tanto para el clculo de percentiles como para elegir la
representacin grfica ms adecuada. Cuando la variable es continua,
a la hora de pedir los percentiles hay que especificar al ordenador
que los valores son puntos medios de los grupos. En cuanto a la
representacin grfica, se usa el grfico de barras para las variables
discretas y el histograma (o el grfico de lneas) para las continuas.

Anlisis Univariado 35

También podría gustarte