Está en la página 1de 24

Anlisis de datos con SPSS Mara Dolores Paz Caballero

Tema 2: ANLISIS UNIVARIADO INFERENCIAL

El anlisis univariado no acaba en el anlisis descriptivo de los datos. Una


vez que conocemos los datos de una variable en una muestra podemos utilizarlos
para estimar los datos que obtendramos si pudiramos medir esa variable en toda
la poblacin. Esto, claro est, siempre que nuestra muestra haya sido seleccionada
mediante un muestreo adecuado y, por tanto, represente bien a la poblacin de la
que ha sido extrada.

2.1. La inferencia estadstica

A las estimaciones que hacemos de los datos poblacionales a partir de los


datos de la muestra las denominamos "inferencias estadsticas". Dichas
inferencias pueden hacerse acerca del valor de los parmetros poblacionales o
bien acerca de la forma que tiene la distribucin de la variable en la poblacin

Entre las primeras (inferencias paramtricas), las que se hacen con


mayor frecuencia se refieren al valor de la media poblacional. Esto exige,
claro est, que la variable considerada sea de tipo cuantitativo, pues en
otro caso no podra calcularse la media.

Por ejemplo, si queremos saber cul es la estatura media de los


espaoles sera absurdo plantearnos medirlos a todos uno por uno. Lo que
se hace es elegir una muestra representativa y, a partir de la media de
esa muestra, inferir la media de la poblacin.

El segundo tipo de inferencias se hacen sobre la forma en que la variable


se distribuye en la poblacin. En este caso, planteamos una hiptesis
sobre la forma de la distribucin poblacional y vemos si nuestros datos
son o no compatibles con esa distribucin hipotetizada.

Cuando la variable es cualitativa podemos plantear cualquier


hiptesis sobre la distribucin poblacional. Por ejemplo, podramos
plantearnos que la distribucin poblacional para la variable nivel socio-
econmico es la siguiente :

Porcentajes
Bajo 6%
Medio-bajo 21%
Medio 58%
Medio-alto 10%
Alto 5%

Anlisis Univariado 36
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Para comprobar esta hiptesis extraemos una muestra representativa de la


poblacin y vemos cuntos sujetos hay en cada nivel. En este supuesto caso
hemos seleccionado 200 sujetos y hemos obtenido la siguiente distribucin.

Frecuencia Porcentaje
Bajo 16 8%
Medio-bajo 32 16%
Medio 108 54%
Medio-alto 30 15%
Alto 14 7%

De lo que se trata, mediante la aplicacin de la tcnica estadstica


adecuada, es de decidir si la distribucin poblacional es la hipotetizada, en
cuyo caso las diferencias entre los porcentajes de la muestra y los de la
poblacin se deberan al azar, o si, por el contrario, los datos empricos son
incompatibles con la hiptesis propuesta.

Cuando la variable medida es cuantitativa, la hiptesis que se plantea con


mayor frecuencia es que en la poblacin se distribuye segn la curva normal.
La distribucin normal es una distribucin en forma de campana que
responde a una determinada funcin matemtica. La comprobacin de la
hiptesis de normalidad es, como ms adelante se ver, de gran importancia
puesto que la mayor parte de las tcnicas estadsticas al uso se basan en el
supuesto de que la variable tiene una distribucin normal en la poblacin.
En el grfico siguiente tenemos representado el histograma de una variable
y, en rojo, la curva normal. Puede verse que la forma del histograma se
adapta bastante bien a la forma de campana de la curva normal.

12

10

2
Desv. tp. = 5,64
Media = 24,5

0 N = 60,00
12,5 17,5 22,5 27,5 32,5 37,5
15,0 20,0 25,0 30,0 35,0 40,0

Anlisis Univariado 37
Anlisis de datos con SPSS Mara Dolores Paz Caballero

2.2. Inferencias acerca de la forma de la distribucin

2.2.1. Pruebas de bondad de ajuste

Una vez obtenida la distribucin de frecuencias de una variable, una


cuestin que puede interesar al investigador (y con ms frecuencia de la que ahora
el lector puede imaginar) es si dicha distribucin es compatible con una
determinada distribucin poblacional. Esta ltima puede ser conocida o bien
hipotetizada.

Por ejemplo, supongamos que hemos seleccionado aleatoriamente de las


unidades de oncologa de 20 centros hospitalarios espaoles 400 enfermos de
cncer y hemos considerado la variable tipo de cncer obteniendo la distribucin
de frecuencias que se muestra a continuacin. Lo que queremos averiguar es si la
incidencia de los distintos tipos de cncer en la poblacin espaola coincide con los
datos ofrecidos por una publicacin cientfica referidos a la incidencia de los
distintos tipos de cncer en USA. Segn esta publicacin, el porcentaje
correspondiente a cada uno de los distintos tipos de cncer sera el incluido en la
parte derecha de la tabla.

Tipo de cncer Frecuencia Porcentaje Porcentajes en USA


A 60 15 14
B 90 22,5 23
C 98 24,5 25
D 66 16,5 13
E 86 21,5 25

Para comprobar el ajuste entre la distribucin de frecuencias obtenida en


la muestra (emprica) y la que se supone que existe en la poblacin existen
distintos contrastes. Lo que hacen todos ellos es comparar los porcentajes (a
veces los porcentajes acumulados) de la distribucin de frecuencias emprica con
los conocidos o hipotetizados en la poblacin y decidir si las diferencias
encontradas pueden deberse al azar (errores muestrales) o si, por el contrario, no
hay ajuste entre ambas distribuciones, lo que podra implicar una de estas cosas :

Si la muestra es representativa de la poblacin y hemos planteado una


hiptesis sobre la distribucin poblacional, como es el caso del ejemplo,la
falta de ajuste nos llevara a rechazar la hiptesis planteada.
Si la distribucin poblacional es conocida, la falta de ajuste a la misma
nos indicara que nuestra muestra es una muestra sesgada, es decir, no
representa bien a la poblacin de la que ha sido extrada. Sera como si
en el ejemplo anterior la muestra seleccionada fuera americana y
quisiramos saber si representa adecuadamente a la poblacin de la que
ha sido extrada y de la que conocemos su distribucin.

Anlisis Univariado 38
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Las pruebas que comparan la distribucin de frecuencias emprica con una


determinada distribucin poblacional son las llamadas pruebas de bondad de
ajuste. Las ms utilizadas son :

Chi-cuadrado (bondad de ajuste) para contrastar hiptesis sobre la


distribucin de una variable categrica o categrica-ordinal.
La prueba de Kolmogorov-Smirnov (K-S) para contrastar la hiptesis de
distribucin normal en caso de variables cuantitativas.

Ambas estn incluidas en la opcin Pruebas no paramtricas del men


ANALIZAR del SPSS.

En todos los casos, las pruebas de bondad de ajuste nos ofrecen el valor de
un estadstico de contraste y un nivel de significacin observado (o valor p). El
valor del estadstico de contraste depende de las diferencias, para cada nivel de la
variable, entre los porcentajes empricos y los poblacionales o, en algunos casos,
entre las frecuencias empricas y las esperadas en funcin de esos porcentajes
poblacionales. En caso de ajuste perfecto, es decir, si no hubiera ninguna
diferencia, el valor del estadstico sera cero. A medida que el ajuste va siendo
peor el valor del estadstico aumenta. El nivel de significacin observado o valor p
nos indica la probabilidad de que se obtengan los datos empricos siendo ciertos
unos determinados valores poblacionales. La asuncin que hacemos sobre los datos
poblacionales se denomina hiptesis nula (Ho). Cuando el valor p es 0,05 o menor
rechazamos la hiptesis nula. En caso de ajuste perfecto, el valor p sera 1.

Veamos un ejemplo que ayudar a entender mejor los que es la hiptesis


nula, el estadstico de contraste y el valor p. Imaginemos una serie de bolsas
idnticas por fuera. La bolsa A contiene 95 bolas blancas y 5 rojas, las otras
bolsas 50 blancas y 50 rojas. Nos ofrecen una de las bolsas y tenemos que adivinar
si se trata o no de la bolsa A extrayendo una bola.
La Ho es siempre la que ponemos a prueba. En este caso sera que la
bolsa de la que hemos extrado la bola es la bolsa A donde se da una
determinada distribucin de las bolas: 95% blancas y 5% rojas.
El estadstico de contraste sera el color de la bola extrada, a partir de
l vamos a decidir si se trata o no de la bolsa A, es decir, si mantenemos
la Ho o la rechazamos.
El valor p es la probabilidad de extraer una bola de ese color de la bolsa
A,
Si la bola extrada es blanca, el valor p de nuestro estadstico de
contraste sera 0,95, que es la probabilidad de obtener una bola
blanca tratndose de la bolsa A.
Si la bola fuera roja, el valor p sera 0,05 (probabilidad de
extraer bola roja de la bolsa A)
El criterio de decisin ms lgico sera :

Anlisis Univariado 39
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Si la bola es blanca mantenemos la Ho (decimos que se trata de la


bolsa A) puesto que el valor p (la probabilidad de sacar una bola
blanca de esa bolsa) es de 0,95.
Si la bola es roja rechazaramos la Ho porque la probabilidad de
obtener bola roja tratndose de la bolsa A (valor p) es slo de
0,05. Pensaramos que lo ms normal es que la bolsa que nos han
ofrecido fuera alguna de las otras que tienen 50% de bolas rojas.
Ahora bien, al decir que se trata de otra bolsa (al rechazar la Ho)
nos podemos equivocar : la probabilidad de error es justamente
0,05 (probabilidad de obtener bola roja de la bolsa A). A este
error se le denomina error tipo I.

En este ejemplo conocemos el valor p porque sabemos exactamente la


composicin de la bolsa A y hemos hecho una sola extraccin. En la
prctica es mucho ms complejo su clculo : existen tablas para
calcularlo en funcin del tamao de la muestra, del tipo de distribucin
de la variable, etc. No es una cuestin que deba preocupar el alumno
porque tanto el valor del estadstico de contraste como el valor p nos los
va a proporcionar siempre el SPSS. Lo importante no es su obtencin sino
saber cmo interpretarlos.

Un problema que presentan todas las pruebas de bondad de ajuste es su


sensibilidad al tamao muestral: con muestras pequeas hacen falta grandes
diferencias entre la muestra y la poblacin para poder rechazar la Ho, mientras
que con muestras grandes, diferencias mnimas nos pueden llevar a rechazar la Ho.

2.2.1. Ajuste a una determinada distribucin de frecuencias-

En el ejemplo con el que inicibamos la leccin, la hiptesis nula era que la


incidencia de los distintos tipos de cncer en la poblacin espaola es la misma que
en USA, es decir que los porcentajes correspondientes a cada tipo son los
sealados en la ltima columna, aunque, por errores aleatorios, los de la muestra no
coincidan exactamente con estos. Vamos a poner a prueba esta hiptesis.

Tipo de cncer Frecuencia Porcentaje Porcentajes en USA


A 60 15 14
B 90 22,5 23
C 98 24,5 25
D 66 16,5 13
E 86 21,5 25

Anlisis Univariado 40
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Comenzamos introduciendo los datos en el SPSS en forma de tabla de


frecuencias. As, en la primera columna introducimos los valores de la variable.
Para ello, a cada uno de los tipos de cncer le asignamos de forma arbitraria un
nmero. En la segunda columna va la frecuencia de casos en cada nivel.

Hecho esto, entramos en Vista de variables (parte inferior izquierda de la


pantalla de archivo de datos) y pasamos a definir las variables y a etiquetar los
distintos niveles de la variable categrica.

A continuacin, especificamos al ordenador que no tenemos 4 sujetos


medidos en dos variables, sino una tabla de frecuencias. Para ello utilizamos la
opcin Ponderar casos del men DATOS y especificamos cul es la variable de
frecuencia.

Anlisis Univariado 41
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Ahora ya podemos poner a prueba nuestra hiptesis y, para ello, utilizamos


la prueba chi-cuadrado incluida en Pruebas no paramtricas (en versiones
recientes del SPSS hay que seleccionar cuadro de dilogos antiguos dentro de
las Pruebas no paramtricas). Lo que hace la prueba chi-cuadrado es comparar las
frecuencias observadas para cada nivel de la variable con las que cabra esperar en
funcin de los porcentajes poblacionales. Por ejemplo, si suponemos que en la
poblacin el 25% (la cuarta parte) de los pacientes de cncer presentan el tipo C,
si los datos de la muestra coincidieran con los de la poblacin, el 25% (la cuarta
parte) de los 400 sujetos tendran que pertenecer al tipo C.

Porc. Poblacionales Frecuencias esperadas


14 (0,14) (400) = 56
23 (0,23) (400) = 92
25 (0,25) (400) = 100
13 (0,13) (400) = 52
25 (0,25) (400) = 100

Anlisis Univariado 42
Anlisis de datos con SPSS Mara Dolores Paz Caballero

En el cuadro de dilogo que nos aparece, y despus de pasar nuestra


variable tipo de cncer al recuadro central, especificamos los porcentajes que
propone la hiptesis nula para cada uno de los niveles de la misma, respetando, por
supuesto, el orden de los niveles. Para ello desactivamos la opcin todas las
categoras iguales y activamos valores, donde vamos escribiendo los porcentajes
poblacionales, seguidos cada uno de ellos de Aadir.

Ho : los porcentajes poblacionales son :


A 14
B 23
C 25
D 13
E 25

En la ventana de resultados del SPSS nos aparece :

Pruebas no paramtricas
Prueba de chi-cuadrado
tipo de cncer

N observado N esperado Residual


A 60 56,0 4,0
B 90 92,0 -2,0
C 98 100,0 -2,0
D 66 52,0 14,0
E 86 100,0 -14,0
Total 400

Anlisis Univariado 43
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Estadsticos de contraste

tipo de cncer
Chi-cuadrado a 6,098
gl 4
Sig. asintt. ,192
a. 0 casillas (,0%) tienen frecuencias
esperadas menores que 5. La frecuencia
de casilla esperada mnima es 52,0.

Vemos que el valor de chi-cuadrado es 6,098 y lleva asociado un valor p=


0.192. Como este valor es superior a 0,05, mantenemos la Ho y, por tanto,
afirmamos que nuestros datos empricos son compatibles con la hiptesis de que la
distribucin de tipos de cncer en la poblacin espaola sea la propuesta (en este
caso, la misma que en la poblacin americana). Si el valor p hubiera sido 0,05 o
menor, hubiramos tenido que decir que la incidencia de los distintos tipos de
cncer en la poblacin espaola no es la hipotetizada, es decir, es distinta que la
que se da en la poblacin americana.

2.2.2. Cmo averiguar si nuestra muestra est sesgada -

La prueba chi-cuadrado (bondad de ajuste) puede utilizarse tambin para


analizar el ajuste de nuestros datos a una distribucin poblacional, ahora no
hipotetizada sino conocida. En este caso, si no se produce ajuste no podemos
concluir que la distribucin poblacional es otra. Puesto que ya sabemos cul es esa
distribucin, la falta de ajuste indicara que nuestra muestra no representa bien a
la poblacin que queremos estudiar. Vemoslo ms claro con un ejemplo.
Supongamos que conocemos la incidencia de los distintos tipos de cncer en
la poblacin espaola y que hemos seleccionado nuestra muestra de 400 enfermos
de cncer para realizar un estudio referido, por ejemplo, a la calidad de vida de
estos pacientes.

Tipo de cncer Frecuencia Porcentaje Porcentaje en la poblacin


A 60 15 23
B 90 22,5 22
C 98 24,5 25
D 66 16,5 15
E 86 21,5 15

Como hiptesis nula seguimos planteando que la diferencias entre los


porcentajes obtenidos en la muestra y los que se dan en la poblacin se deben al
azar. Si el nivel de significacin observado para esta hiptesis nula es mayor que
0,05 mantendremos dicha hiptesis, si es igual o menor tendremos que decir que
nuestra muestra no representa adecuadamente a la poblacin.

Anlisis Univariado 44
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Seguimos idntico procedimiento que en el ejemplo anterior y obtenemos


los siguientes resultados :

Pruebas no paramtricas
Prueba de chi-cuadrado
Frecuencias
tipo de cncer

N observado N esperado Residual


A 60 92,0 -32,0
B 90 88,0 2,0
C 98 100,0 -2,0
D 66 60,0 6,0
E 86 60,0 26,0
Total 400

Estadsticos de contraste

tipo de cncer
Chi-cuadrado a 23,083
gl 4
Sig. asintt. ,000
a. 0 casillas (,0%) tienen frecuencias
esperadas menores que 5. La frecuencia
de casilla esperada mnima es 60,0.

Ahora obtenemos un valor chi-cuadrado = 23,083 y un valor p<0,001 (no


sera correcto escribir p= 0.000, puesto que siempre habra una probabilidad por
mnima que fuera). Tendremos, entonces, que concluir que nuestra muestra no
representa adecuadamente a la poblacin espaola de enfermos de cncer: hay, al
menos, un nivel en el que ambas no coinciden. Si miramos la columna Residual de la
primera tabla de los resultados, podemos ver que hemos seleccionado ms
enfermos tipo E de los que existen en la poblacin y menos del tipo A. En
consecuencia, cualquier inferencia que hagamos sobre la calidad de vida de los
enfermos de cncer a partir de los datos de nuestra muestra estara sesgada.

2.2.3. Ajuste a la distribucin normal-

Cuando la variable objeto de estudio es de tipo cuantitativo, la hiptesis


nula que generalmente se plantea sobre la distribucin de la misma en la poblacin
es la de distribucin normal. Una distribucin normal es la que se adapta a la
llamada campana de Gauss y es la distribucin que presentan la mayora de las
variables fsicas y psicolgicas : la mayor parte de los sujetos tienen valores
medios y el nmero de sujetos va gradualmente disminuyendo conforme nos
alejamos de la media por encima o por debajo. La comprobacin del ajuste a la
distribucin normal es de gran importancia porque la mayor parte de las tcnicas

Anlisis Univariado 45
Anlisis de datos con SPSS Mara Dolores Paz Caballero

estadsticas se basan en el supuesto de normalidad y no podran aplicarse si dicho


supuesto no se cumpliera.
Como puede verse en la siguiente figura, donde se representan
grficamente (mediante un histograma) las puntuaciones obtenidas por 60 sujetos
en un test, la distribucin se adapta bastante bien a la curva normal.

12

10

2 D e s v. tp . = 5 ,6 3
M e d ia = 2 4 ,7
0 N = 6 0 ,0 0
1 2 ,5 1 7 ,5 2 2 ,5 2 7 ,5 3 2 ,5 3 7 ,5
1 5 ,0 2 0 ,0 2 5 ,0 3 0 ,0 3 5 ,0 4 0 ,0

T es t d e in te lig e n c ia

En el siguiente histograma, sin embargo, el ajuste a la curva normal es


mucho peor porque la distribucin es asimtrica : hay muchas puntuaciones bajas y
pocas puntuaciones altas, es decir, hay una asimetra positiva.
60

50

40

30

20

10
Desv. tp. = 1,28
Media = 2,4
0 N = 155,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0

Tampoco hay buen ajuste a la normalidad en el siguiente histograma, en


este caso porque la altura de la distribucin en el punto medio es mayor del que se
dara en una distribucin normal (curtosis o apuntamiento positivo). Se tratara de
una distribucin leptocrtica.

Anlisis Univariado 46
Anlisis de datos con SPSS Mara Dolores Paz Caballero

70

60

50

40

30

20

10 Desv. tp. = 1,42


Media = 17,9

0 N = 151,00
15,0 16,0 17,0 18,0 19,0 20,0 21,0

La prueba estadstica normalmente utilizada para contrastar la hiptesis


nula de que la variable en la poblacin tiene una distribucin normal es la prueba de
Kolmogorov-Smirnov (K-S). Esta prueba compara los porcentajes empricos
acumulados hasta cada puntuacin con los que cabra esperar en una distribucin
normal. Estos ltimos vienen especificados en las tablas de la curva normal. Si el
valor p que nos da la prueba es mayor que 0.05 mantenemos la hiptesis nula, es
decir, la hiptesis de que la distribucin de la variable en la poblacin es normal.

Vamos a utiliazar el archivo univariado.sav para someter a prueba la


hiptesis de que las puntuaciones en depresin tienen una distribucin normal en la
poblacin.

En versiones recientes del SPSS hay que seleccionar cuadro de dilogos antiguos dentro de
Pruebas no paramtricas

Anlisis Univariado 47
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Del resultado de la prueba K-S lo nico que nos interesa mirar es el valor de
la significacin. En este caso vemos que p= 0.795, por lo que mantenemos la
hiptesis nula de que la distribucin de la variable es normal en la poblacin.
Prueba de Kolm ogorov-Sm irnov para una m uestra
D EPR ESI
N 60
a,b
Parm etros norm ales M edia 24,5333
D esviacin tpica 5,6403
D iferencias m s extrem as Absoluta ,084
Positiva ,084
N egativa -,061
Z de Kolm ogorov-Sm irnov
,648
Sig. asintt. (bilateral)
,795

a. La distribucin de contraste es la N orm al.


b. Se han calculado a partir de los datos.

En efecto, si pedimos el histograma de la variable, vemos que se adapta


bastante bien a la curva normal : la distribucin es bastante simtrica y tienen un
apuntamiento normal.

12

10

Desv. tp. = 5,64


2
Media = 24,5
Frecuencia
0 N = 60,00
12,5 17,5 22,5 27,5 32,5 37,5
15,0 20,0 25,0 30,0 35,0 40,0

DEPRESIO

Anlisis Univariado 48
Anlisis de datos con SPSS Mara Dolores Paz Caballero

2.3. Inferencias sobre el valor de los parmetros

2.3.1. Estimacin de la media poblacional

Supongamos que tenemos una muestra de 100 pacientes de cncer de mama


y hemos descrito esta muestra en funcin de una serie de variables, entre ellas la
edad. Supongamos tambin que la media de edad de nuestra muestra es de 47 aos
y la desviacin tpica de las edades 12. Qu inferencias nos permiten hacer estos
datos a la poblacin ? Vamos a centrarnos en la inferencia ms habitual : acerca
del valor de la media poblacional.
Si nuestra muestra es realmente una muestra representativa de la
poblacin de pacientes de cncer de mama, los datos obtenidos nos van a permitir
estimar, con un determinado nivel de confianza, entre qu valores puede estar la
edad media de dicha poblacin. En principio, se supone que hay tanta probabilidad
de que la media de la poblacin sea superior a 47 como de que sea inferior a este
valor. La cuestin es cunto puede desviarse de 47 por encima o por debajo?
El que la diferencia entre la media de nuestra muestra y la verdadera media
(de la poblacin) sea ms o menos grande depende de dos factores : el tamao de
la muestra y la desviacin tpica de la variable. Cuanto mayor sea el tamao de la
muestra y menor la desviacin tpica, ms cerca estar el valor de nuestro
estadstico de la media poblacional. La lgica es sencilla : cuanto mayor sea la
muestra mejor representar a la poblacin y, por tanto, cualquier valor obtenido
en sta ms se parecer al que hubiramos obtenido si hubiramos medido a todos
los sujetos. Por otra parte, si la desviacin tpica de la variable es grande, el rango
de valores entre los que puede estar la media ser lgicamente mayor que si la
dispersin fuera menor. El tamao de la muestra y la desviacin tpica de la
variable determinan, pues, el valor del error tpico de la media. Su frmula viene
dada por Sx/N. En nuestro ejemplo, el error tpico de la media sera 12/10 = 1,2.
Conociendo el error tpico de la media, y siempre que supongamos que la
variable tiene una distribucin normal en la poblacin, podemos establecer un
rango de valores dentro del que estar la media poblacional. A este rango se le
denomina intervalo confidencial.
El intervalo confidencial lo establecemos siempre con un determinado nivel
de confianza, es decir, con un cierto margen de error. Lgicamente, el margen de
error ser menor cuanto ms amplio sea el intervalo confidencial: si decimos que la
edad media en la poblacin de cncer de mama est entre 14 y 80 aos seguro que
acertamos. Nos expondramos ms si afirmramos que est entre 44 y 46. El nivel
de confianza (NC) determina el valor por el que hay que multiplicar el error tpico
de la media para obtener el intervalo confidencial. Estos valores pueden
consultarse en las tablas de la curva normal (cuando se conoce el valor de la
desviacin tpica poblacional) o en la tabla de distribucin t (cuando no se conoce).
Los valores de la curva normal ms utilizados son :

1,96 para el NC del 95% (margen de error del 5%)

Anlisis Univariado 49
Anlisis de datos con SPSS Mara Dolores Paz Caballero

2,57 para el NC del 99% (margen de error del 1%)

A medida que aumenta el tamao muestral van aproximndose los valores de la


distribucin t a los de la distribucin normal. En los apndices 1 y 2 se incluyen las
tablas de la curva normal y de la distribucin t, as como algunas orientaciones
para manejarlas.

Para simplificar nuestro ejemplo, vamos a suponer que 12 es el valor de la


desviacin tpica poblacional. As, con un nivel de confianza del 95% (que es el que
utiliza por defecto el SPSS, aunque existe la opcin de cambiarlo), podemos
estimar que la media de edad en la poblacin de cncer de mama est entre
47(1,2)(1,96), es decir, entre 44,648 y 49,352.
Si hubiramos utilizado el NC del 99%, tendramos que multiplicar el error
tpico por 2,57 y obtendramos un valor de 3,08, as que nos quedara un intervalo
confidencial entre 43,92 y 50,08. Como se ve, este intervalo es ms amplio que el
anterior, afinamos menos en la estimacin de la media, pero, en contrapartida, lo
hacemos con mayor seguridad de acertar.

Otra cuestin que nos podemos plantear es cul debera ser el tamao de la
muestra para que la diferencia entre nuestra media y la media poblacional no
supere un valor determinado. Con los mismos datos del ejemplo anterior y
siguiendo con el NC del 95%, queremos saber cuntos sujetos debemos aadir a la
muestra para que el mximo error al estimar la media de la poblacin sea 1,5.

- Este error mximo es el producto de 1,96 por el error tpico de la media


(ETM): 1.5 = 1.96 ETM. As pues, el ETM debera ser 1,5/1,96 = 0,76. A su
vez, sabemos que el error tpico es el cociente entre la desviacin tpica y
la raiz de N (ETM= DT/N, as que 0,76 = 12/N, de donde N = 249,3 que
redondearemos al entero superior 250.

2.3.2. La opcin Explorar del SPSS

El SPSS nos ofrece la posibilidad de estimar el intervalo confidencial para


la media poblacional. Para ello hay que utilizar, dentro del men ANALIZAR, la
opcin Estadsticos descriptivos- Explorar .
Con los datos del archivo univariado.sav vamos a ver entre qu valores se
encuentra la media de la poblacin en el test de depresin.

Anlisis Univariado 50
Anlisis de datos con SPSS Mara Dolores Paz Caballero

D e s c rip tiv o s
E s ta d s tic o E rro r tp .
D E P R E S IO M e d ia 2 4 ,5 3 3 3 ,7 2 8 2
In te rv a lo d e c o n fia n z a L m ite
2 3 ,0 7 6 3
p a ra la m e d ia a l 9 5 % in fe rio r
L m ite
2 5 ,9 9 0 4
s u p e rio r
M e d ia re c o rta d a a l 5 %
2 4 ,4 2 5 9

M e d ia n a 2 4 ,0 0 0 0
V a ria n z a 3 1 ,8 1 2
D e s v . tp . 5 ,6 4 0 3
M n im o 1 3 ,0 0
M x im o 3 9 ,0 0
R ango 2 6 ,0 0
A m p litu d in te rc u a rtil
7 ,0 0 0 0
A s im e tra ,3 2 2 ,3 0 9
C u rto s is ,0 2 6 ,6 0 8

En la primera fila de la tabla aparece el valor de la media (24,533) y de su


error tpico (0.7282). Como se recordar, este error tpico resulta de dividir la
desviacin tpica por la raiz de N. Para los datos de este ejemplo : 5,6403/60 =
0,728. Cuando se describen los datos de una investigacin lo normal es ofrecer,
junto con las medias de las variables, los valores de los errores tpicos .
Para establecer el intervalo confidencial, el valor del ETM se multiplica por
el valor de la puntuacin tpica correspondiente al NC del 95%, que es el que
siempre se utiliza por defecto. El SPSS busca siempre este valor en la tabla de la
distribucin t, por lo que sera algo mayor que 1,96 que es el correspondiente en la
distribucin normal (ver apndice 2). En este caso, el valor que nos da la tabla t es
2, que, multiplicado por el ETM (0.782) nos da un valor de 1.456. As, con un NC del
95%, podemos estimar que la media poblacional se encuentra entre 23.07 y 25.99.

25,99

24,5333 1,456
23,07

Anlisis Univariado 51
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Conociendo el intervalo confidencial para la media podemos tambin


comprobar hiptesis referidas a valores concretos de la misma. Por ejemplo,
supongamos que el test de depresin se ha baremado en USA y se ha obtenido una
media de 22. Lo que nos planteamos es si la poblacin espaola es ms o menos
depresiva que la americana o si, por el contrario, no hay diferencias entre las
mismas. A partir del intervalo confidencial que hemos obtenido, podemos decir con
un NC del 95% que la media de la poblacin espaola est por encima de 22
(concretamente entre 23,07 y 25,99), por lo que es superior a la media de USA.

Anlisis Univariado 52
Anlisis de datos con SPSS Mara Dolores Paz Caballero

RESUMEN

A partir de los datos de una muestra en una variable podemos hacer


inferencias a la poblacin. Estas inferencias pueden referirse a la forma en que la
variable se distribuye en la poblacin, es decir, los porcentajes que habra en cada
nivel de la misma) o al valor de los parmetros, normalmente al valor de la media de
la variable en la poblacin. Lgicamente, el tipo de inferencia que hagamos viene
limitado por el nivel de medida de la variable. En el cuadro siguiente se resumen
aquellas que se realizan con mayor frecuencia.

Tipo de variable Inferencias acerca de la forma Inferencias acerca del valor


de la distribucin poblacional de los parmetros

Categrica y Chi-cuadrado para someter a


categrica prueba el ajuste a una
ordinal determinada distribucin de
frecuencias.

Cuantitativa Prueba de Kolmogorov-Smirnov Acerca de los valores entre


para poner a prueba la hiptesis los que puede estar la media
de distribucin normal. poblacional.

Las pruebas Chi-cuadrado y Kolmogorov-Smirnov estn incluidas en


ANALIZAR- Pruebas no paramtricas del SPSS. Para calcular el intervalo
confidencial de la media poblacional puede utilizarse, tambin en el men
ANALIZAR, la opcin Estadsticos descriptivos- Explorar,

Anlisis Univariado 53
Anlisis de datos con SPSS Mara Dolores Paz Caballero

APNDICE 1. Cmo usar las tablas de la curva normal

Empecemos viendo qu es el nivel de confianza para ver despus cmo


buscar en la tabla normal el valor correspondiente a cada nivel.

Volvamos al ejemplo propuesto en la leccin. Se trataba de estimar cul es


la edad media de las pacientes de cncer de mama. Para realizar esta estimacin
seleccionamos una muestra de 100 pacientes, cuya media de edades es 47.
Suponemos tambin que la desviacin tpica de las edades es 12. As pues, el error
tpico de la media ETM = 12 / 100 = 1.2.

- Partimos del supuesto de que si extrajramos de la poblacin de pacientes


de cncer de mama todas las muestras posibles de tamao 100, las medias de estas
muestras tendran una distribucin normal en torno a la media poblacional (). Para
que se cumpla este supuesto, la distribucin de la variable debe ser normal en la
poblacin.

- En una distribucin normal el porcentaje de casos que quedan por debajo


de cada puntuacin (tpica) est determinado y puede consultarse en las tablas de
la curva normal. Tngase en cuenta que lo que nos dan las tablas son las
probabilidades, es decir, los porcentajes divididos por 100.

Anlisis Univariado 54
Anlisis de datos con SPSS Mara Dolores Paz Caballero

- La media de nuestra muestra est en esa distribucin, el problema es


saber dnde porque las puntuaciones bajo la curva pueden ir de - a +.
Lo que hacemos entonces es acotar la curva, considerar slo un porcentaje
determinado de la misma despreciando los casos de los extremos. A este
porcentaje que consideramos es a los que denominamos Nivel de confianza (NC).

- Si usamos el NC del 95% que es el ms frecuente, podemos buscar en la


tabla de la curva normal cules son las puntuaciones tpicas que limitan la zona
acotada. Tendremos que buscar, entonces, la puntuacin tpica que deja por debajo
una probabilidad de 0,025 o la que deja por debajo una probabilidad de 0,975.
Basta con buscar una de ellas porque la otra sera igual pero con distinto signo.
Estas puntuaciones son -1,96 y +1,96.
Diremos, entonces, que si nuestra media est entre el 95% considerado no
puede alejarse de la media poblacional ms de 1,96 puntuaciones tpicas por arriba
o por debajo. Sabiendo lo que puede alejarse en puntuaciones tpicas podemos
saber lo que puede alejarse en directas, basta con multiplicar la diferencia en
tpicas por el error tpico de la media. Esto es lo que se denomina error mximo. En
nuestro ejemplo sera (1,96)(1,2) = 2,352.

Anlisis Univariado 55
Anlisis de datos con SPSS Mara Dolores Paz Caballero

Si nuestra media est en este punto se Si nuestra media est en este punto se
alejara de la media poblacional 2,352 alejara de la media poblacional 2,352
unidades por debajo. unidades por encima.

En cualquier otro punto del centro de la curva se alejara menos de la media


poblacional. As pues, con un NC del 95% podemos estimar que la edad media de la
poblacin est entre 44.648 y 49.352.
Tenemos una probabilidad de 0,05 de que nuestra media est en la zona de los
extremos (fuera del NC), por tanto, el intervalo confidencial lo establecemos con
un margen de error del 5%.

Si utilizramos el NC del 99%, las puntuaciones tpicas seran las que dejan
por debajo el 0,5% (una probabilidad de 0,005) y el 99,5% (una probabilidad de
0,995) .

Anlisis Univariado 56
Anlisis de datos con SPSS Mara Dolores Paz Caballero

As pues, con un NC del 99%, el error mximo (la mxima diferencia entre la media
de la muestra y la de la poblacin es (2.57)(1.2) = 3.084. Ahora, el intervalo
confidencial en el que estimamos est la media poblacional va desde 43.916 y
50.084.

Para buscar en la tabla de la curva normal cualquier puntuacin tpica, tngase en


cuenta que las puntuaciones tpicas aparecen en la primera columna (z) y el segundo
decimal de las mismas hay que buscarlo en los nmeros del 0 al 9 que aparecen en
la parte superior de la tabla. Los valores del centro de la curva son las
probabilidades que deja por debajo cada puntuacin tpica (se ha omitido el cero
inicial). As, si queremos saber cul es la puntuacin tpica que deja por debajo una
probabilidad de 0.02 buscaremos entre los valores centrales el valor ms prximo
a ste y veremos a qu fila y columna corresponde.

. 1 2 3 4 5 6 7 8 9
.
-2'1 '0179 '0162 '0158 '0154
-2'0 '0228 '0207 '0202 '0197
-1'9 '0287 '0262

Podemos ver cmo la puntuacin tpica que deja por debajo el valor ms prximo a
0.02 es -2,5.

Anlisis Univariado 57
Anlisis de datos con SPSS Mara Dolores Paz Caballero

APNDICE 2. Cmo usar las tablas de la distribucin t

Se incluye un fragmento de la tabla t (pulsa aqu para verla entera)

n 0,900 0,950 0,975 0,990 0,995 0,999

1 3,078 6,314 12,706 31,821 63,657 318,31


2 --- ---
.
.
.
50 1,298 1,676 2,009 2,403 2,678 3,262
60 1,296 1,671 2,000 2,390 2,660 3,232
.
.
1,282 1,645 1,960 2,326 2,576 3,090

Las columnas de la tabla corresponden a los distintos niveles de confianza.


El valor que encabeza cada columna es la probabilidad que deja por debajo el valor
t positivo. As, para un NC del 95%, tendremos que buscar en la columna 0,975.

Las filas de la tabla corresponden a los grados de libertad (gl). Los grados
de libertad van a aparecernos mucho a lo largo del curso y casi siempre cuando se
trate de estimar una varianza. Recurdese que para obtener la varianza tenemos
que calcular la diferencia entre la puntuacin de cada sujeto y la media del grupo,
elevar esas diferencias al cuadrado y dividir entre el nmero de sujetos. Pues bien,
una de las formas que tenemos de definir los grados de libertad sera como el
nmero de puntuaciones que necesitamos conocer para realizar dicho clculo. Como
la suma de las diferencias de las puntuaciones respecto a su media es cero, nos
bastara con conocer N-1 puntuaciones, la otra vendra dada porque tendra que

Anlisis Univariado 58
Anlisis de datos con SPSS Mara Dolores Paz Caballero

ser 0 Suma de las N-1 restantes. Es por esta razn por la que para estimar la
varianza poblacional hay que utilizar la frmula (X-X)2/(N-1).
Como puede verse, en N = , los valores de la distribucin t coinciden
exactamente con los de la distribucin normal. Ya con 500 sujetos la aproximacin
es muy grande.

En el ejemplo de la leccin tenemos 60 casos que tienen una media de


24.533 y una desviacin tpica de 5.6403. Como ahora utilizamos la desviacin
tpica de la muestra para estimar la de la poblacin perdemos un grado de libertad
(luego, gl = 59). Calculamos el error tpico de la media ETM = 5.6404 / 60 =
0.728. Para calcular el error mximo, multiplicamos el ETM por el valor que nos d
la tabla segn el nivel de confianza que establezcamos y los gl que tengamos.
Tenemos 59 gl, pero como no existe ese valor buscamos en 60 que es el
ms prximo. En cuanto al nivel de confianza, el que se utiliza por defecto es el
95%. Buscamos, pues, en la columna 0,975 y en la fila n=60 y encontramos un valor
de 2. As, el error mximo ser 0,728 x 2 = 1,456. Si sumamos y restamos este
valor a la media de la muestra nos queda establecido el intervalo confidencial.

25,99
24,5333 1,456
23,07

Anlisis Univariado 59

También podría gustarte