Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 3 PDF
Tema 3 PDF
1. La estimacin de parmetros
La inferencia estadstica asume que se cuenta con datos de una muestra y que se desea conocer
cules son las caractersticas (ya sea la media, la mediana, la curtosis o cualquier otra que nos pueda
interesar), no de esa muestra, sino de la poblacin a la que esa muestra pertenece. A los valores de
esas caractersticas a nivel poblacional se les conoce como parmetros y se representan
simblicamente con letras griegas (en realidad, slo algunos de ellos tienen tal privilegio):
X , X2 , X , X , XY , XY , 0 , 1... .
Para conocer los valores de los parmetros podemos plantearnos, bien recoger datos para todos los
elementos de la poblacin, algo que puede resultar poco viable en muchas situaciones prcticas, bien
realizar una estimacin de los mismos a partir de los datos de una muestra. Esta segunda va es
mucho ms habitual en la prctica, si bien, supone asumir cierto riesgo de error pues, en cuanto que
estimacin, el valor que obtengamos no tiene porqu coincidir con el verdadero valor de ese
parmetro.
En la literatura se pueden diferenciar dos grandes aproximaciones a la estimacin de parmetros: la
estimacin puntual y la estimacin por intervalos. La diferencia bsica entre ambas a la hora de
estimar un parmetro es que la primera proporciona una estimacin consistente en un valor concreto
(puntual), mientras que la segunda ofrece como estimacin un rango de valores (intervalo). En
realidad, la segunda aproximacin consiste en una extensin de la primera, por lo que ser la
estimacin puntal la que se abordar a regln seguido.
Estadstica Inferencial en Psicologa
Mara F. Rodrigo, J. Gabriel Molina
Curso: 2010-2011
En el caso que se dispusiese de los datos de una poblacin para una determinada variable X , la
obtencin de los parmetros que nos pudieran interesar sera inmediata, bastara con aplicar los
ndices estadsticos correspondientes para todos los datos de la poblacin. Si, por ejemplo,
estuvisemos interesados en conocer los parmetros de la media, de la moda, de la varianza y el
ndice de asimetra intercuartlico de la variable X , los obtendramos aplicando las frmulas que
representan a estos ndices estadsticos:
X =
Xi
(X
)2
AsQ3 Q1 =
Q3 + Q1 2Q2
Q3 Q1
Ahora bien, si lo que disponemos es de datos de una muestra de esa poblacin, cmo se obtiene la
estimacin de cualquiera de los anteriores parmetros? Ello se lleva a cabo a travs de la aplicacin
de un estimador del parmetro correspondiente, esto es, una funcin matemtica que permite obtener
una estimacin del valor del parmetro a partir de los datos de la muestra. Pero, cules son esas
funciones que nos permiten obtener estimaciones de los parmetros?
X = ?
MoX = ?
X2 = ?
AsQ3 Q1 = ?
X =
n
X
X = i
n2
X
X = 2 i
n
X =
X
n
2
i
X =
Xi
X =
Xi
n
Para el caso del parmetro de la media ( X ), el mejor estimador es precisamente el promedio de los
datos de la muestra, esto es, el ndice estadstico de la media ( X ):
X
X i = X
n
Y, en general, los mejores estimadores de los parmetros correspondientes a los ndices estadsticos
tratados a lo largo del curso son esos propios ndices estadsticos obtenidos a partir de la muestra,
esto es, los estadsticos correspondientes. As:
)
)
)
MoX MoX ; RIC X RIC X ; Md X Md X ; Xi PXi ; XY rXY ...
Existe, sin embargo, alguna excepcin a la anterior generalizacin. Veamos las tres ms relevantes:
- El mejor estimador del parmetro de la varianza ( X2 ) no es el estadstico de la varianza ( s X2 )
sino el de la cuasi-varianza ( s '2X ):
X2
( X i X )2
n 1
= s '2X
Ello es debido a que el ndice estadstico de la varianza no cumple el requisito de ser un estimador
insesgado del parmetro de la varianza, mientras que la cuasi-varianza s -de ah que a este ndice
estadstico tambin se le denomine en algunos textos como varianza insesgada.
- Anlogamente, el mejor estimador del parmetro de la desviacin estndar ( X ) es el estadstico
de la cuasi-desviacin estndar ( S X' ):
X s X' = s '2X =
(X
X )2
n 1
Dos igualdades que en algunos casos nos pueden resultar de inters en la prctica son las que
ponen en relacin varianza y desviacin tpica con cuasi-varianza y cuasi-desviacin tpica,
respectivamente, pues si conocemos una podremos obtener la otra fcilmente:
s '2X =
s X2 n
n 1
s X' =
sX n
n 1
'
XY s XY
=
( X i X ) (Yi Y )
n 1
Otra igualdad que en algn caso nos puede resultar til es la que relaciona los estadsticos de la
covarianza y de la cuasi-covarianza:
'
s XY
=
s XY n
n 1
Ejercicio 1: A partir de los siguientes datos para la variables Edad (X) y N de ataques
epilpticos durante el ltimo ao (Y) en una muestra de jvenes con diagnstico de epilepsia,
obtener una estimacin de los parmetros de: (1) la media de Edad; (2) la mediana y la varianza de
N de ataques epilpticos; (3) la covarianza y el coeficiente de correlacin de Pearson entre ambas
)
variables ( X , MdY , Y2 , XY , XY ).
X
18
19
15
11
17
13
14
Y
4
5
3
1
3
2
3
A modo de resumen, los estimadores tratados en esta seccin ofrecen una estimacin puntual de un
parmetro, pues se le atribuye al parmetro el valor concreto (puntual) obtenido a partir de la funcin
matemtica utilizada como estimador del mismo. Complementaria a esta estrategia, se abordar en
una seccin posterior la conocida como estimacin por intervalos.
(Con fines didcticos, vamos a imaginar que desde el ms all nos llega una revelacin estadstica: la
variable N de horas de estudio al da en la poblacin de la UVEG se distribuye segn la curva
normal con X = 5,63 y X2 = 3,7 [X N (5,63; 1,92]. Esta informacin, no conocida habitualmente
a priori, nos ser til para comprobar despus algunas de las propiedades de una distribucin
muestral.)
- Obtener la distribucin muestral de la media o la distribucin muestral de la varianza supondra
obtener la media y la varianza en todas las muestras posibles (n = 10) de la poblacin de
estudiantes de la UVEG. Sin embargo, dada la enorme dificultad prctica de tal cometido, se
decide recoger datos en 100 muestras de 10 estudiantes extradas aleatoriamente de la poblacin
de estudiantes de la UVEG. As, en cada una de esas 100 muestras se calcul la media y la
varianza de X , obtenindose los siguientes resultados:
Media (
Muestra1
Muestra2
Muestra3
Muestra4
Muestra5
Muestra6
.............
.............
Muestra100
5,5
4,5
5
6,5
5
4,5
...........
...........
6
)*
Varianza ( s X )*
3,3
3,8
3,6
3,5
3,9
3,7
.........
.........
3,6
* Las medias estn redondeadas con una precisin de 0,5 unidades y las varianzas de 0,1.
(n = 10)
ni pi ( Pi)
4
4,5
5
5,5
6
6,5
7
1
4
13
31
32
12
5
0,01
0,04
0,13
0,31
0,32
0,12
0,05
7,5
0,02
100
Frec. relativa
0,6
0,5
0,4
0,3
0,2
0,1
0
3
Media
(n = 50)
ni pi ( Pi)
4,5
5
5,5
6
6,5
5
14
63
12
6
100
0,05
0,14
0,63
0,12
0,06
1
0,7
Frec. relativa
0,6
0,5
0,4
0,3
0,2
0,1
0
3
Media
Por su parte, si en los datos recogidos con muestras de tamao n = 10 nos centramos ahora en
la columna de las varianzas y obtenemos la correspondiente distribucin de frecuencias
relativas, lo que obtendremos ser la distribucin muestral (estimada) del estadstico de la
varianza para la variable X en muestras de tamao n = 10.
Estadstica Inferencial en Psicologa
Mara F. Rodrigo, J. Gabriel Molina
Curso: 2010-2011
ni
pi ( Pi)
3,3
3,4
3,5
3,6
3,7
3,8
3,9
6
10
15
20
22
13
9
0,06
0,1
0,15
0,2
0,22
0,13
0,09
0,05
100
Frec. relativa
0,25
0,2
0,15
0,1
0,05
0
3
3,2
3,4
3,6
3,8
4,2
Varianza
Tal como se ha obtenido para la media y para la varianza, podramos obtener la distribucin
muestral de otros estadsticos para la variable N de horas de estudio, por ejemplo, de la
mediana, del coeficiente de variacin... Eso s, debe tenerse en cuenta que se tratara de
aproximaciones a la distribucin muestral verdadera de esos estadsticos, dado que las
frecuencias relativas son estimaciones de los verdaderos valores de probabilidad que
caracterizan la definicin de la distribucin muestral de un estadstico.
Las aspectos principales en que se suele centrar la atencin a la hora de caracterizar la distribucin
muestral de un estadstico son: (1) la forma de la distribucin; (2) su media (esperanza); y (3) su
varianza o la raz cuadrada de la misma, la desviacin tpica/estndar, usualmente referida al hablar
de una distribucin muestral como error tpico o error estndar de estimacin (en lo sucesivo,
utilizaremos habitualmente la expresin ms abreviada de error estndar o EE).
La ltima aporta un tipo de informacin de gran inters, pues cuanto menor sea el error estndar de
estimacin de la distribucin muestral de un estadstico, ello supondr mayor proximidad entre los
Estadstica Inferencial en Psicologa
Mara F. Rodrigo, J. Gabriel Molina
Curso: 2010-2011
valores obtenidos para ese estadstico en las posibles muestras que se extraigan de la poblacin. As,
el EE representa un concepto clave a la hora de valorar el nivel de error muestral que puede
acompaar a las inferencias estadsticas que realicemos.
Ahora bien, ello significa que si queremos tener un indicador del grado de precisin de un
determinado estadstico obtenido a partir de una muestra como estimacin del parmetro poblacional,
se ha de obtener ese mismo estadstico en 99 muestras ms (tantas como posibles, en realidad) a fin
de poder conocer el EE de la distribucin muestral del estadstico aplicado? Afortunadamente, no.
Un aspecto fundamental del concepto de distribucin muestral de un estadstico es que para algunos
de los estadsticos ms utilizados son conocidas sus caractersticas principales (forma de la
distribucin, esperanza y error estndar) y, lo ms importante, estas caractersticas se mantienen
independientemente de cul sea la variable considerada, la poblacin de referencia, o el tamao
elegido para las muestras. A continuacin se describen cules son esas caractersticas para las
distribuciones muestrales de los estadsticos de la media y la proporcin, dos de los estadsticos ms
utilizados en la prctica.
2.1. Caractersticas de la distribucin muestral de la media
1. Forma de la distribucin: (a) si una variable (X ) se distribuye normalmente en la poblacin, la
distribucin muestral del estadstico de la media para esa variable tambin ser normal; (b) en
caso de que X no se distribuya normalmente, de acuerdo al conocido como teorema central
del lmite, la distribucin muestral de la media de X tambin tiende a distribuirse
normalmente cuando sta se obtiene con muestras de 30 o ms casos (n 30). La media y
varianza de esta distribucin muestral de la media es:
2.
X [ E ( X )] = X
2
X
3. [VAR( X )] =
X2
n
X [ EE ( X )] =
X
n
X N X ; X
n
10
varianza (o desviacin tpica) de la variable en la poblacin; cuanto mayor sea el tamao muestral
que se considere.
En nuestro ejemplo de la variable N horas de estudio, la media de la distribucin muestral del
estadstico media en muestras de n = 10 es (de acuerdo a la revelacin recibida):
X [ E ( X )] = 5,63
Obsrvese, sin embargo, que si se calcula la media de la distribucin muestral obtenida con 100
muestras de n = 10 se obtiene:
X = 4 0,01 + 4,5 0,04 + 5 0,13 + 5,5 0,31 + 6 0,32 + 6,5 0,12 + 7 0,05 + 7,5 0,02 = 5,77
El resultado obtenido no coincide exactamente con el valor de la media de X en la poblacin ( X =
5,63) debido que se ha obtenido a partir de una distribucin muestral construida con un nmero
finito de muestras y que es, por tanto, una aproximacin a la distribucin muestral verdadera del
estadstico.
Ejercicio 2: Obtener la esperanza de la distribucin muestral obtenida con 100 muestra de n = 50.
Coincide con el valor revelado de la esperanza de la distribucin muestral de la media (5,63)?; a
qu puede ser debido?; es ms o menos prximo al valor verdadero que el obtenido a partir de la
distribucin muestral obtenida con 100 muestras de n = 10?; cul puede ser el motivo?
Por lo que respecta a la obtencin del error estndar de la distribucin muestral de la media en
muestras de n = 10 y de n = 50 (teniendo en cuenta el valor de revelado):
( )
1,92
= 0,61
10
( )
1,92
= 0, 27
50
n = 10
X [ EE X ] =
n = 50
X [ EE X ] =
11
X = X = 5
X [ EE ( X )] =
X 1,8
=
= 0,36
n
25
zX =
X X
45
= 2, 78
0,36
probabilidad
0.1
0.08
0.06
0.04
0.02
?
5
Z = -2,78
6
Z: N (0, 1)
12
X = X = 5
X2 [VAR( X )] =
X2
n
( )
X [ EE X ] =
X
1,8
=
= 0,18
n
100
1, 64 =
X 5
X = 4, 70
0,18
1, 64 =
X 5
X = 5,30
0,18
13
probabilidad
0.1
0.08
0.06
0.04
IP(1) = 0.90)
0.02
/2 = 0.05
/2 = 0.05
0
4,70
5.30
Expresin formal de clculo del intervalo de probabilidad (IP) de la media muestral ( X ) para un
determinado nivel de confianza (1-):
( )
( ) ( )
( )
= X + z( ) X ; X + z(1 ) X
2
2
n
n
1,8
1,8
IP(0,90)( X ) = 5 1, 64
; 5 + 1, 64
= [4, 70 ; 5,30]
100
100
14
Z(/2)
Z(1 - /2)
(1- )
/2
-1
0,68 [68%]
0,32 [32%]
0,16 [16%]
-1,64
1,64
0,90 [90%]
0,10 [10%]
0,05 [5%]
-1,96
1,96
0,95 [95%]
0,05 [5%]
0,025 [2,5%]
-2
0,954 [95,4%]
0,046 [4,6%]
0,023 [2,3%]
-2,58
2,58
0,99 [99%]
0,01 [1%]
0,005 [0,5%]
-3
0,9974 [99,74%]
0,0026 [0,26%]
0,0013[0,13%]
1,8
1,8
IP(0,95)( X ) = 5 1,96
; 5 + 1,96
= [4, 65; 5,35]
100
100
Grficamente:
Distribucin muestral de medias ( = 5; EE = 1,8/10 = 0,18
0.12
probabilidad
0.1
0.08
0.06
0.04
IP(1) = 0.95)
0.02
/2 = 0.025
/2 = 0.025
0
4,65
5.35
15
Xi (1 Xi )
n
[ EE ( p Xi )] =
PXi
Xi (1 Xi )
n
En resumen, siempre que la muestra sea suficientemente grande, la distribucin muestral del
estadstico de la proporcin se distribuye:
(1 Xi )
p X i N Xi ; Xi
16
ni
pi
0
0,125
0,25
0,375
0,5
0,675
0,75
0,875
1
15
34
53
74
220
375
152
54
23
1000
0,015
0,034
0,053
0,074
0,22
0,375
0,152
0,054
0,023
1
Xi = 0,60) porque la distribucin muestral a partir de la que ha sido calculado es tambin una
aproximacin a la verdadera distribucin muestral, pues slo se ha obtenido a partir de 1000
muestras y no a partir de todas las posibles de tamao n = 20.
La verdadera distribucin muestral del estadstico proporcin en este ejemplo, es decir, si se
hubieran obtenido todas las posibles muestras de n = 20 de esta poblacin, se ajustara a la
curva normal dado que:
20 0,60 > 5 y 20 0,40 > 5
con parmetros:
17
[ EE ( pXi )] =
PXi
0,60 0, 40
= 0,11
20
esto es, podemos asumir que esta distribucin muestral se distribuye segn N(0,60; 0,11).
Respecto a la magnitud del EE, informativo de la precisin de las estimaciones asociadas al
estadstico de la proporcin, ste ser menor: (1) cuanto ms pequeo sea el numerador que
aparece en la frmula del EE (= Xi (1 Xi ) ), en consecuencia, cuanto ms alejado est X i de 0,5;
(2) complementariamente, cuanto mayor sea el tamao muestral (n) que se considere.
As, siguiendo con el ejemplo anterior, si las muestras hubieran sido de 100 estudiantes, el error
estndar disminuira a:
[ EE ( pXi )] =
PXi
0,60 0, 40
= 0,05
100
18
Por tanto, sabemos que la distribucin muestral del estadstico proporcin obtenida en muestras
de n = 20 de dicha poblacin se ajustar a una distribucin normal con parmetros:
[ EE ( pXi )] =
PXi
0,68 0,32
= 0,104
20
pXi pXi
Xi
0,50 0, 68
= 1, 73
0,104
[ EE ( pXi )] =
PXi
0,68 0,32
= 0,043
120
19
2,58 =
p 0,68
p = 0,57
0,043
2,58 =
p 0,68
p = 0,79
0,043
Grficamente:
Distribucin muestral de proporcin ( = 0,68: EE = 0,043
0.12
probabilidad
0.1
0.08
0.06
0.04
IP(1) = 0.99)
0.02
/2 = 0.005
/2 = 0.005
0
0,57
0,68
0,79
Expresin formal de clculo del IP de la proporcin muestral (pX i) para un determinado nivel de
confianza (1-):
( )
( ) ( )
( )
IP(1 )( pX i ) = E pX i + z( ) EE p X i ; E p X i + z(1 ) EE p X i
2
2
Xi 1 Xi
= X i + z( )
2
) ;
Xi
+ z(1 )
2
X (1 X )
i
0,68 0,32
0,68 0, 42
IP(0,99)( pValencia ) = 0,68 2,58
; 0,68 + 2,58
= [0,57;0,79]
120
120
20
POBLACIN
Parmetros ( X , X , X ...)
Teora de la probabilidad
Teora del
Estadstica Inferencial
(Intervalos de probabilidad)
muestreo
(Intervalos de confianza)
MUESTRA
Estadsticos ( X , s, p)
21
IC (1 )( ) = + z( ) EE (); + z(1 ) EE ()
2
2
Ntese que la expresin para el clculo de un IC es la misma que la utilizada para el clculo de un
IP en la seccin anterior, a excepcin de que se sustituye el valor del parmetro por su estimacin
puntual en una muestra.
El nivel de confianza de un IC no se ha de interpretar como la probabilidad de que un IC
concreto contenga el valor del parmetro de inters, sino que la confianza se refiere al porcentaje
de xito del procedimiento de clculo que se utiliza. Por ejemplo, si creamos un IC en que (1)
es igual a 0,95 (o sea, = 0,05), ello supone que si calculamos un mismo IC en distintas
muestras, un 95% de los ICs contendra el valor del parmetro estimado. Es incorrecto interpretar
que un IC en concreto tiene una probabilidad de 0,95 de contener el valor del parmetro.
Siguiendo a Wonnacott y Wonnacott (1991, p. 125-131), la siguiente figura contiene todos los
elementos necesarios para la comprensin del mecanismo de construccin del intervalo de
confianza de un parmetro , siguiendo la distribucin muestral del estadstico una ley Normal,
y asumiendo un riesgo de error del 5% (Nota: esta figura ser explicada en clase)
Dado que el valor que se suma y resta al valor del estadstico obtenido en la muestra para
obtener el IC es el mismo que el que se utilizaba para calcular el IP, la precisin del IC depende
de los mismos factores que en aquel caso, a saber, del nivel de confianza elegido y del error
estndar de la distribucin muestral del estadstico.
22
POBLACIN DE SUJETOS
Muestreo aleatorio
DISTRIBUCIN MUESTRAL
EE
1 = 0.95
/2 = 0.025
/2 = 0.025
1.96 EE
+ 1.96 EE
1.96 EE
1.96 EE
1
1 intervalos
contienen
2
3
intervalos
no contienen
INTERVALOS DE CONFIANZA
Construccin de intervalos de confianza de un parmetro en base a la distribucin
muestral Normal (Losilla y cols., 2005; adaptada de Wonnacott y Wonnacott, 1991, p. 128).
IC (1 )( X ) = X + z( ) X ; X + z(1 ) X
2
2
n
n
23
Dada una muestra de la que se hayan obtenido datos para una variable X y en que no sea conocida
la varianza de esa variable en la poblacin para calcular el EE de la distribucin muestral se sustituye
la desviacin tpica poblacional por su mejor estimador: la cuasi-desviacin tpica obtenida en la
muestra ( s ' X ):
s'
s'
IC (1 )( X ) = X + t( n1)( ) X ; X + t( n1)(1 ) X
2
2
n
n
Normal
t con 5 gl
Probabilidad
t con 1 gl
-4
-3
-2
-1
En consecuencia, para muestras de 30 o ms sujetos, se puede utilizar la curva normal para obtener
los valores z asociados al nivel de confianza elegido:
s X'
s X'
IC (1 )( X ) = X + z( )
; X + z(1 )
2
2
n
n
Ejemplo: el gobierno del pas pretende realizar una reforma de la jubilacin que ha suscitado
una gran polmica a nivel nacional. Para sondear la opinin pblica sobre dicha propuesta
encarga a una empresa de demoscopia que realice un sondeo. Esta empresa entrevista al azar a
1000 personas de la poblacin y les pide que evalen en una escala de 0 a 10 en qu medida
estn de acuerdo con dicha propuesta (siendo 0: totalmente en desacuerdo y 10: totalmente de
acuerdo). Se obtiene una media de 4,5 y una cuasi desviacin tpica de 2,7. Entr qu valores
Estadstica Inferencial en Psicologa
Mara F. Rodrigo, J. Gabriel Molina
Curso: 2010-2011
24
se encontrar la media de la poblacin espaola con una confianza del 95%? Y con una
confianza del 99%?
En este caso sabemos que la distribucin muestral de la media obtenida en muestras de n =
1000 de la poblacin espaola se ajustar a una distribucin normal y estimamos que el EE de
dicha distribucin ser:
X [ EE ( X )] =
sX
2,7
=
= 0,085
n
1000
5,06
174
= 0,384
25
Media
Intervalo de confianza
para la media al 95%
Lmite inferior
Lmite superior
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Estadstico
21,15
20,39
Error tp.
,384
21,91
20,30
20,00
25,608
5,060
17
50
33
2
3,561
13,922
,184
,366
p X i (1 p X i )
p X i (1 p X i )
IC (1 ) X i = p X i + z( )
; p X i + z(1 )
2
2
n
n
( )
26
[ EE ( pXi )] =
PXi
0,07 0,93
= 0,018
200
EE(pmujer) =
0,816 0,184
= 0,029
174
27
Media
Intervalo de confianza
para la media al 95%
Lmite inferior
Lmite superior
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
Estadstico
,816
,76
Error tp.
,029
,87
,85
1,00
,151
,389
0
1
1
0
-1,646
,718
,184
,366