Introducción a la Inferencia Estadística
Introducción a la Inferencia Estadística
Al estudiar los distintos modelos de probabilidad que puede seguir una variable aleatoria, hemos
comprobado que en Teorı́a de la Probabilidad se utiliza un tipo de razonamiento deductivo: fijado
el modelo probabilı́stico, se trata de deducir las probabilidades de sus valores y otras propiedades
de la distribución.
La Inferencia Estadı́stica sigue el esquema inverso, un razonamiento inductivo, para que dado
un conjunto de valores observados de una variable podamos inferir el modelo probabilı́stico que ha
generado esos datos.
Básicamente, la Inferencia Estadı́stica consiste en estudiar (o inferir) propiedades de una po-
blación a partir de la información proporcionada por una muestra de la misma. Recordemos que:
Inferencia paramétrica: Se supone que los datos proceden de una distribución conocida
(Normal, Poisson,...) con parámetros desconocidos. El objetivo es la estimación de estos
coeficientes, para lo cual se utilizan técnicas de:
– Estimación puntual: aproximar el valor desconocido del parámetro mediante un valor
individual obtenido a partir de la muestra.
– Intervalos de confianza: calcular un intervalo que contendrá al valor del parámetro
con una probabilidad alta.
– Contrastes de hipótesis: juzgar si podemos aceptar como cierta una afirmación sobre
el valor del parámetro.
Nos dedicaremos únicamente a estudiar métodos de inferencia paramétrica, en los que utilizare-
mos además los siguientes conceptos:
65
Parámetro: coeficiente numérico que caracteriza total o parcialmente a una distribución
y la identifica como un caso particular de la familia de distribuciones a la que pertenece.
Representaremos por θ el parámetro o vector de parámetros desconocidos de una distribución
de probabilidad.
Ejemplos:
1) Si X ∼ P (λ) con λ desconocido, entonces θ = λ y Θ = IR+ .
2) Si X ∼ N (µ, σ) con µ y σ desconocidos, entonces θ = (µ, σ) y Θ = IR × IR+ .
Selección de la muestra
Es muy importante la adecuada selección de la muestra para que la información que suministra
pueda ser utilizada con éxito a la hora de extraer conclusiones sobre la población.
Para obtener la muestra pueden utilizarse distintos procedimientos o métodos de muestreo,
entre los que destaca el muestreo aleatorio simple. El principal objetivo de estos procedimientos
es seleccionar una muestra que sea representativa de la población de la que se ha extraı́do.
A cada valor particular observado (x1 , x2 , ..., xn ) ∈ IRn para las variables X1 , X2 ,..., Xn se le
denomina realización de la muestra.
66
Estadı́sticos
Llamaremos estadı́stico a cualquier variable aleatoria que sea función de la muestra, y lo
denotaremos por T = T (X1 , X2 , ..., Xn ). Por ejemplo:
n
1X
1) T (X1 , X2 , ..., Xn ) = Xi = X̄, es la media aritmética de la muestra o media muestral.
n i=1
n
1X
2) T (X1 , X2 , ..., Xn ) = (Xi − X̄)2 = Sn2 , es la varianza de los valores muestrales o varianza
n i=1
muestral.
3) T (X1 , X2 , ..., Xn ) = min(X1 , X2 , ..., Xn ) representa el menor de los valores muestrales, ası́
como T (X1 , X2 , ..., Xn ) = max(X1 , X2 , ..., Xn ) es el mayor.
Estimación de los parámetros desconocidos de una distribución (por ejemplo, la media mues-
tral se usa para aproximar el valor de la media poblacional).
En este caso el estadı́stico debe tomar valores en el espacio paramétrico y no depender de
cantidades desconocidas, recibiendo entonces el nombre de estimador.
Ejemplo. Sea X una variable aleatoria con distribución Bernoulli de parámetro p desconocido.
Como p = E(X) es la media poblacional, podemos utilizar la media muestral X̄ como estimador
de p.
Vamos a obtener la distribución del estadı́stico media muestral para m.a.s. de tamaños 2, 3 y
50.
67
En cuanto a la probabilidad de cada una de estas realizaciones de la muestra, tenemos que, por
ejemplo:
indep. i.d.
P (X1 = 1, X2 = 0) = P (X1 = 1)P (X2 = 0) = P (X = 1)P (X = 0) = p(1 − p),
donde en la primera igualdad hemos utilizado la independencia de las variables y en la segunda
igualdad el hecho de que las variables X1 y X2 tienen la misma distribución que la variable
poblacional X.
X1 + X2
Los posibles valores de X̄ = son: 0 (para la muestra (0, 0)), 1/2 (para las muestras
2
(0, 1) y (1, 0)) y 1 (para la muestra (1, 1)).
La probabilidad de que la media muestral tome, por ejemplo, el valor 1/2 es:
1
P X̄ = = P (X1 = 1, X2 = 0) + P (X1 = 0, X2 = 1) = 2p(1 − p).
2
En las siguientes tablas aparecen todas las posibles realizaciones de (X1 , X2 ) y sus probabilidades
X 1 + X2
(a la izquierda), y todos los posibles valores de X̄ = y sus probabilidades (a la derecha) :
2
(x1 , x2 ) P (X1 = x1 , X2 = x2 )
x̄ P (X̄ = x̄)
(0,0) (1 − p)2
0 (1 − p)2
(1,0) p(1 − p)
1/2 2p(1 − p)
(0,1) p(1 − p)
1 p2
(1,1) p2
Entonces: X̄ es una variable discreta que toma valores 0, 1/2 y 1 con probabilidades (1 − p)2 ,
2p(1 − p) y p2 , respectivamente.
X1 + X 2 + X3
b) Para n = 3 tendremos muestras (X1 , X2 , X3 ) con media muestral X̄ = . De
3
forma análoga al caso anterior se obtiene:
(x1 , x2 , x3 ) P (X1 = x1 , X2 = x2 , X3 = x3 )
(0,0,0) (1 − p)3
(0,0,1) p(1 − p)2 x̄ P (X̄ = x̄)
(0,1,0) p(1 − p)2 0 (1 − p)3
(1,0,0) p(1 − p)2 1/3 3p(1 − p)2
(1,1,0) p2 (1 − p) 2/3 3p2 (1 − p)
(1,0,1) p2 (1 − p) 1 p3
(0,1,1) p2 (1 − p)
(1,1,1) p3
En este caso: X̄ es una variable discreta que toma valores 0, 1/3, 2/3 y 1 con probabilidades
(1 − p)3 , 3p(1 − p)2 , 3p2 (1 − p) y p3 , respectivamente.
68
Observamos como la distribución del estadı́stico media muestral es diferente (distintos valores
y probabilidades) para n = 2 y n = 3. Obviamente, también resultarı́a una distribución diferente
al cambiar la distribución poblacional de X.
50
1 X
c) En el caso n = 50 también se puede obtener la distribución exacta de X̄ = Xi de la
50 i=1
forma anterior.
Y 1 2 49
Entonces X̄ = toma valores 0, , , ..., y 1, con probabilidades:
50 50 50 50
k 50
P X̄ = = P (Y = k) = pk (1 − p)50−k , para k = 0, 1, ..., 50.
50 k
Por otra parte, podemos también obtener una distribución aproximada de X̄ utilizando el TCL:
Xi i.i.d. r !
σ p(1 − p)
µ = p, σ 2 = p(1 − p) ⇒ X̄ ≈ N µ, √ ≡ N p,
n > 30 n 50
Caracterı́sticas muestrales
Son estadı́sticos especialmente relevantes que están relacionados con las medidas caracterı́sticas
(de posición, de dispersión,...) de la variable. Nos interesan en particular la media y la varianza
muestral, que ya conocemos, y la proporción muestral.
n
1X
a) Media muestral. Es la media de los valores muestrales: X̄ = Xi y se utiliza para
n i=1
hacer inferencia sobre la media de la población (µ).
Como cualquier estadı́stico, la media muestral es una variable aleatoria y podemos obtener
algunas de sus caracterı́sticas. Por ejemplo:
n
! n
1X lineal. 1X i.d. 1 1
E(X̄) = E Xi = E(Xi ) = nE(X) = nµ = µ,
n i=1 n i=1 n n
69
donde en la segunda igualdad hemos utilizado las propiedades de linealidad de la esperanza
matemática, y en la tercera igualdad el hecho de que las variables Xi tienen la misma distribución
que la variable poblacional X.
Hemos obtenido que el valor esperado de la media muestral es la media poblacional (el parámetro
que pretende estimar). Esta será una de las propiedades que, como veremos en el tema siguiente,
son deseables para cualquier estadı́stico que se utilice como estimador de un parámetro.
Ası́, por ejemplo se verifica que E(p̂) = E(X̄) = E(X) = p, por ser X ∼ Be(p).
Ejemplo
Supongamos que estamos interesados en conocer la altura media µ de la población de estudiantes
de un grupo de primer curso, ası́ como la proporción p de mujeres en el grupo.
Supongamos además que no podemos estudiar toda la población y seleccionamos una muestra
de estudiantes utilizando un muestreo aleatorio simple de tamaño n.
70
Con estos datos haremos inferencia sobre los parámetros desconocidos µ y p, obteniendo una
estimación de los mismos mediante los estadı́sticos media muestral y proporción muestral, respec-
tivamente. La situación se resume en la siguiente tabla:
Aunque la población es desconocida para nosotros, supongamos que la realidad (no observable)
fuera la siguiente: 72 alumnos/as, numerados de 1 a 72, con su sexo y altura correspondientes, tal
y como aparecen a continuación.
Sólo en esta situación (estudiando todos los individuos de la población) podrı́amos obtener
la altura media de la población y la proporción de mujeres en la población, que resultan ser:
µ = 176.125 cm y p = 13 72
= 0.1806.
71
Muestra 1
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
16 H 178 57 H 187 17 M 170 8 H 175
50 M 175 39 H 176 15 H 176 28 H 170
8 H 175 3 H 185 53 H 174 19 M 167
64 H 173 16 H 178 32 M 170 58 H 176
54 H 176 43 H 169 42 H 174 35 H 185
Muestra 2
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
21 H 176 40 H 184 50 M 175 60 H 181
60 H 181 31 H 173 34 H 180 4 H 181
33 M 163 9 H 180 35 H 185 20 H 175
56 H 175 21 H 176 68 H 190 45 H 171
14 M 159 3 H 185 43 H 169 40 H 184
Muestra 3
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
46 H 183 53 H 174 72 M 172 51 H 173
30 H 182 28 H 170 1 H 172 15 H 176
60 H 181 64 H 173 22 H 168 60 H 181
46 H 183 62 M 161 1 H 172 60 H 181
44 H 174 29 H 185 47 H 181 46 H 183
Como comprobamos anteriormente en el tema, el valor esperado (media) de estos dos es-
tadı́sticos coincide con el parámetro que están estimando. Es decir, en nuestro ejemplo:
E(X̄) = µ = 176.125 y E(p̂) = p = 0.1806
72
Además, podrı́amos obtener la distribución en el muestreo de p̂, que es una variable aleatoria
k
discreta con valores , con k = 0, 1, 2, ..., 20. De hecho, al igual que vimos en el apartado c) del
20
ejemplo anterior:
Y
p̂ = , siendo Y = “Nº de mujeres en la muestra” ∼ B(20, p),
20
donde p es la proporción poblacional, en principio una cantidad desconocida. Entonces:
k 20
P p̂ = = P (Y = k) = pk (1 − p)n−k , para k = 0, 1, ..., 20
20 k
Si consideramos que en nuestro caso p vale 0.1806, como calculamos antes para nuestra supuesta
población, podrı́amos obtener la función de probabilidad de p̂, que serı́a:
73
TEMA 6: Estimación puntual
Supongamos que se observa una m.a.s. X1 , X2 , ..., Xn de una variable aleatoria X con dis-
tribución Fθ conocida excepto por el valor del parámetro (o vector de parámetros) θ.
El problema que estudiaremos es la estimación de estos parámetros desconocidos a partir de los
datos muestrales utilizando alguno de los posibles estimadores de θ.
Interesa entonces que todos los posibles valores del estimador estén lo más cerca posible del
verdadero valor de θ; es decir, un estimador será mejor cuanto más agrupados estén sus posibles
valores (y por tanto su distribución de probabilidad) en torno al verdadero valor del parámetro.
Una formalización matemática de esta idea nos la proporciona la siguiente definición.
Vemos entonces que el error cuadrático medio de un estimador será menor cuanto menores sean
su varianza (que como sabemos mide la dispersión en torno a la media) y la diferencia entre su
media y el verdadero valor de θ.
Esta última diferencia recibe el nombre de Sesgo, es decir: Sesgo(θ̂) = E(θ̂) − θ, con lo cual:
2
ECM(θ̂) = Var(θ̂) + Sesgo(θ̂) .
74
Un estimador será mejor cuanto menor sea su error cuadrático medio. En concreto, si θ̂1 y θ̂2
son dos estimadores de θ, se dice que θ̂1 es más preciso que θ̂2 si ECM(θ̂1 ) < ECM(θ̂2 ).
Denotemos ahora el estimador por θ̂n para indicar su dependencia del tamaño muestral n.
Una propiedad que debe verificar un buen estimador es que mejore al aumentar el tamaño de la
muestra, ya que este aumento implica una mayor información sobre la población. Intuitivamente,
un estimador consistente es aquel cuyos valores se aproximan más al verdadero valor del parámetro
a medida que se incrementa el tamaño muestral.
La formalización matemática de este concepto aparece en la siguiente definición.
75
Definición. Un estimador θ̂n del parámetro θ es consistente si:
lim ECM(θ̂n ) = 0
n→∞
La siguiente propiedad nos da una condición suficiente para que un estimador sea consistente:
Demuestra que θ̂ = 51 (3− X̄) es un estimador insesgado de θ. Además, utilizando este estimador
y la muestra {1, 4, 4, 2, 1, 2, 4, 4, 2, 4}, obtén una estimación de θ.
a) Para demostrar que es insesgado tenemos que comprobar que E(θ̂) = θ. Vamos a calcular
previamente la media de X, ya que utilizaremos la propiedad ya demostrada de que E(X̄) = µ:
1 1
µ = E(X) = θ + 2 θ + +4 − 2θ = θ + 2θ + 1 + 2 − 8θ = 3 − 5θ.
2 2
Entonces:
1 1 1 1
E(θ̂) = E (3 − X̄) = · E(3 − X̄) = · 3 − E(X̄) = (3 − (3 − 5θ)) = θ
5 5 5 5
1
b) Para la muestra dada, se obtiene que x̄ = 2.8 y θ̂ = (3 − 2.8) = 0.04.
5
Observación. Podemos utilizar esta estimación de θ para estimar también las probabilidades
de los valores de la variable, resultando: P̂ (X = 1) = θ̂ = 0.04, P̂ (X = 2) = θ̂ + 21 = 0.54 y
P̂ (X = 4) = 12 − 2θ̂ = 0.42.
θ2
Ejemplo 2. Sean θ̂1 y θ̂2 estimadores de un parámetro θ tales que E(θ̂1 ) = θ, Var(θ̂1 ) = ,
n
n+1 θ2
E(θ̂2 ) = θ y Var(θ̂2 ) = .
n 2n
Vamos a demostrar que son estimadores consistentes y a determinar cuál de los dos es un
estimador más preciso de θ.
a) Para demostrar que son consistentes vamos a comprobar que lim ECM(θ̂) = 0
n→∞
θ2
2
ECM(θ̂1 ) = Var(θ̂1 ) + E(θ̂1 ) − θ =
=⇒ lim ECM(θ̂1 ) = 0 =⇒ θ̂1 es consistente.
n n→∞
2
θ2 θ2 θ2 (n + 2)θ2
2 n+1
ECM(θ̂2 ) = Var(θ̂2 ) + E(θ̂2 ) − θ = + θ−θ = + 2 = =⇒
2n n 2n n 2n2
76
lim ECM(θ̂2 ) = 0 =⇒ θ̂2 es consistente.
n→∞
b) Es más preciso, y por lo tanto mejor estimador, el de menor error cuadrático medio:
(n + 2)θ2 θ2
ECM(θ̂2 ) < ECM(θ̂1 ) ⇐⇒ < ⇐⇒ n + 2 < 2n ⇐⇒ n > 2.
2n2 n
En consecuencia, θ̂2 es mejor estimador que θ̂1 para n > 2.
Propiedades:
1) Ya vimos en el tema anterior que E(X̄) = µ, por lo que la media muestral es un estimador
insesgado de la media poblacional para cualquier población.
n
! n
1X indep. 1 X i.d. 1 1 2 σ2
Var(X̄) = Var Xi = Var(X i ) = nVar(X) = nσ = .
n i=1 n2 i=1 n2 n2 n
a) Sea (X1 , X2 , ..., Xn ) una m.a.s. de una variable aleatoria X ∼ N (µ, σ).
n
1X
Como X̄ = Xi es una combinación lineal de v.a. normales independientes, su distribución
n i=1
será también normal con parámetros (media y desviación tı́pica) ya obtenidos anteriormente:
77
r
σ2 σ
E(X̄) = µ y DT(X̄) = = √ . En consecuencia:
n n
σ
X̄ ∼ N µ, √
n
b) Sea (X1 , X2 , ..., Xn ) una m.a.s. de una variable aleatoria X con cualquier distribución de
media µ y varianza σ 2 .
En esta situación, si la muestra es grande (n > 30) podemos aplicar el T.C.L. para obtener:
n>30 σ
X̄ ≈ N µ, √ .
n
Ejemplo. En una planta de envasado de café, una máquina se encarga de llenar paquetes
con una cantidad de 250 gramos. Se sabe que la cantidad de café en gramos depositada en cada
paquete es una v.a. X ∼ N (250, 10). Para verificar que el proceso funciona correctamente se
toman periódicamente m.a.s. de 25 envases y se pesa su contenido. El gerente de la planta ha
decidido detener el proceso si el peso promedio de la muestra es mayor de 255 gramos o menor de
245.
245 − 250 X̄ − 250 255 − 250
1 − P (245 6 X̄ 6 255) = 1 − P 6 6 =
2 2 2
= 1 − P (−2.5 6 Z 6 2.5) = 1 − (2F (2.5) − 1) = 2(1 − F (2.5)) = 2 × (1 − 0.99379) = 0.01242
b) ¿Cuál es la probabilidad de que el peso promedio de la muestra diste del peso nominal (250
g) menos de 5 g?
78
En consecuencia, la probabilidad a calcular deberá ser mayor que la obtenida en b). En efecto:
245 − 250 X̄ − 250 255 − 250
P (245 < X̄ < 255) = P < < =
1.4142 1.4142 1.4142
= P (−3.54 6 Z 6 3.54) = 2F (3.54) − 1 = 2 × 0.9998 − 1 = 0.9996
Propiedades:
Sabemos que para toda variable aleatoria X se verifica que Var(X) = E(X 2 ) − E(X)2 y esto
implica que:
σ2
E(X 2 ) = Var(X) + E(X)2 = σ 2 + µ2 y E(X̄ 2 ) = Var(X̄) + E(X̄)2 = + µ2
n
Entonces:
σ2 σ2
n−1 2
E(Sn2 ) 2
=σ +µ − 2
+ µ2 = σ2 − = σ
n n n
79
Observación.
√ Para estimar la desviación tı́pica se utiliza la raı́z de la cuasivarianza muestral:
2
S = + S , denominada cuasidesviación tı́pica muestral.
nSn2 (n − 1)S 2
b) = ∼ χ2n−1 .
σ2 σ2
c) X̄ y S 2 son independientes.
3) En las condiciones anteriores se puede comprobar fácilmente que tanto la varianza como la
cuasivarianza muestrales son estimadores consistentes de la varianza poblacional. Dado que Sn2
es un estimador asintóticamente insesgado y S 2 es insesgado, para demostrar la consistencia de
ambos basta comprobar que su varianza tiende a 0.
nSn2
Teniendo en cuenta que ∼ χ2n−1 y Var(χ2n ) = 2n, resulta que:
σ2
2
nSn n2 2 2
2(n − 1)σ 4
=⇒ lim Var(Sn2 ) = 0.
2(n − 1) = Var = Var S n =⇒ Var S n =
σ2 σ4 n2 n→∞
n
En cuanto a la cuasivarianza muestral, dado que S 2 = S 2 , se obtiene que Var (S 2 ) =
n−1 n
2σ 4
, por lo que lim Var(S 2 ) = 0.
n−1 n→∞
Peso mujeres: 55, 49, 63, 56, 68, 62, 60, 58, 55, 54
Peso hombres: 70, 73, 64, 85, 80, 66, 74, 82, 73, 87, 90, 60, 65, 81
Da una estimación de la media y de la varianza del peso en cada grupo utilizando estimadores
insesgados. ¿Cuál de las dos muestras presenta mayor dispersión?
Para estimar el peso medio utilizaremos la media muestral y para estimar la varianza del peso
tenemos que utilizar la cuasivarianza muestral.
Sean X = “Peso en kg de mujeres” e Y = “Peso en kg de hombres”. Vamos a obtener:
10 10
1 X 2 1 X 2 10 2
Mujeres −→ X̄ = Xi , SnX = Xi − X̄ 2 2
y SX = S
10 i=1 10 i=1 9 nX
80
14 14
1 X 2 1 X 2 14 2
Hombres −→ Ȳ = Yi , SnY = Y − Ȳ 2 y SY2 = S
14 i=1 14 i=1 i 13 nY
14
X 14
X
Yi = 1050 Yi2 = 702 + 732 + · · · + 812 = 79890
i=1 i=1
A partir de las sumas anteriores, podemos obtener las medias, varianzas y cuasivarianzas mues-
trales:
580 2 33904 10
X̄ = = 58, SnX = − 582 = 26.4 =⇒ SX
2
= × 26.4 = 29.3333
10 10 9
1050 2 79890 14
Ȳ = = 75, SnY = − 752 = 81.42857 =⇒ SY2 = × 81.42857 = 87.6923
14 14 13
Entonces:
Mujeres −→ Peso medio estimado: 58 kg; Estimación de la varianza del peso: 29.3333 kg2
Hombres −→ Peso medio estimado: 75 kg; Estimación de la varianza del peso: 87.6923 kg2
SnX
2 2
< SnY −→ Presenta mayor dispersión o variabilidad la muestra del peso de los hombres
81
Distribución de la proporción muestral.
a) Sabemos que la distribución de X1 + X2 + · · · + Xn , siendo cada Xi ∼ Be(p), es binomial de
parámetros n y p, por lo que:
np̂ ∼ B(n, p)
b) Por otra parte, como caso particular de media muestral, aplicando el T.C.L., la distribución
en el muestreo de p̂ para muestras grandes (n > 30) es aproximadamente:
r !
n>30 p(1 − p)
p̂ ≈ N p, .
n
r ! r !
p(1 − p) 0.75 × 0.25
p̂ ≈ N p, ≡N 0.75, ≡ N (0.75, 0.0306)
n 200
p̂ − 0.75 0.80 − 0.75
P (p̂ > 0.80) = P > = P (Z > 1.63) =
0.0306 0.0306
= 1 − P (Z 6 1.63) = 1 − 0.94845 = 0.05155.
82
TEMA 7: Intervalos de confianza
Supongamos que se observa una m.a.s. X1 , X2 , ..., Xn de una variable aleatoria X con dis-
tribución Fθ conocida excepto por el valor del parámetro θ.
Hemos visto como estimar el valor de θ a partir de los datos muestrales. Pero en la práctica
interesa además precisar el error existente en la estimación, para lo cual construiremos un inter-
valo, que va a contener al verdadero valor del parámetro con una probabilidad alta previamente
especificada.
tal que
P T1 (X1 , X2 , ..., Xn ) < θ < T2 (X1 , X2 , ..., Xn ) = 1 − α.
Observaciones. 1) Los extremos del intervalo son aleatorios, variando para cada realización de
la muestra, y contienen al verdadero valor de θ (que es desconocido) con una probabilidad 1 − α.
El procedimiento es el siguiente:
1) Fijado el nivel de confianza 1 − α (los más utilizados son 1 − α = 0.95, 0.90 y 0.99), se elige
un estadı́stico pivote que sea función continua y estrictamente monótona de θ.
83
3) Por ser la función continua y estrictamente monótona, las ecuaciones
En consecuencia,
IC1−α (θ) = T1 (X1 , X2 , ..., Xn ), T2 (X1 , X2 , ..., Xn )
2) Entre las elecciones posibles (casi siempre infinitas) de los valores a y b, un criterio razonable
es escogerlos de forma que el intervalo sea de longitud mı́nima, puesto que: a menor longitud del
intervalo, mayor será la precisión del mismo.
Si la distribución de T es continua y simétrica, esto se consigue si P (T < a) = P (T > b) = α/2.
Ejemplo. Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X ∼ N (µ, σ), siendo σ una constante
conocida. Vamos a obtener un intervalo de confianza para la media µ.
X̄ − µ
Sabemos que X̄ ∼ N µ, √σn y, por lo tanto, √ ∼ N (0, 1).
σ/ n
2) Denotando por zp el cuantil de orden p de Z ∼ N (0, 1), la mejor elección de los valores a y
b es la simétrica, es decir:
84
X̄ − µ σ σ
√ > −z1−α/2 ⇐⇒ X̄ − µ > −z1−α/2 √ ⇐⇒ µ < X̄ + z1−α/2 √
σ/ n n n
Entonces
X̄ − µ σ σ
1−α=P −z1−α/2 < √ < z1−α/2 = P X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ ,
σ/ n n n
y, en consecuencia, un intervalo de confianza de nivel 1 − α para µ es:
σ σ
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n
σ
El intervalo también puede escribirse utilizando la expresión abreviada: X̄ ± z1−α/2 √ .
n
2) El 100(1 − α)% de los intervalos construidos incluirán el verdadero valor de µ mientras que
el 100α% restante no lo incluirán. Por ejemplo, si el nivel de confianza es 0.95, estos porcentajes
serán del 95% y 5%, respectivamente.
Intervalo para la media con varianza conocida. Es el caso del ejemplo anterior. El inter-
valo resultante es:
σ σ
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ = X̄ ± z1−α/2 DT(X̄) .
n n
Propiedades:
σ
1) El intervalo obtenido está centrado en X̄ y su longitud es L = 2z1−α/2 √ .
n
2) Para un tamaño muestral fijo, todos los intervalos del mismo nivel de confianza (mismo
z1−α/2 ) tienen la misma longitud.
85
3) ¿Qué factores influyen en la longitud del intervalo?:
- A mayor tamaño muestral n, menor longitud.
- A mayor variabilidad (σ) de la variable X, mayor longitud.
- A mayor nivel de confianza 1 − α ⇒ menor α ⇒ mayor z1−α/2 ⇒ mayor longitud.
Recordemos que cuanto mayor es la longitud, menor es la precisión del intervalo.
4) Si queremos que la longitud del intervalo sea inferior a C, ¿qué tamaño muestral n debemos
utilizar?
σ √ σ σ 2
2z1−α/2 √ < C =⇒ n > 2z1−α/2 =⇒ n > 2z1−α/2 .
n C C
X̄ − µ
√ ∼ N (0, 1)
σ/ n X̄ − µ
√
σ/ n X̄ − µ
(n − 1)S 2 =⇒ s = √ = T ∼ tn−1
∼ χ2n−1 (n − 1)S 2 S/ n
σ2
(n − 1)σ 2
Independientes
86
Eligiendo b = −a = tn−1,1−α/2 tenemos que
X̄ − µ
P −tn−1,1−α/2 < √ < tn−1,1−α/2 = 1 − α,
S/ n
S S
1−α=P X̄ − tn−1,1−α/2 √ < µ < X̄ + tn−1,1−α/2 √ .
n n
S S
IC1−α (µ) = X̄ − tn−1,1−α/2 √ , X̄ + tn−1,1−α/2 √ ,
n n
S
que también puede escribirse como: X̄ ± tn−1,1−α/2 √ = X̄ ± tn−1,1−α/2 EE(X̄) .
n
S
Observación: El intervalo obtenido está centrado en X̄ y su longitud es L = 2tn−1,1−α/2 √ . A
n
diferencia del caso anterior, la longitud del intervalo es aleatoria: depende de la muestra (X1 , ..., Xn )
a través de la cuasidesviación tı́pica muestral S.
Ejemplo. Los datos que se dan a continuación son los pesos en gramos del contenido de 16
cajas de cereales que se seleccionaron de un proceso de llenado con el objeto de verificar el peso
promedio: 506, 508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509 y 496. Si el
peso de cada caja en una variable aleatoria Normal, calcula:
a) Intervalos de confianza del 90, 95 y 99% para el peso medio de las cajas llenadas en este
proceso suponiendo que la desviación tı́pica es conocida y vale 5 gramos.
87
Análogamente, para un nivel de confianza del 95%:
Comprobamos como a medida que aumenta el nivel de confianza, aumenta también la longitud
del intervalo correspondiente.
b) Tamaño muestral mı́nimo necesario para que un intervalo del 95% para la media tenga una
longitud no superior a 2 unidades.
σ 5 19.6
La longitud del intervalo es L = 2z1−α/2 √ = 2 × 1.96 × √ = √ . Tenemos que determinar
n n n
n de forma que L 6 2:
19.6 √
L 6 2 ⇐⇒ √ 6 2 ⇐⇒ n > 9.8 ⇐⇒ n > 96.04
n
En consecuencia el tamaño muestral mı́nimo debe ser 97.
c) Intervalos de confianza del 90, 95 y 99% para el peso medio suponiendo que la desviación
tı́pica es desconocida.
88
Análogamente, para los niveles de confianza del 95% y 99%:
1 − α = 0.95 =⇒ tn−1,1−α/2 = t15,0.975 = 2.131 =⇒ IC0.95 (µ) = (503.75 ± 3.30) = (500.45, 507.05)
y
1 − α = 0.99 =⇒ tn−1,1−α/2 = t15,0.995 = 2.947 =⇒ IC0.99 (µ) = (503.75 ± 4.57) = (499.18, 508.32).
Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X con cualquier distribución de media µ y varianza σ 2 .
En esta situación, si la muestra es grande (n > 30) podemos aplicar el T.C.L. para obtener:
n>30 σ X̄ − µ n>30
X̄ ≈ N (µ, √ ) o equivalentemente √ ≈ N (0, 1).
n σ/ n
S S
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n
S 3.73
IC1−α (µ) = X̄ ± z1−α/2 √ = 89.10 ± z0.975 √ = (89.10 ± 0.5624) = (88.5376, 89.6624),
n 169
89
Intervalo de confianza para una proporción
Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X con distribución Bernoulli de parámetro p descono-
cido.
Los intervalos de confianza que construiremos para p son aproximados y sólo se podrán utilizar
para muestras grandes, ya que se basan en la distribución asintótica del correspondiente estadı́stico
pivote.
r !
p(1 − p)
Como vimos en el tema anterior, para muestras grandes (n > 30): p̂ ≈ N p, .
n
p̂ − p
Si tomamos como estadı́stico pivote T = q ≈ N (0, 1), obtendrı́amos por el procedimiento
p(1−p)
n
habitual el intervalo aproximado:
r r !
p(1 − p) p(1 − p)
p̂ − z1−α/2 , p̂ + z1−α/2 .
n n
p̂ − p
En consecuencia, tenemos que T = q ≈ N (0, 1), y un intervalo de confianza aproximado
p̂(1−p̂)
n
de nivel 1 − α para p es:
r r !
p̂(1 − p̂) p̂(1 − p̂)
IC1−α (p) = p̂ − z1−α/2 , p̂ + z1−α/2 = p̂ ± z1−α/2 EE(p̂) .
n n
Propiedades:
r
p̂(1 − p̂)
1) El intervalo obtenido está centrado en p̂ y su longitud es L = 2z1−α/2 .
n
De esta forma: para un tamaño muestral fijo, todos los intervalos del mismo nivel de confianza
z
(mismo z1−α/2 ) tienen una longitud no superior a 1−α/2
√
n
.
90
Ejemplo. En un estudio sobre la calidad de las piezas producidas por una máquina, una
muestra de 400 unidades contenı́a 30 defectuosas.
a) Calcula un intervalo de confianza del 90% para la verdadera proporción de piezas defectuosas
producidas por la máquina.
r !
0.075(1 − 0.075)
0.075 ± 1.645 = (0.075 ± 0.0217) = (0.0533, 0.0967).
400
b) Halla el tamaño muestral mı́nimo necesario para que el intervalo de confianza de nivel 0.90
tenga una longitud menor que 0.10 sea cual sea el valor de p.
z1−α/2
Acabamos de ver que L 6 √
n
. En este caso:
91
TEMA 8: Contrastes de hipótesis
Sea X1 , ..., Xn una m.a.s. de una variable aleatoria X con función de distribución Fθ conocida
excepto por el valor del parámetro θ ∈ Θ.
Los objetivos de los procedimientos de inferencia expuestos en los temas anteriores eran:
Sin embargo, en muchas ocasiones se sospecha cuál puede ser el verdadero valor del parámetro y
lo que se pretende es confirmar o rechazar tal suposición a partir de la información proporcionada
por la muestra.
Definiciones
Una hipótesis paramétrica es una afirmación sobre el parámetro θ desconocido.
Se dice que una hipótesis paramétrica es simple si especifica un único valor para el parámetro,
es decir, es de la forma θ = θ0 . Por ejemplo: µ = 5, p = 0.2,...
En otro caso se denomina compuesta, y puede ser de la forma θ 6= θ0 , θ > θ0 ,... Por ejemplo:
µ 6= 100, µ 6 5, p > 0.2,...
Ejemplos. 1) En una fábrica se producen elementos cuya duración media es de 500 horas. Se
introduce un cambio en la fabricación y se quiere comprobar si ha afectado al tiempo de vida de
los elementos.
92
Se contrastará entonces la hipótesis nula: “La duración media es de 500 horas”, frente a la
alternativa: “La duración media no es de 500 horas”; es decir:
H0 : µ = 500 frente a H1 : µ 6= 500.
¿Cuándo vamos a considerar que la distancia |X̄ − 500| es lo suficientemente grande como para
rechazar H0 ?
Uno de los principales objetivos del tema será encontrar un criterio o regla de decisión, que
cumpla determinadas propiedades y podamos aplicar una vez obtenida la información muestral.
2) Hasta ahora la proporción diaria de piezas defectuosas fabricadas por una máquina ha sido
como mucho del 1%, pero se teme que un desajuste haya provocado un aumento de tal proporción.
Como antes, deberı́amos disponer de un criterio que nos permita determinar a partir de que
valor de p̂ se rechazará la hipotésis nula.
Criterios de decisión
Una vez planteado el contraste, el problema es decidir si aceptamos o no la hipótesis nula en
base a los datos muestrales.
93
Se trata entonces de establecer un criterio estadı́stico que nos permita aceptar o rechazar H0 a
~ = (X1 , ..., Xn ).
partir de la muestra X
Definición. Llamamos test a una regla que nos permite decidir cuál de las dos hipótesis es
aceptada a partir de la muestra observada ~x.
Se puede expresar utilizando la región crı́tica en la forma: “Rechazar H0 si y sólo si ~x ∈ C”.
De esta forma, podrı́amos expresar el criterio de rechazo o test, para la muestra observada ~x,
como:
“Rechazar H0 si y sólo si D(~x) ∈ R”.
Los contrastes que estudiaremos en este tema se resolverán con este procedimiento. En parti-
cular, consideraremos los siguientes tipos de contrastes de hipótesis:
a) Bilateral: H0 : θ = θ0 frente a H1 : θ 6= θ0 .
b) Unilateral derecho: H0 : θ 6 θ0 frente a H1 : θ > θ0 .
c) Unilateral izquierdo: H0 : θ > θ0 frente a H1 : θ < θ0 .
En estos tres casos el estadı́stico de contraste es función de la muestra y del valor del parámetro
especificado en la hipótesis nula (θ0 ) y se representa por D = D(X; ~ θ0 ).
94
Tipos de error
En el proceso de decidir si aceptamos o no la hipótesis nula H0 : θ ∈ Θ0 , frente a la alternativa
H1 : θ ∈ Θ1 , podemos encontrarnos con las cuatro situaciones que aparecen en la siguiente tabla:
Realidad
Decisión H0 es cierta H0 es falsa
Se acepta H0 Decisión correcta Error de tipo II
Se rechaza H0 Error de tipo I Decisión correcta
¿Qué test es el mejor para resolver un contaste? Lo ideal serı́a elegir un test (o una región de
rechazo R) tal que las dos probabilidades de error valieran cero, pero esto no es posible.
Además, para un tamaño muestral fijo, si disminuye una de las dos probabilidades de error, la
otra aumenta. La única forma de rebajar las dos probabilidades de error a la vez es aumentando
el número de observaciones muestrales.
Seguiremos entonces el siguiente procedimiento: acotar una de las dos probabilidades de error
(la del más grave de los dos) y, con esta restricción, intentar minimizar la probabilidad del otro.
Normalmente los contrastes se formulan de forma que el error más importante sea el de tipo I.
Su probabilidad es entonces la que se acota superiormente por un cierto valor fijo, que determina
la máxima probabilidad de error tipo I que estamos dispuestos a tolerar.
95
Definición. Se denomina potencia de un test a la probabilidad complementaria de la proba-
bilidad de error tipo II y la denotaremos por π:
π(θ) = P (Rechazar H0 |H0 es falsa) = 1 − β(θ).
2) Es conveniente que la probabilidad de error tipo I sea exactamente α (no menor) ya que eso
implicará una menor probabilidad de error tipo II. Esto será siempre posible si la distribución de
D es continua, mientras que, en general, no se alcanzará el nivel α si la distribución del estadı́stico
de contraste D es discreta.
3) Una vez fijado el nivel de significación α, se trata de elegir, entre todos los posibles test
o regiones de rechazo de ese nivel, aquel que haga mı́nima la probabilidad de error tipo II o,
equivalentemente, aquel que tenga la mayor potencia.
Está constituida por los valores de D (estadı́stico de contraste) que conducen al rechazo de
H0 .
La probabilidad de que D tome valores en esa región, cuando H0 es cierta, será a lo sumo α.
Si la distribución de D es continua, la probabilidad anterior será exactamente α, es decir:
P (D ∈ Rα |H0 es cierta) = α.
Ejemplo. En una fábrica se recibe una partida de 1000 tornillos en cuyas especificaciones
figura que su diámetro es de 10 mm. El encargado de producción de la fábrica sospecha que el
diámetro es inferior al especificado. Para comprobarlo extrae una m.a.s. de 16 tornillos cuyos
diámetros resultan ser: 9.8, 10.2, 9.9, 9.5, 10.3, 10.1, 10, 9.7, 9.5, 9.9, 10.1, 10.2, 9.8, 10.1, 10 y
9.6. Suponiendo que el diámetro es una v.a. Normal con una desviación tı́pica conocida de 0.25
mm.:
a) ¿Podemos admitir como cierta la sospecha del encargado al nivel de significación α = 0.05?
Sea X=“Diámetro de un tornillo en mm”∼ N (µ, 0.25).
Se trata de contrastar:
H0 : µ = 10 frente a H1 : µ < 10.
96
X̄ − µ
Sabemos que: X̄ ∼ N µ, √σn =⇒ √ ∼ N (0, 1).
σ/ n
Entonces, si utilizamos como estadı́stico de contraste:
~ µ0 ) = X̄ −
D = D(X;
µ
√ 0,
σ/ n
podemos concluir que su distribución cuando H0 es cierta es:
X̄ − µ0 X̄ − 10
D= √ = √ ∼ N (0, 1).
σ/ n σ/ n
Incluir los valores de D que reflejen mayor discrepancia entre la media muestral y el valor
µ = 10 a favor de la hipótesis alternativa (serán valores negativos de X̄ − 10 y por lo tanto
de D).
Tener probabilidad α cuando H0 es cierta, es decir:
P (D ∈ Rα |H0 es cierta) = P (N (0, 1) ∈ Rα ) = α
X̄ − 10 X̄ − 10 X̄ − 10
Equivalentemente, dado que D = √ = = , se verifica que:
σ/ n 0.25/4 0.0625
D < −1.645 ⇐⇒ X̄ < 10 − 0.0625 × 1.645 ⇐⇒ X̄ < 9.897,
y el test puede también formularse como:
Rechazar H0 si X̄ < 9.897.
Si α = 0.10:
Rα = − ∞, −z1−α = − ∞, −z0.90 = (−∞, −1.282),
97
y el criterio de rechazo es ahora:
Rechazar H0 si D < −1.282, o equivalentemente, X̄ < 9.920.
Vemos entonces que al relajar la restricción sobre la probabilidad de error tipo I, es decir, al
permitir que sea mayor la probabilidad de equivocarnos en el sentido de rechazar H0 siendo cierta,
el resultado del contraste cambia: pasamos de aceptar H0 a nivel α = 0.05 a rechazarla a nivel
α = 0.10.
Recordemos que para nivel α = 0.05 utilizamos el criterio de rechazar H0 si X̄ < 9.897.
Entonces:
P (Error tipo II) = P (Aceptar H0 |H0 es falsa) = P (X̄ > 9.897|µ < 10) =
9.897 − µ
= P Z> µ < 10 = β(µ),
0.0625
σ
donde hemos utilizado que X̄ ∼ N µ, n ≡ N (µ, 0.0625).
√
La probabilidad de error tipo II es función de µ (ver gráfica), variará según el valor de µ < 10
para el que la obtengamos. Por ejemplo:
9.897 − 9.9
µ = 9.9 −→ P (Error tipo II) = P Z > = P (Z > −0.05) = 0.51994
0.0625
9.897 − 9.8
µ = 9.8 −→ P (Error tipo II) = P Z > = P (Z > 1.55) = 0.06057
0.0625
98
De forma análoga, utilizando el criterio de rechazo obtenido para α = 0.10, se obtiene que:
9.920 − µ
P (Error tipo II) = P (X̄ > 9.920|µ < 10) = P Z > µ < 10
0.0625
y, en los dos casos considerados antes, resulta ser:
µ = 9.9 −→ P (Error tipo II) = P (Z > 0.32) = 0.37448
µ = 9.8 −→ P (Error tipo II) = P (Z > 1.92) = 0.02743
La probabilidad es menor en ambos casos que las correspondientes obtenidas para α = 0.05
(ver gráfica). Esto ocurre porque, como ya comentamos anteriormente, para un tamaño muestral
fijo: al aumentar la probabilidad de error tipo I (α) disminuye la de error tipo II.
Entonces:
Con nivel de significación α = 0.05, se verifica que p-valor > 0.05 y la decisión es aceptar H0 .
99
Con nivel α = 0.10, se verifica que p-valor < 0.10 y la decisión es rechazar H0 .
Observaciones. 1) En todos los contrastes unilaterales que veremos a partir de ahora, la hipótesis
nula puede ser también la de igualdad.
2) La afirmación que contiene la igualdad debe ir siempre en la hipótesis nula H0 .
H0 : µ 6 µ0 H0 : µ > µ0 H0 : µ = µ0
H1 : µ > µ0 H1 : µ < µ0 H1 : µ 6= µ0
σ conocida
√ √ √
n(X̄ − µ0 ) n(X̄ − µ0 ) n(X̄ − µ0 )
Rechazar H0 si > z1−α < −z1−α > z1−α/2
σ σ σ
p-valor ˆ
P (Z > d) ˆ
P (Z 6 d) ˆ
2P (Z > |d|)
σ desconocida
√ √ √
n(X̄ − µ0 ) n(X̄ − µ0 ) n(X̄ − µ0 )
Rechazar H0 si > tn−1,1−α < −tn−1,1−α > tn−1,1−α/2
S S S
p-valor ˆ
P (tn−1 > d) ˆ
P (tn−1 6 d) ˆ
2P (tn−1 > |d|)
100
Ejemplos. 1) El encargado de una fábrica ha determinado que el tiempo medio que se tarda en
montar un determinado tipo de piezas no debe superar los 80 minutos. Sin embargo, sospecha que
no se está cumpliendo su especificación. Para comprobarlo, anotó el tiempo en minutos empleado
en montar cada una de 31 piezas, resultando un tiempo promedio de 81.5 minutos. Suponiendo que
el tiempo de montaje tiene distribución Normal con desviación tı́pica conocida igual a 20 minutos,
¿qué se puede concluir a nivel α = 0.05?
√
n(X̄ − µ0 )
Rechazar H0 si > z1−α .
σ
Calculamos el valor del estadı́stico de contraste:
√ √
n(X̄ − µ0 ) 31(81.5 − 80)
D= = = 0.4176
σ 20
Por otra parte, z1−α = z0.95 = 1.645 y por lo tanto se acepta H0 . En consecuencia, la sospecha
del encargado no se encuentra apoyada por los datos.
Podemos observar que: aunque el tiempo medio de montaje en la muestra sı́ es mayor que el
especificado, no se rechaza la hipótesis nula, dado que la evidencia muestral en contra de H0 no se
considera lo suficientemente fuerte.
2) El peso del contenido de las cajas de cereales para el desayuno producidas en determinado
proceso de llenado sigue una distribución Normal. Una muestra de 10 cajas de cereales selec-
cionadas de este proceso da lugar a los siguientes pesos en gramos: 498, 504, 500, 502, 510, 512,
490, 496, 506 y 502.
¿Se puede aceptar, a nivel α = 0.05, que la media del peso de las cajas de cereales es de 500
gramos?
Sea X=“Peso del contenido en gramos de una caja de cereales”∼ N (µ, σ).
101
frente a la hipótesis alternativa
H1 : µ 6= 500
siendo σ desconocida. El criterio de rechazo es:
√
n(X̄ − µ0 )
Rechazar H0 si |D| = > tn−1,1−α/2 .
S
10
X 10
X
A partir de la muestra se obtiene que Xi = 5020 y Xi2 = 2520424, por lo que:
i=1 i=1
10 10
1 X 1 X 2
X̄ = Xi = 502 y Sn2 = X − X̄ 2 = 252042.4 − 5022 = 38.4.
10 i=1 10 i=1 i
Entonces:
√
n 10 10(502 − 500)
S2 = Sn2 = × 38.4 = 42.667 =⇒ S = 6.532 =⇒ |D| = = 0.968.
n−1 9 6.532
Por otra parte, tn−1,1−α/2 = t9,0.975 = 2.262 y por lo tanto se acepta H0 ; es decir, aceptamos que
el peso medio del contenido de las cajas es de 500 gramos.
Utilizando la tabla no podemos calcular exactamente su valor; sólo podemos concluir que es-
tará entre 0.20 y 0.40. En todo caso, aceptarı́amos H0 a cualquiera de los niveles α utilizados
habitualmente.
102
Este estadı́stico D tiene una distribución aproximadamente N (0, 1) para muestras grandes, por
lo que los criterios de rechazo especificados en la tabla siguiente sólo pueden aplicarse cuando el
tamaño muestral n sea mayor que 30.
p̂ − p0 p̂ − p0 p̂ − p0
Rechazar H0 si q > z1−α q < −z1−α q > z1−α/2
p0 (1−p0 ) p0 (1−p0 ) p0 (1−p0 )
n n n
p-valor ˆ
P (Z > d) ˆ
P (Z 6 d) ˆ
2P (Z > |d|)
p̂ − p0
Rechazar H0 si q > z1−α/2 ,
p0 (1−p0 )
n
17
donde p̂ = 50
= 0.34, p0 = 0.50 y z1−α/2 = z0.95 = 1.645.
p̂ − p0 0.34 − 0.50
Sustituyendo, se obtiene que q = q = 2.263 y por lo tanto se rechaza H0
p0 (1−p0 ) 0.5(1−0.5)
n 50
y no podemos aceptar que la moneda sea correcta.
103