0% encontró este documento útil (0 votos)
26 vistas40 páginas

Introducción a la Inferencia Estadística

La Inferencia Estadística utiliza un razonamiento inductivo para inferir propiedades de una población a partir de una muestra. Se clasifica en inferencia paramétrica, que asume una distribución conocida, y no paramétrica, que no hace suposiciones sobre la distribución. Los métodos de inferencia paramétrica incluyen estimación puntual, intervalos de confianza y contrastes de hipótesis, siendo crucial la selección adecuada de la muestra para obtener conclusiones válidas.

Cargado por

Alx
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
26 vistas40 páginas

Introducción a la Inferencia Estadística

La Inferencia Estadística utiliza un razonamiento inductivo para inferir propiedades de una población a partir de una muestra. Se clasifica en inferencia paramétrica, que asume una distribución conocida, y no paramétrica, que no hace suposiciones sobre la distribución. Los métodos de inferencia paramétrica incluyen estimación puntual, intervalos de confianza y contrastes de hipótesis, siendo crucial la selección adecuada de la muestra para obtener conclusiones válidas.

Cargado por

Alx
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

PARTE III: Inferencia Estadı́stica

ˆ Tema 5: Introducción a la Inferencia Estadı́stica

ˆ Tema 6: Estimación puntual

ˆ Tema 7: Intervalos de confianza

ˆ Tema 8: Contrastes de hipótesis


TEMA 5: Introducción a la Inferencia Estadı́stica

Al estudiar los distintos modelos de probabilidad que puede seguir una variable aleatoria, hemos
comprobado que en Teorı́a de la Probabilidad se utiliza un tipo de razonamiento deductivo: fijado
el modelo probabilı́stico, se trata de deducir las probabilidades de sus valores y otras propiedades
de la distribución.
La Inferencia Estadı́stica sigue el esquema inverso, un razonamiento inductivo, para que dado
un conjunto de valores observados de una variable podamos inferir el modelo probabilı́stico que ha
generado esos datos.
Básicamente, la Inferencia Estadı́stica consiste en estudiar (o inferir) propiedades de una po-
blación a partir de la información proporcionada por una muestra de la misma. Recordemos que:

ˆ Población es el conjunto de elementos en los que se estudian una o varias caracterı́sticas.


ˆ Muestra es un subconjunto de elementos de la población.
ˆ Tamaño muestral es el número de elementos de la muestra.

Clasificación de los métodos de Inferencia Estadı́stica


Los procedimientos utilizados en los diferentes tipos de análisis realizados en la Inferencia Es-
tadı́stica pueden clasificarse en:

ˆ Inferencia paramétrica: Se supone que los datos proceden de una distribución conocida
(Normal, Poisson,...) con parámetros desconocidos. El objetivo es la estimación de estos
coeficientes, para lo cual se utilizan técnicas de:
– Estimación puntual: aproximar el valor desconocido del parámetro mediante un valor
individual obtenido a partir de la muestra.
– Intervalos de confianza: calcular un intervalo que contendrá al valor del parámetro
con una probabilidad alta.
– Contrastes de hipótesis: juzgar si podemos aceptar como cierta una afirmación sobre
el valor del parámetro.

ˆ Inferencia no paramétrica: En el contexto de la inferencia no paramétrica la distribución


poblacional es totalmente desconocida y el objetivo es estimar esta distribución o alguna de
sus caracterı́sticas realizando únicamente suposiciones de carácter muy general (continuidad,
simetrı́a,...).
En general, los métodos no paramétricos suelen utilizarse para juzgar si las hipótesis realizadas
en el enfoque paramétrico son o no admisibles teniendo en cuenta la información muestral.

Nos dedicaremos únicamente a estudiar métodos de inferencia paramétrica, en los que utilizare-
mos además los siguientes conceptos:

65
ˆ Parámetro: coeficiente numérico que caracteriza total o parcialmente a una distribución
y la identifica como un caso particular de la familia de distribuciones a la que pertenece.
Representaremos por θ el parámetro o vector de parámetros desconocidos de una distribución
de probabilidad.

ˆ Espacio paramétrico: Conjunto de posibles valores del parámetro, denotado por Θ.

Ejemplos:
1) Si X ∼ P (λ) con λ desconocido, entonces θ = λ y Θ = IR+ .
2) Si X ∼ N (µ, σ) con µ y σ desconocidos, entonces θ = (µ, σ) y Θ = IR × IR+ .

Selección de la muestra
Es muy importante la adecuada selección de la muestra para que la información que suministra
pueda ser utilizada con éxito a la hora de extraer conclusiones sobre la población.
Para obtener la muestra pueden utilizarse distintos procedimientos o métodos de muestreo,
entre los que destaca el muestreo aleatorio simple. El principal objetivo de estos procedimientos
es seleccionar una muestra que sea representativa de la población de la que se ha extraı́do.

Muestro aleatorio simple. Se caracteriza porque:

ˆ Cada elemento de la población tiene la misma probabilidad de ser elegido.


ˆ Las observaciones se realizan con reemplazamiento, de manera que la población es la misma
en todas las extracciones.

Distribución de una muestra aleatoria simple. Sea X la variable aleatoria en estudio en


la población, de la cual se han obtenido n observaciones mediante muestreo aleatorio simple.
Desde el punto de vista teórico (probabilı́stico), esta muestra aleatoria simple (m.a.s.) debe
considerarse como:

n variables aleatorias X1 , X2 ,..., Xn independientes e idénticamente distribuidas (i.i.d.)


con la misma distribución que X.

A cada valor particular observado (x1 , x2 , ..., xn ) ∈ IRn para las variables X1 , X2 ,..., Xn se le
denomina realización de la muestra.

Observación. Si la población tiene N individuos, el nº total de muestras diferentes de tamaño


n que pueden obtenerse mediante muestreo aleatorio simple es:
 
r N +n−1
CN,n =
n

66
Estadı́sticos
Llamaremos estadı́stico a cualquier variable aleatoria que sea función de la muestra, y lo
denotaremos por T = T (X1 , X2 , ..., Xn ). Por ejemplo:
n
1X
1) T (X1 , X2 , ..., Xn ) = Xi = X̄, es la media aritmética de la muestra o media muestral.
n i=1
n
1X
2) T (X1 , X2 , ..., Xn ) = (Xi − X̄)2 = Sn2 , es la varianza de los valores muestrales o varianza
n i=1
muestral.
3) T (X1 , X2 , ..., Xn ) = min(X1 , X2 , ..., Xn ) representa el menor de los valores muestrales, ası́
como T (X1 , X2 , ..., Xn ) = max(X1 , X2 , ..., Xn ) es el mayor.

Aplicaciones. Algunas de las principales utilidades de los estadı́sticos son:

ˆ Estimación de los parámetros desconocidos de una distribución (por ejemplo, la media mues-
tral se usa para aproximar el valor de la media poblacional).
En este caso el estadı́stico debe tomar valores en el espacio paramétrico y no depender de
cantidades desconocidas, recibiendo entonces el nombre de estimador.

ˆ Construcción de intervalos de confianza: se basan en un estadı́stico pivote.

ˆ Resolución de contrastes de hipótesis: se utiliza un estadı́stico de contraste.

Distribución de un estadı́stico. Un estadı́stico es una variable aleatoria, cuyos valores


varı́an de muestra en muestra, y como tal tiene su propia distribución. Esta se denomina dis-
tribución en el muestreo y depende de la distribución de la población base y del tamaño
muestral.
En ocasiones la distribución de un estadı́stico puede calcularse de forma exacta, pero en muchos
casos hay que recurrir a aproximaciones, bien en la práctica utilizando simulaciones artificiales en
un ordenador, bien de forma teórica mediante resultados como el Teorema Central del Lı́mite.

Ejemplo. Sea X una variable aleatoria con distribución Bernoulli de parámetro p desconocido.

Como p = E(X) es la media poblacional, podemos utilizar la media muestral X̄ como estimador
de p.
Vamos a obtener la distribución del estadı́stico media muestral para m.a.s. de tamaños 2, 3 y
50.

a) En el caso n = 2, la m.a.s. (X1 , X2 ) estarı́a constituida por dos variables aleatorias X1 y


X2 independientes con la misma distribución que X ∼ Be(p). Entonces, cada una de ellas toma
valores 0 y 1 con probabilidades: P (X = 0) = 1 − p y P (X = 1) = p.
De esta manera, los posibles valores de (X1 , X2 ) son: (0, 0), (0, 1), (1, 0) y (1, 1).

67
En cuanto a la probabilidad de cada una de estas realizaciones de la muestra, tenemos que, por
ejemplo:
indep. i.d.
P (X1 = 1, X2 = 0) = P (X1 = 1)P (X2 = 0) = P (X = 1)P (X = 0) = p(1 − p),
donde en la primera igualdad hemos utilizado la independencia de las variables y en la segunda
igualdad el hecho de que las variables X1 y X2 tienen la misma distribución que la variable
poblacional X.

X1 + X2
Los posibles valores de X̄ = son: 0 (para la muestra (0, 0)), 1/2 (para las muestras
2
(0, 1) y (1, 0)) y 1 (para la muestra (1, 1)).

La probabilidad de que la media muestral tome, por ejemplo, el valor 1/2 es:
 
1
P X̄ = = P (X1 = 1, X2 = 0) + P (X1 = 0, X2 = 1) = 2p(1 − p).
2

En las siguientes tablas aparecen todas las posibles realizaciones de (X1 , X2 ) y sus probabilidades
X 1 + X2
(a la izquierda), y todos los posibles valores de X̄ = y sus probabilidades (a la derecha) :
2

(x1 , x2 ) P (X1 = x1 , X2 = x2 )
x̄ P (X̄ = x̄)
(0,0) (1 − p)2
0 (1 − p)2
(1,0) p(1 − p)
1/2 2p(1 − p)
(0,1) p(1 − p)
1 p2
(1,1) p2

Entonces: X̄ es una variable discreta que toma valores 0, 1/2 y 1 con probabilidades (1 − p)2 ,
2p(1 − p) y p2 , respectivamente.

X1 + X 2 + X3
b) Para n = 3 tendremos muestras (X1 , X2 , X3 ) con media muestral X̄ = . De
3
forma análoga al caso anterior se obtiene:

(x1 , x2 , x3 ) P (X1 = x1 , X2 = x2 , X3 = x3 )
(0,0,0) (1 − p)3
(0,0,1) p(1 − p)2 x̄ P (X̄ = x̄)
(0,1,0) p(1 − p)2 0 (1 − p)3
(1,0,0) p(1 − p)2 1/3 3p(1 − p)2
(1,1,0) p2 (1 − p) 2/3 3p2 (1 − p)
(1,0,1) p2 (1 − p) 1 p3
(0,1,1) p2 (1 − p)
(1,1,1) p3

En este caso: X̄ es una variable discreta que toma valores 0, 1/3, 2/3 y 1 con probabilidades
(1 − p)3 , 3p(1 − p)2 , 3p2 (1 − p) y p3 , respectivamente.

68
Observamos como la distribución del estadı́stico media muestral es diferente (distintos valores
y probabilidades) para n = 2 y n = 3. Obviamente, también resultarı́a una distribución diferente
al cambiar la distribución poblacional de X.

50
1 X
c) En el caso n = 50 también se puede obtener la distribución exacta de X̄ = Xi de la
50 i=1
forma anterior.

Sin embargo, es más sencillo tener en cuenta lo siguiente:


Dado que Xi ∼ Be(p) ≡ B(1, p), i = 1, 2, ..., 50, son variables independientes, aplicando la
propiedad de reproductividad de la distribución binomial con parámetro p fijo, se obtiene que
X50
Y = Xi ∼ B(50, p).
i=1

Y 1 2 49
Entonces X̄ = toma valores 0, , , ..., y 1, con probabilidades:
50 50 50 50
   
k 50
P X̄ = = P (Y = k) = pk (1 − p)50−k , para k = 0, 1, ..., 50.
50 k

Por otra parte, podemos también obtener una distribución aproximada de X̄ utilizando el TCL:

Xi i.i.d.   r !
 σ p(1 − p)
µ = p, σ 2 = p(1 − p) ⇒ X̄ ≈ N µ, √ ≡ N p,
n > 30  n 50

Caracterı́sticas muestrales
Son estadı́sticos especialmente relevantes que están relacionados con las medidas caracterı́sticas
(de posición, de dispersión,...) de la variable. Nos interesan en particular la media y la varianza
muestral, que ya conocemos, y la proporción muestral.
n
1X
a) Media muestral. Es la media de los valores muestrales: X̄ = Xi y se utiliza para
n i=1
hacer inferencia sobre la media de la población (µ).
Como cualquier estadı́stico, la media muestral es una variable aleatoria y podemos obtener
algunas de sus caracterı́sticas. Por ejemplo:

n
! n
1X lineal. 1X i.d. 1 1
E(X̄) = E Xi = E(Xi ) = nE(X) = nµ = µ,
n i=1 n i=1 n n

69
donde en la segunda igualdad hemos utilizado las propiedades de linealidad de la esperanza
matemática, y en la tercera igualdad el hecho de que las variables Xi tienen la misma distribución
que la variable poblacional X.
Hemos obtenido que el valor esperado de la media muestral es la media poblacional (el parámetro
que pretende estimar). Esta será una de las propiedades que, como veremos en el tema siguiente,
son deseables para cualquier estadı́stico que se utilice como estimador de un parámetro.

b) Varianza y cuasivarianza muestrales. La varianza muestral de las observaciones es:


n n
1X 1X 2
Sn2 = (Xi − X̄)2 = X − X̄ 2
n i=1 n i=1 i

y se utiliza para hacer inferencia sobre la varianza (σ 2 ) de la población.

También se utiliza la cuasivarianza muestral:


n
2 1 X n
S = (Xi − X̄)2 = Sn2 .
n − 1 i=1 n−1

c) Proporción muestral. Supongamos que se desea estimar la proporción p de individuos de


la población que poseen cierta caracterı́stica.
Para ello seleccionamos una m.a.s. de tamaño n de esa población y anotamos para cada indi-
viduo un 1 si posee la caracterı́stica y un 0 si no la posee.
De esta forma obtenemos n observaciones (X1 , ..., Xn ) de una variable X con distribución
Bernoulli de parámetro p.

Para estimar p utilizaremos la proporción de elementos de la muestra que poseen la carac-


terı́stica, denominada proporción muestral, que se define como: no¯ de individuos en la muestra
con la caracterı́stica entre no¯ total de individuos en la muestra. Su expresión viene dada por:
X1 + X2 + · · · + Xn
p̂ = = X̄,
n
siendo entonces un caso particular de media muestral.

Ası́, por ejemplo se verifica que E(p̂) = E(X̄) = E(X) = p, por ser X ∼ Be(p).

Ejemplo
Supongamos que estamos interesados en conocer la altura media µ de la población de estudiantes
de un grupo de primer curso, ası́ como la proporción p de mujeres en el grupo.

Supongamos además que no podemos estudiar toda la población y seleccionamos una muestra
de estudiantes utilizando un muestreo aleatorio simple de tamaño n.

70
Con estos datos haremos inferencia sobre los parámetros desconocidos µ y p, obteniendo una
estimación de los mismos mediante los estadı́sticos media muestral y proporción muestral, respec-
tivamente. La situación se resume en la siguiente tabla:

Estimación de la media Estimación de la proporción


Población Alumnado del grupo Alumnado del grupo
Variable X= “Altura en cm” X ∼ Be(p)
Parámetro µ = E(X) p
n
1 X Nº de mujeres en la muestra
Estimador X̄ = Xi p̂ =
n i=1 n

Aunque la población es desconocida para nosotros, supongamos que la realidad (no observable)
fuera la siguiente: 72 alumnos/as, numerados de 1 a 72, con su sexo y altura correspondientes, tal
y como aparecen a continuación.

Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura


1 H 172 19 M 167 37 H 182 55 H 180
2 H 180 20 H 175 38 H 189 56 H 175
3 H 185 21 H 176 39 H 176 57 H 187
4 H 181 22 H 168 40 H 184 58 H 176
5 M 163 23 H 188 41 H 191 59 H 180
6 H 180 24 M 165 42 H 174 60 H 181
7 H 186 25 H 172 43 H 169 61 H 178
8 H 175 26 H 170 44 H 174 62 M 161
9 H 180 27 H 176 45 H 171 63 M 174
10 H 177 28 H 170 46 H 183 64 H 173
11 H 180 29 H 185 47 H 181 65 H 176
12 M 157 30 H 182 48 H 165 66 H 175
13 H 180 31 H 173 49 H 178 67 H 182
14 M 159 32 M 170 50 M 175 68 H 190
15 H 176 33 M 163 51 H 173 69 H 184
16 H 178 34 H 180 52 M 168 70 H 182
17 M 170 35 H 185 53 H 174 71 H 173
18 H 180 36 H 175 54 H 176 72 M 172

Sólo en esta situación (estudiando todos los individuos de la población) podrı́amos obtener
la altura media de la población y la proporción de mujeres en la población, que resultan ser:
µ = 176.125 cm y p = 13 72
= 0.1806.

Olvidemos ahora la información anterior, salvo el hecho de que el tamaño de la población es


N = 72, y estimemos los parámetros a partir de la información proporcionada por una muestra.

Utilizando un muestreo aleatorio simple seleccionamos (aleatoriamente y con reemplazamiento)


20 números entre 1 y 72 resultando la siguiente muestra de tamaño 20:

71
Muestra 1
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
16 H 178 57 H 187 17 M 170 8 H 175
50 M 175 39 H 176 15 H 176 28 H 170
8 H 175 3 H 185 53 H 174 19 M 167
64 H 173 16 H 178 32 M 170 58 H 176
54 H 176 43 H 169 42 H 174 35 H 185

A partir de estos datos (observados) se obtiene:


x̄ = 175.45 cm y p̂ = 0.20,
es decir, la altura media estimada es de 175.45 cm y la proporción estimada de mujeres es del 20%.

Si elegimos una muestra diferente, las estimaciones pueden variar:

Muestra 2
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
21 H 176 40 H 184 50 M 175 60 H 181
60 H 181 31 H 173 34 H 180 4 H 181
33 M 163 9 H 180 35 H 185 20 H 175
56 H 175 21 H 176 68 H 190 45 H 171
14 M 159 3 H 185 43 H 169 40 H 184

Ahora: x̄ = 177.15 cm y p̂ = 0.15.

Y también podrı́amos obtener estimaciones diferentes para una tercera muestra:

Muestra 3
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
46 H 183 53 H 174 72 M 172 51 H 173
30 H 182 28 H 170 1 H 172 15 H 176
60 H 181 64 H 173 22 H 168 60 H 181
46 H 183 62 M 161 1 H 172 60 H 181
44 H 174 29 H 185 47 H 181 46 H 183

En este caso: x̄ = 176.25 cm y p̂ = 0.10.


La media muestral y la proporción muestral son variables aleatorias cuyos valores varı́an en las
diferentes muestras, que son en total
   
r 72 + 20 − 1 91
C72,20 = = = 6.534 × 1019 muestras.
20 20

Como comprobamos anteriormente en el tema, el valor esperado (media) de estos dos es-
tadı́sticos coincide con el parámetro que están estimando. Es decir, en nuestro ejemplo:
E(X̄) = µ = 176.125 y E(p̂) = p = 0.1806

72
Además, podrı́amos obtener la distribución en el muestreo de p̂, que es una variable aleatoria
k
discreta con valores , con k = 0, 1, 2, ..., 20. De hecho, al igual que vimos en el apartado c) del
20
ejemplo anterior:
Y
p̂ = , siendo Y = “Nº de mujeres en la muestra” ∼ B(20, p),
20
donde p es la proporción poblacional, en principio una cantidad desconocida. Entonces:

   
k 20
P p̂ = = P (Y = k) = pk (1 − p)n−k , para k = 0, 1, ..., 20
20 k

Si consideramos que en nuestro caso p vale 0.1806, como calculamos antes para nuestra supuesta
población, podrı́amos obtener la función de probabilidad de p̂, que serı́a:

Valores de p̂ 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40


Probabilidades 0.0186 0.0821 0.1718 0.2272 0.2129 0.1501 0.0827 0.0365 0.0131
Valores de p̂ 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 ···
Probabilidades 0.0038 0.0009 0.0002 Las demás probabilidades son prácticamente cero

Distribuciones asociadas al muestreo de poblaciones nor-


males
Como ya hemos comentado, centraremos nuestro estudio en los métodos de inferencia paramé-
trica, en los que se supone que la distribución de la variable es conocida salvo por algunos de sus
parámetros.
En muchas de las situaciones se supone que tal distribución es la distribución Normal y en este
contexto, los estadı́sticos utilizados suelen tener ciertas distribuciones especiales. Algunas de las
más utilizadas, además de la propia Normal, son las que definimos a continuación.

Distribución χ2 de Pearson. Sean X1 , X2 ,..., Xn variables aleatorias i.i.d. con distribución


N (0, 1). Se define la distribución χ2 con n grados de libertad (χ2n ) como la que sigue la variable
aleatoria X12 + X22 + · · · + Xn2 .
Algunas propiedades de esta distribución son: E(χ2n ) = n y Var(χ2n ) = 2n.

Distribución t de Student. Sean X ∼ N (0, 1) e Y ∼ χ2n independientes. Se define la distribución


X
t con n grados de libertad (tn ) como la que sigue la variable aleatoria q . Algunas propiedades
Y
n
de esta distribución son:
n
1. E(tn ) = 0 si n > 1 y Var(tn ) = n−2
si n > 2.
2. Es simétrica, aunque con mayor dispersión que la N (0, 1).
n→∞
3. tn −→ N (0, 1) y son prácticamente idénticas para n > 100.

73
TEMA 6: Estimación puntual

Supongamos que se observa una m.a.s. X1 , X2 , ..., Xn de una variable aleatoria X con dis-
tribución Fθ conocida excepto por el valor del parámetro (o vector de parámetros) θ.
El problema que estudiaremos es la estimación de estos parámetros desconocidos a partir de los
datos muestrales utilizando alguno de los posibles estimadores de θ.

Recordemos que un estimador es un estadı́stico T = T (X1 , X2 , ..., Xn ) que toma valores en el


espacio paramétrico (conjunto de posibles valores del parámetro, denotado por Θ) y no depende
de cantidades desconocidas.
Cuando un estadı́stico se utilice como estimador del parámetro θ lo denotaremos también por
θ̂ = θ̂(X1 , X2 , ..., Xn ). Cada realización (x1 , x2 , ..., xn ) de la muestra da lugar a un valor diferente
del estimador, θ̂(x1 , x2 , ..., xn ), que llamaremos estimación de θ.

Veremos a continuación propiedades deseables que debe verificar un estimador y estudiaremos


con detalle estas propiedades para las caracterı́sticas muestrales destacadas en el tema anterior:
media muestral, varianza muestral y proporción muestral.

Error cuadrático medio


¿Cuál es el mejor estimador para aproximar el valor desconocido del parámetro?
En principio podrı́a pensarse que el estimador óptimo será aquel cuyo valor se acerque más al
verdadero valor del parámetro. Pero un estimador no toma un único valor, un estimador es una
v.a. que toma un valor diferente para cada realización de la muestra, no pudiendo predecirse qué
estimación se obtendrá en cada caso particular.

Interesa entonces que todos los posibles valores del estimador estén lo más cerca posible del
verdadero valor de θ; es decir, un estimador será mejor cuanto más agrupados estén sus posibles
valores (y por tanto su distribución de probabilidad) en torno al verdadero valor del parámetro.
Una formalización matemática de esta idea nos la proporciona la siguiente definición.

Definición. Sea θ̂ un estimador del parámetro desconocido θ. Se define el error cuadrático


medio de θ̂ como:    2
2
ECM(θ̂) = E (θ̂ − θ) = Var(θ̂) + E(θ̂) − θ .

Vemos entonces que el error cuadrático medio de un estimador será menor cuanto menores sean
su varianza (que como sabemos mide la dispersión en torno a la media) y la diferencia entre su
media y el verdadero valor de θ.

Esta última diferencia recibe el nombre de Sesgo, es decir: Sesgo(θ̂) = E(θ̂) − θ, con lo cual:
 2
ECM(θ̂) = Var(θ̂) + Sesgo(θ̂) .

74
Un estimador será mejor cuanto menor sea su error cuadrático medio. En concreto, si θ̂1 y θ̂2
son dos estimadores de θ, se dice que θ̂1 es más preciso que θ̂2 si ECM(θ̂1 ) < ECM(θ̂2 ).

Observación. En muchas ocasiones el ECM de


un estimador depende del valor del parámetro des-
conocido θ. Puede ocurrir entonces que, al com-
parar dos estimadores de ese parámetro, el ECM
del primer estimador sea menor que el del segundo
para algunos valores del parámetro y sea mayor
para otros. En la gráfica se puede ver un ejemplo
de esta situación.

Propiedades de los estimadores

Definición. Sea θ̂ un estimador del parámetro desconocido θ. Se dice que θ̂ es un estimador


insesgado para θ si

E(θ̂) = θ o equivalentemente Sesgo(θ̂) = 0.

Denotemos ahora el estimador por θ̂n para indicar su dependencia del tamaño muestral n.

Definición. Se dice que θ̂n es un estimador asintóticamente insesgado para θ si

lim E(θ̂n ) = θ o equivalentemente lim Sesgo(θ̂n ) = 0.


n→∞ n→∞

Observación. Evidentemente, si un estimador es insesgado entonces es asintóticamente inses-


gado.

Para un estimador θ̂ insesgado se verifica que ECM(θ̂) = Var(θ̂) y, en consecuencia, el mejor


estimador insesgado será el de menor varianza. Esto nos lleva a la siguiente definición.
Definición. Sean θ̂1 y θ̂2 dos estimadores insesgados de θ. Diremos que θ̂1 es más eficiente que
θ̂2 si: Var(θ̂1 ) < Var(θ̂2 ).

Una propiedad que debe verificar un buen estimador es que mejore al aumentar el tamaño de la
muestra, ya que este aumento implica una mayor información sobre la población. Intuitivamente,
un estimador consistente es aquel cuyos valores se aproximan más al verdadero valor del parámetro
a medida que se incrementa el tamaño muestral.
La formalización matemática de este concepto aparece en la siguiente definición.

75
Definición. Un estimador θ̂n del parámetro θ es consistente si:
lim ECM(θ̂n ) = 0
n→∞

La siguiente propiedad nos da una condición suficiente para que un estimador sea consistente:

Propiedad. Si θ̂n es un estimador asintóticamente insesgado y lim Var(θ̂n ) = 0, entonces θ̂n es


n→∞
un estimador consistente.

Ejemplo 1. Sea X una variable aleatoria discreta con función de probabilidad: P (X = 1) = θ,


P (X = 2) = θ + 12 y P (X = 4) = 12 − 2θ, con 0 6 θ 6 14 .

Demuestra que θ̂ = 51 (3− X̄) es un estimador insesgado de θ. Además, utilizando este estimador
y la muestra {1, 4, 4, 2, 1, 2, 4, 4, 2, 4}, obtén una estimación de θ.

a) Para demostrar que es insesgado tenemos que comprobar que E(θ̂) = θ. Vamos a calcular
previamente la media de X, ya que utilizaremos la propiedad ya demostrada de que E(X̄) = µ:
   
1 1
µ = E(X) = θ + 2 θ + +4 − 2θ = θ + 2θ + 1 + 2 − 8θ = 3 − 5θ.
2 2
Entonces:
 
1 1 1  1
E(θ̂) = E (3 − X̄) = · E(3 − X̄) = · 3 − E(X̄) = (3 − (3 − 5θ)) = θ
5 5 5 5

1
b) Para la muestra dada, se obtiene que x̄ = 2.8 y θ̂ = (3 − 2.8) = 0.04.
5
Observación. Podemos utilizar esta estimación de θ para estimar también las probabilidades
de los valores de la variable, resultando: P̂ (X = 1) = θ̂ = 0.04, P̂ (X = 2) = θ̂ + 21 = 0.54 y
P̂ (X = 4) = 12 − 2θ̂ = 0.42.

θ2
Ejemplo 2. Sean θ̂1 y θ̂2 estimadores de un parámetro θ tales que E(θ̂1 ) = θ, Var(θ̂1 ) = ,
n
n+1 θ2
E(θ̂2 ) = θ y Var(θ̂2 ) = .
n 2n
Vamos a demostrar que son estimadores consistentes y a determinar cuál de los dos es un
estimador más preciso de θ.

a) Para demostrar que son consistentes vamos a comprobar que lim ECM(θ̂) = 0
n→∞
 θ2
2
ECM(θ̂1 ) = Var(θ̂1 ) + E(θ̂1 ) − θ =
=⇒ lim ECM(θ̂1 ) = 0 =⇒ θ̂1 es consistente.
n n→∞

2
θ2 θ2 θ2 (n + 2)θ2

 2 n+1
ECM(θ̂2 ) = Var(θ̂2 ) + E(θ̂2 ) − θ = + θ−θ = + 2 = =⇒
2n n 2n n 2n2

76
lim ECM(θ̂2 ) = 0 =⇒ θ̂2 es consistente.
n→∞

b) Es más preciso, y por lo tanto mejor estimador, el de menor error cuadrático medio:

(n + 2)θ2 θ2
ECM(θ̂2 ) < ECM(θ̂1 ) ⇐⇒ < ⇐⇒ n + 2 < 2n ⇐⇒ n > 2.
2n2 n
En consecuencia, θ̂2 es mejor estimador que θ̂1 para n > 2.

Estimación de la media poblacional: la media muestral


n
1X
Como ya hemos comentado, la media muestral: X̄ = Xi = µ̂, se utiliza para hacer
n i=1
inferencia sobre la media de la población µ = E(X).

Propiedades:

1) Ya vimos en el tema anterior que E(X̄) = µ, por lo que la media muestral es un estimador
insesgado de la media poblacional para cualquier población.

2) Estudiemos ahora la consistencia calculando previamente su varianza:

n
! n
1X indep. 1 X i.d. 1 1 2 σ2
Var(X̄) = Var Xi = Var(X i ) = nVar(X) = nσ = .
n i=1 n2 i=1 n2 n2 n

Entonces su error cuadrático medio es:


σ2 2
ECM(X̄) = Var(X̄) + Sesgo(X̄) , =
n
y, en consecuencia, la media muestral es siempre un estimador consistente de la media poblacional
porque: limn→∞ ECM(X̄) = 0.

Distribución de la media muestral:

La distribución de la media muestral, como la de cualquier estadı́stico, depende de la dis-


tribución de la variable poblacional X. Vamos a considerar las dos situaciones siguientes:

a) Sea (X1 , X2 , ..., Xn ) una m.a.s. de una variable aleatoria X ∼ N (µ, σ).
n
1X
Como X̄ = Xi es una combinación lineal de v.a. normales independientes, su distribución
n i=1
será también normal con parámetros (media y desviación tı́pica) ya obtenidos anteriormente:

77
r
σ2 σ
E(X̄) = µ y DT(X̄) = = √ . En consecuencia:
n n
 
σ
X̄ ∼ N µ, √
n

b) Sea (X1 , X2 , ..., Xn ) una m.a.s. de una variable aleatoria X con cualquier distribución de
media µ y varianza σ 2 .
En esta situación, si la muestra es grande (n > 30) podemos aplicar el T.C.L. para obtener:
 
n>30 σ
X̄ ≈ N µ, √ .
n

Ejemplo. En una planta de envasado de café, una máquina se encarga de llenar paquetes
con una cantidad de 250 gramos. Se sabe que la cantidad de café en gramos depositada en cada
paquete es una v.a. X ∼ N (250, 10). Para verificar que el proceso funciona correctamente se
toman periódicamente m.a.s. de 25 envases y se pesa su contenido. El gerente de la planta ha
decidido detener el proceso si el peso promedio de la muestra es mayor de 255 gramos o menor de
245.

a) Calcula la probabilidad de detener el proceso.

Sea X =“ Cantidad de café en gramos depositada en cada paquete” ∼ N (250, 10).


 
10
Entonces X̄ ∼ N 250, 25 ≡ N (250, 2) y la probabilidad de detener el proceso es:

 
245 − 250 X̄ − 250 255 − 250
1 − P (245 6 X̄ 6 255) = 1 − P 6 6 =
2 2 2
= 1 − P (−2.5 6 Z 6 2.5) = 1 − (2F (2.5) − 1) = 2(1 − F (2.5)) = 2 × (1 − 0.99379) = 0.01242

b) ¿Cuál es la probabilidad de que el peso promedio de la muestra diste del peso nominal (250
g) menos de 5 g?

Es la probabilidad complementaria de la anterior:



P |X̄ − 250| < 5 = P (245 < X̄ < 255) = 1 − 0.01242 = 0.98758

c) Halla la probabilidad anterior si el tamaño de la muestra sube a 50 envases.


 
Para n = 50, tenemos que X̄ ∼ N 250, √1050 ≡ N (250, 1.4142). Podemos comprobar como
la desviación tı́pica es ahora menor, por lo que la distribución de la media muestral tiene menos
dispersión y estará más concentrada en torno a su media.

78
En consecuencia, la probabilidad a calcular deberá ser mayor que la obtenida en b). En efecto:
 
245 − 250 X̄ − 250 255 − 250
P (245 < X̄ < 255) = P < < =
1.4142 1.4142 1.4142
= P (−3.54 6 Z 6 3.54) = 2F (3.54) − 1 = 2 × 0.9998 − 1 = 0.9996

Estimación de la varianza poblacional: varianza y cuasi-


varianza muestrales
Un estimador natural de la varianza de la población (σ 2 =Var(X)) es la varianza muestral:
n n
1X 1X 2
Sn2 = (Xi − X̄)2 = X − X̄ 2
n i=1 n i=1 i

Propiedades:

1) Estudiemos si es un estimador insesgado:


n
! n
2 1 X
2 2 lineal. 1
X  i.d. 1
E(Xi2 )−E X̄ 2 = nE(X 2 )−E X̄ 2 = E(X 2 )−E X̄ 2
 
E(Sn ) = E Xi − X̄ =
n i=1 n i=1 n

Sabemos que para toda variable aleatoria X se verifica que Var(X) = E(X 2 ) − E(X)2 y esto
implica que:
σ2
E(X 2 ) = Var(X) + E(X)2 = σ 2 + µ2 y E(X̄ 2 ) = Var(X̄) + E(X̄)2 = + µ2
n
Entonces:
σ2 σ2
 
n−1 2
E(Sn2 ) 2
=σ +µ − 2
+ µ2 = σ2 − = σ
n n n

En consecuencia la varianza muestral no es un estimador insesgado de la varianza poblacional,


aunque sı́ es asintóticamente insesgado porque:
n−1 2
lim E(Sn2 ) = lim σ = σ2.
n→∞ n→∞ n

En cambio, la cuasivarianza muestral sı́ es un estimador insesgado de la varianza poblacional.


En efecto: n
2 1 X n
S = (Xi − X̄)2 = S 2 =⇒ (n − 1)S 2 = nSn2
n − 1 i=1 n−1 n
y esta relación nos permite obtener fácilmente que:
 
2 n 2 n n n−1 2
E(S ) = E Sn = E(Sn2 ) = σ = σ2.
n−1 n−1 n−1 n

79
Observación.
√ Para estimar la desviación tı́pica se utiliza la raı́z de la cuasivarianza muestral:
2
S = + S , denominada cuasidesviación tı́pica muestral.

2) Distribución de la varianza y la cuasivarianza muestrales. Consideramos el caso de población


Normal y utilizamos el siguiente resultado:
Teorema de Fisher. Si (X1 , X2 , ..., Xn ) es una m.a.s. de una variable aleatoria X ∼ N (µ, σ),
entonces:
 
a) X̄ ∼ N µ, √σn .

nSn2 (n − 1)S 2
b) = ∼ χ2n−1 .
σ2 σ2
c) X̄ y S 2 son independientes.

3) En las condiciones anteriores se puede comprobar fácilmente que tanto la varianza como la
cuasivarianza muestrales son estimadores consistentes de la varianza poblacional. Dado que Sn2
es un estimador asintóticamente insesgado y S 2 es insesgado, para demostrar la consistencia de
ambos basta comprobar que su varianza tiende a 0.

nSn2
Teniendo en cuenta que ∼ χ2n−1 y Var(χ2n ) = 2n, resulta que:
σ2
 2
nSn n2 2 2
 2(n − 1)σ 4
=⇒ lim Var(Sn2 ) = 0.

2(n − 1) = Var = Var S n =⇒ Var S n =
σ2 σ4 n2 n→∞

n
En cuanto a la cuasivarianza muestral, dado que S 2 = S 2 , se obtiene que Var (S 2 ) =
n−1 n
2σ 4
, por lo que lim Var(S 2 ) = 0.
n−1 n→∞

Ejemplo. Se ha elegido una m.a.s. de 10 mujeres y otra independiente de 14 hombres, alumnos


de Estadı́stica, anotando el peso en kg de cada uno de ellos:

Peso mujeres: 55, 49, 63, 56, 68, 62, 60, 58, 55, 54
Peso hombres: 70, 73, 64, 85, 80, 66, 74, 82, 73, 87, 90, 60, 65, 81

Da una estimación de la media y de la varianza del peso en cada grupo utilizando estimadores
insesgados. ¿Cuál de las dos muestras presenta mayor dispersión?

Para estimar el peso medio utilizaremos la media muestral y para estimar la varianza del peso
tenemos que utilizar la cuasivarianza muestral.
Sean X = “Peso en kg de mujeres” e Y = “Peso en kg de hombres”. Vamos a obtener:
10 10
1 X 2 1 X 2 10 2
Mujeres −→ X̄ = Xi , SnX = Xi − X̄ 2 2
y SX = S
10 i=1 10 i=1 9 nX

80
14 14
1 X 2 1 X 2 14 2
Hombres −→ Ȳ = Yi , SnY = Y − Ȳ 2 y SY2 = S
14 i=1 14 i=1 i 13 nY

Necesitamos los siguientes cálculos:


10
X 10
X
Xi = 580 Xi2 = 552 + 492 + · · · + 542 = 33904
i=1 i=1

14
X 14
X
Yi = 1050 Yi2 = 702 + 732 + · · · + 812 = 79890
i=1 i=1

A partir de las sumas anteriores, podemos obtener las medias, varianzas y cuasivarianzas mues-
trales:
580 2 33904 10
X̄ = = 58, SnX = − 582 = 26.4 =⇒ SX
2
= × 26.4 = 29.3333
10 10 9

1050 2 79890 14
Ȳ = = 75, SnY = − 752 = 81.42857 =⇒ SY2 = × 81.42857 = 87.6923
14 14 13

Entonces:

ˆ Mujeres −→ Peso medio estimado: 58 kg; Estimación de la varianza del peso: 29.3333 kg2
ˆ Hombres −→ Peso medio estimado: 75 kg; Estimación de la varianza del peso: 87.6923 kg2
ˆ SnX
2 2
< SnY −→ Presenta mayor dispersión o variabilidad la muestra del peso de los hombres

Estimación de una proporción: proporción muestral


Recordemos que la proporción muestral se utiliza para estimar la proporción p de individuos
de la población que poseen determinada caracterı́stica.
Se define como:
X1 + X2 + · · · + Xn
p̂ = = X̄,
n
donde X1 , ..., Xn son n observaciones de una variable X con distribución Bernoulli de parámetro
p.
Dada su expresión, la proporción muestral es un caso particular de media muestral, por lo que:
σ2 Var(X) p(1 − p)
E(p̂) = µ = E(X) = p y Var(p̂) = = = .
n n n

En consecuencia, la proporción muestral es un estimador insesgado y consistente de la pro-


porción poblacional p.

81
Distribución de la proporción muestral.
a) Sabemos que la distribución de X1 + X2 + · · · + Xn , siendo cada Xi ∼ Be(p), es binomial de
parámetros n y p, por lo que:
np̂ ∼ B(n, p)

b) Por otra parte, como caso particular de media muestral, aplicando el T.C.L., la distribución
en el muestreo de p̂ para muestras grandes (n > 30) es aproximadamente:
r !
n>30 p(1 − p)
p̂ ≈ N p, .
n

Ejemplo. En determinada población la proporción de hogares con conexión a Internet es del


75%. Si seleccionamos una m.a.s. de 200 hogares, ¿cuál es la probabilidad de que más del 80% de
los hogares de la muestra tengan conexión a Internet?

Como n > 30 podemos utilizar la aproximación:

r ! r !
p(1 − p) 0.75 × 0.25
p̂ ≈ N p, ≡N 0.75, ≡ N (0.75, 0.0306)
n 200

La probabilidad que tenemos que calcular es:

 
p̂ − 0.75 0.80 − 0.75
P (p̂ > 0.80) = P > = P (Z > 1.63) =
0.0306 0.0306
= 1 − P (Z 6 1.63) = 1 − 0.94845 = 0.05155.

82
TEMA 7: Intervalos de confianza

Supongamos que se observa una m.a.s. X1 , X2 , ..., Xn de una variable aleatoria X con dis-
tribución Fθ conocida excepto por el valor del parámetro θ.
Hemos visto como estimar el valor de θ a partir de los datos muestrales. Pero en la práctica
interesa además precisar el error existente en la estimación, para lo cual construiremos un inter-
valo, que va a contener al verdadero valor del parámetro con una probabilidad alta previamente
especificada.

Definición. Llamamos intervalo de confianza para el parámetro θ, con nivel o coeficiente de


confianza 1 − α (con 0 < α < 1), a un intervalo aleatorio
 
T1 (X1 , X2 , ..., Xn ), T2 (X1 , X2 , ..., Xn )

tal que  
P T1 (X1 , X2 , ..., Xn ) < θ < T2 (X1 , X2 , ..., Xn ) = 1 − α.

Observaciones. 1) Los extremos del intervalo son aleatorios, variando para cada realización de
la muestra, y contienen al verdadero valor de θ (que es desconocido) con una probabilidad 1 − α.

2) La interpretación frecuentista de esta definición es la siguiente: si construimos muchos in-


tervalos, cada vez con distintas realizaciones de la muestra, el 100(1 − α)% de ellos contienen al
verdadero valor del parámetro.

Método pivotal para obtener intervalos de confianza


Veremos un método de construcción de intervalos que puede aplicarse en gran parte de los casos
que nos encontraremos en la práctica. Se basa en el siguiente concepto:

Definición. Llamamos estadı́stico pivote a un estadı́stico


T = T (X1 , X2 , ..., Xn ; θ),
función de la muestra y del parámetro θ, cuya distribución es conocida y no depende de θ.

El procedimiento es el siguiente:

1) Fijado el nivel de confianza 1 − α (los más utilizados son 1 − α = 0.95, 0.90 y 0.99), se elige
un estadı́stico pivote que sea función continua y estrictamente monótona de θ.

2) Dado que conocemos la distribución de T , es posible encontrar valores a y b tales que


 
P a < T (X1 , X2 , ..., Xn ; θ) < b = 1 − α.

83
3) Por ser la función continua y estrictamente monótona, las ecuaciones

T (X1 , X2 , ..., Xn ; θ) = a y T (X1 , X2 , ..., Xn ; θ) = b


tienen una única solución, lo cual permite despejar θ, obteniéndose
 
P T1 (X1 , X2 , ..., Xn ) < θ < T2 (X1 , X2 , ..., Xn ) = 1 − α.

En consecuencia,
 
IC1−α (θ) = T1 (X1 , X2 , ..., Xn ), T2 (X1 , X2 , ..., Xn )

en un intervalo de confianza para θ con nivel de confianza 1 − α.

Observaciones. 1) La elección del estadı́stico pivote surge de manera natural en la mayorı́a de


los casos y, en general, se basa en algún estimador de θ cuya distribución sea conocida.

2) Entre las elecciones posibles (casi siempre infinitas) de los valores a y b, un criterio razonable
es escogerlos de forma que el intervalo sea de longitud mı́nima, puesto que: a menor longitud del
intervalo, mayor será la precisión del mismo.
Si la distribución de T es continua y simétrica, esto se consigue si P (T < a) = P (T > b) = α/2.

Ejemplo. Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X ∼ N (µ, σ), siendo σ una constante
conocida. Vamos a obtener un intervalo de confianza para la media µ.
  X̄ − µ
Sabemos que X̄ ∼ N µ, √σn y, por lo tanto, √ ∼ N (0, 1).
σ/ n

1) Fijamos un nivel de confianza 1 − α y tomamos como estadı́stico pivote


X̄ − µ
T = T (X1 , X2 , ..., Xn ; µ) = √ ,
σ/ n
cuya distribución se conoce y no depende de µ.

2) Denotando por zp el cuantil de orden p de Z ∼ N (0, 1), la mejor elección de los valores a y
b es la simétrica, es decir:

a = −z1−α/2 = zα/2 y b = z1−α/2 ,


resultando:  
X̄ − µ
P −z1−α/2 < √ < z1−α/2 = 1 − α.
σ/ n

3) Ahora se despeja µ en las dos desigualdades anteriores:


X̄ − µ σ σ
√ < z1−α/2 ⇐⇒ X̄ − µ < z1−α/2 √ ⇐⇒ µ > X̄ − z1−α/2 √
σ/ n n n

84
X̄ − µ σ σ
√ > −z1−α/2 ⇐⇒ X̄ − µ > −z1−α/2 √ ⇐⇒ µ < X̄ + z1−α/2 √
σ/ n n n

Entonces
   
X̄ − µ σ σ
1−α=P −z1−α/2 < √ < z1−α/2 = P X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ ,
σ/ n n n
y, en consecuencia, un intervalo de confianza de nivel 1 − α para µ es:

 
σ σ
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n
 
σ
El intervalo también puede escribirse utilizando la expresión abreviada: X̄ ± z1−α/2 √ .
n

Observaciones. 1) Como ya hemos comentado antes, el intervalo obtenido es aleatorio y sus


extremos tomarán un valor diferente para cada realización de la muestra (intervalo numérico). La
probabilidad de que el intervalo aleatorio contenga al verdadero valor de µ es 1 − α. No se puede
hablar de probabilidad para los intervalos numéricos.

2) El 100(1 − α)% de los intervalos construidos incluirán el verdadero valor de µ mientras que
el 100α% restante no lo incluirán. Por ejemplo, si el nivel de confianza es 0.95, estos porcentajes
serán del 95% y 5%, respectivamente.

Intervalo de confianza para la media de una población


Normal
Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X ∼ N (µ, σ). Veremos como obtener intervalos de
confianza para la media µ en dos casos: varianza σ 2 conocida y varianza desconocida.

Intervalo para la media con varianza conocida. Es el caso del ejemplo anterior. El inter-
valo resultante es:

 
σ σ  
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ = X̄ ± z1−α/2 DT(X̄) .
n n

Propiedades:

σ
1) El intervalo obtenido está centrado en X̄ y su longitud es L = 2z1−α/2 √ .
n

2) Para un tamaño muestral fijo, todos los intervalos del mismo nivel de confianza (mismo
z1−α/2 ) tienen la misma longitud.

85
3) ¿Qué factores influyen en la longitud del intervalo?:
- A mayor tamaño muestral n, menor longitud.
- A mayor variabilidad (σ) de la variable X, mayor longitud.
- A mayor nivel de confianza 1 − α ⇒ menor α ⇒ mayor z1−α/2 ⇒ mayor longitud.
Recordemos que cuanto mayor es la longitud, menor es la precisión del intervalo.

4) Si queremos que la longitud del intervalo sea inferior a C, ¿qué tamaño muestral n debemos
utilizar?

σ √ σ  σ 2
2z1−α/2 √ < C =⇒ n > 2z1−α/2 =⇒ n > 2z1−α/2 .
n C C

Intervalo para la media con varianza desconocida. Cuando σ es desconocida no pode-


X̄ − µ
mos utilizar el estadı́stico pivote del caso anterior: √ , a no ser que sustituyamos σ por alguna
σ/ n
estimación, como puede ser la cuasidesviación tı́pica muestral.

Definición. Se denomina error estándar de un estimador a la estimación de su desviación


tı́pica.
σ
En particular, dado que DT(X̄) = √ , el error estándar de la media muestral se define como:
n
S
EE(X̄) = √ .
n

Consideremos entonces como estadı́stico pivote:


X̄ − µ X̄ − µ
T = T (X1 , X2 , ..., Xn ; µ) = √ = ,
S/ n EE(X̄)
cuya distribución (ver definición de la distribución t de Student en el tema 5) se obtiene de la
siguiente forma:

X̄ − µ

√ ∼ N (0, 1) 

σ/ n X̄ − µ







σ/ n X̄ − µ
(n − 1)S 2 =⇒ s = √ = T ∼ tn−1
∼ χ2n−1  (n − 1)S 2 S/ n
σ2



(n − 1)σ 2




Independientes

y por lo tanto la distribución de T es conocida, continua, simétrica y no depende de µ.

Denotemos ahora por tn−1,p el cuantil de orden p de la distribución tn−1 , es decir:


P (tn−1 6 tn−1,p ) = p.

86
Eligiendo b = −a = tn−1,1−α/2 tenemos que

 
X̄ − µ
P −tn−1,1−α/2 < √ < tn−1,1−α/2 = 1 − α,
S/ n

y despejando µ de forma análoga al caso anterior, se obtiene:

 
S S
1−α=P X̄ − tn−1,1−α/2 √ < µ < X̄ + tn−1,1−α/2 √ .
n n

Entonces, un intervalo de confianza de nivel 1 − α para µ, con σ desconocida, es:

 
S S
IC1−α (µ) = X̄ − tn−1,1−α/2 √ , X̄ + tn−1,1−α/2 √ ,
n n
 
S  
que también puede escribirse como: X̄ ± tn−1,1−α/2 √ = X̄ ± tn−1,1−α/2 EE(X̄) .
n

S
Observación: El intervalo obtenido está centrado en X̄ y su longitud es L = 2tn−1,1−α/2 √ . A
n
diferencia del caso anterior, la longitud del intervalo es aleatoria: depende de la muestra (X1 , ..., Xn )
a través de la cuasidesviación tı́pica muestral S.

Ejemplo. Los datos que se dan a continuación son los pesos en gramos del contenido de 16
cajas de cereales que se seleccionaron de un proceso de llenado con el objeto de verificar el peso
promedio: 506, 508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509 y 496. Si el
peso de cada caja en una variable aleatoria Normal, calcula:

a) Intervalos de confianza del 90, 95 y 99% para el peso medio de las cajas llenadas en este
proceso suponiendo que la desviación tı́pica es conocida y vale 5 gramos.

Sea X =“Peso en gramos del contenido de una caja” ∼ N (µ, 5).


 
σ
Dado que conocemos la varianza, utilizamos los intervalos: IC1−α (µ) = X̄ ± z1−α/2 √ ,
n
n
1X 8060
donde n = 16, σ = 5 y X̄ = Xi = = 503.75.
n i=1 16

Entonces, para un nivel de confianza del 90%:


α
1 − α = 0.90 =⇒ = 0.05 =⇒ z1−α/2 = z0.95 = 1.645 =⇒
2  
5
=⇒ IC0.90 (µ) = 503.75 ± 1.645 · = (503.75 ± 2.06) = (501.69, 505.81).
4

87
Análogamente, para un nivel de confianza del 95%:

1 − α = 0.95 =⇒ z1−α/2 = z0.975 = 1.96 =⇒


 
5
=⇒ IC0.95 (µ) = 503.75 ± 1.96 · = (503.75 ± 2.45) = (501.30, 506.20),
4
y para un nivel de confianza del 99%:
1 − α = 0.99 =⇒ z1−α/2 = z0.995 = 2.576 =⇒
 
5
=⇒ IC0.99 (µ) = 503.75 ± 2.576 · = (503.75 ± 3.22) = (500.53, 506.97).
4

Comprobamos como a medida que aumenta el nivel de confianza, aumenta también la longitud
del intervalo correspondiente.

b) Tamaño muestral mı́nimo necesario para que un intervalo del 95% para la media tenga una
longitud no superior a 2 unidades.

σ 5 19.6
La longitud del intervalo es L = 2z1−α/2 √ = 2 × 1.96 × √ = √ . Tenemos que determinar
n n n
n de forma que L 6 2:
19.6 √
L 6 2 ⇐⇒ √ 6 2 ⇐⇒ n > 9.8 ⇐⇒ n > 96.04
n
En consecuencia el tamaño muestral mı́nimo debe ser 97.

c) Intervalos de confianza del 90, 95 y 99% para el peso medio suponiendo que la desviación
tı́pica es desconocida.

Al ser la desviación tı́pica σ desconocida tenemos que utilizar los intervalos


 
S
IC1−α (µ) = X̄ ± tn−1,1−α/2 √ ,
n
donde n = 16, X̄ = 503.75 y
n
!  
2 n n 1X 2 16 4060802
S = Sn2 = Xi − X̄ 2 = − 503.752 = 38.467.
n−1 n−1 n i=1 15 16

En consecuencia: S = 6.202 y para un nivel de confianza del 90%:


α
1 − α = 0.90 =⇒ = 0.05 =⇒ tn−1,1−α/2 = t15,0.95 = 1.753 =⇒
2  
6.202
=⇒ IC0.90 (µ) = 503.75 ± 1.753 = (503.75 ± 2.72) = (501.03, 506.47).
4

88
Análogamente, para los niveles de confianza del 95% y 99%:

1 − α = 0.95 =⇒ tn−1,1−α/2 = t15,0.975 = 2.131 =⇒ IC0.95 (µ) = (503.75 ± 3.30) = (500.45, 507.05)
y
1 − α = 0.99 =⇒ tn−1,1−α/2 = t15,0.995 = 2.947 =⇒ IC0.99 (µ) = (503.75 ± 4.57) = (499.18, 508.32).

Intervalo de confianza para la media para muestras grandes

Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X con cualquier distribución de media µ y varianza σ 2 .

En esta situación, si la muestra es grande (n > 30) podemos aplicar el T.C.L. para obtener:
n>30 σ X̄ − µ n>30
X̄ ≈ N (µ, √ ) o equivalentemente √ ≈ N (0, 1).
n σ/ n

Sustituyendo la desviación tı́pica desconocida por su estimador S, sigue verificándose la apro-


ximación anterior. Entonces:
X̄ − µ n>30
T = T (X1 , X2 , ..., Xn ; µ) = √ ≈ N (0, 1).
S/ n

Utilizando T como estadı́stico pivote y aplicando el método pivotal se obtiene el siguiente


intervalo de confianza aproximado de nivel 1 − α para µ:

 
S S
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n

Ejemplo. Un estudio sobre el funcionamiento de un horno industrial proporcionó la siguiente


información sobre la presión de rotura de 169 barras cerámicas cocidas en él: X̄ = 89.10 MPa y
S = 3.73 MPa. Calcula un intervalo de confianza aproximado para el verdadero valor medio de la
presión de rotura con nivel de confianza 0.95.

Sea X= “Presión de rotura en MPa” la variable poblacional. En este caso no conocemos su


distribución pero, como el tamaño muestral es grande (n = 169) podemos construir un intervalo
de confianza aproximado para su media, que serı́a:

   
S 3.73
IC1−α (µ) = X̄ ± z1−α/2 √ = 89.10 ± z0.975 √ = (89.10 ± 0.5624) = (88.5376, 89.6624),
n 169

donde hemos utilizado que z0.975 = 1.96.

89
Intervalo de confianza para una proporción
Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X con distribución Bernoulli de parámetro p descono-
cido.
Los intervalos de confianza que construiremos para p son aproximados y sólo se podrán utilizar
para muestras grandes, ya que se basan en la distribución asintótica del correspondiente estadı́stico
pivote.
r !
p(1 − p)
Como vimos en el tema anterior, para muestras grandes (n > 30): p̂ ≈ N p, .
n

p̂ − p
Si tomamos como estadı́stico pivote T = q ≈ N (0, 1), obtendrı́amos por el procedimiento
p(1−p)
n
habitual el intervalo aproximado:
r r !
p(1 − p) p(1 − p)
p̂ − z1−α/2 , p̂ + z1−α/2 .
n n

Este intervalo para p no es calculable en la práctica pues depende de la cantidad desconocida


p. Pero la aproximación de la distribución de T sigue siendo válida si, en la expresión de la
varianza, q
sustituimos p por unqestimador consistente como p̂, o equivalentemente, cambiamos
p(1−p) p̂(1−p̂)
DT(p̂) = n
por EE(p̂) = n
.

p̂ − p
En consecuencia, tenemos que T = q ≈ N (0, 1), y un intervalo de confianza aproximado
p̂(1−p̂)
n
de nivel 1 − α para p es:
r r !
p̂(1 − p̂) p̂(1 − p̂)  
IC1−α (p) = p̂ − z1−α/2 , p̂ + z1−α/2 = p̂ ± z1−α/2 EE(p̂) .
n n

Propiedades:
r
p̂(1 − p̂)
1) El intervalo obtenido está centrado en p̂ y su longitud es L = 2z1−α/2 .
n

2) La longitud es una cantidad aleatoria ya que depende de la proporción muestral p̂.


1
Es fácil comprobar que p̂(1 − p̂) 6 , por lo que
4
r r
p̂(1 − p̂) 1 z1−α/2
L = 2z1−α/2 6 2z1−α/2 = √ .
n 4n n

De esta forma: para un tamaño muestral fijo, todos los intervalos del mismo nivel de confianza
z
(mismo z1−α/2 ) tienen una longitud no superior a 1−α/2

n
.

90
Ejemplo. En un estudio sobre la calidad de las piezas producidas por una máquina, una
muestra de 400 unidades contenı́a 30 defectuosas.
a) Calcula un intervalo de confianza del 90% para la verdadera proporción de piezas defectuosas
producidas por la máquina.

Sea p la proporción poblacional de piezas defectuosas producidas por la máquina. Como el


tamaño muestral (n = 400) es grande podemos utilizar el intervalo aproximado anterior:
r !
p̂(1 − p̂)
IC1−α (p) = p̂ ± z1−α/2 ,
n
30
con n = 400, p̂ = 400
= 0.075 y z1−α/2 = z0.95 = 1.645. Entonces se obtiene:

r !
0.075(1 − 0.075)
0.075 ± 1.645 = (0.075 ± 0.0217) = (0.0533, 0.0967).
400

b) Halla el tamaño muestral mı́nimo necesario para que el intervalo de confianza de nivel 0.90
tenga una longitud menor que 0.10 sea cual sea el valor de p.

z1−α/2
Acabamos de ver que L 6 √
n
. En este caso:

z1−α/2 z0.95 1.645 √


L6 √ = √ = √ < 0.10 =⇒ n > 16.45 =⇒ n > 270.6025
n n n

Entonces, el tamaño muestral mı́nimo para que se verifique la condición es n = 271.

91
TEMA 8: Contrastes de hipótesis

Sea X1 , ..., Xn una m.a.s. de una variable aleatoria X con función de distribución Fθ conocida
excepto por el valor del parámetro θ ∈ Θ.
Los objetivos de los procedimientos de inferencia expuestos en los temas anteriores eran:

ˆ La aproximación mediante un valor concreto del parámetro desconocido (estimación puntual).


ˆ La construcción de un intervalo aleatorio que lo contenga con una alta probabilidad prefijada
(intervalos de confianza).

Sin embargo, en muchas ocasiones se sospecha cuál puede ser el verdadero valor del parámetro y
lo que se pretende es confirmar o rechazar tal suposición a partir de la información proporcionada
por la muestra.

En general, contrastar una hipótesis estadı́sticamente es juzgar si cierta propiedad supuesta


para una población es compatible con lo observado en una muestra de la misma.
En el contexto de la inferencia paramétrica se contrasta una afirmación relativa al parámetro θ
desconocido.

Definiciones
Una hipótesis paramétrica es una afirmación sobre el parámetro θ desconocido.

Se dice que una hipótesis paramétrica es simple si especifica un único valor para el parámetro,
es decir, es de la forma θ = θ0 . Por ejemplo: µ = 5, p = 0.2,...
En otro caso se denomina compuesta, y puede ser de la forma θ 6= θ0 , θ > θ0 ,... Por ejemplo:
µ 6= 100, µ 6 5, p > 0.2,...

La hipótesis que se contrasta se denomina hipótesis nula y se representa por


H0 : θ ∈ Θ0 ,
siendo Θ0 un subconjunto de valores del espacio paramétrico.
La afirmación complementaria se denomina hipótesis alternativa y se representa por
H1 : θ ∈ Θ1
con Θ1 = Θ − Θ0 , es decir el subconjunto de valores del parámetro que es complementario de Θ0 .

Ejemplos. 1) En una fábrica se producen elementos cuya duración media es de 500 horas. Se
introduce un cambio en la fabricación y se quiere comprobar si ha afectado al tiempo de vida de
los elementos.

92
Se contrastará entonces la hipótesis nula: “La duración media es de 500 horas”, frente a la
alternativa: “La duración media no es de 500 horas”; es decir:
H0 : µ = 500 frente a H1 : µ 6= 500.

En este caso, la hipótesis nula es simple y la alternativa es compuesta.

Para decidir si aceptamos o no la hipótesis nula H0 , un procedimiento razonable serı́a:

ˆ Tomar una muestra de n elementos y medir su duración.


ˆ Calcular la media muestral o duración media de las n observaciones.
ˆ Si el tiempo medio de vida en la muestra está “muy lejos” de 500 horas, tenemos motivos
para dudar de la hipótesis nula y la rechazamos. En otro caso, aceptamos H0 .

¿Cuándo vamos a considerar que la distancia |X̄ − 500| es lo suficientemente grande como para
rechazar H0 ?
Uno de los principales objetivos del tema será encontrar un criterio o regla de decisión, que
cumpla determinadas propiedades y podamos aplicar una vez obtenida la información muestral.

2) Hasta ahora la proporción diaria de piezas defectuosas fabricadas por una máquina ha sido
como mucho del 1%, pero se teme que un desajuste haya provocado un aumento de tal proporción.

En este caso podrı́amos aplicar el contraste


H0 : p 6 0.01 frente a H1 : p > 0.01,
en el que ambas hipótesis son compuestas.

Una forma de resolverlo serı́a:

ˆ Obtener una muestra de piezas producidas por la máquina.


ˆ Calcular la proporción de piezas defectuosas en la muestra.
ˆ Si esta proporción es “mucho mayor” que 0.01 tendrı́amos una evidencia muestral en contra
de H0 y la rechazarı́amos.

Como antes, deberı́amos disponer de un criterio que nos permita determinar a partir de que
valor de p̂ se rechazará la hipotésis nula.

Criterios de decisión
Una vez planteado el contraste, el problema es decidir si aceptamos o no la hipótesis nula en
base a los datos muestrales.

93
Se trata entonces de establecer un criterio estadı́stico que nos permita aceptar o rechazar H0 a
~ = (X1 , ..., Xn ).
partir de la muestra X

~ llevarán a rechazar la hipótesis


Evidentemente, algunas realizaciones (valores concretos) de X
nula y otras conducirán a aceptarla.
Esta situación divide el espacio de posibles muestras en dos conjuntos C y C C , de forma que si
una realización de la muestra ~x ∈ C, rechazamos H0 (y aceptamos H1 ); y si ~x ∈ C C , aceptamos
H0 .

Definición. El subconjunto C de posibles muestras tal que si ~x ∈ C rechazamos H0 se denomina


región crı́tica.

Definición. Llamamos test a una regla que nos permite decidir cuál de las dos hipótesis es
aceptada a partir de la muestra observada ~x.
Se puede expresar utilizando la región crı́tica en la forma: “Rechazar H0 si y sólo si ~x ∈ C”.

Definición. Un estadı́stico de contraste es una función de la muestra, con distribución


conocida cuando H0 es cierta, que se utiliza como medida de discrepancia entre los datos muestrales
~
y la hipótesis nula. Lo representaremos por D = D(X1 , ..., Xn ) = D(X).

El conjunto de posibles valores de D puede dividirse en dos regiones tales que:

ˆ Los valores del estadı́stico de contraste correspondientes a discrepancias grandes llevan a


rechazar H0 y forman la llamada región de rechazo, que denotaremos por R.
ˆ El conjunto complementario de valores se conoce como región de aceptación.

De esta forma, podrı́amos expresar el criterio de rechazo o test, para la muestra observada ~x,
como:
“Rechazar H0 si y sólo si D(~x) ∈ R”.

Los contrastes que estudiaremos en este tema se resolverán con este procedimiento. En parti-
cular, consideraremos los siguientes tipos de contrastes de hipótesis:
a) Bilateral: H0 : θ = θ0 frente a H1 : θ 6= θ0 .
b) Unilateral derecho: H0 : θ 6 θ0 frente a H1 : θ > θ0 .
c) Unilateral izquierdo: H0 : θ > θ0 frente a H1 : θ < θ0 .

En estos tres casos el estadı́stico de contraste es función de la muestra y del valor del parámetro
especificado en la hipótesis nula (θ0 ) y se representa por D = D(X; ~ θ0 ).

94
Tipos de error
En el proceso de decidir si aceptamos o no la hipótesis nula H0 : θ ∈ Θ0 , frente a la alternativa
H1 : θ ∈ Θ1 , podemos encontrarnos con las cuatro situaciones que aparecen en la siguiente tabla:

Realidad
Decisión H0 es cierta H0 es falsa
Se acepta H0 Decisión correcta Error de tipo II
Se rechaza H0 Error de tipo I Decisión correcta

Se pueden cometer entonces dos tipos de error:

ˆ Error de tipo I: Rechazar H0 siendo cierta.


ˆ Error de tipo II: Aceptar H0 siendo falsa.

Las probabilidades de cometer estos errores son:


~ ∈ R|θ ∈ Θ0 ) = PE1 (θ) con θ ∈ Θ0 .
P (Error tipo I) = P (Rechazar H0 |H0 es cierta) = P (D(X)
~ ∈ RC |θ ∈ Θ1 ) = β(θ) con θ ∈ Θ1 .
P (Error tipo II) = P (Aceptar H0 |H0 es falsa) = P (D(X)

Como vemos, ambas probabilidades son función del parámetro θ.

¿Qué test es el mejor para resolver un contaste? Lo ideal serı́a elegir un test (o una región de
rechazo R) tal que las dos probabilidades de error valieran cero, pero esto no es posible.
Además, para un tamaño muestral fijo, si disminuye una de las dos probabilidades de error, la
otra aumenta. La única forma de rebajar las dos probabilidades de error a la vez es aumentando
el número de observaciones muestrales.

Seguiremos entonces el siguiente procedimiento: acotar una de las dos probabilidades de error
(la del más grave de los dos) y, con esta restricción, intentar minimizar la probabilidad del otro.
Normalmente los contrastes se formulan de forma que el error más importante sea el de tipo I.
Su probabilidad es entonces la que se acota superiormente por un cierto valor fijo, que determina
la máxima probabilidad de error tipo I que estamos dispuestos a tolerar.

Observación. Esta forma de actuar convierte a H0 en la hipótesis que representa la situación


más importante, o bien la situación mantenida y aceptada hasta el momento, que sólo se rechazará
si la evidencia muestral en contra es muy grande.

Nivel de significación y potencia


Definición. Se dice que un test o una región de rechazo tienen nivel de significación α si
PE1 (θ) 6 α, para cualquier θ ∈ Θ0 .

95
Definición. Se denomina potencia de un test a la probabilidad complementaria de la proba-
bilidad de error tipo II y la denotaremos por π:
π(θ) = P (Rechazar H0 |H0 es falsa) = 1 − β(θ).

Observaciones. 1) El nivel de significación α representa entonces la mencionada cota superior


para la probabilidad de error tipo I. Suelen elegirse valores pequeños, del orden de 0.01, 0.05 ó
0.10.

2) Es conveniente que la probabilidad de error tipo I sea exactamente α (no menor) ya que eso
implicará una menor probabilidad de error tipo II. Esto será siempre posible si la distribución de
D es continua, mientras que, en general, no se alcanzará el nivel α si la distribución del estadı́stico
de contraste D es discreta.

3) Una vez fijado el nivel de significación α, se trata de elegir, entre todos los posibles test
o regiones de rechazo de ese nivel, aquel que haga mı́nima la probabilidad de error tipo II o,
equivalentemente, aquel que tenga la mayor potencia.

Denotaremos por Rα la región de rechazo de nivel de significación α, que debe verificar:

ˆ Está constituida por los valores de D (estadı́stico de contraste) que conducen al rechazo de
H0 .
ˆ La probabilidad de que D tome valores en esa región, cuando H0 es cierta, será a lo sumo α.
ˆ Si la distribución de D es continua, la probabilidad anterior será exactamente α, es decir:
P (D ∈ Rα |H0 es cierta) = α.

Ejemplo. En una fábrica se recibe una partida de 1000 tornillos en cuyas especificaciones
figura que su diámetro es de 10 mm. El encargado de producción de la fábrica sospecha que el
diámetro es inferior al especificado. Para comprobarlo extrae una m.a.s. de 16 tornillos cuyos
diámetros resultan ser: 9.8, 10.2, 9.9, 9.5, 10.3, 10.1, 10, 9.7, 9.5, 9.9, 10.1, 10.2, 9.8, 10.1, 10 y
9.6. Suponiendo que el diámetro es una v.a. Normal con una desviación tı́pica conocida de 0.25
mm.:

a) ¿Podemos admitir como cierta la sospecha del encargado al nivel de significación α = 0.05?
Sea X=“Diámetro de un tornillo en mm”∼ N (µ, 0.25).

Se trata de contrastar:
H0 : µ = 10 frente a H1 : µ < 10.

La idea es rechazar la hipótesis nula (diámetro de 10 mm) sólo si la evidencia muestral en


contra es grande. Para decidir podemos utilizar el valor de la media muestral: si el valor de X̄
es “lo suficientemente menor” de 10 mm, rechazaremos la hipótesis H0 : µ = 10; en otro caso, la
aceptamos.

96
  X̄ − µ
Sabemos que: X̄ ∼ N µ, √σn =⇒ √ ∼ N (0, 1).
σ/ n
Entonces, si utilizamos como estadı́stico de contraste:

~ µ0 ) = X̄ −
D = D(X;
µ
√ 0,
σ/ n
podemos concluir que su distribución cuando H0 es cierta es:
X̄ − µ0 X̄ − 10
D= √ = √ ∼ N (0, 1).
σ/ n σ/ n

La región de rechazo Rα debe:

ˆ Incluir los valores de D que reflejen mayor discrepancia entre la media muestral y el valor
µ = 10 a favor de la hipótesis alternativa (serán valores negativos de X̄ − 10 y por lo tanto
de D).
ˆ Tener probabilidad α cuando H0 es cierta, es decir:
P (D ∈ Rα |H0 es cierta) = P (N (0, 1) ∈ Rα ) = α

Estas consideraciones determinan que, para α = 0.05:


 
Rα = − ∞, −z1−α = − ∞, −z0.95 = (−∞, −1.645)

En consecuencia, vamos a utilizar el siguiente criterio o test:


Rechazar H0 si D < −1.645.

X̄ − 10 X̄ − 10 X̄ − 10
Equivalentemente, dado que D = √ = = , se verifica que:
σ/ n 0.25/4 0.0625
D < −1.645 ⇐⇒ X̄ < 10 − 0.0625 × 1.645 ⇐⇒ X̄ < 9.897,
y el test puede también formularse como:
Rechazar H0 si X̄ < 9.897.

Calculando la media muestral de los datos se obtiene que X̄ = 9.919 y D = −1.296. En


consecuencia, no se verifica la condición para rechazar H0 , por lo que aceptamos la hipótesis nula.

Aunque el diámetro medio de los tornillos de la muestra es inferior a 10 mm, la evidencia


muestral en contra de H0 no es lo suficientemente fuerte como para rechazar la afirmación contenida
en las especificaciones de la partida de tornillos.

b) ¿Y si utilizamos un nivel de significación α = 0.10?

Si α = 0.10:  
Rα = − ∞, −z1−α = − ∞, −z0.90 = (−∞, −1.282),

97
y el criterio de rechazo es ahora:
Rechazar H0 si D < −1.282, o equivalentemente, X̄ < 9.920.

Dado que X̄ = 9.919, en este caso se rechazarı́a H0 y se aceptarı́a la hipótesis alternativa


H1 : µ < 10, es decir, aceptarı́amos la sospecha del encargado de que el diámetro es inferior a 10
mm.

Vemos entonces que al relajar la restricción sobre la probabilidad de error tipo I, es decir, al
permitir que sea mayor la probabilidad de equivocarnos en el sentido de rechazar H0 siendo cierta,
el resultado del contraste cambia: pasamos de aceptar H0 a nivel α = 0.05 a rechazarla a nivel
α = 0.10.

c) ¿Cuánto vale la probabilidad de cometer un error tipo II en muestras de tamaño 16 con


α = 0.05? ¿Y para α = 0.10?

Recordemos que para nivel α = 0.05 utilizamos el criterio de rechazar H0 si X̄ < 9.897.
Entonces:
P (Error tipo II) = P (Aceptar H0 |H0 es falsa) = P (X̄ > 9.897|µ < 10) =
 
9.897 − µ
= P Z> µ < 10 = β(µ),
0.0625
 
σ
donde hemos utilizado que X̄ ∼ N µ, n ≡ N (µ, 0.0625).

La probabilidad de error tipo II es función de µ (ver gráfica), variará según el valor de µ < 10
para el que la obtengamos. Por ejemplo:
 
9.897 − 9.9
µ = 9.9 −→ P (Error tipo II) = P Z > = P (Z > −0.05) = 0.51994
0.0625
 
9.897 − 9.8
µ = 9.8 −→ P (Error tipo II) = P Z > = P (Z > 1.55) = 0.06057
0.0625

La probabilidad de cometer un error tipo II es


mucho menor si el verdadero valor del parámetro
µ es 9.8 que si es 9.9.
Esto es ası́ porque, a medida que el verdadero
valor de µ se aleje de 10 (el valor especificado en
H0 ), los datos de la muestra estarán más clara-
mente en contra de la hipótesis nula y será menor
la probabilidad de aceptar esta hipótesis.
En definitiva: la probabilidad de error tipo
II es mayor cuanto más cerca esté el verdadero
valor de µ del valor especificado en H0 y dismi-
nuye a medida que se aleja de dicho valor en la dirección de la hipótesis alternativa H1 (ver
gráfica).

98
De forma análoga, utilizando el criterio de rechazo obtenido para α = 0.10, se obtiene que:
 
9.920 − µ
P (Error tipo II) = P (X̄ > 9.920|µ < 10) = P Z > µ < 10
0.0625
y, en los dos casos considerados antes, resulta ser:
µ = 9.9 −→ P (Error tipo II) = P (Z > 0.32) = 0.37448
µ = 9.8 −→ P (Error tipo II) = P (Z > 1.92) = 0.02743

La probabilidad es menor en ambos casos que las correspondientes obtenidas para α = 0.05
(ver gráfica). Esto ocurre porque, como ya comentamos anteriormente, para un tamaño muestral
fijo: al aumentar la probabilidad de error tipo I (α) disminuye la de error tipo II.

Nivel crı́tico o p-valor


El concepto de nivel crı́tico o p-valor proporciona una filosofı́a alternativa en la resolución de
contrastes de hipótesis.
Sea D un estadı́stico de contraste y sea dˆ = D(~x) su valor para la muestra observada ~x.

Definición. Llamamos nivel crı́tico o p-valor a la probabilidad de obtener una discrepancia


mayor o igual que la observada en la muestra, cuando H0 es cierta.

La expresión “discrepancia mayor o igual” en la definición anterior debe entenderse en relación


con la dirección en que H1 se aleja de H0 . Por ejemplo, si el contraste es unilateral izquierdo, el
ˆ 0 es cierta).
nivel crı́tico viene dado por: p − valor = P (D 6 d|H

Observaciones. 1) El p-valor representa una medida de la evidencia muestral en contra o a favor


de la hipótesis nula:
Valores muy pequeños del nivel crı́tico indican una fuerte evidencia en contra de H0 , que será
tanto mayor cuanto menor sea p-valor. Al contrario, valores grandes de p-valor significan evidencia
a favor de H0 .
2) Si se ha fijado un nivel α, puede tomarse la decisión utilizando el p-valor:
Si p − valor 6 α se rechaza H0 , mientras que si p − valor > α, se acepta.

Ejemplo. En el ejemplo del apartado anterior utilizamos un estadı́stico de contraste D con


distribución N (0, 1) bajo H0 y su valor en la muestra fue dˆ = −1.296.

p − valor = P D 6 −1.296|H0 es cierta =
= P (Z 6 −1.296) = P (Z > 1.296) ' 1 − P (Z < 1.3) = 1 − 0.9032 = 0.0968.

Entonces:

ˆ Con nivel de significación α = 0.05, se verifica que p-valor > 0.05 y la decisión es aceptar H0 .

99
ˆ Con nivel α = 0.10, se verifica que p-valor < 0.10 y la decisión es rechazar H0 .

Contrastes para la media de una población normal


Sea (X1 , ..., Xn ) una m.a.s. de X ∼ N (µ, σ). Veremos como resolver contrastes relativos a la
media µ distinguiendo dos situaciones: varianza conocida y varianza desconocida.
Consideraremos en ambos casos los tres tipos de contrastes más utilizados: bilateral, unilateral
derecho y unilateral izquierdo.

Los estadı́sticos de contraste son:



X̄ − µ0 n(X̄ − µ0 )
ˆ Caso de varianza conocida: D = = ∼ N (0, 1) bajo H0 .
DT(X̄) σ

X̄ − µ0 n(X̄ − µ0 )
ˆ Caso de varianza desconocida: D = = ∼ tn−1 bajo H0 .
EE(X̄) S

Observaciones. 1) En todos los contrastes unilaterales que veremos a partir de ahora, la hipótesis
nula puede ser también la de igualdad.
2) La afirmación que contiene la igualdad debe ir siempre en la hipótesis nula H0 .

3) En la tabla siguiente, dˆ representa el valor del estadı́stico D para la muestra observada.


4) Los contrastes pueden aplicarse también para poblaciones no normales siempre que n > 30
como consecuencia del TCL, siendo en este caso la distribución de D aproximada.

H0 : µ 6 µ0 H0 : µ > µ0 H0 : µ = µ0
H1 : µ > µ0 H1 : µ < µ0 H1 : µ 6= µ0
σ conocida
√ √ √
n(X̄ − µ0 ) n(X̄ − µ0 ) n(X̄ − µ0 )
Rechazar H0 si > z1−α < −z1−α > z1−α/2
σ σ σ

p-valor ˆ
P (Z > d) ˆ
P (Z 6 d) ˆ
2P (Z > |d|)
σ desconocida
√ √ √
n(X̄ − µ0 ) n(X̄ − µ0 ) n(X̄ − µ0 )
Rechazar H0 si > tn−1,1−α < −tn−1,1−α > tn−1,1−α/2
S S S

p-valor ˆ
P (tn−1 > d) ˆ
P (tn−1 6 d) ˆ
2P (tn−1 > |d|)

100
Ejemplos. 1) El encargado de una fábrica ha determinado que el tiempo medio que se tarda en
montar un determinado tipo de piezas no debe superar los 80 minutos. Sin embargo, sospecha que
no se está cumpliendo su especificación. Para comprobarlo, anotó el tiempo en minutos empleado
en montar cada una de 31 piezas, resultando un tiempo promedio de 81.5 minutos. Suponiendo que
el tiempo de montaje tiene distribución Normal con desviación tı́pica conocida igual a 20 minutos,
¿qué se puede concluir a nivel α = 0.05?

Sea X=“Tiempo de montaje de una pieza en minutos”∼ N (µ, 20).

Tenemos que contrastar la hipótesis nula


H0 : µ 6 80
frente a la hipótesis alternativa
H1 : µ > 80
siendo σ conocida. El criterio de rechazo es:


n(X̄ − µ0 )
Rechazar H0 si > z1−α .
σ
Calculamos el valor del estadı́stico de contraste:
√ √
n(X̄ − µ0 ) 31(81.5 − 80)
D= = = 0.4176
σ 20

Por otra parte, z1−α = z0.95 = 1.645 y por lo tanto se acepta H0 . En consecuencia, la sospecha
del encargado no se encuentra apoyada por los datos.
Podemos observar que: aunque el tiempo medio de montaje en la muestra sı́ es mayor que el
especificado, no se rechaza la hipótesis nula, dado que la evidencia muestral en contra de H0 no se
considera lo suficientemente fuerte.

Si queremos utilizar el p-valor:


ˆ = P (Z > 0.4176) = 1 − P (Z < 0.4176) = 1 − 0.66276 = 0.33724 > α = 0.05,
p − valor = P (Z > d)
lo cual nos lleva a aceptar la hipótesis nula.

2) El peso del contenido de las cajas de cereales para el desayuno producidas en determinado
proceso de llenado sigue una distribución Normal. Una muestra de 10 cajas de cereales selec-
cionadas de este proceso da lugar a los siguientes pesos en gramos: 498, 504, 500, 502, 510, 512,
490, 496, 506 y 502.
¿Se puede aceptar, a nivel α = 0.05, que la media del peso de las cajas de cereales es de 500
gramos?
Sea X=“Peso del contenido en gramos de una caja de cereales”∼ N (µ, σ).

Tenemos que contrastar la hipótesis nula


H0 : µ = 500

101
frente a la hipótesis alternativa
H1 : µ 6= 500
siendo σ desconocida. El criterio de rechazo es:


n(X̄ − µ0 )
Rechazar H0 si |D| = > tn−1,1−α/2 .
S

10
X 10
X
A partir de la muestra se obtiene que Xi = 5020 y Xi2 = 2520424, por lo que:
i=1 i=1

10 10
1 X 1 X 2
X̄ = Xi = 502 y Sn2 = X − X̄ 2 = 252042.4 − 5022 = 38.4.
10 i=1 10 i=1 i

Entonces:

n 10 10(502 − 500)
S2 = Sn2 = × 38.4 = 42.667 =⇒ S = 6.532 =⇒ |D| = = 0.968.
n−1 9 6.532

Por otra parte, tn−1,1−α/2 = t9,0.975 = 2.262 y por lo tanto se acepta H0 ; es decir, aceptamos que
el peso medio del contenido de las cajas es de 500 gramos.

Alternativamente, podemos resolver el contraste mediante el p-valor:

ˆ = 2P (t9 > 0.968)


p − valor = 2P (tn−1 > |d|)

Utilizando la tabla no podemos calcular exactamente su valor; sólo podemos concluir que es-
tará entre 0.20 y 0.40. En todo caso, aceptarı́amos H0 a cualquiera de los niveles α utilizados
habitualmente.

Observación. En Excel se obtiene: p − valor = 2P (t9 > 0.968) = 0.358336

Contrastes para una proporción


Sea (X1 , ..., Xn ) una m.a.s. de una variable X con distribución Bernoulli de parámetro p, donde
p es la proporción desconocida de individuos de la población que poseen cierta caracterı́stica.
Los contrastes de hipótesis para la proporción p se resuelven utilizando el estadı́stico de con-
traste:
p̂ − p0
D=q ,
p0 (1−p0 )
n

siendo p0 el valor especificado para p en la hipótesis nula H0 .

102
Este estadı́stico D tiene una distribución aproximadamente N (0, 1) para muestras grandes, por
lo que los criterios de rechazo especificados en la tabla siguiente sólo pueden aplicarse cuando el
tamaño muestral n sea mayor que 30.

Contrastes para una proporción (n > 30)


H0 : p 6 p0 H0 : p > p0 H0 : p = p0
H1 : p > p0 H1 : p < p0 H1 : p 6= p0

p̂ − p0 p̂ − p0 p̂ − p0
Rechazar H0 si q > z1−α q < −z1−α q > z1−α/2
p0 (1−p0 ) p0 (1−p0 ) p0 (1−p0 )
n n n

p-valor ˆ
P (Z > d) ˆ
P (Z 6 d) ˆ
2P (Z > |d|)

Ejemplo. En 50 lanzamientos de una moneda se obtienen 17 caras y 33 cruces. ¿Podemos


aceptar, a nivel α = 0.10, que la moneda es correcta?

Se trata de contrastar la hipótesis nula


1
H0 : p =
2
frente a la alternativa
1
H1 : p 6=
2
con n = 50 siendo p la probabilidad de obtener cara.
Entonces podemos utilizar el criterio:

p̂ − p0
Rechazar H0 si q > z1−α/2 ,
p0 (1−p0 )
n

17
donde p̂ = 50
= 0.34, p0 = 0.50 y z1−α/2 = z0.95 = 1.645.

p̂ − p0 0.34 − 0.50
Sustituyendo, se obtiene que q = q = 2.263 y por lo tanto se rechaza H0
p0 (1−p0 ) 0.5(1−0.5)
n 50
y no podemos aceptar que la moneda sea correcta.

Podemos también resolver el contraste mediante el p-valor:


ˆ = 2 P (Z > 2.26) = 2 × (1 − P (Z < 2.26)) =
p − valor = 2 P (Z > |d|)
= 2 × (1 − 0.98809) = 0.02382 < α = 0.10,

por lo que se rechaza H0 . Se aceptarı́a H0 para niveles α < 0.02382.

103

También podría gustarte