Estimación y Pruebas de Hipótesis - Estadística PDF

Tema 4
Estimación y pruebas de hipótesis
Índice
1. Introducción 2
2. Muestras aleatorias y estadı́sticos 2
3. Estimadores 3
3.1. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4. Distribuciones muestrales 6
4.1. Distribución muestral de la media de una población normal
o aproximadamente normal con varianza conocida . . . . . . . . . . . . . . . . . . . . . . 6
con varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3. Distribuciones muestrales de la cuasivarianza y de la varianza
de una población normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.4. Distribución muestral del cociente de cuasivarianzas . . . . . . . . . . . . . . . . . . . . . 9
5. Intervalos de confianza 10
5.1. Intervalos de confianza para la media de una población normal
o aproximadamente normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5.2. Intervalos de confianza para la diferencia de medias de poblaciones
independientes, normales o aproximadamente normales . . . . . . . . . . . . . . . . . . . . 12
5.3. Intervalo de confianza para la diferencia de medias de poblaciones
dependientes, normales o aproximadamente normales . . . . . . . . . . . . . . . . . . . . . 13
5.4. Intervalo de confianza para la varianza de una población normal . . . . . . . . . . . . . . 13
5.5. Intervalo de confianza para el cociente de varianzas
de poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.6. Intervalo de confianza para la proporción de una población binomial . . . . . . . . . . . . 14
5.7. Intervalo de confianza para la diferencia de proporciones
de poblaciones binomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
6. Pruebas de hipótesis 15
6.1. Metodologı́a de una prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.2. Pruebas unilaterales y bilaterales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.3. Errores de tipo I y II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.4. Valor P de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.5. Pruebas de hipótesis sobre la media de una población normal o aproximadamente normal
con varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1
Tema 4. Estimación y pruebas de hipótesis 2
1. Introducción
Definición 1.1 Una población es el conjunto formado por la totalidad de los individuos en los que
estamos interesados para efectuar en ellos observaciones o medidas.
Definición 1.2 Una muestra es un subconjunto de elementos seleccionados de una población.
Supongamos que disponemos de una población sobre cuyos individuos queremos estudiar un determinado
carácter o variable, efectuando observaciones o medidas del mismo. Si tomamos al azar un indivi-
duo, podemos considerar esta elección como un experimento aleatorio cuyo espacio muestral es toda la
población. Desde este punto de vista, la variable en cuyo estudio nos interesamos, es una variable aleatoria
definida en el espacio muestral constituido por la población.
Como todas las variables aleatorias, tendrá una distribución de probabilidad, de modo que si ésta es
normal, binomial o de otro tipo, es costumbre decir que la población es normal, binomial, o del tipo que
se trate. Más aún, si θ es un parámetro asociado a la distribución de probabilidad de la variable aleatoria,
como la media o la varianza en una distribución normal, o los parámetros n y p en una binomial, es
costumbre referirnos a ellos, como el parámetro θ de la población o la media o la varianza de la población.
Seguimos ası́ un hábito muy común en los textos de Estadı́stica, de aplicar a la población adjetivos y
atributos propios de la variable que estamos estudiando.
Excepto en poblaciones pequeñas en las que es factible el estudio de la variable sobre todos los individuos
(haciendo por lo tanto innecesario el uso de la Estadı́stica), en la práctica, tal estudio es desaconsejable
por distintas razones:
La población es muy numerosa y el estudio resulta costoso.
La población es infinita.
La población está constituida por acontecimientos que se suceden a lo largo del tiempo, por lo que
serı́a necesario un tiempo infinito para abarcarla toda.
El estudio de la variable en un individuo implica la destrucción del mismo (por ejemplo, los ensayos
de resistencia de materiales).
Descartada la posibilidad de estudiar la variable en toda la población, podemos, no obstante estudiarla

en una muestra, y a partir de los resultados, inferir conclusiones acerca de la población. Los métodos de
análisis de la variable en la muestra, y la extrapolación o inferencia de las conclusiones aplicables a toda
la población con un grado de confianza adecuado, es el objeto de la Estadı́stica Inferencial o Inferencia
Estadı́stica.  ½
 Puntual
Estimación de parámetros
Inferencia estadı́stica Por intervalos

Pruebas de hipótesis.
2. Muestras aleatorias y estadı́sticos

Cuando tomamos una muestra de una población y calculamos en cada uno de sus individuos el valor
de la variable aleatoria X que estamos estudiando, (es decir, medimos las estaturas u observamos el
sexo), obtenemos unos números x1 , x2 , . . . , xn que podemos considerar como los valores de unas varia-
bles aleatorias X1 , X2 , . . . , Xn cada una de las cuales es la misma variable X, sirviendo el subı́ndice
únicamente para indicar en qué individuo de la muestra se ha calculado X. Podemos admitir además que
cada medida u observación es independiente de las demás. Todo esto nos lleva a introducir el siguiente
concepto, de importancia crucial en la teorı́a de la Inferencia Estadı́stica:
Definición 2.1 Las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleatoria simple
de tamaño n si a) son independientes, y b) tienen la misma distribución de probabilidad.
También se las llama variables independientes e idénticamente distribuidas, por ello a veces se
utiliza la abreviatura iid.
Las variables Xi constituyen la base del importante concepto que definimos a continuación.
Definición 2.2 Sea Xi , i = 1, 2, . . . , n una muestra aleatoria simple. Se llama estadı́stico a cualquier
función real de esas variables aleatorias que no contenga ningún parámetro de la población.
De entre la infinidad de estadı́sticos que podrı́an definirse, hay dos que tienen especial interés:
n n
1X 1X
2
media muestral : X = Xi , varianza muestral : S = (Xi − X)2 ,
n i=1 n i=1
aunque más tarde consideraremos otros estadı́sticos de uso frecuente.
3. Estimadores
Hemos visto en el capı́tulo dedicado al estudio de las variables aleatorias y sus distribuciones de proba-
bilidad, que las funciones de probabilidad, de densidad de probabilidad y de distribución, dependen de
ciertas constantes, que de alguna manera caracterizan a la distribución y que hemos llamado paráme-
tros. Vamos a ampliar este concepto, llamando parámetro de una población, a cualquier caracterı́stica
numérica de la misma. Un parámetro, por definición depende exclusivamente de la población, y no de
cualquier muestra que puede tomarse en la misma.
Como los parámetros están asociados a toda la población, no es posible conocerlos sin analizar todos y
cada uno de los individuos de la misma, pero dada la imposibilidad (o la inconveniencia) de hacerlo, la
Estadı́stica Inferencial, se limita a estimarlos. Por estimación entendemos el proceso mediante el cual
obtenemos, a partir de los datos de una muestra, información acerca de un parámetro, bien en forma
de un número que constituye un pronóstico acerca del valor del parámetro (estimación puntual), o
bien en forma de un intervalo que esperamos contenga al parámetro con un cierto grado de confianza
(estimación por intervalo).
Para ello, tomamos un estadı́stico conveniente, y usamos su valor numérico en una muestra como es-
timación puntual, o bien calculamos a partir de ese valor numérico, los extremos del intervalo para la
estimación por intervalo.
El empleo de un estadı́stico para estimar un parámetro plantea algunos interrogantes: Para un parámetro
dado, ¿cuál (o cuáles) es el estadı́stico que se considera conveniente? No se olvide que hay infinidad de
posibilidades de definir estadı́sticos. Además, ¿hasta qué punto podemos confiar en que el valor numérico
que proporciona el estadı́stico en una muestra, por muy conveniente que éste se considere, constituye una
estimación razonable del parámetro? En esta sección vamos a contestar a estas preguntas.
Un estadı́stico que se usa para estimar un parámetro, se llama estimador puntual del parámetro. Una
estimación puntual es un valor numérico del estimador, calculado en una muestra determinada.
Notación: Suele usarse el convenio de que si θ es el parámetro que se desea estimar, el estimador se
designe por la misma letra mayúscula (ya que es una variable aleatoria) con un acento circunflejo Θ, b ya
la estimación con minúsculas θ̂. Aunque no siempre se sigue esta costumbre, debe quedar claro en todo
caso la diferencia entre el parámetro θ y su estimación θ̂, de ahı́ el empleo del acento circunflejo.
Veamos algunas caracterı́sticas de los estimadores.
b un estimador del parámetro θ. Se llama
Definición 3.1 Sea Θ
¡ ¢
b y se designa ECM (Θ)
error cuadrático medio de Θ b a E (Θ
b − θ)2 ,
b a E(Θ)
sesgo de Θ b − θ.
El error cuadrático medio es, de acuerdo con su definición, la media de los cuadrados de las desviaciones
entre los valores del estimador y el parámetro. Serı́a deseable que el estimador que usáramos tuviera el
error cuadrático medio lo más pequeño posible. Para ver de qué forma podrı́a lograse esto, comprobemos
que el error cuadrático medio se puede escribir como suma de dos términos no negativos:
¡ 2 ¢ ¡ 2¢
b =E Θ
ECM (Θ) b − 2θΘ
b + θ2 = E Θ b − 2θE(Θ)
b + θ2 =
¡ ¢ ¡ ¢
= V ar(Θ) b 2 − 2θE(Θ)
b + E(Θ) b + θ2 = V ar(Θ) b − θ 2.
b + E(Θ)
El segundo de los sumandos en que se descompone el error cuadrático medio, es el cuadrado del sesgo,
cuyo valor mı́nimo, cero, se alcanzarı́a cuando la media del estadı́stico fuera igual al parámetro. Ello
sugiere la siguiente definición.
b es un estimador insesgado del parámetro θ si E(Θ)
Definición 3.2 Se dice que el estadı́stico Θ b = θ.
b = a1 X1 + a2 X2 + . . . + an Xn donde a1 + a2 + . . . + an = 1, es un estimador
Ejemplo 1: El estadı́stico Θ
insesgado de la media de X. En efecto,
b = E(a1 X1 + a2 X2 + . . . + an Xn ) =
E(Θ)
= a1 E(X1 ) + a2 E(X2 ) + . . . + an E(Xn ) = (a1 + a2 + . . . + an )E(X) = E(X) = µ.
Ejemplo 2: La varianza muestral no es un estimador insesgado del parámetro σ 2 , ya que puede de-
¡ ¢ n−1 2 ¡ ¢ σ2
mostrarse que E S 2 = σ y por lo tanto, el sesgo de la varianza muestral es E S 2 − σ 2 = − .
n n
Se puede construir un estimador insesgado de σ 2 a partir de la varianza muestral. En efecto, el estimador
n
n 1 X
Sc2 = S2 = (Xi − X)2 ,
n−1 n − 1 i=1
llamado cuasivarianza muestral es insesgado, ya que

¡ ¢ n ¡ ¢ n n−1 2
E Sc2 = E S2 = · σ = σ2 .
n−1 n−1 n
En cuanto al primero de los sumandos en que se descompone el error cuadrático medio, la varianza de Θ b
da cuenta de la variabilidad del estimador en torno a su propia media, y es por lo tanto intrı́nseco de él;
b fuera constante, lo que no parece muy conveniente,
únicamente podrı́a ser cero si la variable aleatoria Θ
ya que elegir como estimador a un estadı́stico que toma el mismo valor en todas las muestras, harı́a inútil
el muestreo (a no ser que ese valor fuera precisamente el del parámetro, en cuyo caso lo que serı́a inútil es
el empleo de la Estadı́stica). En todo caso podrı́a minimizarse esta varianza eligiendo de entre los posibles
estimadores de θ, aquel cuya varianza fuera la más pequeña. Ello da origen a la siguiente definición.
Definición 3.3 De todos los estimadores insesgados de un mismo parámetro, si existe uno cuya varianza
sea mı́nima, se llama estimador insesgado de varianza mı́nima.
Para terminar esta breve introducción a las propiedades de los estimadores, vamos a definir el concepto
de eficiencia.
Definición 3.4 Sean Θ b1 y Θ
b 2 estimadores del parámetro θ. Se llama eficiencia relativa de estos
estimadores al cociente
ECM (Θ b 1)
.
ECM (Θ b 2)
b 1 es más eficiente que Θ
Si la eficiencia relativa es menor que 1, se dice que Θ b 2 , y si es mayor que 1, que
b b
Θ2 es más eficiente que Θ1 .
3.1. Método de máxima verosimilitud

El método de máxima verosimilitud para la obtención de estimadores puntuales de parámetros desconoci-
dos de distribuciones lo usó Gauss en el siglo XIX para resolver problemas aislados, y lo formalizó Fisher
a comienzos del siglo XX. Desde entonces, se ha usado ampliamente.
Definición 3.5 Sea X una variable aleatoria con función de probabilidad (o función de densidad de
probabilidad) f (x; θ) donde θ es un parámetro desconocido. Sean x1 , x2 , . . . , xn los valores observados de
una muestra aleatoria de tamaño n de X. La función de verosimilitud de la muestra es:
n
Y
L(θ; x1 , . . . , xn ) = f (xi ; θ)
i=1
Definición 3.6 El estimador de máxima verosimilitud de θ es el valor de θ que maximiza la función

de verosimilitud.
En definitiva, dada una muestra de valores observados x1 , x2 , . . . , xn de una variable aleatoria X, el

método de máxima verosimilitud selecciona en cierto sentido, de todos los posibles valores del parámetro
desconocido θ, el que tenga mayor probabilidad de haber producido esas observaciones.
Ejemplo 3: Supongamos que X ∼ B(p). Sabemos que

½ x
p (1 − p)1−x si x = 0, 1
f (x; p) =
0 en otro caso
En este caso la función de verosimilitud serı́a
n
Y n
Y Pn Pn
L(p; x1 , . . . , xn ) = f (p; xi ) = pxi (1 − p)1−xi = p i=1 xi
(1 − p)n− i=1 xi
i=1 i=1
tomando logaritmo neperiano en ambos miembros de la igualdad tenemos que

Ã n ! Ã n
!
X X
ln(L(p; x1 , . . . , xn )) = xi lnp + n − xi ln(1 − p)
i=1 i=1
n
Ã n
!
d(ln(L(p; x1 , . . . , xn ))) 1X (−1) X
=⇒ = xi + n− xi
dp p i=1 1−p i=1
igualando esta derivada a cero
n
Ã n
! n
Ã n
!
d(ln(L(p; x1 , . . . , xn ))) 1X 1 X X X
=0⇔ xi = n− xi ⇔ (1−p) xi = p n − xi ⇔ p = X̄
dp p i=1 1−p i=1 i=1 i=1
Puede comprobarse, estudiando el crecimiento de la función ln(L(p; x1 , . . . , xn )), que en el valor encon-
trado anteriormente, la función ln(L(p; x1 , . . . , xn )) tiene un máximo absoluto. Por tanto, el estimador
de máxima verosimilitud de p es
n
1X
p̂ = xi
n i=1
4. Distribuciones muestrales
Los estadı́sticos, como todas las variables aleatorias tienen sus correspondientes distribuciones de proba-
bilidad. Para destacar el hecho de que los estadı́sticos son funciones de las muestras, sus distribuciones
de probabilidad reciben el nombre de distribuciones muestrales o distribuciones de muestreo.
Definición 4.1 La distribución de probabilidad de un estadı́stico se llama distribución muestral o
distribución de muestreo.
En esta sección vamos a estudiar las distribuciones muestrales de los estadı́sticos media muestral, va-
rianza muestral y cociente de varianzas muestrales, lo que nos llevará a introducir tres distribuciones de
probabilidad de amplio uso: las distribuciones ji−cuadrado, t de Student y F de Snedecor.

o aproximadamente normal con varianza conocida
El estimador más usado para la media µ es la media muestral X, debido a que tiene propiedades que lo
hacen adecuado. En esta sección vamos a obtener la distribución muestral de dicho estimador.
Sean n variables aleatorias X1 , X2 , . . . , Xn normales e independientes, con medias µ1 , µ2 , . . . , µn y va-
rianzas σ12 , σ22 , . . . , σn2 respectivamente (nótese que no se trata de una muestra aleatoria simple, ya que
las Xi no están idénticamente distribuidas por tener distintas medias y varianzas). Puede demostrarse
que la variable aleatoria
Y = a1 X1 + a2 X2 + . . . + an Xn , donde a1 , a2 , . . . , an ∈ R,
también tiene distribución normal con media y varianza:
E(Y ) = a1 µ1 + a2 µ2 + . . . + an µn , V ar(Y ) = a21 σ12 + a22 σ22 + . . . + a2n σn2 .
Ejemplos: 1.− Si X1 , X2 , . . . , Xn es ahora una muestra aleatoria simple de una población normal X de
1 X1 + X2 + . . . + Xn
media µ y varianza σ 2 , y tomamos a1 = a2 = . . . = an = , entonces Y = = X,
n n
con lo cual, tenemos
µ + µ + ... + µ σ2 + σ2 + . . . + σ2 σ2
E(X) = =µ y V ar(X) = = .
n n2 n
2.– Si tenemos sólo dos poblaciones normales X1 y X2 , la población diferencia X1 − X2 también ten-
drá distribución normal, ası́ como la diferencia de medias muestrales X 1 − X 2 , y por lo tanto:
¡ ¢ ¡ ¢ ¡ ¢ ¡ ¢ ¡ ¢ ¡ ¢ σ2 σ2
E X 1 − X 2 = E X 1 − E X 2 = µ1 − µ2 y V ar X 1 − X 2 = V ar X 1 + V ar X 2 = 1 + 2 .
n1 n2
Es decir, una combinación lineal de variables aleatorias normales e independientes, también tiene distribu-
ción normal. En particular, la media muestral y la diferencia de medias muestrales tiene esa distribución.
Por su importancia, lo enunciamos en forma de teorema:
Teorema 4.1 a) Sea X1 , X2 , . . . , Xµ n una muestra
¶ aleatoria de tamaño n de una población X ∼ N (µ, σ).
σ
Entonces la media muestral X ∼ N µ, √ .
n
b) Sean X11 , X12 , . . . , X1n1 y X21 , X22 , . . . , X2n2 muestras aleatorias independientes de tamaños n1 y
n2 respectivamente de dos poblaciones X1 ∼ N (µ1 , σ1 ) ysX2 ∼ N (µ2 , σ1 ) independientes. Entonces la
Ã !
σ12 σ22
diferencia de medias muestrales X 1 − X 2 ∼ N µ1 − µ2 , + .
n1 n2
Este teorema se refiere al muestreo en poblaciones normales, pero ¿qué ocurre si no sabemos cuales son
las distribuciones de esas poblaciones?, ¿cuál es entonces la distribución muestral de X y de X 1 − X 2 ?
El siguiente teorema, de importancia fundamental dice que si las muestras son grandes, la distribución
muestral de la media y de la diferencia de medias muestrales es aproximadamente normal sean cuales
sean las distribuciones de las poblaciones.
Teorema 4.2 (Teorema central del lı́mite).

a) Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población X de media µ y varianza σ 2 . Entonces,
el lı́mite de la distribución de la variable aleatoria
X −µ
Z= √
σ/ n
cuando n → ∞ es la distribución normal estándar.

b) Sean X11 , X12 , . . . , X1n1 y X21 , X22 , . . . , X2n2 muestras aleatorias de tamaños n1 y n2 respecti-
vamente de dos poblaciones X1 y X2 con medias µ1 , µ2 y varianzas σ12 , σ22 . Entonces, el lı́mite de la
distribución de la variable aleatoria
X 1 − X 2 − (µ1 − µ2 )
Z= s
σ12 σ2
+ 2
n1 n2
cuando n1 , n2 → ∞ es la distribución normal estándar.
El significado de este teorema es que para tamaños muestrales grandes, las variables aleatorias Z
de los apartados a) y b) son aproximadamente normales, de lo que se desprende que también son casi
normales los estadı́sticos X y X 1 − X 2 . Se admite que si n > 30, n1 > 30 y n2 > 30, las µ distribu-
¶
σ
ciones de dichos estadı́sticos pueden aproximarse satisfactoriamente por las distribuciones N µ, √ y
Ã s ! n
2 2
σ1 σ
N µ1 − µ2 , + 2 respectivamente.
n1 n2
La aplicación del teorema central del lı́mite tropieza en la práctica con dos dificultades: que el tamaño de
las muestras sea menor de 30, y que las varianzas de las poblaciones sean desconocidas. En ambos casos,
la media y la diferencia de medias muestrales dejan de tener distribución normal. En la siguiente sección
se introduce una distribución muestral que supera ambas dificultades en el caso de que la población sea
normal. Pero antes introducimos un concepto que será útil más tarde.
Definición 4.2 Para una variable aleatoria normal estándar Z, se llama punto crı́tico a un nivel α,
y se designa zα a un número tal que P (Z > zα ) = α.

con varianza desconocida
En 1908, en un célebre artı́culo1 , W. Gosset, con el seudónimo de ”Student”, estableció que para mues-
X −µ
tras extraidas de una población normal cuya varianza es desconocida, el estadı́stico T = √ tiene
Sc / n
una distribución de probabilidad que vamos a describir y que actualmente se conoce con el nombre de
distribución t de Student. Nótese que T se obtiene tipificando la media muestral pero usando la cuasi
desviación tı́pica Sc (muestral) en lugar de la desviación tı́pica σ (poblacional), dado que esta última no
se conoce.
1 The probable error of a mean. Biometrika 6, 1−25
Definición 4.3 Se dice que una variable aleatoria continua tiene distribución t de Student con k
grados de libertad, si su función de densidad de probabilidad es
µ ¶
k+1
Γ µ 2 ¶−(k+1)/2
2 x
f (x; k) = √ µ ¶ +1 − ∞ < x < ∞, k > 0.
k k
πk Γ
2
Nota 1: Obsérvese que independientemente del valor de k, la función f (x; k) es par, luego su gráfica es
simétrica con respecto al eje vertical. Ello permite, igual que ocurrı́a con la distribución normal, limitar
el cálculo de las tablas de valores crı́ticos a los positivos.
Nota 2: Puede demostrarse que conforme el número de grados de libertad aumenta, la distribución t se
aproxima a una distribución normal estándar, es decir, se verifica
lı́m f (x; k) = N (x; 0, 1).

k→∞
Teorema 4.3 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población X ∼ N (µ, σ). Entonces el
X −µ
estadı́stico T = √ tiene distribución t de Student con n − 1 grados de libertad.
Sc / n
El interés de la distribución t de Student está en que nos proporciona la distribución muestral del es-
X −µ
tadı́stico T = √ , que no es más que (como hemos señalado antes), la media muestral tipificada
Sc / n
cuando la distribución de la población es normal. El empleo de T como estimador de tal media muestral,
tiene interés en situaciones en las que la varianza σ 2 es desconocida, que por cierto es lo usual. El siguiente
cuadro resume las situaciones estudiadas.
Población
Varianza
Normal Desconocida
X −µ X − µ
conocida √ ∼ N (0, 1) (para todo n ∈ Z+ ) √ ∼ N (0, 1) (n > 30) ? (n < 30)
σ/ n σ/ n
X −µ
desconocida √ ∼ N (0, 1) (n > 30)
Sc / n
X −µ
√ ∼ tn−1 (n < 30) ?
Sc / n
Definición 4.4 Para una variable aleatoria T con distribución t de Student con k grados de libertad, se
llama punto crı́tico a un nivel α y se designa tα,k , a un número tal que P (T > tα,k ) = α.
4.3. Distribuciones muestrales de la cuasivarianza y de la varianza

de una población normal
El estimador más adecuado de la varianza σ 2 es la cuasivarianza muestral Sc2 . Entre otras propiedades
está la de que es insesgado según hemos visto en la página 4. No ası́ la varianza muestral S 2 , que como
estimador de σ 2 es sesgado.
Definición 4.5 Se dice que una variable aleatoria continua tiene distribución ji−cuadrado con k gra-
dos de libertad, si su función de densidad de probabilidad es

 1

 µ ¶ xk/2−1 e−x/2 si x > 0,
 √ k
2 k Γ
f (x; k) = 2




0 en otro caso.
µ ¶
k
Nota 1: El factor Γ que aparece en el denominador de la anterior función de densidad de probabi-
2 Z ∞
lidad es la conocida función gamma: Γ(s) = ts−1 e−s ds.
0
Nota 2: Puede demostrarse que cuando el número de grados de libertad k tiende a infinito, la función
de densidad f (x; k) tiende a una normal.
Teorema 4.4 Sea σ 2 la varianza de una población normal. Entonces la variable aleatoria
n
X (Xi − X)2
(n − 1)Sc2
= .
σ2 i=1
σ2
tiene distribución de probabilidad ji-cuadrado con n − 1 grados de libertad.

n
Nota: De la relación Sc2 = S 2 entre los estadı́sticos varianza y cuasi varianza, se deduce, aplicando
n−1
nS 2
el teorema 4.4, que también tiene distribución ji−cuadrado con n − 1 grados de libertad.
σ2
Definición 4.6 Para una variable aleatoria X con distribución ji–cuadrado con k grados de libertad, se
llama punto crı́tico a un nivel α y se designa χ2α,k , a un número tal que P (X > χ2α,k ) = α.
4.4. Distribución muestral del cociente de cuasivarianzas

σ2
Cuando tenemos dos poblaciones X1 y X2 , un parámetro de interés es el cociente de varianzas 12 . Para
σ2
S2
estimarlo se usa el estimador c21 .
Sc2
Definición 4.7 Se dice que la variable aleatoria continua X tiene distribución de probabilidad F de
Snedecor con k1 y k2 grados de libertad, si su función de densidad de probabilidad es de la forma
 µ ¶ µ ¶k1 /2

 k1 + k2 k1

 Γ xk1 /2−1

 2 k2

 µ ¶ µ ¶µ ¶(k1 +k2 )/2 si x > 0,
f (x; k1 , k2 ) = k1 k2 k1
 Γ Γ x+1

 2 2 k2





0 en otro caso.
Teorema 4.5 Sean σ12 y σ22 las varianzas de dos poblaciones normales, y Sc21 y Sc22 las cuasivarianzas
σ2 S 2
muestrales en muestras de tamaños n1 y n2 respectivamente. Entonces la variable aleatoria 22 c21 tiene
σ 1 S c2
distribución F de Snedecor con n1 − 1 y n2 − 1 grados de libertad.
Definición 4.8 Para una variable aleatoria F con distribución F de Snedecor con k1 y k2 grados de
libertad, se llama punto crı́tico a un nivel α y se designa fα,k1 ,k2 , a un número tal que P (F > fα,k1 ,k2 ) =
α.
La distribución F goza de una propiedad cuya importancia radica en que permite simplificar las tablas
de valores crı́ticos. Sea fα,k1 ,k2 el punto crı́tico que verifica P (F > fα,k1 ,k2 ) = α, entonces tenemos
1
f1−α,k2 ,k1 = .
fα,k1 ,k2
La última igualdad evita el cálculo de los valores crı́ticos para niveles 1 − α si ya los hemos calculado para
los niveles α, lo que reduce el tamaño de las tablas de valores crı́ticos. Sólo hay que tener la precaución
de intercambiar los valores de k1 y k2 como se indica en dicha igualdad.
5. Intervalos de confianza
Sea θ un parámetro de la población que deseamos estimar. Supongamos que disponemos de dos estadı́sticos
L y U tales que se verifica la siguiente igualdad: P (L 6 θ 6 U ) = 1 − α, donde α es un número pequeño
(por ejemplo α = 0, 01) que cumple 0 6 α 6 1. La interpretación de esa igualdad es la siguiente:
La probabilidad de que los estadı́sticos L y U , tomen valores menores y mayores respectivamente que
el parámetro θ es alta (ya que α es una probabilidad pequeña y por lo tanto 1 − α es una probabilidad
grande), es decir, que si tomamos muchas muestras, y calculamos en cada una los valores numéricos l y
u de los estadı́sticos L y U , en un alto porcentaje de ellas, se verificará l 6 θ 6 u. Concretamente, si
α = 0, 05, en el 100(1-0,05) %=95 % de esas muestras se verificará la citada doble desigualdad.
Ahora bien, es muy importante destacar que dada una muestra concreta y los correspondientes valores
numéricos l y u de los estadı́sticos, es imposible saber si en esa muestra se verifican las desigualdades
l 6 θ 6 u, ya que lo único que podemos afirmar es que en un alto porcentaje de ellas sı́ se verifican, pero
no hay manera de saber en cuáles. Por ello, debe evitarse el escribir l 6 θ 6 u para no dar ocasión a
falsas interpretaciones, a no ser que quede muy claro lo que se quiere expresar.
Pero aunque no podamos saber si el parámetro θ se encuentra en el intervalo [l, u] correspondiente a
una muestra determinada, podemos confiar (¡nunca afirmar!) en que ése sea uno de los intervalos que
efectivamente contienen a θ. Nuestra confianza se basa en que un alto porcentaje de dichos intervalos lo
contienen. Para expresar esta idea de una forma gráfica, decimos que [l, u] es un intervalo de confianza
del 100(1 − α) % para el parámetro θ.
En la práctica, no se toman muchas muestras, sino sólo una (el muestreo es caro). Si con los datos
muestrales y un nivel de confianza del, digamos 95 %, los valores l y u obtenidos son por ejemplo 3,25 y
4,09, diremos que [3, 25 , 4, 09] es un intervalo de confianza del 95 % para el parámetro. Pero a la pregunta
¿está el parámetro dentro del intervalo [3, 25 , 4, 09]?, la respuesta es que no podemos saberlo. No obstante
podemos apostar que sı́ (dándole a la palabra apostar el mismo sentido de riesgo que tiene en un juego
de azar cuando llevamos una buena mano, es decir, que creemos que podemos ganar aunque admitamos
una pequeña probabilidad de perder).
Definición 5.1 Un intervalo de confianza a un nivel 100(1 − α) % para un parámetro θ es un
intervalo de la forma [L, U ] tal que P (L 6 θ 6 U ) = 1 − α, donde L y U son dos variables aleatorias que
dependen de un estimador Θ b del parámetro.
Observación: Cuando tomamos una muestra de la población y calculamos los valores l y u de las variables
aleatorias L y U , esos valores dependerán de la estimación puntual θ̂ del estimador. Es costumbre llamar
también intervalo de confianza a [l, u].
En las secciones que siguen vamos a calcular intervalos de confianza para diversos parámetros, usando
para ello los estimadores explicados en la sección 4.
5.1. Intervalos de confianza para la media de una población normal

o aproximadamente normal
Vamos a obtener un intervalo de confianza del 100(1 − α) % para el parámetro µ. Distinguiremos dos
casos: varianza conocida y varianza desconocida. El primero de los cuales no responde a una situación
real puesto que los valores de los parámetros (en este caso σ 2 ) siempre son desconocidos. Lo tratamos
sólo para iniciar el tema.
Varianza conocida.– Sea X una población con E(X) = µ y V ar(X) = σ 2 (suponemos conocida
esta última). Sea X1 , X2 , . . . , Xn una muestra aleatoria de
µ tamaño
¶ n de X, y sea X ∼ N (µ, σ) o bien
σ
n > 30, lo que implica según el teorema 4.2 que X ∼ N µ, √ , exacta o aproximadamente, es decir
n
X −µ
√ ∼ N (0, 1). Ahora tomamos un número α tal que 0 < α < 1, lo que nos permite buscar en la tabla
σ/ n
de áreas de la distribución normal estándar, los dos puntos crı́ticos ±zα/2 . Podemos entonces escribir:
µ ¶
X −µ
1 − α = P −zα/2 6 √ 6 zα/2 =⇒
σ/ n
µ ¶
σ σ
=⇒ 1 − α = P −zα/2 √ 6 X − µ 6 zα/2 √ =⇒
n n
µ ¶
σ σ
=⇒ 1 − α = P X − zα/2 √ 6 µ 6 X + zα/2 √ .
n n
σ σ
Si llamamos L = X − zα/2 √ y U = X + zα/2 √ , tenemos P (L 6 µ 6 U ) = 1 − α, y por lo tanto
n n
[L, U ] es un intervalo de confianza del 100(1 − α) % para la media µ, cuando σ es conocida:
· ¸
σ σ
X − zα/2 √ , X + zα/2 √
n n
Varianza desconocida.– Supongamos ahora, como antes, que X es una población con E(X) = µ y
V ar(X) = σ 2 , pero ahora con σ 2 desconocida. Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n
de X. Distinguiremos dos casos:
a) Tamaño muestral n > 30: En este caso, y en virtud del Teorema Central del Lı́mite, el intervalo
de confianza resulta ser idéntico al anterior, sólo que sustituyendo la desviación tı́pica σ por la cuasi
desviación tı́pica Sc :
· ¸
Sc Sc
X − zα/2 √ , X + zα/2 √
n n
X −µ
b) Tamaño muestral n 6 30 y X ∼ N (µ, σ): De acuerdo con el teorema 4.3, √ ∼ tn−1 , de modo
Sc / n
que si fijamos un valor para α (0 6 α 6 1), que nos permita buscar en la tabla de percentiles de la
distribución t de Student, los puntos crı́ticos ±tα/2,n−1 , podemos escribir:
µ ¶
X −µ
1 − α = P −tα/2,n−1 6 √ 6 tα/2,n−1 =⇒
Sc / n
µ ¶
Sc Sc
=⇒ 1 − α = P −tα/2,n−1 √ 6 X − µ 6 tα/2,n−1 √ =⇒
n n
µ ¶
Sc Sc
=⇒ 1 − α = P X − tα/2,n−1 √ 6 µ 6 X + tα/2,n−1 √ .
n n
Sc Sc
Si llamamos L = X − tα/2,n−1 √ y U = X + tα/2,n−1 √ , tenemos P (L 6 µ 6 U ) = 1 − α, y por
n n
lo tanto [L, U ] es un intervalo de confianza del 100(1 − α) % para la media µ de una población normal,
cuando σ es desconocida y el tamaño muestral es n 6 30:
· ¸
Sc Sc
X − tα/2,n−1 √ , X + tα/2,n−1 √
n n
Nótese que el caso de que la población no sea normal y el tamaño muestral sea n < 30, no lo tratamos,
pues exige el empleo de técnicas que quedan fuera del alcance de esta asignatura.
————————————–
Los procedimientos de obtención de los intervalos de confianza que siguen, son muy parecidos a los dos
ya expuestos, ası́ que en las siguientes secciones nos limitaremos a exponer las condiciones bajo las cuales
es válido cada uno de los intervalos de confianza, y la expresión de los mismos, omitiendo por brevedad,
salvo en tres casos, su desarrollo.
5.2. Intervalos de confianza para la diferencia de medias de poblaciones

independientes, normales o aproximadamente normales
Varianzas conocidas.– Sean X1 y X2 dos poblaciones independientes con medias µ1 y µ2 y varianzas
σ12 y σ22 (suponemos conocidas estas últimas). Consideremos dos muestras aleatorias X11 , X12 , . . . , X1n1 y
X21 , X22 , . . . , X2n2 de tamaños n1 y n2 de dichas poblaciones. Supongamos que X1 y X2 son normales, o
que si no lo son,Ãlos tamaños s muestrales
! cumplen n1 > 30 y n2 > 30, lo que implica según el teorema 4.2,
σ12 σ2
X1 − X2 ∼ N µ1 − µ2 , + 2 , exacta o aproximadamente. Entonces, un intervalo de confianza
n1 n2
del 100(1 − α) % para el parámetro µ1 − µ2 es:
 s s 
2 2 2 2
X 1 − X 2 − zα/2 σ1 + σ2 , X 1 − X 2 + zα/2 σ1 + σ2 
n1 n2 n1 n2
Varianzas desconocidas.– Si las varianzas σ12 y σ22 son desconocidas, pero los tamaños muestrales
son n1 > 30 y n2 > 30, el intervalo de confianza del 100(1 − α) % para µ1 − µ2 es igual al anterior, pero
sustituyendo las varianzas de las poblaciones por las cuasivarianzas muestrales:
 s s 
Sc21 Sc22 Sc21 Sc22
X 1 − X 2 − zα/2 + , X 1 − X 2 + zα/2 + 
n1 n2 n1 n2
Con tamaños muestrales mayores o iguales que 30, no es necesario suponer que las poblaciones son
normales, ya que el Teorema Central del Lı́mite (teorema 4.2) garantiza la normalidad de la diferencia de
medias muestrales, pero si los tamaños muestrales son menores que 30, necesitamos suponer que ambas
poblaciones son normales y distinguir dos casos:
a) Varianzas iguales (σ12 = σ22 ).– El intervalo de confianza del 100(1 − α) % para µ1 − µ2 es:
· r r ¸
1 1 1 1
X 1 − X 2 − tα/2,n1 +n2 −2 Sp + , X 1 − X 2 + tα/2,n1 +n2 −2 Sp +
n1 n2 n1 n2
2 2
(n1 − 1)Sc1 + (n2 − 1)Sc2
donde Sp2 = .
n1 + n2 − 2
b) Varianzas distintas (σ12 6= σ22 ).– El intervalo de confianza del 100(1 − α) % para µ1 − µ2 es:
 s s 
Sc21 Sc22 Sc21 Sc22
X 1 − X 2 − tα/2,ν + , X 1 − X 2 + tα/2,ν + 
n1 n2 n1 n2
¡ 2 ¢2
Sc1 /n1 + Sc22 /n2
donde el número de grados de libertad es ν = ¡ ¢2 1 ¡ ¢2 1 − 2 . Para buscar
Sc21 /n1 + Sc22 /n2
n1 − 1 n2 − 1
en las tablas de percentiles de la distribución t de Student, el valor crı́tico tα/2,ν debe redondearse ν al
entero más próximo.
Cabe preguntarse cómo es posible saber si las varianzas σ12 y σ22 son iguales o distintas, si son desconocidas.
Una de las posibles opciones para responder a esta cuestión consiste en calcular un intervalo de confianza
σ2
del 100(1 − α) % para el cociente de las varianzas 12 tal y como se detalla en la sección 5.5. Si este
σ2
intervalo contiene al número 1, entonces podemos concluir con una confianza del 100(1 − α) %, que las
varianzas se pueden considerar iguales. En caso contrario, consideraremos que las varianzas son diferentes.
Otra opción la veremos en la sección ...
5.3. Intervalo de confianza para la diferencia de medias de poblaciones

dependientes, normales o aproximadamente normales
Cuando dos poblaciones no son independientes, las muestras extraı́das de ellas se llaman muestras
pareadas. Se presenta este caso cuando las poblaciones son medidas u observaciones practicadas sobre
los mismos individuos en condiciones distintas. El hecho de que se trate de los mismos individuos, induce
a pensar que la población de medidas u observaciones practicadas en unas y otras condiciones no son
independientes. Por ejemplo
Sean X1 y X2 dos poblaciones dependientes con medias µ1 y µ2 y varianzas σ12 y σ22 . Supongamos que
2
la variable aleatoria D = X1 − X2 tiene distribución normal con media µD y varianza σD . Consideremos
dos muestras aleatorias X11 , X12 , . . . , X1n y X21 , X22 , . . . , X2n del mismo tamaño n de dichas poblaciones,
con las que construimos la muestra D1 , D2 , . . . , Dn de D. Como antes, hay dos casos:
µ ¶
2 σD
Varianza σD conocida.– De acuerdo con el teorema 4.1 a), tenemos D ∼ N µD , √ , y por lo tanto
n
un intervalo de confianza del 100(1 − α) % para el parámetro µD tiene la misma forma que el obtenido
en la sección 5.1 cuando la varianza es conocida:
· ¸
σD σD
D − zα/2 √ , D + zα/2 √
n n
2 D − µD
Varianza σD desconocida.– De acuerdo con el teorema 4.3, tenemos ahora √ ∼ tn−1 , luego
Sc / n
un intervalo de confianza del 100(1 − α) % para el parámetro µD tiene la misma forma que el obtenido
en la sección 5.1 cuando la varianza es desconocida (apartado b):
· ¸
Sc Sc
D − zα/2 √ , X + zα/2 √
n n
5.4. Intervalo de confianza para la varianza de una población normal

Sea X una población con E(X) = µ y V ar(X) = σ 2 . Sea X1 , X2 , . . . , Xn una muestra aleatoria de
(n − 1)Sc2
tamaño n de X, y sea X ∼ N (µ, σ). De acuerdo con el teorema 4.4, la variable aleatoria
σ2
tiene distribución ji−cuadrado con n − 1 grados de libertad. Tomemos un número α tal que 0 < α < 1,
que nos permita buscar en la tabla de percentiles de la distribución ji−cuadrado, los dos puntos crı́ticos
χ21−α/2,n−1 y χ2α/2,n−1 . Podemos entonces escribir:
µ ¶
2 (n − 1)Sc2 2
1 − α = P χ1−α/2,n−1 6 6 χα/2,n−1 =⇒
σ2
Ã 2 !
χ1−α/2,n−1 1 χ2α/2,n−1
=⇒ 1 − α = P 6 2 6 =⇒
(n − 1)Sc2 σ (n − 1)Sc2
Ã !
(n − 1)Sc2 2 (n − 1)Sc2
=⇒ 1 − α = P 6σ 6 2 .
χ2α/2,n−1 χ1−α/2,n−1
(n − 1)Sc2 (n − 1)Sc2
Como en los casos anteriores, si llamamos L = 2 y U = 2 , vemos que se cumple la
χα/2,n−1 χ1−α/2,n−1
igualdad P (L 6 µ 6 U ) = 1 − α, lo que implica que [L, U ] es un intervalo de confianza del 100(1 − α) %
para la varianza σ 2 de una población normal:
" #
(n − 1)Sc2 (n − 1)Sc2
,
χ2α/2,n−1 χ21−α/2,n−1
5.5. Intervalo de confianza para el cociente de varianzas

de poblaciones normales
Sean X1 ∼ N (µ1 , σ1 ) y X2 ∼ N (µ2 , σ2 ) dos poblaciones independientes, y sean X11 , X12 , . . . , X1n1 y
X21 , X22 , . . . , X2n2 dos muestras aleatorias de tamaños n1 y n2 de X1 y X2 respectivamente. De acuerdo
σ2 S 2
con el teorema 4.5, la variable aleatoria 22 c1 2 tiene distribución F de Snedecor con n1 −1 y n2 −1 grados
σ1 Sc2
de libertad. Como en los casos anteriores, sea α un número tal que 0 6 α 6 1. Entonces, podemos buscar
en las tablas de percentiles de la distribución F de Snedecor, los dos puntos crı́ticos f1−α/2,n1 −1,n2 −1 y
fα/2,n1 −1,n2 −1 2 con los que podemos escribir:
µ ¶
σ2 S 2
1−α=P f1−α/2,n1 −1,n2 −1 6 22 c12 6 f α/2,n1 −1,n2 −1 =⇒
σ1 Sc2
µ 2 ¶
Sc2 σ22 2
Sc2
=⇒ 1 − α = P 2 f1−α/2,n1 −1,n2 −1 6 6 fα/2,n1 −1,n2 −1 =⇒
Sc1 σ12 2
Sc1
µ 2 ¶
Sc1 1 σ12 2
Sc1 1
=⇒ 1 − α = P 2 · 6 6 · .
Sc2 fα/2,n1 −1,n2 −1 σ22 2
Sc2 f1−α/2,n1 −1,n2 −1
S2 1 S2 1
Ahora consideremos los dos estdı́sticos L = c12 · y U = c1
2 · f . Según
Sc2 fα/2,n1 −1,n2 −1 Sc2 1−α/2,n1 −1,n2 −1
µ 2
¶
σ
acabamos de ver, P L 6 12 6 U = 1 − α, de lo que se deduce que [L, U ] es un intervalo de confianza
σ2
σ2
del 100(1 − α) % para el cociente de varianzas 12 de dos poblaciones normales:
σ2
· 2 2
¸
Sc1 1 Sc1 1
2 · , 2 ·
Sc2 fα/2,n1 −1,n2 −1 Sc2 f1−α/2,n1 −1,n2 −1
5.6. Intervalo de confianza para la proporción de una población binomial

Sea X una población con distribución de Bernoulli, es decir, X sólo puede tomar los valores 1 (éxito) y
0 (fracaso) con probabilidades respectivas p y 1 − p. Sea X1 , X2 , . . . Xn una muestra aleatoria de tamaño
Xn n
1X
n. La suma Xi es el número de éxitos en la muestra, y la media muestral X = Xi es la fracción
i=1
n i=1
muestral de éxitos. Es costumbre llamar p̂ en vez de X a este estadı́stico para resaltar el hecho de que
es un estimador del parámetro p, que por ser la probabilidad de un éxito, es también la fracción (o
proporción) poblacional de éxitos. Decir que p = 0, 85 es lo mismo que decir que una fracción 0,85 de la
población son éxitos, o que el 85 % de la población está constituido por éxitos.
Supongamos que n > 30 y que np > 5 y n(1 − p) > 5 (no trataremos otros casos), entonces, la variable
p̂ − p √
aleatoria p n tiene una distribución de probabilidad que es aproximadamente normal estándar.
p(1 − p)
Fijado un número α tal que 0 < α < 1, podemos buscar en la tabla de áreas de la distribución normal
2 Recuerde que en las tablas de percentiles de la distribución F , el punto crı́tico f
1−α/2,n1 −1,n2 −1 , es el inverso de
fα/2,n2 −1,n1 −1 .
estándar, los dos puntos crı́ticos ±zα/2 , y escribir:

Ã !
p̂ − p √
1−α=P −zα/2 6 p n 6 zα/2 =⇒
p(1 − p)
Ã r r !
p(1 − p) p(1 − p)
=⇒ 1 − α = P −zα/2 6 p̂ − p 6 zα/2 =⇒
n n
Ã r r !
p(1 − p) p(1 − p)
=⇒ 1 − α = P p̂ − zα/2 6 p 6 p̂ + zα/2 .
n n
r
p(1 − p)
Pero ahora, a diferencia de todos los casos tratados, las dos variables aleatorias p̂ − zα/2 y
r n
p(1 − p)
p̂ + zα/2 no son estadı́sticos, porque dependen del parámetro p. Para eludir esta dificultad,
n
se sustituye r
p por su estimador p̂, conr lo cual ya tenemos como en los casos anteriores, dos estadı́sticos
p̂(1 − p̂) p̂(1 − p̂)
L = p̂−zα/2 y U = p̂+zα/2 que cumplen aproximadamente P (L 6 p 6 U ) = 1−α.
n n
Ası́ pues tenemos que [L, U ] es un intervalo de confianza aproximado del 100(1 − α) % para el parámetro
proporción p:
" r r #
p̂(1 − p̂) p̂(1 − p̂)
p̂ − zα/2 , p̂ + zα/2
n n
5.7. Intervalo de confianza para la diferencia de proporciones

de poblaciones binomiales
Sean ahora X1 y X2 dos poblaciones con distribución de Bernoulli independientes, de parámetros p1 y
p2 . Consideremos dos muestras aleatorias X11 , X12 , . . . , X1n1 y X21 , X22 , . . . , X2n2 de tamaños n1 y n2
de dichas poblaciones. Para poder usar la aproximación por la distribución normal, supongamos que se
verifican:
n1 > 30, n2 > 30, n1 p1 > 5, n2 p2 > 5, n1 (1 − p1 ) > 5, n1 (1 − p1 ) > 5.
Entonces, un intervalo de confianza aproximado del 100(1 − α) % para el parámetro diferencia de propor-
ciones p1 − p2 es:
 s s 
p̂1 − p̂2 − zα/2 p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) 
+ , p̂1 − p̂2 + zα/2 +
n1 n2 n1 n2
6. Pruebas de hipótesis
Una forma de estimación, alternativa a la estimación puntual o por intervalos es la conocida como prueba
de hipótesis. A grandes rasgos, la idea consiste en proponer un valor θ0 (llamado valor de prueba) para
el parámetro θ que deseamos estimar, tomar a continuación una muestra de la población, calcular con ella
el valor de cierto estadı́stico y decidir si el valor obtenido avala la elección que hemos hecho del valor de
prueba. Cuando proponemos un valor de prueba para un parámetro, estamos formulando una hipótesis
acerca del mismo, ası́, definimos:
Definición 6.1 Una hipótesis estadı́stica es una proposición sobre la distribución de probabilidad de
una o más poblaciones, o sobre los parámetros de las mismas.
En este tema sólo consideraremos las hipótesis estadı́sticas bajo la segunda acepción, es decir, como
proposiciones acerca de parámetros de poblaciones. Una hipótesis estadı́stica se plantea con la intención
de rechazarla o no rechazarla, de acuerdo con la información proporcionada por una muestra extraı́da de
la población. La formulación de una hipótesis acerca de un parámetro tiene sentido cuando desconocemos
el valor del mismo y queremos estimarlo rechazando o no dicha hipótesis. El proceso, basado en el uso
de un estadı́stico apropiado, de rechazar o no la hipótesis, es decir, de alcanzar una decisión acerca de
la misma, se llama prueba, contraste o test, ası́ hablamos de probar o contrastar una hipótesis, y el
estadı́stico usado para ello se llama estadı́stico de prueba o estadı́stico de contraste.
Supongamos que en cierto proceso de fabricación3 el ingeniero a cargo del mismo cree, basándose en su
experiencia y en observaciones previas, que la fracción de artı́culos defectuosos es del 10 %. Admitiendo
que la población de artı́culos fabricados puede dividirse en dos categorı́as que se excluyen mutuamente,
los defectuosos y los no defectuosos, dicha población tiene distribución de Bernoulli con parámetro
p = probabilidad de que un artı́culo elegido al azar sea defectuoso.
La creencia del ingeniero le lleva a formular la siguiente hipótesis: p = 0, 1. Para corroborarla o desmentir-
la, decide tomar una muestra de tamaño 100, y encuentra 12 defectuosos, es decir una fracción muestral
p̂ = 0, 12. Tal fracción, parece estar conforme con la hipótesis, pero también lo estarı́a si la hipótesis
hubiera sido p = 0, 11 o p = 0, 13, por ello debemos ser cautelosos y tomar el resultado muestral obtenido
no como una confirmación estricta de la hipótesis, sino mas bien como un no rechazo de la misma. De
hecho, si la hipótesis del ingeniero fuera correcta, la probabilidad de obtener una fracción muestral de
defectuosos comprendida entre digamos, 0,05 y 0,15, es muy alta, concretamente:
X15 µ ¶
100
P (0, 05 6 p̂ 6 0, 15 | p = 0, 10) = (0, 10)x (1 − 0, 10)100−x = 0, 9024,
x=5
x
pero también son altas estas probabilidades si tomamos como hipótesis p = 0, 11 o p = 0, 13:
X15 µ ¶
100
P (0, 05 6 p̂ 6 0, 15 | p = 0, 11) = (0, 11)x (1 − 0, 11)100−x = 0, 8895,
x=5
x
X15 µ ¶
100
P (0, 05 6 p̂ 6 0, 15 | p = 0, 13) = (0, 13)x (1 − 0, 13)100−x = 0, 7690.
x=5
x
Sin embargo si en la muestra hubieran aparecido 20 artı́culos defectuosos deberı́amos rechazar la hipótesis
p = 0, 1, pues una fracción muestral mayor que 0,15 serı́a muy improbable si tal hipótesis fuera cierta.
En efecto:
X15 µ ¶
100
P (p̂ > 0, 15 | p = 0, 10) = 1 − (0, 10)x (1 − 0, 10)100−x = 0, 0399.
x=0
x
Por lo tanto, el rechazo casi excluye a la hipótesis, mientras que el no rechazo, aunque no la excluye,
tampoco excluye otras posibilidades, por eso, la decisión de rechazar es más fuerte que la de no rechazar,
y de ahı́, que en el argot de la Estadı́stica, a un resultado muestral que nos lleve a rechazar una hipótesis,
se le llama significativo, mientras que un resultado que no nos permita rechazarla, se dice que no es
significativo. Una prueba de hipótesis debe pues intentar plantearse al revés de lo que parece, es decir
de tal forma que sometamos a prueba la hipótesis contraria a la que creemos que es cierta, pues ası́, si
logramos rechazarla, afirmamos con más fuerza nuestra hipótesis.
6.1. Metodologı́a de una prueba de hipótesis

La discusión precedente señala los puntos clave a tener en cuenta en el proceso de una prueba de hipótesis.
La hipótesis que planteamos con el deseo de rechazarla, para ası́ afirmar con más fuerza su contraria que
3 Este ejemplo es una versión del que se expone al principio del capı́tulo 10 de la sexta edición del libro Probabilidad y
estadı́stica para ingenieros de Walpole, R.E.; Myers, R.H. y Myers, S.L., editado por Prentice-Hall Hispanoamericana S.A.,
México 1999.
es en la que creemos, se llama hipótesis nula, y suele designarse con el sı́mbolo H0 . El rechazo de
la hipótesis nula se formula en forma de otra hipótesis a la que se denomina hipótesis alternativa
y que se designa con el sı́mbolo H1 (algunas veces Ha ). El rechazo de la hipótesis nula (lo que nos
lleva a la aceptación de la alternativa) se produce si el estadı́stico de contraste toma un valor en una
región en la que tiene muy pocas probabilidades de estar si la hipótesis nula es cierta. Tal región se
denomina región crı́tica o menos comúnmente región de rechazo. En la sección precedente, se ha
elegido arbitrariamente esa región como p̂ > 0, 15. Contrariamente, el no rechazo de la hipótesis nula se
produce cuando el estadı́stico de contraste toma un valor en una región en la que hay una probabilidad
alta de que lo tome si la hipótesis nula es cierta. De manera equı́voca, pues debe evitarse el término
aceptación al referirnos a la hipótesis nula, se suele llamar a ésta, región de aceptación.
La decisión de establecer el tamaño de la región crı́tica debe tomarse antes de la elección de la muestra,
y la forma de hacerlo es fijar a priori la probabilidad de que el estadı́stico de contraste tome un valor
dentro de esa región en el supuesto de que la hipótesis nula es cierta. A esa probabilidad se le llama
nivel de significación, se suele designar con la letra griega α, y se elige de modo que sea pequeña, pues
de acuerdo con la discusión anterior, no tendrı́a interés si fuera grande porque entonces no tendrı́amos
argumentos para rechazar H0 . Valores usuales de α consagrados por una larga tradición son 0,1, 0,05 y
0,01, aunque naturalmente pueden elegirse otros. El valor (o valores, como veremos después) del estadı́stico
de contraste que separa las regiones crı́ticas y de aceptación, se llama valor crı́tico o punto crı́tico, y
está determinado por el nivel de significación de la forma que más tarde se establecerá.
6.2. Pruebas unilaterales y bilaterales

Es corriente plantear la hipótesis nula en forma de igualdad. Si llamamos θ0 al valor hipotético que
proponemos para el parámetro θ, la hipótesis nula serı́a θ = θ0 . Aunque también puede plantearse como
desigualdad, veremos más tarde que es preferible no hacerlo ası́. En cuanto a la hipótesis alternativa, su
formulación depende de la naturaleza de aquello que queremos probar. Para ilustrar esto, consideremos
un problema común en la investigación clı́nica: se sabe, porque se lleva muchos años aplicando y hay por
lo tanto muchos datos que ası́ lo avalan, que determinado medicamento tiene una eficacia del 50 % en la
cura de cierta enfermedad. Hablando sin mucha precisión, aproximadamente uno de cada dos enfermos
a los que se aplica, sana, o en términos de un parámetro de la población, que la proporción de enfermos
curados con ese medicamento es p = 0, 5. Recientemente se ha descubierto un nuevo medicamento que los
investigadores creen que supera en eficacia al anterior. Para corroborar esta creencia, parece razonable
plantear un contraste de hipótesis en estos términos:
H0 : p = 0, 5,
H1 : p > 0, 5.
Obsérvese que hemos planteado la hipótesis alternativa como una desigualdad de la forma “el parámetro
es mayor que un cierto número”, ya que creemos que es ése el caso.
Imaginemos ahora otra situación: Se ha diseñado una dieta para rebajar peso, que en unas pruebas
preliminares indican que después de un mes de aplicación, el descenso medio de peso es de más de 5
kilogramos. Llamemos µa y µd a los parámetros peso medio antes y después de un mes de aplicación de la
dieta respectivamente. Para confirmar o desmentir el resultado de las pruebas preliminares, se formulan
las siguientes hipótesis:
H0 : µd − µa = 5,
H1 : µd − µa < 5.
Ahora la hipótesis alternativa se ha planteado como una desigualdad de la forma “el parámetro (en este
caso es una diferencia de parámetros) es menor que un cierto número”. No obstante es evidente que
se habrı́a podido plantear la hipótesis alternativa con la desigualdad en sentido contrario, sin más que
cambiar el orden de µa y µd .
Por último consideremos un proceso de fabricación de pistones de motores. El diámetro exterior de
los mismos debe cumplir estrictamente con las especificaciones de tolerancia establecidas en ±0,03 mm
alrededor del valor nominal del diámetro, ya que de no ser ası́ nos verı́amos obligados o bien a rectificar
los pistones con un diámetro excesivamente grandes antes de su venta, o a desechar los que tienen una
diámetro pequeño, con los consiguientes costes adicionales. En una inspección se detecta la aparición
tanto de unos como de otros con una frecuencia que parece ser alta, lo que nos hace sospechar que el
proceso tiene una variabilidad mayor que la deseada. Un parámetro usual que mide la variabilidad de una
población es la varianza. En los procesos de control de calidad, se considera admisible una variabilidad
de ±3σ alrededor de la media, de modo que para confirmar nuestra sospecha establecemos las siguientes
hipótesis
H0 : σ 2 = 0, 0001,
H1 : σ 2 > 0, 0001.
6.3. Errores de tipo I y II

Definición 6.2 Se llama error de tipo I al que se comete al rechazar la hipótesis nula cuando es
verdadera. Se llama error de tipo II al que se comete al no rechazar la hipótesis nula cuando es falsa.
H0 verdadera H0 falsa
No rechazamos H0 Decisión correcta Error de tipo II
Rechazamos H0 Error de tipo I Decisión correcta
6.4. Valor P de un contraste

La aplicación rutinaria de un nivel de significación para determinar la región crı́tica en una prueba de
hipótesis, permite decidir sin ambigüedad entre el rechazo y el no rechazo de la hipótesis nula, ya que basta
con observar en cuál de las dos regiones se encuentra el estadı́stico de contraste. Pero aunque carezca de
ambigüedad, la decisión que tomemos empieza a resultarnos insatisfactoria si el estadı́stico de contraste
se sitúa cerca del valor crı́tico, ya que entonces, una diferencia pequeña en el valor del estadı́stico, que
podrı́a atribuirse simplemente al muestreo, nos llevarı́a a cambiar drásticamente la decisión, de rechazar
a no rechazar la hipótesis nula. En las figuras 1 y 2 se presentan dos situaciones que nos llevan a la
misma decisión: no rechazar H0 , pero a diferencia de la primera de ellas en la que esa decisión no nos crea
dificultades, en la segunda, nos surge la duda de si la decisión no podrı́a haber sido la contraria sólo con
haber tomado otra muestra diferente, dada la proximidad del estadı́stico de contraste al valor crı́tico.
Figura 1: No rechazar H0 . Decisión acorde con la evidencia muestral satisfactoria .
Llegados a esta situación, la práctica impuesta por el uso de la Estadı́stica ha sido introducir el concepto
de valor-p de una prueba.
Definición 6.3 Se llama valor-p de una prueba de hipótesis al menor valor del nivel de significación
que nos llevarı́a, con los datos disponibles, a rechazar la hipótesis nula.
En las páginas anteriores hemos hecho una descripción bastante detallada del proceso de obtención de
distintos intervalos de confianza. En cuanto a las pruebas de hipótesis, sólo vamos a describir por brevedad
la obtención de algunas de ellas: la relativa a la media de una población normal o aproximadamente normal
con varianza conocida. Para las restantes pruebas de hipótesis se procede de forma análoga.
Figura 2: No rechazar H0 . Decisión acorde con la evidencia muestral, pero insatisfactoria.
6.5. Pruebas de hipótesis sobre la media de una población normal o aproxi-

madamente normal con varianza conocida
Vamos a diseñar una prueba de hipótesis bilateral a un nivel de significación α para el parámetro µ en el
caso de que la varianza σ 2 sea conocida.
Sea X una población con E(X) = µ y V ar(X) = σ 2 , siendo esta última conocida. Sea X1 , X2 , . . . Xn
una muestra aleatoria de tamaño n de X, y seaµ X ∼ N ¶ (µ, σ) o bien n > 30, lo que implica según el
σ
comentario que sigue al teorema 4.2 que X ∼ N µ, √ , exacta o aproximadamente. Dado un nivel de
n
significación α formulamos la prueba:
(
H0 : µ = µ0 ,
H1 : µ 6= µ0 .
µ ¶
σ
Si H0 fuera cierta, X ∼ N µ0 , √ y la función de densidad de probabilidad de X serı́a la que se re-
n
presenta en la figura 3. En esta situación, la probabilidad de que el estadı́stico tome un valor comprendido
entre µ0 − c y µ0 + c es 1 − α (si α es pequeño, 1 − α será un valor grande). Luego si X tomara un valor
entre µ0 − c y µ0 + c, esto serı́a coherente con la hipótesis H0 y no tendrı́amos argumentos para recha-
zar dicha hipótesis. Por lo tanto, la región de aceptación de la prueba viene dada por las desigualdades
µ0 − c 6 X 6 µ0 + c.
Figura 3: Densidad de probabilidad de la media muestral (caso normal) cuando H0 es cierta.
Asimismo, como la probabilidad de que X tome un valor mayor que µ0 + c o menor que µ0 − c es α
(que suponemos que es un valor pequeño), si tal cosa ocurriera, estarı́amos inclinados a pensar que no
nos encontramos en la situación descrita en la figura 3, es decir, que H0 no es cierta y por lo tanto, la
rechazarı́amos. Por eso, las desigualdades X > µ0 +c y X < µ0 −c definen la región crı́tica (o de rechazo).
Obsérvese que los puntos del eje horizontal de abcisas µ0 − c y µ0 + c están unı́vocamente determinados
una vez que elegimos el valor del nivel de significación α.
Hay que advertir, no obstante, que aunque poco probable, no es imposible que siendo H0 cierta, X
tome un valor en la región crı́tica. Ello nos llevarı́a a rechazar H0 aun siendo cierta, es decir, estarı́amos
cometiendo un error de Tipo I. La probabilidad de que tal cosa ocurra es de α.
Para profundizar en la comprensión de la prueba de hipótesis, supongamos ahora que la hipótesis nula
no es cierta. Entonces, la distribución de X sigue siendo normal
µ con
¶ la misma varianza que antes, pero
σ
ahora su media no es µ0 , es decir, ahora tenemos X ∼ N µ, √ con µ 6= µ0 , situación descrita en
n
la figura 4. La región de aceptación es la misma que antes, ya que su tamaño sólo depende del nivel de
significación α, ası́ que ahora la probabilidad β de que X tome valores en dicha región, es el área rayada
bajo la curva de campana. Si el valor de prueba µ0 está muy alejado de la media µ de la población, esta
área será muy pequeña, es decir será poco probable que aceptemos H0 (lo cual es razonable), pero si µ0
estuviera cerca de µ, tal área serı́a grande y por tanto serı́a grande la probabilidad de aceptar H0 aun
siendo falsa. Si ocurre esto último, estaremos cometiendo un error Tipo II. La probabilidad de tal error
es β.
Figura 4: Densidad de probabilidad de la media muestral (caso normal) cuando H0 no es

cierta.
X − µ0
En la práctica no se utiliza como estadı́stico de contraste X sino Z = √ que tiene distribución
σ/ n
normal estándar si la hipótesis nula es cierta. De este modo tenemos:
µ ¶
−c c
P (µ0 − c 6 X 6 µ0 + c) = P √ 6Z6 √ = 1 − α.
σ/ n σ/ n
c
De la última igualdad se desprende que ± √ son los puntos crı́ticos ±zα/2 de la distribución normal
σ/ n
estándar, ası́ que resumiendo todo esto, tenemos nuestra prueba de hipótesis:
(
H0 : µ = µ0 X − µ0
Prueba: Estadı́stico de contraste: Z = √ ∼ N (0, 1)
H1 : µ 6= µ0 σ/ n
Nivel de significación: α Región de aceptación: −zα/2 6 Z 6 zα/2

En el caso de pruebas de hipótesis unilaterales:
(
H0 : µ = µ0 X − µ0
H1 : µ > µ 0 σ/ n
Nivel de significación: α Región de aceptación: Z 6 zα
(
H0 : µ = µ0 X − µ0
H1 : µ < µ 0 σ/ n
Nivel de significación: α Región de aceptación: Z > −zα

Estimación y Pruebas de Hipótesis - Estadística PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimación y Pruebas de Hipótesis - Estadística PDF

Cargado por

Copyright:

Formatos disponibles

Tema 4

Estimación y pruebas de hipótesis

2. Muestras aleatorias y estadı́sticos 2

Definición 1.2 Una muestra es un subconjunto de elementos seleccionados de una población.

Descartada la posibilidad de estudiar la variable en toda la población, podemos, no obstante estudiarla

2. Muestras aleatorias y estadı́sticos

aunque más tarde consideraremos otros estadı́sticos de uso frecuente.

llamado cuasivarianza muestral es insesgado, ya que

3.1. Método de máxima verosimilitud

Definición 3.6 El estimador de máxima verosimilitud de θ es el valor de θ que maximiza la función

En definitiva, dada una muestra de valores observados x1 , x2 , . . . , xn de una variable aleatoria X, el

Ejemplo 3: Supongamos que X ∼ B(p). Sabemos que

tomando logaritmo neperiano en ambos miembros de la igualdad tenemos que

igualando esta derivada a cero

4.1. Distribución muestral de la media de una población normal

también tiene distribución normal con media y varianza:

E(Y ) = a1 µ1 + a2 µ2 + . . . + an µn , V ar(Y ) = a21 σ12 + a22 σ22 + . . . + a2n σn2 .

Teorema 4.2 (Teorema central del lı́mite).

cuando n → ∞ es la distribución normal estándar.

cuando n1 , n2 → ∞ es la distribución normal estándar.

4.2. Distribución muestral de la media de una población normal

lı́m f (x; k) = N (x; 0, 1).

4.3. Distribuciones muestrales de la cuasivarianza y de la varianza

tiene distribución de probabilidad ji-cuadrado con n − 1 grados de libertad.

4.4. Distribución muestral del cociente de cuasivarianzas

5.1. Intervalos de confianza para la media de una población normal

5.2. Intervalos de confianza para la diferencia de medias de poblaciones

5.3. Intervalo de confianza para la diferencia de medias de poblaciones

5.4. Intervalo de confianza para la varianza de una población normal

5.5. Intervalo de confianza para el cociente de varianzas

5.6. Intervalo de confianza para la proporción de una población binomial

estándar, los dos puntos crı́ticos ±zα/2 , y escribir:

5.7. Intervalo de confianza para la diferencia de proporciones

n1 > 30, n2 > 30, n1 p1 > 5, n2 p2 > 5, n1 (1 − p1 ) > 5, n1 (1 − p1 ) > 5.

6.1. Metodologı́a de una prueba de hipótesis

6.2. Pruebas unilaterales y bilaterales

6.3. Errores de tipo I y II

6.4. Valor P de un contraste

Figura 1: No rechazar H0 . Decisión acorde con la evidencia muestral satisfactoria .

Figura 2: No rechazar H0 . Decisión acorde con la evidencia muestral, pero insatisfactoria.

6.5. Pruebas de hipótesis sobre la media de una población normal o aproxi-

Figura 3: Densidad de probabilidad de la media muestral (caso normal) cuando H0 es cierta.

Figura 4: Densidad de probabilidad de la media muestral (caso normal) cuando H0 no es

Nivel de significación: α Región de aceptación: −zα/2 6 Z 6 zα/2

En el caso de pruebas de hipótesis unilaterales:

Nivel de significación: α Región de aceptación: Z 6 zα

Nivel de significación: α Región de aceptación: Z > −zα

También podría gustarte