0% encontró este documento útil (0 votos)

26 vistas40 páginas

Introducción a la Inferencia Estadística

La Inferencia Estadística utiliza un razonamiento inductivo para inferir propiedades de una población a partir de una muestra. Se clasifica en inferencia paramétrica, que asume una distribución conocida, y no paramétrica, que no hace suposiciones sobre la distribución. Los métodos de inferencia paramétrica incluyen estimación puntual, intervalos de confianza y contrastes de hipótesis, siendo crucial la selección adecuada de la muestra para obtener conclusiones válidas.

Cargado por

Alx

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

26 vistas40 páginas

Introducción a la Inferencia Estadística

Cargado por

Alx

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

PARTE III: Inferencia Estadı́stica

Tema 5: Introducción a la Inferencia Estadı́stica

Tema 6: Estimación puntual

Tema 7: Intervalos de confianza

Tema 8: Contrastes de hipótesis

TEMA 5: Introducción a la Inferencia Estadı́stica

Al estudiar los distintos modelos de probabilidad que puede seguir una variable aleatoria, hemos
comprobado que en Teorı́a de la Probabilidad se utiliza un tipo de razonamiento deductivo: fijado
el modelo probabilı́stico, se trata de deducir las probabilidades de sus valores y otras propiedades
de la distribución.
La Inferencia Estadı́stica sigue el esquema inverso, un razonamiento inductivo, para que dado
un conjunto de valores observados de una variable podamos inferir el modelo probabilı́stico que ha
generado esos datos.
Básicamente, la Inferencia Estadı́stica consiste en estudiar (o inferir) propiedades de una po-
blación a partir de la información proporcionada por una muestra de la misma. Recordemos que:

Población es el conjunto de elementos en los que se estudian una o varias caracterı́sticas.

Muestra es un subconjunto de elementos de la población.
Tamaño muestral es el número de elementos de la muestra.

Clasificación de los métodos de Inferencia Estadı́stica

Los procedimientos utilizados en los diferentes tipos de análisis realizados en la Inferencia Es-
tadı́stica pueden clasificarse en:

Inferencia paramétrica: Se supone que los datos proceden de una distribución conocida
(Normal, Poisson,...) con parámetros desconocidos. El objetivo es la estimación de estos
coeficientes, para lo cual se utilizan técnicas de:
– Estimación puntual: aproximar el valor desconocido del parámetro mediante un valor
individual obtenido a partir de la muestra.
– Intervalos de confianza: calcular un intervalo que contendrá al valor del parámetro
con una probabilidad alta.
– Contrastes de hipótesis: juzgar si podemos aceptar como cierta una afirmación sobre
el valor del parámetro.

Inferencia no paramétrica: En el contexto de la inferencia no paramétrica la distribución

poblacional es totalmente desconocida y el objetivo es estimar esta distribución o alguna de
sus caracterı́sticas realizando únicamente suposiciones de carácter muy general (continuidad,
simetrı́a,...).
En general, los métodos no paramétricos suelen utilizarse para juzgar si las hipótesis realizadas
en el enfoque paramétrico son o no admisibles teniendo en cuenta la información muestral.

Nos dedicaremos únicamente a estudiar métodos de inferencia paramétrica, en los que utilizare-
mos además los siguientes conceptos:

65
Parámetro: coeficiente numérico que caracteriza total o parcialmente a una distribución
y la identifica como un caso particular de la familia de distribuciones a la que pertenece.
Representaremos por θ el parámetro o vector de parámetros desconocidos de una distribución
de probabilidad.

Espacio paramétrico: Conjunto de posibles valores del parámetro, denotado por Θ.

Ejemplos:
1) Si X ∼ P (λ) con λ desconocido, entonces θ = λ y Θ = IR+ .
2) Si X ∼ N (µ, σ) con µ y σ desconocidos, entonces θ = (µ, σ) y Θ = IR × IR+ .

Selección de la muestra
Es muy importante la adecuada selección de la muestra para que la información que suministra
pueda ser utilizada con éxito a la hora de extraer conclusiones sobre la población.
Para obtener la muestra pueden utilizarse distintos procedimientos o métodos de muestreo,
entre los que destaca el muestreo aleatorio simple. El principal objetivo de estos procedimientos
es seleccionar una muestra que sea representativa de la población de la que se ha extraı́do.

Muestro aleatorio simple. Se caracteriza porque:

Cada elemento de la población tiene la misma probabilidad de ser elegido.

Las observaciones se realizan con reemplazamiento, de manera que la población es la misma
en todas las extracciones.

Distribución de una muestra aleatoria simple. Sea X la variable aleatoria en estudio en

la población, de la cual se han obtenido n observaciones mediante muestreo aleatorio simple.
Desde el punto de vista teórico (probabilı́stico), esta muestra aleatoria simple (m.a.s.) debe
considerarse como:

n variables aleatorias X1 , X2 ,..., Xn independientes e idénticamente distribuidas (i.i.d.)

con la misma distribución que X.

A cada valor particular observado (x1 , x2 , ..., xn ) ∈ IRn para las variables X1 , X2 ,..., Xn se le
denomina realización de la muestra.

Observación. Si la población tiene N individuos, el nº total de muestras diferentes de tamaño

n que pueden obtenerse mediante muestreo aleatorio simple es:

r N +n−1
CN,n =
n

66
Estadı́sticos
Llamaremos estadı́stico a cualquier variable aleatoria que sea función de la muestra, y lo
denotaremos por T = T (X1 , X2 , ..., Xn ). Por ejemplo:
n
1X
1) T (X1 , X2 , ..., Xn ) = Xi = X̄, es la media aritmética de la muestra o media muestral.
n i=1
n
1X
2) T (X1 , X2 , ..., Xn ) = (Xi − X̄)2 = Sn2 , es la varianza de los valores muestrales o varianza
n i=1
muestral.
3) T (X1 , X2 , ..., Xn ) = min(X1 , X2 , ..., Xn ) representa el menor de los valores muestrales, ası́
como T (X1 , X2 , ..., Xn ) = max(X1 , X2 , ..., Xn ) es el mayor.

Aplicaciones. Algunas de las principales utilidades de los estadı́sticos son:

Estimación de los parámetros desconocidos de una distribución (por ejemplo, la media mues-
tral se usa para aproximar el valor de la media poblacional).
En este caso el estadı́stico debe tomar valores en el espacio paramétrico y no depender de
cantidades desconocidas, recibiendo entonces el nombre de estimador.

Construcción de intervalos de confianza: se basan en un estadı́stico pivote.

Resolución de contrastes de hipótesis: se utiliza un estadı́stico de contraste.

Distribución de un estadı́stico. Un estadı́stico es una variable aleatoria, cuyos valores

varı́an de muestra en muestra, y como tal tiene su propia distribución. Esta se denomina dis-
tribución en el muestreo y depende de la distribución de la población base y del tamaño
muestral.
En ocasiones la distribución de un estadı́stico puede calcularse de forma exacta, pero en muchos
casos hay que recurrir a aproximaciones, bien en la práctica utilizando simulaciones artificiales en
un ordenador, bien de forma teórica mediante resultados como el Teorema Central del Lı́mite.

Ejemplo. Sea X una variable aleatoria con distribución Bernoulli de parámetro p desconocido.

Como p = E(X) es la media poblacional, podemos utilizar la media muestral X̄ como estimador
de p.
Vamos a obtener la distribución del estadı́stico media muestral para m.a.s. de tamaños 2, 3 y
50.

a) En el caso n = 2, la m.a.s. (X1 , X2 ) estarı́a constituida por dos variables aleatorias X1 y

X2 independientes con la misma distribución que X ∼ Be(p). Entonces, cada una de ellas toma
valores 0 y 1 con probabilidades: P (X = 0) = 1 − p y P (X = 1) = p.
De esta manera, los posibles valores de (X1 , X2 ) son: (0, 0), (0, 1), (1, 0) y (1, 1).

67
En cuanto a la probabilidad de cada una de estas realizaciones de la muestra, tenemos que, por
ejemplo:
indep. i.d.
P (X1 = 1, X2 = 0) = P (X1 = 1)P (X2 = 0) = P (X = 1)P (X = 0) = p(1 − p),
donde en la primera igualdad hemos utilizado la independencia de las variables y en la segunda
igualdad el hecho de que las variables X1 y X2 tienen la misma distribución que la variable
poblacional X.

X1 + X2
Los posibles valores de X̄ = son: 0 (para la muestra (0, 0)), 1/2 (para las muestras
2
(0, 1) y (1, 0)) y 1 (para la muestra (1, 1)).

La probabilidad de que la media muestral tome, por ejemplo, el valor 1/2 es:

1
P X̄ = = P (X1 = 1, X2 = 0) + P (X1 = 0, X2 = 1) = 2p(1 − p).
2

En las siguientes tablas aparecen todas las posibles realizaciones de (X1 , X2 ) y sus probabilidades
X 1 + X2
(a la izquierda), y todos los posibles valores de X̄ = y sus probabilidades (a la derecha) :
2

(x1 , x2 ) P (X1 = x1 , X2 = x2 )
x̄ P (X̄ = x̄)
(0,0) (1 − p)2
0 (1 − p)2
(1,0) p(1 − p)
1/2 2p(1 − p)
(0,1) p(1 − p)
1 p2
(1,1) p2

Entonces: X̄ es una variable discreta que toma valores 0, 1/2 y 1 con probabilidades (1 − p)2 ,
2p(1 − p) y p2 , respectivamente.

X1 + X 2 + X3
b) Para n = 3 tendremos muestras (X1 , X2 , X3 ) con media muestral X̄ = . De
3
forma análoga al caso anterior se obtiene:

(x1 , x2 , x3 ) P (X1 = x1 , X2 = x2 , X3 = x3 )
(0,0,0) (1 − p)3
(0,0,1) p(1 − p)2 x̄ P (X̄ = x̄)
(0,1,0) p(1 − p)2 0 (1 − p)3
(1,0,0) p(1 − p)2 1/3 3p(1 − p)2
(1,1,0) p2 (1 − p) 2/3 3p2 (1 − p)
(1,0,1) p2 (1 − p) 1 p3
(0,1,1) p2 (1 − p)
(1,1,1) p3

En este caso: X̄ es una variable discreta que toma valores 0, 1/3, 2/3 y 1 con probabilidades
(1 − p)3 , 3p(1 − p)2 , 3p2 (1 − p) y p3 , respectivamente.

68
Observamos como la distribución del estadı́stico media muestral es diferente (distintos valores
y probabilidades) para n = 2 y n = 3. Obviamente, también resultarı́a una distribución diferente
al cambiar la distribución poblacional de X.

50
1 X
c) En el caso n = 50 también se puede obtener la distribución exacta de X̄ = Xi de la
50 i=1
forma anterior.

Sin embargo, es más sencillo tener en cuenta lo siguiente:

Dado que Xi ∼ Be(p) ≡ B(1, p), i = 1, 2, ..., 50, son variables independientes, aplicando la
propiedad de reproductividad de la distribución binomial con parámetro p fijo, se obtiene que
X50
Y = Xi ∼ B(50, p).
i=1

Y 1 2 49
Entonces X̄ = toma valores 0, , , ..., y 1, con probabilidades:
50 50 50 50

k 50
P X̄ = = P (Y = k) = pk (1 − p)50−k , para k = 0, 1, ..., 50.
50 k

Por otra parte, podemos también obtener una distribución aproximada de X̄ utilizando el TCL:

Xi i.i.d. r !
 σ p(1 − p)
µ = p, σ 2 = p(1 − p) ⇒ X̄ ≈ N µ, √ ≡ N p,
n > 30  n 50

Caracterı́sticas muestrales
Son estadı́sticos especialmente relevantes que están relacionados con las medidas caracterı́sticas
(de posición, de dispersión,...) de la variable. Nos interesan en particular la media y la varianza
muestral, que ya conocemos, y la proporción muestral.
n
1X
a) Media muestral. Es la media de los valores muestrales: X̄ = Xi y se utiliza para
n i=1
hacer inferencia sobre la media de la población (µ).
Como cualquier estadı́stico, la media muestral es una variable aleatoria y podemos obtener
algunas de sus caracterı́sticas. Por ejemplo:

n
! n
1X lineal. 1X i.d. 1 1
E(X̄) = E Xi = E(Xi ) = nE(X) = nµ = µ,
n i=1 n i=1 n n

69
donde en la segunda igualdad hemos utilizado las propiedades de linealidad de la esperanza
matemática, y en la tercera igualdad el hecho de que las variables Xi tienen la misma distribución
que la variable poblacional X.
Hemos obtenido que el valor esperado de la media muestral es la media poblacional (el parámetro
que pretende estimar). Esta será una de las propiedades que, como veremos en el tema siguiente,
son deseables para cualquier estadı́stico que se utilice como estimador de un parámetro.

b) Varianza y cuasivarianza muestrales. La varianza muestral de las observaciones es:

n n
1X 1X 2
Sn2 = (Xi − X̄)2 = X − X̄ 2
n i=1 n i=1 i

y se utiliza para hacer inferencia sobre la varianza (σ 2 ) de la población.

También se utiliza la cuasivarianza muestral:

n
2 1 X n
S = (Xi − X̄)2 = Sn2 .
n − 1 i=1 n−1

c) Proporción muestral. Supongamos que se desea estimar la proporción p de individuos de

la población que poseen cierta caracterı́stica.
Para ello seleccionamos una m.a.s. de tamaño n de esa población y anotamos para cada indi-
viduo un 1 si posee la caracterı́stica y un 0 si no la posee.
De esta forma obtenemos n observaciones (X1 , ..., Xn ) de una variable X con distribución
Bernoulli de parámetro p.

Para estimar p utilizaremos la proporción de elementos de la muestra que poseen la carac-

terı́stica, denominada proporción muestral, que se define como: no¯ de individuos en la muestra
con la caracterı́stica entre no¯ total de individuos en la muestra. Su expresión viene dada por:
X1 + X2 + · · · + Xn
p̂ = = X̄,
n
siendo entonces un caso particular de media muestral.

Ası́, por ejemplo se verifica que E(p̂) = E(X̄) = E(X) = p, por ser X ∼ Be(p).

Ejemplo
Supongamos que estamos interesados en conocer la altura media µ de la población de estudiantes
de un grupo de primer curso, ası́ como la proporción p de mujeres en el grupo.

Supongamos además que no podemos estudiar toda la población y seleccionamos una muestra
de estudiantes utilizando un muestreo aleatorio simple de tamaño n.

70
Con estos datos haremos inferencia sobre los parámetros desconocidos µ y p, obteniendo una
estimación de los mismos mediante los estadı́sticos media muestral y proporción muestral, respec-
tivamente. La situación se resume en la siguiente tabla:

Estimación de la media Estimación de la proporción

Población Alumnado del grupo Alumnado del grupo
Variable X= “Altura en cm” X ∼ Be(p)
Parámetro µ = E(X) p
n
1 X Nº de mujeres en la muestra
Estimador X̄ = Xi p̂ =
n i=1 n

Aunque la población es desconocida para nosotros, supongamos que la realidad (no observable)
fuera la siguiente: 72 alumnos/as, numerados de 1 a 72, con su sexo y altura correspondientes, tal
y como aparecen a continuación.

Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura

1 H 172 19 M 167 37 H 182 55 H 180
2 H 180 20 H 175 38 H 189 56 H 175
3 H 185 21 H 176 39 H 176 57 H 187
4 H 181 22 H 168 40 H 184 58 H 176
5 M 163 23 H 188 41 H 191 59 H 180
6 H 180 24 M 165 42 H 174 60 H 181
7 H 186 25 H 172 43 H 169 61 H 178
8 H 175 26 H 170 44 H 174 62 M 161
9 H 180 27 H 176 45 H 171 63 M 174
10 H 177 28 H 170 46 H 183 64 H 173
11 H 180 29 H 185 47 H 181 65 H 176
12 M 157 30 H 182 48 H 165 66 H 175
13 H 180 31 H 173 49 H 178 67 H 182
14 M 159 32 M 170 50 M 175 68 H 190
15 H 176 33 M 163 51 H 173 69 H 184
16 H 178 34 H 180 52 M 168 70 H 182
17 M 170 35 H 185 53 H 174 71 H 173
18 H 180 36 H 175 54 H 176 72 M 172

Sólo en esta situación (estudiando todos los individuos de la población) podrı́amos obtener
la altura media de la población y la proporción de mujeres en la población, que resultan ser:
µ = 176.125 cm y p = 13 72
= 0.1806.

Olvidemos ahora la información anterior, salvo el hecho de que el tamaño de la población es

N = 72, y estimemos los parámetros a partir de la información proporcionada por una muestra.

Utilizando un muestreo aleatorio simple seleccionamos (aleatoriamente y con reemplazamiento)

20 números entre 1 y 72 resultando la siguiente muestra de tamaño 20:

71
Muestra 1
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
16 H 178 57 H 187 17 M 170 8 H 175
50 M 175 39 H 176 15 H 176 28 H 170
8 H 175 3 H 185 53 H 174 19 M 167
64 H 173 16 H 178 32 M 170 58 H 176
54 H 176 43 H 169 42 H 174 35 H 185

A partir de estos datos (observados) se obtiene:

x̄ = 175.45 cm y p̂ = 0.20,
es decir, la altura media estimada es de 175.45 cm y la proporción estimada de mujeres es del 20%.

Si elegimos una muestra diferente, las estimaciones pueden variar:

Muestra 2
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
21 H 176 40 H 184 50 M 175 60 H 181
60 H 181 31 H 173 34 H 180 4 H 181
33 M 163 9 H 180 35 H 185 20 H 175
56 H 175 21 H 176 68 H 190 45 H 171
14 M 159 3 H 185 43 H 169 40 H 184

Ahora: x̄ = 177.15 cm y p̂ = 0.15.

Y también podrı́amos obtener estimaciones diferentes para una tercera muestra:

Muestra 3
Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura
46 H 183 53 H 174 72 M 172 51 H 173
30 H 182 28 H 170 1 H 172 15 H 176
60 H 181 64 H 173 22 H 168 60 H 181
46 H 183 62 M 161 1 H 172 60 H 181
44 H 174 29 H 185 47 H 181 46 H 183

En este caso: x̄ = 176.25 cm y p̂ = 0.10.

La media muestral y la proporción muestral son variables aleatorias cuyos valores varı́an en las
diferentes muestras, que son en total

r 72 + 20 − 1 91
C72,20 = = = 6.534 × 1019 muestras.
20 20

Como comprobamos anteriormente en el tema, el valor esperado (media) de estos dos es-
tadı́sticos coincide con el parámetro que están estimando. Es decir, en nuestro ejemplo:
E(X̄) = µ = 176.125 y E(p̂) = p = 0.1806

72
Además, podrı́amos obtener la distribución en el muestreo de p̂, que es una variable aleatoria
k
discreta con valores , con k = 0, 1, 2, ..., 20. De hecho, al igual que vimos en el apartado c) del
20
ejemplo anterior:
Y
p̂ = , siendo Y = “Nº de mujeres en la muestra” ∼ B(20, p),
20
donde p es la proporción poblacional, en principio una cantidad desconocida. Entonces:

k 20
P p̂ = = P (Y = k) = pk (1 − p)n−k , para k = 0, 1, ..., 20
20 k

Si consideramos que en nuestro caso p vale 0.1806, como calculamos antes para nuestra supuesta
población, podrı́amos obtener la función de probabilidad de p̂, que serı́a:

Valores de p̂ 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

Probabilidades 0.0186 0.0821 0.1718 0.2272 0.2129 0.1501 0.0827 0.0365 0.0131
Valores de p̂ 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 ···
Probabilidades 0.0038 0.0009 0.0002 Las demás probabilidades son prácticamente cero

Distribuciones asociadas al muestreo de poblaciones nor-

males
Como ya hemos comentado, centraremos nuestro estudio en los métodos de inferencia paramé-
trica, en los que se supone que la distribución de la variable es conocida salvo por algunos de sus
parámetros.
En muchas de las situaciones se supone que tal distribución es la distribución Normal y en este
contexto, los estadı́sticos utilizados suelen tener ciertas distribuciones especiales. Algunas de las
más utilizadas, además de la propia Normal, son las que definimos a continuación.

Distribución χ2 de Pearson. Sean X1 , X2 ,..., Xn variables aleatorias i.i.d. con distribución

N (0, 1). Se define la distribución χ2 con n grados de libertad (χ2n ) como la que sigue la variable
aleatoria X12 + X22 + · · · + Xn2 .
Algunas propiedades de esta distribución son: E(χ2n ) = n y Var(χ2n ) = 2n.

Distribución t de Student. Sean X ∼ N (0, 1) e Y ∼ χ2n independientes. Se define la distribución

X
t con n grados de libertad (tn ) como la que sigue la variable aleatoria q . Algunas propiedades
Y
n
de esta distribución son:
n
1. E(tn ) = 0 si n > 1 y Var(tn ) = n−2
si n > 2.
2. Es simétrica, aunque con mayor dispersión que la N (0, 1).
n→∞
3. tn −→ N (0, 1) y son prácticamente idénticas para n > 100.

73
TEMA 6: Estimación puntual

Supongamos que se observa una m.a.s. X1 , X2 , ..., Xn de una variable aleatoria X con dis-
tribución Fθ conocida excepto por el valor del parámetro (o vector de parámetros) θ.
El problema que estudiaremos es la estimación de estos parámetros desconocidos a partir de los
datos muestrales utilizando alguno de los posibles estimadores de θ.

Recordemos que un estimador es un estadı́stico T = T (X1 , X2 , ..., Xn ) que toma valores en el

espacio paramétrico (conjunto de posibles valores del parámetro, denotado por Θ) y no depende
de cantidades desconocidas.
Cuando un estadı́stico se utilice como estimador del parámetro θ lo denotaremos también por
θ̂ = θ̂(X1 , X2 , ..., Xn ). Cada realización (x1 , x2 , ..., xn ) de la muestra da lugar a un valor diferente
del estimador, θ̂(x1 , x2 , ..., xn ), que llamaremos estimación de θ.

Veremos a continuación propiedades deseables que debe verificar un estimador y estudiaremos

con detalle estas propiedades para las caracterı́sticas muestrales destacadas en el tema anterior:
media muestral, varianza muestral y proporción muestral.

Error cuadrático medio

¿Cuál es el mejor estimador para aproximar el valor desconocido del parámetro?
En principio podrı́a pensarse que el estimador óptimo será aquel cuyo valor se acerque más al
verdadero valor del parámetro. Pero un estimador no toma un único valor, un estimador es una
v.a. que toma un valor diferente para cada realización de la muestra, no pudiendo predecirse qué
estimación se obtendrá en cada caso particular.

Interesa entonces que todos los posibles valores del estimador estén lo más cerca posible del
verdadero valor de θ; es decir, un estimador será mejor cuanto más agrupados estén sus posibles
valores (y por tanto su distribución de probabilidad) en torno al verdadero valor del parámetro.
Una formalización matemática de esta idea nos la proporciona la siguiente definición.

Definición. Sea θ̂ un estimador del parámetro desconocido θ. Se define el error cuadrático

medio de θ̂ como: 2
2
ECM(θ̂) = E (θ̂ − θ) = Var(θ̂) + E(θ̂) − θ .

Vemos entonces que el error cuadrático medio de un estimador será menor cuanto menores sean
su varianza (que como sabemos mide la dispersión en torno a la media) y la diferencia entre su
media y el verdadero valor de θ.

Esta última diferencia recibe el nombre de Sesgo, es decir: Sesgo(θ̂) = E(θ̂) − θ, con lo cual:
2
ECM(θ̂) = Var(θ̂) + Sesgo(θ̂) .

74
Un estimador será mejor cuanto menor sea su error cuadrático medio. En concreto, si θ̂1 y θ̂2
son dos estimadores de θ, se dice que θ̂1 es más preciso que θ̂2 si ECM(θ̂1 ) < ECM(θ̂2 ).

Observación. En muchas ocasiones el ECM de

un estimador depende del valor del parámetro des-
conocido θ. Puede ocurrir entonces que, al com-
parar dos estimadores de ese parámetro, el ECM
del primer estimador sea menor que el del segundo
para algunos valores del parámetro y sea mayor
para otros. En la gráfica se puede ver un ejemplo
de esta situación.

Propiedades de los estimadores

Definición. Sea θ̂ un estimador del parámetro desconocido θ. Se dice que θ̂ es un estimador

insesgado para θ si

E(θ̂) = θ o equivalentemente Sesgo(θ̂) = 0.

Denotemos ahora el estimador por θ̂n para indicar su dependencia del tamaño muestral n.

Definición. Se dice que θ̂n es un estimador asintóticamente insesgado para θ si

lim E(θ̂n ) = θ o equivalentemente lim Sesgo(θ̂n ) = 0.

n→∞ n→∞

Observación. Evidentemente, si un estimador es insesgado entonces es asintóticamente inses-

gado.

Para un estimador θ̂ insesgado se verifica que ECM(θ̂) = Var(θ̂) y, en consecuencia, el mejor

estimador insesgado será el de menor varianza. Esto nos lleva a la siguiente definición.
Definición. Sean θ̂1 y θ̂2 dos estimadores insesgados de θ. Diremos que θ̂1 es más eficiente que
θ̂2 si: Var(θ̂1 ) < Var(θ̂2 ).

Una propiedad que debe verificar un buen estimador es que mejore al aumentar el tamaño de la
muestra, ya que este aumento implica una mayor información sobre la población. Intuitivamente,
un estimador consistente es aquel cuyos valores se aproximan más al verdadero valor del parámetro
a medida que se incrementa el tamaño muestral.
La formalización matemática de este concepto aparece en la siguiente definición.

75
Definición. Un estimador θ̂n del parámetro θ es consistente si:
lim ECM(θ̂n ) = 0
n→∞

La siguiente propiedad nos da una condición suficiente para que un estimador sea consistente:

Propiedad. Si θ̂n es un estimador asintóticamente insesgado y lim Var(θ̂n ) = 0, entonces θ̂n es

n→∞
un estimador consistente.

Ejemplo 1. Sea X una variable aleatoria discreta con función de probabilidad: P (X = 1) = θ,

P (X = 2) = θ + 12 y P (X = 4) = 12 − 2θ, con 0 6 θ 6 14 .

Demuestra que θ̂ = 51 (3− X̄) es un estimador insesgado de θ. Además, utilizando este estimador
y la muestra {1, 4, 4, 2, 1, 2, 4, 4, 2, 4}, obtén una estimación de θ.

a) Para demostrar que es insesgado tenemos que comprobar que E(θ̂) = θ. Vamos a calcular
previamente la media de X, ya que utilizaremos la propiedad ya demostrada de que E(X̄) = µ:

1 1
µ = E(X) = θ + 2 θ + +4 − 2θ = θ + 2θ + 1 + 2 − 8θ = 3 − 5θ.
2 2
Entonces:

1 1 1 1
E(θ̂) = E (3 − X̄) = · E(3 − X̄) = · 3 − E(X̄) = (3 − (3 − 5θ)) = θ
5 5 5 5

1
b) Para la muestra dada, se obtiene que x̄ = 2.8 y θ̂ = (3 − 2.8) = 0.04.
5
Observación. Podemos utilizar esta estimación de θ para estimar también las probabilidades
de los valores de la variable, resultando: P̂ (X = 1) = θ̂ = 0.04, P̂ (X = 2) = θ̂ + 21 = 0.54 y
P̂ (X = 4) = 12 − 2θ̂ = 0.42.

θ2
Ejemplo 2. Sean θ̂1 y θ̂2 estimadores de un parámetro θ tales que E(θ̂1 ) = θ, Var(θ̂1 ) = ,
n
n+1 θ2
E(θ̂2 ) = θ y Var(θ̂2 ) = .
n 2n
Vamos a demostrar que son estimadores consistentes y a determinar cuál de los dos es un
estimador más preciso de θ.

a) Para demostrar que son consistentes vamos a comprobar que lim ECM(θ̂) = 0
n→∞
θ2
2
ECM(θ̂1 ) = Var(θ̂1 ) + E(θ̂1 ) − θ =
=⇒ lim ECM(θ̂1 ) = 0 =⇒ θ̂1 es consistente.
n n→∞

2
θ2 θ2 θ2 (n + 2)θ2

2 n+1
ECM(θ̂2 ) = Var(θ̂2 ) + E(θ̂2 ) − θ = + θ−θ = + 2 = =⇒
2n n 2n n 2n2

76
lim ECM(θ̂2 ) = 0 =⇒ θ̂2 es consistente.
n→∞

b) Es más preciso, y por lo tanto mejor estimador, el de menor error cuadrático medio:

(n + 2)θ2 θ2
ECM(θ̂2 ) < ECM(θ̂1 ) ⇐⇒ < ⇐⇒ n + 2 < 2n ⇐⇒ n > 2.
2n2 n
En consecuencia, θ̂2 es mejor estimador que θ̂1 para n > 2.

Estimación de la media poblacional: la media muestral

n
1X
Como ya hemos comentado, la media muestral: X̄ = Xi = µ̂, se utiliza para hacer
n i=1
inferencia sobre la media de la población µ = E(X).

Propiedades:

1) Ya vimos en el tema anterior que E(X̄) = µ, por lo que la media muestral es un estimador
insesgado de la media poblacional para cualquier población.

2) Estudiemos ahora la consistencia calculando previamente su varianza:

n
! n
1X indep. 1 X i.d. 1 1 2 σ2
Var(X̄) = Var Xi = Var(X i ) = nVar(X) = nσ = .
n i=1 n2 i=1 n2 n2 n

Entonces su error cuadrático medio es:

σ2 2
ECM(X̄) = Var(X̄) + Sesgo(X̄) , =
n
y, en consecuencia, la media muestral es siempre un estimador consistente de la media poblacional
porque: limn→∞ ECM(X̄) = 0.

Distribución de la media muestral:

La distribución de la media muestral, como la de cualquier estadı́stico, depende de la dis-

tribución de la variable poblacional X. Vamos a considerar las dos situaciones siguientes:

a) Sea (X1 , X2 , ..., Xn ) una m.a.s. de una variable aleatoria X ∼ N (µ, σ).
n
1X
Como X̄ = Xi es una combinación lineal de v.a. normales independientes, su distribución
n i=1
será también normal con parámetros (media y desviación tı́pica) ya obtenidos anteriormente:

77
r
σ2 σ
E(X̄) = µ y DT(X̄) = = √ . En consecuencia:
n n

σ
X̄ ∼ N µ, √
n

b) Sea (X1 , X2 , ..., Xn ) una m.a.s. de una variable aleatoria X con cualquier distribución de
media µ y varianza σ 2 .
En esta situación, si la muestra es grande (n > 30) podemos aplicar el T.C.L. para obtener:

n>30 σ
X̄ ≈ N µ, √ .
n

Ejemplo. En una planta de envasado de café, una máquina se encarga de llenar paquetes
con una cantidad de 250 gramos. Se sabe que la cantidad de café en gramos depositada en cada
paquete es una v.a. X ∼ N (250, 10). Para verificar que el proceso funciona correctamente se
toman periódicamente m.a.s. de 25 envases y se pesa su contenido. El gerente de la planta ha
decidido detener el proceso si el peso promedio de la muestra es mayor de 255 gramos o menor de
245.

a) Calcula la probabilidad de detener el proceso.

Sea X =“ Cantidad de café en gramos depositada en cada paquete” ∼ N (250, 10).

10
Entonces X̄ ∼ N 250, 25 ≡ N (250, 2) y la probabilidad de detener el proceso es:
√

245 − 250 X̄ − 250 255 − 250
1 − P (245 6 X̄ 6 255) = 1 − P 6 6 =
2 2 2
= 1 − P (−2.5 6 Z 6 2.5) = 1 − (2F (2.5) − 1) = 2(1 − F (2.5)) = 2 × (1 − 0.99379) = 0.01242

b) ¿Cuál es la probabilidad de que el peso promedio de la muestra diste del peso nominal (250
g) menos de 5 g?

Es la probabilidad complementaria de la anterior:

P |X̄ − 250| < 5 = P (245 < X̄ < 255) = 1 − 0.01242 = 0.98758

c) Halla la probabilidad anterior si el tamaño de la muestra sube a 50 envases.

Para n = 50, tenemos que X̄ ∼ N 250, √1050 ≡ N (250, 1.4142). Podemos comprobar como
la desviación tı́pica es ahora menor, por lo que la distribución de la media muestral tiene menos
dispersión y estará más concentrada en torno a su media.

78
En consecuencia, la probabilidad a calcular deberá ser mayor que la obtenida en b). En efecto:

245 − 250 X̄ − 250 255 − 250
P (245 < X̄ < 255) = P < < =
1.4142 1.4142 1.4142
= P (−3.54 6 Z 6 3.54) = 2F (3.54) − 1 = 2 × 0.9998 − 1 = 0.9996

Estimación de la varianza poblacional: varianza y cuasi-

varianza muestrales
Un estimador natural de la varianza de la población (σ 2 =Var(X)) es la varianza muestral:
n n
1X 1X 2
Sn2 = (Xi − X̄)2 = X − X̄ 2
n i=1 n i=1 i

Propiedades:

1) Estudiemos si es un estimador insesgado:

n
! n
2 1 X
2 2 lineal. 1
X i.d. 1
E(Xi2 )−E X̄ 2 = nE(X 2 )−E X̄ 2 = E(X 2 )−E X̄ 2

E(Sn ) = E Xi − X̄ =
n i=1 n i=1 n

Sabemos que para toda variable aleatoria X se verifica que Var(X) = E(X 2 ) − E(X)2 y esto
implica que:
σ2
E(X 2 ) = Var(X) + E(X)2 = σ 2 + µ2 y E(X̄ 2 ) = Var(X̄) + E(X̄)2 = + µ2
n
Entonces:
σ2 σ2

n−1 2
E(Sn2 ) 2
=σ +µ − 2
+ µ2 = σ2 − = σ
n n n

En consecuencia la varianza muestral no es un estimador insesgado de la varianza poblacional,

aunque sı́ es asintóticamente insesgado porque:
n−1 2
lim E(Sn2 ) = lim σ = σ2.
n→∞ n→∞ n

En cambio, la cuasivarianza muestral sı́ es un estimador insesgado de la varianza poblacional.

En efecto: n
2 1 X n
S = (Xi − X̄)2 = S 2 =⇒ (n − 1)S 2 = nSn2
n − 1 i=1 n−1 n
y esta relación nos permite obtener fácilmente que:

2 n 2 n n n−1 2
E(S ) = E Sn = E(Sn2 ) = σ = σ2.
n−1 n−1 n−1 n

79
Observación.
√ Para estimar la desviación tı́pica se utiliza la raı́z de la cuasivarianza muestral:
2
S = + S , denominada cuasidesviación tı́pica muestral.

2) Distribución de la varianza y la cuasivarianza muestrales. Consideramos el caso de población

Normal y utilizamos el siguiente resultado:
Teorema de Fisher. Si (X1 , X2 , ..., Xn ) es una m.a.s. de una variable aleatoria X ∼ N (µ, σ),
entonces:

a) X̄ ∼ N µ, √σn .

nSn2 (n − 1)S 2
b) = ∼ χ2n−1 .
σ2 σ2
c) X̄ y S 2 son independientes.

3) En las condiciones anteriores se puede comprobar fácilmente que tanto la varianza como la
cuasivarianza muestrales son estimadores consistentes de la varianza poblacional. Dado que Sn2
es un estimador asintóticamente insesgado y S 2 es insesgado, para demostrar la consistencia de
ambos basta comprobar que su varianza tiende a 0.

nSn2
Teniendo en cuenta que ∼ χ2n−1 y Var(χ2n ) = 2n, resulta que:
σ2
2
nSn n2 2 2
2(n − 1)σ 4
=⇒ lim Var(Sn2 ) = 0.

2(n − 1) = Var = Var S n =⇒ Var S n =
σ2 σ4 n2 n→∞

n
En cuanto a la cuasivarianza muestral, dado que S 2 = S 2 , se obtiene que Var (S 2 ) =
n−1 n
2σ 4
, por lo que lim Var(S 2 ) = 0.
n−1 n→∞

Ejemplo. Se ha elegido una m.a.s. de 10 mujeres y otra independiente de 14 hombres, alumnos

de Estadı́stica, anotando el peso en kg de cada uno de ellos:

Peso mujeres: 55, 49, 63, 56, 68, 62, 60, 58, 55, 54
Peso hombres: 70, 73, 64, 85, 80, 66, 74, 82, 73, 87, 90, 60, 65, 81

Da una estimación de la media y de la varianza del peso en cada grupo utilizando estimadores
insesgados. ¿Cuál de las dos muestras presenta mayor dispersión?

Para estimar el peso medio utilizaremos la media muestral y para estimar la varianza del peso
tenemos que utilizar la cuasivarianza muestral.
Sean X = “Peso en kg de mujeres” e Y = “Peso en kg de hombres”. Vamos a obtener:
10 10
1 X 2 1 X 2 10 2
Mujeres −→ X̄ = Xi , SnX = Xi − X̄ 2 2
y SX = S
10 i=1 10 i=1 9 nX

80
14 14
1 X 2 1 X 2 14 2
Hombres −→ Ȳ = Yi , SnY = Y − Ȳ 2 y SY2 = S
14 i=1 14 i=1 i 13 nY

Necesitamos los siguientes cálculos:

10
X 10
X
Xi = 580 Xi2 = 552 + 492 + · · · + 542 = 33904
i=1 i=1

14
X 14
X
Yi = 1050 Yi2 = 702 + 732 + · · · + 812 = 79890
i=1 i=1

A partir de las sumas anteriores, podemos obtener las medias, varianzas y cuasivarianzas mues-
trales:
580 2 33904 10
X̄ = = 58, SnX = − 582 = 26.4 =⇒ SX
2
= × 26.4 = 29.3333
10 10 9

1050 2 79890 14
Ȳ = = 75, SnY = − 752 = 81.42857 =⇒ SY2 = × 81.42857 = 87.6923
14 14 13

Entonces:

Mujeres −→ Peso medio estimado: 58 kg; Estimación de la varianza del peso: 29.3333 kg2
Hombres −→ Peso medio estimado: 75 kg; Estimación de la varianza del peso: 87.6923 kg2
SnX
2 2
< SnY −→ Presenta mayor dispersión o variabilidad la muestra del peso de los hombres

Estimación de una proporción: proporción muestral

Recordemos que la proporción muestral se utiliza para estimar la proporción p de individuos
de la población que poseen determinada caracterı́stica.
Se define como:
X1 + X2 + · · · + Xn
p̂ = = X̄,
n
donde X1 , ..., Xn son n observaciones de una variable X con distribución Bernoulli de parámetro
p.
Dada su expresión, la proporción muestral es un caso particular de media muestral, por lo que:
σ2 Var(X) p(1 − p)
E(p̂) = µ = E(X) = p y Var(p̂) = = = .
n n n

En consecuencia, la proporción muestral es un estimador insesgado y consistente de la pro-

porción poblacional p.

81
Distribución de la proporción muestral.
a) Sabemos que la distribución de X1 + X2 + · · · + Xn , siendo cada Xi ∼ Be(p), es binomial de
parámetros n y p, por lo que:
np̂ ∼ B(n, p)

b) Por otra parte, como caso particular de media muestral, aplicando el T.C.L., la distribución
en el muestreo de p̂ para muestras grandes (n > 30) es aproximadamente:
r !
n>30 p(1 − p)
p̂ ≈ N p, .
n

Ejemplo. En determinada población la proporción de hogares con conexión a Internet es del

75%. Si seleccionamos una m.a.s. de 200 hogares, ¿cuál es la probabilidad de que más del 80% de
los hogares de la muestra tengan conexión a Internet?

Como n > 30 podemos utilizar la aproximación:

r ! r !
p(1 − p) 0.75 × 0.25
p̂ ≈ N p, ≡N 0.75, ≡ N (0.75, 0.0306)
n 200

La probabilidad que tenemos que calcular es:

p̂ − 0.75 0.80 − 0.75
P (p̂ > 0.80) = P > = P (Z > 1.63) =
0.0306 0.0306
= 1 − P (Z 6 1.63) = 1 − 0.94845 = 0.05155.

82
TEMA 7: Intervalos de confianza

Supongamos que se observa una m.a.s. X1 , X2 , ..., Xn de una variable aleatoria X con dis-
tribución Fθ conocida excepto por el valor del parámetro θ.
Hemos visto como estimar el valor de θ a partir de los datos muestrales. Pero en la práctica
interesa además precisar el error existente en la estimación, para lo cual construiremos un inter-
valo, que va a contener al verdadero valor del parámetro con una probabilidad alta previamente
especificada.

Definición. Llamamos intervalo de confianza para el parámetro θ, con nivel o coeficiente de

confianza 1 − α (con 0 < α < 1), a un intervalo aleatorio

T1 (X1 , X2 , ..., Xn ), T2 (X1 , X2 , ..., Xn )

tal que
P T1 (X1 , X2 , ..., Xn ) < θ < T2 (X1 , X2 , ..., Xn ) = 1 − α.

Observaciones. 1) Los extremos del intervalo son aleatorios, variando para cada realización de
la muestra, y contienen al verdadero valor de θ (que es desconocido) con una probabilidad 1 − α.

2) La interpretación frecuentista de esta definición es la siguiente: si construimos muchos in-

tervalos, cada vez con distintas realizaciones de la muestra, el 100(1 − α)% de ellos contienen al
verdadero valor del parámetro.

Método pivotal para obtener intervalos de confianza

Veremos un método de construcción de intervalos que puede aplicarse en gran parte de los casos
que nos encontraremos en la práctica. Se basa en el siguiente concepto:

Definición. Llamamos estadı́stico pivote a un estadı́stico

T = T (X1 , X2 , ..., Xn ; θ),
función de la muestra y del parámetro θ, cuya distribución es conocida y no depende de θ.

El procedimiento es el siguiente:

1) Fijado el nivel de confianza 1 − α (los más utilizados son 1 − α = 0.95, 0.90 y 0.99), se elige
un estadı́stico pivote que sea función continua y estrictamente monótona de θ.

2) Dado que conocemos la distribución de T , es posible encontrar valores a y b tales que

P a < T (X1 , X2 , ..., Xn ; θ) < b = 1 − α.

83
3) Por ser la función continua y estrictamente monótona, las ecuaciones

T (X1 , X2 , ..., Xn ; θ) = a y T (X1 , X2 , ..., Xn ; θ) = b

tienen una única solución, lo cual permite despejar θ, obteniéndose

P T1 (X1 , X2 , ..., Xn ) < θ < T2 (X1 , X2 , ..., Xn ) = 1 − α.

En consecuencia,

IC1−α (θ) = T1 (X1 , X2 , ..., Xn ), T2 (X1 , X2 , ..., Xn )

en un intervalo de confianza para θ con nivel de confianza 1 − α.

Observaciones. 1) La elección del estadı́stico pivote surge de manera natural en la mayorı́a de

los casos y, en general, se basa en algún estimador de θ cuya distribución sea conocida.

2) Entre las elecciones posibles (casi siempre infinitas) de los valores a y b, un criterio razonable
es escogerlos de forma que el intervalo sea de longitud mı́nima, puesto que: a menor longitud del
intervalo, mayor será la precisión del mismo.
Si la distribución de T es continua y simétrica, esto se consigue si P (T < a) = P (T > b) = α/2.

Ejemplo. Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X ∼ N (µ, σ), siendo σ una constante
conocida. Vamos a obtener un intervalo de confianza para la media µ.
X̄ − µ
Sabemos que X̄ ∼ N µ, √σn y, por lo tanto, √ ∼ N (0, 1).
σ/ n

1) Fijamos un nivel de confianza 1 − α y tomamos como estadı́stico pivote

X̄ − µ
T = T (X1 , X2 , ..., Xn ; µ) = √ ,
σ/ n
cuya distribución se conoce y no depende de µ.

2) Denotando por zp el cuantil de orden p de Z ∼ N (0, 1), la mejor elección de los valores a y
b es la simétrica, es decir:

a = −z1−α/2 = zα/2 y b = z1−α/2 ,

resultando:
X̄ − µ
P −z1−α/2 < √ < z1−α/2 = 1 − α.
σ/ n

3) Ahora se despeja µ en las dos desigualdades anteriores:

X̄ − µ σ σ
√ < z1−α/2 ⇐⇒ X̄ − µ < z1−α/2 √ ⇐⇒ µ > X̄ − z1−α/2 √
σ/ n n n

84
X̄ − µ σ σ
√ > −z1−α/2 ⇐⇒ X̄ − µ > −z1−α/2 √ ⇐⇒ µ < X̄ + z1−α/2 √
σ/ n n n

Entonces

X̄ − µ σ σ
1−α=P −z1−α/2 < √ < z1−α/2 = P X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ ,
σ/ n n n
y, en consecuencia, un intervalo de confianza de nivel 1 − α para µ es:

σ σ
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n

σ
El intervalo también puede escribirse utilizando la expresión abreviada: X̄ ± z1−α/2 √ .
n

Observaciones. 1) Como ya hemos comentado antes, el intervalo obtenido es aleatorio y sus

extremos tomarán un valor diferente para cada realización de la muestra (intervalo numérico). La
probabilidad de que el intervalo aleatorio contenga al verdadero valor de µ es 1 − α. No se puede
hablar de probabilidad para los intervalos numéricos.

2) El 100(1 − α)% de los intervalos construidos incluirán el verdadero valor de µ mientras que
el 100α% restante no lo incluirán. Por ejemplo, si el nivel de confianza es 0.95, estos porcentajes
serán del 95% y 5%, respectivamente.

Intervalo de confianza para la media de una población

Normal
Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X ∼ N (µ, σ). Veremos como obtener intervalos de
confianza para la media µ en dos casos: varianza σ 2 conocida y varianza desconocida.

Intervalo para la media con varianza conocida. Es el caso del ejemplo anterior. El inter-
valo resultante es:

σ σ
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ = X̄ ± z1−α/2 DT(X̄) .
n n

Propiedades:

σ
1) El intervalo obtenido está centrado en X̄ y su longitud es L = 2z1−α/2 √ .
n

2) Para un tamaño muestral fijo, todos los intervalos del mismo nivel de confianza (mismo
z1−α/2 ) tienen la misma longitud.

85
3) ¿Qué factores influyen en la longitud del intervalo?:
- A mayor tamaño muestral n, menor longitud.
- A mayor variabilidad (σ) de la variable X, mayor longitud.
- A mayor nivel de confianza 1 − α ⇒ menor α ⇒ mayor z1−α/2 ⇒ mayor longitud.
Recordemos que cuanto mayor es la longitud, menor es la precisión del intervalo.

4) Si queremos que la longitud del intervalo sea inferior a C, ¿qué tamaño muestral n debemos
utilizar?

σ √ σ σ 2
2z1−α/2 √ < C =⇒ n > 2z1−α/2 =⇒ n > 2z1−α/2 .
n C C

Intervalo para la media con varianza desconocida. Cuando σ es desconocida no pode-

X̄ − µ
mos utilizar el estadı́stico pivote del caso anterior: √ , a no ser que sustituyamos σ por alguna
σ/ n
estimación, como puede ser la cuasidesviación tı́pica muestral.

Definición. Se denomina error estándar de un estimador a la estimación de su desviación

tı́pica.
σ
En particular, dado que DT(X̄) = √ , el error estándar de la media muestral se define como:
n
S
EE(X̄) = √ .
n

Consideremos entonces como estadı́stico pivote:

X̄ − µ X̄ − µ
T = T (X1 , X2 , ..., Xn ; µ) = √ = ,
S/ n EE(X̄)
cuya distribución (ver definición de la distribución t de Student en el tema 5) se obtiene de la
siguiente forma:

X̄ − µ

√ ∼ N (0, 1) 

σ/ n X̄ − µ


√




σ/ n X̄ − µ
(n − 1)S 2 =⇒ s = √ = T ∼ tn−1
∼ χ2n−1  (n − 1)S 2 S/ n
σ2



(n − 1)σ 2




Independientes

y por lo tanto la distribución de T es conocida, continua, simétrica y no depende de µ.

Denotemos ahora por tn−1,p el cuantil de orden p de la distribución tn−1 , es decir:

P (tn−1 6 tn−1,p ) = p.

86
Eligiendo b = −a = tn−1,1−α/2 tenemos que

X̄ − µ
P −tn−1,1−α/2 < √ < tn−1,1−α/2 = 1 − α,
S/ n

y despejando µ de forma análoga al caso anterior, se obtiene:

S S
1−α=P X̄ − tn−1,1−α/2 √ < µ < X̄ + tn−1,1−α/2 √ .
n n

Entonces, un intervalo de confianza de nivel 1 − α para µ, con σ desconocida, es:

S S
IC1−α (µ) = X̄ − tn−1,1−α/2 √ , X̄ + tn−1,1−α/2 √ ,
n n

S
que también puede escribirse como: X̄ ± tn−1,1−α/2 √ = X̄ ± tn−1,1−α/2 EE(X̄) .
n

S
Observación: El intervalo obtenido está centrado en X̄ y su longitud es L = 2tn−1,1−α/2 √ . A
n
diferencia del caso anterior, la longitud del intervalo es aleatoria: depende de la muestra (X1 , ..., Xn )
a través de la cuasidesviación tı́pica muestral S.

Ejemplo. Los datos que se dan a continuación son los pesos en gramos del contenido de 16
cajas de cereales que se seleccionaron de un proceso de llenado con el objeto de verificar el peso
promedio: 506, 508, 499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509 y 496. Si el
peso de cada caja en una variable aleatoria Normal, calcula:

a) Intervalos de confianza del 90, 95 y 99% para el peso medio de las cajas llenadas en este
proceso suponiendo que la desviación tı́pica es conocida y vale 5 gramos.

Sea X =“Peso en gramos del contenido de una caja” ∼ N (µ, 5).

σ
Dado que conocemos la varianza, utilizamos los intervalos: IC1−α (µ) = X̄ ± z1−α/2 √ ,
n
n
1X 8060
donde n = 16, σ = 5 y X̄ = Xi = = 503.75.
n i=1 16

Entonces, para un nivel de confianza del 90%:

α
1 − α = 0.90 =⇒ = 0.05 =⇒ z1−α/2 = z0.95 = 1.645 =⇒
2
5
=⇒ IC0.90 (µ) = 503.75 ± 1.645 · = (503.75 ± 2.06) = (501.69, 505.81).
4

87
Análogamente, para un nivel de confianza del 95%:

1 − α = 0.95 =⇒ z1−α/2 = z0.975 = 1.96 =⇒

5
=⇒ IC0.95 (µ) = 503.75 ± 1.96 · = (503.75 ± 2.45) = (501.30, 506.20),
4
y para un nivel de confianza del 99%:
1 − α = 0.99 =⇒ z1−α/2 = z0.995 = 2.576 =⇒

5
=⇒ IC0.99 (µ) = 503.75 ± 2.576 · = (503.75 ± 3.22) = (500.53, 506.97).
4

Comprobamos como a medida que aumenta el nivel de confianza, aumenta también la longitud
del intervalo correspondiente.

b) Tamaño muestral mı́nimo necesario para que un intervalo del 95% para la media tenga una
longitud no superior a 2 unidades.

σ 5 19.6
La longitud del intervalo es L = 2z1−α/2 √ = 2 × 1.96 × √ = √ . Tenemos que determinar
n n n
n de forma que L 6 2:
19.6 √
L 6 2 ⇐⇒ √ 6 2 ⇐⇒ n > 9.8 ⇐⇒ n > 96.04
n
En consecuencia el tamaño muestral mı́nimo debe ser 97.

c) Intervalos de confianza del 90, 95 y 99% para el peso medio suponiendo que la desviación
tı́pica es desconocida.

Al ser la desviación tı́pica σ desconocida tenemos que utilizar los intervalos

S
IC1−α (µ) = X̄ ± tn−1,1−α/2 √ ,
n
donde n = 16, X̄ = 503.75 y
n
!
2 n n 1X 2 16 4060802
S = Sn2 = Xi − X̄ 2 = − 503.752 = 38.467.
n−1 n−1 n i=1 15 16

En consecuencia: S = 6.202 y para un nivel de confianza del 90%:

α
1 − α = 0.90 =⇒ = 0.05 =⇒ tn−1,1−α/2 = t15,0.95 = 1.753 =⇒
2
6.202
=⇒ IC0.90 (µ) = 503.75 ± 1.753 = (503.75 ± 2.72) = (501.03, 506.47).
4

88
Análogamente, para los niveles de confianza del 95% y 99%:

1 − α = 0.95 =⇒ tn−1,1−α/2 = t15,0.975 = 2.131 =⇒ IC0.95 (µ) = (503.75 ± 3.30) = (500.45, 507.05)
y
1 − α = 0.99 =⇒ tn−1,1−α/2 = t15,0.995 = 2.947 =⇒ IC0.99 (µ) = (503.75 ± 4.57) = (499.18, 508.32).

Intervalo de confianza para la media para muestras grandes

Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X con cualquier distribución de media µ y varianza σ 2 .

En esta situación, si la muestra es grande (n > 30) podemos aplicar el T.C.L. para obtener:
n>30 σ X̄ − µ n>30
X̄ ≈ N (µ, √ ) o equivalentemente √ ≈ N (0, 1).
n σ/ n

Sustituyendo la desviación tı́pica desconocida por su estimador S, sigue verificándose la apro-

ximación anterior. Entonces:
X̄ − µ n>30
T = T (X1 , X2 , ..., Xn ; µ) = √ ≈ N (0, 1).
S/ n

Utilizando T como estadı́stico pivote y aplicando el método pivotal se obtiene el siguiente

intervalo de confianza aproximado de nivel 1 − α para µ:

S S
IC1−α (µ) = X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n

Ejemplo. Un estudio sobre el funcionamiento de un horno industrial proporcionó la siguiente

información sobre la presión de rotura de 169 barras cerámicas cocidas en él: X̄ = 89.10 MPa y
S = 3.73 MPa. Calcula un intervalo de confianza aproximado para el verdadero valor medio de la
presión de rotura con nivel de confianza 0.95.

Sea X= “Presión de rotura en MPa” la variable poblacional. En este caso no conocemos su

distribución pero, como el tamaño muestral es grande (n = 169) podemos construir un intervalo
de confianza aproximado para su media, que serı́a:

S 3.73
IC1−α (µ) = X̄ ± z1−α/2 √ = 89.10 ± z0.975 √ = (89.10 ± 0.5624) = (88.5376, 89.6624),
n 169

donde hemos utilizado que z0.975 = 1.96.

89
Intervalo de confianza para una proporción
Sea (X1 , ..., Xn ) una m.a.s. de una v.a. X con distribución Bernoulli de parámetro p descono-
cido.
Los intervalos de confianza que construiremos para p son aproximados y sólo se podrán utilizar
para muestras grandes, ya que se basan en la distribución asintótica del correspondiente estadı́stico
pivote.
r !
p(1 − p)
Como vimos en el tema anterior, para muestras grandes (n > 30): p̂ ≈ N p, .
n

p̂ − p
Si tomamos como estadı́stico pivote T = q ≈ N (0, 1), obtendrı́amos por el procedimiento
p(1−p)
n
habitual el intervalo aproximado:
r r !
p(1 − p) p(1 − p)
p̂ − z1−α/2 , p̂ + z1−α/2 .
n n

Este intervalo para p no es calculable en la práctica pues depende de la cantidad desconocida

p. Pero la aproximación de la distribución de T sigue siendo válida si, en la expresión de la
varianza, q
sustituimos p por unqestimador consistente como p̂, o equivalentemente, cambiamos
p(1−p) p̂(1−p̂)
DT(p̂) = n
por EE(p̂) = n
.

p̂ − p
En consecuencia, tenemos que T = q ≈ N (0, 1), y un intervalo de confianza aproximado
p̂(1−p̂)
n
de nivel 1 − α para p es:
r r !
p̂(1 − p̂) p̂(1 − p̂)
IC1−α (p) = p̂ − z1−α/2 , p̂ + z1−α/2 = p̂ ± z1−α/2 EE(p̂) .
n n

Propiedades:
r
p̂(1 − p̂)
1) El intervalo obtenido está centrado en p̂ y su longitud es L = 2z1−α/2 .
n

2) La longitud es una cantidad aleatoria ya que depende de la proporción muestral p̂.

1
Es fácil comprobar que p̂(1 − p̂) 6 , por lo que
4
r r
p̂(1 − p̂) 1 z1−α/2
L = 2z1−α/2 6 2z1−α/2 = √ .
n 4n n

De esta forma: para un tamaño muestral fijo, todos los intervalos del mismo nivel de confianza
z
(mismo z1−α/2 ) tienen una longitud no superior a 1−α/2
√
n
.

90
Ejemplo. En un estudio sobre la calidad de las piezas producidas por una máquina, una
muestra de 400 unidades contenı́a 30 defectuosas.
a) Calcula un intervalo de confianza del 90% para la verdadera proporción de piezas defectuosas
producidas por la máquina.

Sea p la proporción poblacional de piezas defectuosas producidas por la máquina. Como el

tamaño muestral (n = 400) es grande podemos utilizar el intervalo aproximado anterior:
r !
p̂(1 − p̂)
IC1−α (p) = p̂ ± z1−α/2 ,
n
30
con n = 400, p̂ = 400
= 0.075 y z1−α/2 = z0.95 = 1.645. Entonces se obtiene:

r !
0.075(1 − 0.075)
0.075 ± 1.645 = (0.075 ± 0.0217) = (0.0533, 0.0967).
400

b) Halla el tamaño muestral mı́nimo necesario para que el intervalo de confianza de nivel 0.90
tenga una longitud menor que 0.10 sea cual sea el valor de p.

z1−α/2
Acabamos de ver que L 6 √
n
. En este caso:

z1−α/2 z0.95 1.645 √

L6 √ = √ = √ < 0.10 =⇒ n > 16.45 =⇒ n > 270.6025
n n n

Entonces, el tamaño muestral mı́nimo para que se verifique la condición es n = 271.

91
TEMA 8: Contrastes de hipótesis

Sea X1 , ..., Xn una m.a.s. de una variable aleatoria X con función de distribución Fθ conocida
excepto por el valor del parámetro θ ∈ Θ.
Los objetivos de los procedimientos de inferencia expuestos en los temas anteriores eran:

La aproximación mediante un valor concreto del parámetro desconocido (estimación puntual).

La construcción de un intervalo aleatorio que lo contenga con una alta probabilidad prefijada
(intervalos de confianza).

Sin embargo, en muchas ocasiones se sospecha cuál puede ser el verdadero valor del parámetro y
lo que se pretende es confirmar o rechazar tal suposición a partir de la información proporcionada
por la muestra.

En general, contrastar una hipótesis estadı́sticamente es juzgar si cierta propiedad supuesta

para una población es compatible con lo observado en una muestra de la misma.
En el contexto de la inferencia paramétrica se contrasta una afirmación relativa al parámetro θ
desconocido.

Definiciones
Una hipótesis paramétrica es una afirmación sobre el parámetro θ desconocido.

Se dice que una hipótesis paramétrica es simple si especifica un único valor para el parámetro,
es decir, es de la forma θ = θ0 . Por ejemplo: µ = 5, p = 0.2,...
En otro caso se denomina compuesta, y puede ser de la forma θ 6= θ0 , θ > θ0 ,... Por ejemplo:
µ 6= 100, µ 6 5, p > 0.2,...

La hipótesis que se contrasta se denomina hipótesis nula y se representa por

H0 : θ ∈ Θ0 ,
siendo Θ0 un subconjunto de valores del espacio paramétrico.
La afirmación complementaria se denomina hipótesis alternativa y se representa por
H1 : θ ∈ Θ1
con Θ1 = Θ − Θ0 , es decir el subconjunto de valores del parámetro que es complementario de Θ0 .

Ejemplos. 1) En una fábrica se producen elementos cuya duración media es de 500 horas. Se
introduce un cambio en la fabricación y se quiere comprobar si ha afectado al tiempo de vida de
los elementos.

92
Se contrastará entonces la hipótesis nula: “La duración media es de 500 horas”, frente a la
alternativa: “La duración media no es de 500 horas”; es decir:
H0 : µ = 500 frente a H1 : µ 6= 500.

En este caso, la hipótesis nula es simple y la alternativa es compuesta.

Para decidir si aceptamos o no la hipótesis nula H0 , un procedimiento razonable serı́a:

Tomar una muestra de n elementos y medir su duración.

Calcular la media muestral o duración media de las n observaciones.
Si el tiempo medio de vida en la muestra está “muy lejos” de 500 horas, tenemos motivos
para dudar de la hipótesis nula y la rechazamos. En otro caso, aceptamos H0 .

¿Cuándo vamos a considerar que la distancia |X̄ − 500| es lo suficientemente grande como para
rechazar H0 ?
Uno de los principales objetivos del tema será encontrar un criterio o regla de decisión, que
cumpla determinadas propiedades y podamos aplicar una vez obtenida la información muestral.

2) Hasta ahora la proporción diaria de piezas defectuosas fabricadas por una máquina ha sido
como mucho del 1%, pero se teme que un desajuste haya provocado un aumento de tal proporción.

En este caso podrı́amos aplicar el contraste

H0 : p 6 0.01 frente a H1 : p > 0.01,
en el que ambas hipótesis son compuestas.

Una forma de resolverlo serı́a:

Obtener una muestra de piezas producidas por la máquina.

Calcular la proporción de piezas defectuosas en la muestra.
Si esta proporción es “mucho mayor” que 0.01 tendrı́amos una evidencia muestral en contra
de H0 y la rechazarı́amos.

Como antes, deberı́amos disponer de un criterio que nos permita determinar a partir de que
valor de p̂ se rechazará la hipotésis nula.

Criterios de decisión
Una vez planteado el contraste, el problema es decidir si aceptamos o no la hipótesis nula en
base a los datos muestrales.

93
Se trata entonces de establecer un criterio estadı́stico que nos permita aceptar o rechazar H0 a
~ = (X1 , ..., Xn ).
partir de la muestra X

~ llevarán a rechazar la hipótesis

Evidentemente, algunas realizaciones (valores concretos) de X
nula y otras conducirán a aceptarla.
Esta situación divide el espacio de posibles muestras en dos conjuntos C y C C , de forma que si
una realización de la muestra ~x ∈ C, rechazamos H0 (y aceptamos H1 ); y si ~x ∈ C C , aceptamos
H0 .

Definición. El subconjunto C de posibles muestras tal que si ~x ∈ C rechazamos H0 se denomina

región crı́tica.

Definición. Llamamos test a una regla que nos permite decidir cuál de las dos hipótesis es
aceptada a partir de la muestra observada ~x.
Se puede expresar utilizando la región crı́tica en la forma: “Rechazar H0 si y sólo si ~x ∈ C”.

Definición. Un estadı́stico de contraste es una función de la muestra, con distribución

conocida cuando H0 es cierta, que se utiliza como medida de discrepancia entre los datos muestrales
~
y la hipótesis nula. Lo representaremos por D = D(X1 , ..., Xn ) = D(X).

El conjunto de posibles valores de D puede dividirse en dos regiones tales que:

Los valores del estadı́stico de contraste correspondientes a discrepancias grandes llevan a

rechazar H0 y forman la llamada región de rechazo, que denotaremos por R.
El conjunto complementario de valores se conoce como región de aceptación.

De esta forma, podrı́amos expresar el criterio de rechazo o test, para la muestra observada ~x,
como:
“Rechazar H0 si y sólo si D(~x) ∈ R”.

Los contrastes que estudiaremos en este tema se resolverán con este procedimiento. En parti-
cular, consideraremos los siguientes tipos de contrastes de hipótesis:
a) Bilateral: H0 : θ = θ0 frente a H1 : θ 6= θ0 .
b) Unilateral derecho: H0 : θ 6 θ0 frente a H1 : θ > θ0 .
c) Unilateral izquierdo: H0 : θ > θ0 frente a H1 : θ < θ0 .

En estos tres casos el estadı́stico de contraste es función de la muestra y del valor del parámetro
especificado en la hipótesis nula (θ0 ) y se representa por D = D(X; ~ θ0 ).

94
Tipos de error
En el proceso de decidir si aceptamos o no la hipótesis nula H0 : θ ∈ Θ0 , frente a la alternativa
H1 : θ ∈ Θ1 , podemos encontrarnos con las cuatro situaciones que aparecen en la siguiente tabla:

Realidad
Decisión H0 es cierta H0 es falsa
Se acepta H0 Decisión correcta Error de tipo II
Se rechaza H0 Error de tipo I Decisión correcta

Se pueden cometer entonces dos tipos de error:

Error de tipo I: Rechazar H0 siendo cierta.

Error de tipo II: Aceptar H0 siendo falsa.

Las probabilidades de cometer estos errores son:

~ ∈ R|θ ∈ Θ0 ) = PE1 (θ) con θ ∈ Θ0 .
P (Error tipo I) = P (Rechazar H0 |H0 es cierta) = P (D(X)
~ ∈ RC |θ ∈ Θ1 ) = β(θ) con θ ∈ Θ1 .
P (Error tipo II) = P (Aceptar H0 |H0 es falsa) = P (D(X)

Como vemos, ambas probabilidades son función del parámetro θ.

¿Qué test es el mejor para resolver un contaste? Lo ideal serı́a elegir un test (o una región de
rechazo R) tal que las dos probabilidades de error valieran cero, pero esto no es posible.
Además, para un tamaño muestral fijo, si disminuye una de las dos probabilidades de error, la
otra aumenta. La única forma de rebajar las dos probabilidades de error a la vez es aumentando
el número de observaciones muestrales.

Seguiremos entonces el siguiente procedimiento: acotar una de las dos probabilidades de error
(la del más grave de los dos) y, con esta restricción, intentar minimizar la probabilidad del otro.
Normalmente los contrastes se formulan de forma que el error más importante sea el de tipo I.
Su probabilidad es entonces la que se acota superiormente por un cierto valor fijo, que determina
la máxima probabilidad de error tipo I que estamos dispuestos a tolerar.

Observación. Esta forma de actuar convierte a H0 en la hipótesis que representa la situación

más importante, o bien la situación mantenida y aceptada hasta el momento, que sólo se rechazará
si la evidencia muestral en contra es muy grande.

Nivel de significación y potencia

Definición. Se dice que un test o una región de rechazo tienen nivel de significación α si
PE1 (θ) 6 α, para cualquier θ ∈ Θ0 .

95
Definición. Se denomina potencia de un test a la probabilidad complementaria de la proba-
bilidad de error tipo II y la denotaremos por π:
π(θ) = P (Rechazar H0 |H0 es falsa) = 1 − β(θ).

Observaciones. 1) El nivel de significación α representa entonces la mencionada cota superior

para la probabilidad de error tipo I. Suelen elegirse valores pequeños, del orden de 0.01, 0.05 ó
0.10.

2) Es conveniente que la probabilidad de error tipo I sea exactamente α (no menor) ya que eso
implicará una menor probabilidad de error tipo II. Esto será siempre posible si la distribución de
D es continua, mientras que, en general, no se alcanzará el nivel α si la distribución del estadı́stico
de contraste D es discreta.

3) Una vez fijado el nivel de significación α, se trata de elegir, entre todos los posibles test
o regiones de rechazo de ese nivel, aquel que haga mı́nima la probabilidad de error tipo II o,
equivalentemente, aquel que tenga la mayor potencia.

Denotaremos por Rα la región de rechazo de nivel de significación α, que debe verificar:

Está constituida por los valores de D (estadı́stico de contraste) que conducen al rechazo de
H0 .
La probabilidad de que D tome valores en esa región, cuando H0 es cierta, será a lo sumo α.
Si la distribución de D es continua, la probabilidad anterior será exactamente α, es decir:
P (D ∈ Rα |H0 es cierta) = α.

Ejemplo. En una fábrica se recibe una partida de 1000 tornillos en cuyas especificaciones
figura que su diámetro es de 10 mm. El encargado de producción de la fábrica sospecha que el
diámetro es inferior al especificado. Para comprobarlo extrae una m.a.s. de 16 tornillos cuyos
diámetros resultan ser: 9.8, 10.2, 9.9, 9.5, 10.3, 10.1, 10, 9.7, 9.5, 9.9, 10.1, 10.2, 9.8, 10.1, 10 y
9.6. Suponiendo que el diámetro es una v.a. Normal con una desviación tı́pica conocida de 0.25
mm.:

a) ¿Podemos admitir como cierta la sospecha del encargado al nivel de significación α = 0.05?
Sea X=“Diámetro de un tornillo en mm”∼ N (µ, 0.25).

Se trata de contrastar:
H0 : µ = 10 frente a H1 : µ < 10.

La idea es rechazar la hipótesis nula (diámetro de 10 mm) sólo si la evidencia muestral en

contra es grande. Para decidir podemos utilizar el valor de la media muestral: si el valor de X̄
es “lo suficientemente menor” de 10 mm, rechazaremos la hipótesis H0 : µ = 10; en otro caso, la
aceptamos.

96
X̄ − µ
Sabemos que: X̄ ∼ N µ, √σn =⇒ √ ∼ N (0, 1).
σ/ n
Entonces, si utilizamos como estadı́stico de contraste:

~ µ0 ) = X̄ −
D = D(X;
µ
√ 0,
σ/ n
podemos concluir que su distribución cuando H0 es cierta es:
X̄ − µ0 X̄ − 10
D= √ = √ ∼ N (0, 1).
σ/ n σ/ n

La región de rechazo Rα debe:

Incluir los valores de D que reflejen mayor discrepancia entre la media muestral y el valor
µ = 10 a favor de la hipótesis alternativa (serán valores negativos de X̄ − 10 y por lo tanto
de D).
Tener probabilidad α cuando H0 es cierta, es decir:
P (D ∈ Rα |H0 es cierta) = P (N (0, 1) ∈ Rα ) = α

Estas consideraciones determinan que, para α = 0.05:

Rα = − ∞, −z1−α = − ∞, −z0.95 = (−∞, −1.645)

En consecuencia, vamos a utilizar el siguiente criterio o test:

Rechazar H0 si D < −1.645.

X̄ − 10 X̄ − 10 X̄ − 10
Equivalentemente, dado que D = √ = = , se verifica que:
σ/ n 0.25/4 0.0625
D < −1.645 ⇐⇒ X̄ < 10 − 0.0625 × 1.645 ⇐⇒ X̄ < 9.897,
y el test puede también formularse como:
Rechazar H0 si X̄ < 9.897.

Calculando la media muestral de los datos se obtiene que X̄ = 9.919 y D = −1.296. En

consecuencia, no se verifica la condición para rechazar H0 , por lo que aceptamos la hipótesis nula.

Aunque el diámetro medio de los tornillos de la muestra es inferior a 10 mm, la evidencia

muestral en contra de H0 no es lo suficientemente fuerte como para rechazar la afirmación contenida
en las especificaciones de la partida de tornillos.

b) ¿Y si utilizamos un nivel de significación α = 0.10?

Si α = 0.10:
Rα = − ∞, −z1−α = − ∞, −z0.90 = (−∞, −1.282),

97
y el criterio de rechazo es ahora:
Rechazar H0 si D < −1.282, o equivalentemente, X̄ < 9.920.

Dado que X̄ = 9.919, en este caso se rechazarı́a H0 y se aceptarı́a la hipótesis alternativa

H1 : µ < 10, es decir, aceptarı́amos la sospecha del encargado de que el diámetro es inferior a 10
mm.

Vemos entonces que al relajar la restricción sobre la probabilidad de error tipo I, es decir, al
permitir que sea mayor la probabilidad de equivocarnos en el sentido de rechazar H0 siendo cierta,
el resultado del contraste cambia: pasamos de aceptar H0 a nivel α = 0.05 a rechazarla a nivel
α = 0.10.

c) ¿Cuánto vale la probabilidad de cometer un error tipo II en muestras de tamaño 16 con

α = 0.05? ¿Y para α = 0.10?

Recordemos que para nivel α = 0.05 utilizamos el criterio de rechazar H0 si X̄ < 9.897.
Entonces:
P (Error tipo II) = P (Aceptar H0 |H0 es falsa) = P (X̄ > 9.897|µ < 10) =

9.897 − µ
= P Z> µ < 10 = β(µ),
0.0625

σ
donde hemos utilizado que X̄ ∼ N µ, n ≡ N (µ, 0.0625).
√

La probabilidad de error tipo II es función de µ (ver gráfica), variará según el valor de µ < 10
para el que la obtengamos. Por ejemplo:

9.897 − 9.9
µ = 9.9 −→ P (Error tipo II) = P Z > = P (Z > −0.05) = 0.51994
0.0625

9.897 − 9.8
µ = 9.8 −→ P (Error tipo II) = P Z > = P (Z > 1.55) = 0.06057
0.0625

La probabilidad de cometer un error tipo II es

mucho menor si el verdadero valor del parámetro
µ es 9.8 que si es 9.9.
Esto es ası́ porque, a medida que el verdadero
valor de µ se aleje de 10 (el valor especificado en
H0 ), los datos de la muestra estarán más clara-
mente en contra de la hipótesis nula y será menor
la probabilidad de aceptar esta hipótesis.
En definitiva: la probabilidad de error tipo
II es mayor cuanto más cerca esté el verdadero
valor de µ del valor especificado en H0 y dismi-
nuye a medida que se aleja de dicho valor en la dirección de la hipótesis alternativa H1 (ver
gráfica).

98
De forma análoga, utilizando el criterio de rechazo obtenido para α = 0.10, se obtiene que:

9.920 − µ
P (Error tipo II) = P (X̄ > 9.920|µ < 10) = P Z > µ < 10
0.0625
y, en los dos casos considerados antes, resulta ser:
µ = 9.9 −→ P (Error tipo II) = P (Z > 0.32) = 0.37448
µ = 9.8 −→ P (Error tipo II) = P (Z > 1.92) = 0.02743

La probabilidad es menor en ambos casos que las correspondientes obtenidas para α = 0.05
(ver gráfica). Esto ocurre porque, como ya comentamos anteriormente, para un tamaño muestral
fijo: al aumentar la probabilidad de error tipo I (α) disminuye la de error tipo II.

Nivel crı́tico o p-valor

El concepto de nivel crı́tico o p-valor proporciona una filosofı́a alternativa en la resolución de
contrastes de hipótesis.
Sea D un estadı́stico de contraste y sea dˆ = D(~x) su valor para la muestra observada ~x.

Definición. Llamamos nivel crı́tico o p-valor a la probabilidad de obtener una discrepancia

mayor o igual que la observada en la muestra, cuando H0 es cierta.

La expresión “discrepancia mayor o igual” en la definición anterior debe entenderse en relación

con la dirección en que H1 se aleja de H0 . Por ejemplo, si el contraste es unilateral izquierdo, el
ˆ 0 es cierta).
nivel crı́tico viene dado por: p − valor = P (D 6 d|H

Observaciones. 1) El p-valor representa una medida de la evidencia muestral en contra o a favor

de la hipótesis nula:
Valores muy pequeños del nivel crı́tico indican una fuerte evidencia en contra de H0 , que será
tanto mayor cuanto menor sea p-valor. Al contrario, valores grandes de p-valor significan evidencia
a favor de H0 .
2) Si se ha fijado un nivel α, puede tomarse la decisión utilizando el p-valor:
Si p − valor 6 α se rechaza H0 , mientras que si p − valor > α, se acepta.

Ejemplo. En el ejemplo del apartado anterior utilizamos un estadı́stico de contraste D con

distribución N (0, 1) bajo H0 y su valor en la muestra fue dˆ = −1.296.

p − valor = P D 6 −1.296|H0 es cierta =
= P (Z 6 −1.296) = P (Z > 1.296) ' 1 − P (Z < 1.3) = 1 − 0.9032 = 0.0968.

Entonces:

Con nivel de significación α = 0.05, se verifica que p-valor > 0.05 y la decisión es aceptar H0 .

99
Con nivel α = 0.10, se verifica que p-valor < 0.10 y la decisión es rechazar H0 .

Contrastes para la media de una población normal

Sea (X1 , ..., Xn ) una m.a.s. de X ∼ N (µ, σ). Veremos como resolver contrastes relativos a la
media µ distinguiendo dos situaciones: varianza conocida y varianza desconocida.
Consideraremos en ambos casos los tres tipos de contrastes más utilizados: bilateral, unilateral
derecho y unilateral izquierdo.

Los estadı́sticos de contraste son:

√
X̄ − µ0 n(X̄ − µ0 )
Caso de varianza conocida: D = = ∼ N (0, 1) bajo H0 .
DT(X̄) σ
√
X̄ − µ0 n(X̄ − µ0 )
Caso de varianza desconocida: D = = ∼ tn−1 bajo H0 .
EE(X̄) S

Observaciones. 1) En todos los contrastes unilaterales que veremos a partir de ahora, la hipótesis
nula puede ser también la de igualdad.
2) La afirmación que contiene la igualdad debe ir siempre en la hipótesis nula H0 .

3) En la tabla siguiente, dˆ representa el valor del estadı́stico D para la muestra observada.

4) Los contrastes pueden aplicarse también para poblaciones no normales siempre que n > 30
como consecuencia del TCL, siendo en este caso la distribución de D aproximada.

H0 : µ 6 µ0 H0 : µ > µ0 H0 : µ = µ0
H1 : µ > µ0 H1 : µ < µ0 H1 : µ 6= µ0
σ conocida
√ √ √
n(X̄ − µ0 ) n(X̄ − µ0 ) n(X̄ − µ0 )
Rechazar H0 si > z1−α < −z1−α > z1−α/2
σ σ σ

p-valor ˆ
P (Z > d) ˆ
P (Z 6 d) ˆ
2P (Z > |d|)
σ desconocida
√ √ √
n(X̄ − µ0 ) n(X̄ − µ0 ) n(X̄ − µ0 )
Rechazar H0 si > tn−1,1−α < −tn−1,1−α > tn−1,1−α/2
S S S

p-valor ˆ
P (tn−1 > d) ˆ
P (tn−1 6 d) ˆ
2P (tn−1 > |d|)

100
Ejemplos. 1) El encargado de una fábrica ha determinado que el tiempo medio que se tarda en
montar un determinado tipo de piezas no debe superar los 80 minutos. Sin embargo, sospecha que
no se está cumpliendo su especificación. Para comprobarlo, anotó el tiempo en minutos empleado
en montar cada una de 31 piezas, resultando un tiempo promedio de 81.5 minutos. Suponiendo que
el tiempo de montaje tiene distribución Normal con desviación tı́pica conocida igual a 20 minutos,
¿qué se puede concluir a nivel α = 0.05?

Sea X=“Tiempo de montaje de una pieza en minutos”∼ N (µ, 20).

Tenemos que contrastar la hipótesis nula

H0 : µ 6 80
frente a la hipótesis alternativa
H1 : µ > 80
siendo σ conocida. El criterio de rechazo es:

√
n(X̄ − µ0 )
Rechazar H0 si > z1−α .
σ
Calculamos el valor del estadı́stico de contraste:
√ √
n(X̄ − µ0 ) 31(81.5 − 80)
D= = = 0.4176
σ 20

Por otra parte, z1−α = z0.95 = 1.645 y por lo tanto se acepta H0 . En consecuencia, la sospecha
del encargado no se encuentra apoyada por los datos.
Podemos observar que: aunque el tiempo medio de montaje en la muestra sı́ es mayor que el
especificado, no se rechaza la hipótesis nula, dado que la evidencia muestral en contra de H0 no se
considera lo suficientemente fuerte.

Si queremos utilizar el p-valor:

ˆ = P (Z > 0.4176) = 1 − P (Z < 0.4176) = 1 − 0.66276 = 0.33724 > α = 0.05,
p − valor = P (Z > d)
lo cual nos lleva a aceptar la hipótesis nula.

2) El peso del contenido de las cajas de cereales para el desayuno producidas en determinado
proceso de llenado sigue una distribución Normal. Una muestra de 10 cajas de cereales selec-
cionadas de este proceso da lugar a los siguientes pesos en gramos: 498, 504, 500, 502, 510, 512,
490, 496, 506 y 502.
¿Se puede aceptar, a nivel α = 0.05, que la media del peso de las cajas de cereales es de 500
gramos?
Sea X=“Peso del contenido en gramos de una caja de cereales”∼ N (µ, σ).

Tenemos que contrastar la hipótesis nula

H0 : µ = 500

101
frente a la hipótesis alternativa
H1 : µ 6= 500
siendo σ desconocida. El criterio de rechazo es:

√
n(X̄ − µ0 )
Rechazar H0 si |D| = > tn−1,1−α/2 .
S

10
X 10
X
A partir de la muestra se obtiene que Xi = 5020 y Xi2 = 2520424, por lo que:
i=1 i=1

10 10
1 X 1 X 2
X̄ = Xi = 502 y Sn2 = X − X̄ 2 = 252042.4 − 5022 = 38.4.
10 i=1 10 i=1 i

Entonces:
√
n 10 10(502 − 500)
S2 = Sn2 = × 38.4 = 42.667 =⇒ S = 6.532 =⇒ |D| = = 0.968.
n−1 9 6.532

Por otra parte, tn−1,1−α/2 = t9,0.975 = 2.262 y por lo tanto se acepta H0 ; es decir, aceptamos que
el peso medio del contenido de las cajas es de 500 gramos.

Alternativamente, podemos resolver el contraste mediante el p-valor:

ˆ = 2P (t9 > 0.968)

p − valor = 2P (tn−1 > |d|)

Utilizando la tabla no podemos calcular exactamente su valor; sólo podemos concluir que es-
tará entre 0.20 y 0.40. En todo caso, aceptarı́amos H0 a cualquiera de los niveles α utilizados
habitualmente.

Observación. En Excel se obtiene: p − valor = 2P (t9 > 0.968) = 0.358336

Contrastes para una proporción

Sea (X1 , ..., Xn ) una m.a.s. de una variable X con distribución Bernoulli de parámetro p, donde
p es la proporción desconocida de individuos de la población que poseen cierta caracterı́stica.
Los contrastes de hipótesis para la proporción p se resuelven utilizando el estadı́stico de con-
traste:
p̂ − p0
D=q ,
p0 (1−p0 )
n

siendo p0 el valor especificado para p en la hipótesis nula H0 .

102
Este estadı́stico D tiene una distribución aproximadamente N (0, 1) para muestras grandes, por
lo que los criterios de rechazo especificados en la tabla siguiente sólo pueden aplicarse cuando el
tamaño muestral n sea mayor que 30.

Contrastes para una proporción (n > 30)

H0 : p 6 p0 H0 : p > p0 H0 : p = p0
H1 : p > p0 H1 : p < p0 H1 : p 6= p0

p̂ − p0 p̂ − p0 p̂ − p0
Rechazar H0 si q > z1−α q < −z1−α q > z1−α/2
p0 (1−p0 ) p0 (1−p0 ) p0 (1−p0 )
n n n

p-valor ˆ
P (Z > d) ˆ
P (Z 6 d) ˆ
2P (Z > |d|)

Ejemplo. En 50 lanzamientos de una moneda se obtienen 17 caras y 33 cruces. ¿Podemos

aceptar, a nivel α = 0.10, que la moneda es correcta?

Se trata de contrastar la hipótesis nula

1
H0 : p =
2
frente a la alternativa
1
H1 : p 6=
2
con n = 50 siendo p la probabilidad de obtener cara.
Entonces podemos utilizar el criterio:

p̂ − p0
Rechazar H0 si q > z1−α/2 ,
p0 (1−p0 )
n

17
donde p̂ = 50
= 0.34, p0 = 0.50 y z1−α/2 = z0.95 = 1.645.

p̂ − p0 0.34 − 0.50
Sustituyendo, se obtiene que q = q = 2.263 y por lo tanto se rechaza H0
p0 (1−p0 ) 0.5(1−0.5)
n 50
y no podemos aceptar que la moneda sea correcta.

Podemos también resolver el contraste mediante el p-valor:

ˆ = 2 P (Z > 2.26) = 2 × (1 − P (Z < 2.26)) =
p − valor = 2 P (Z > |d|)
= 2 × (1 − 0.98809) = 0.02382 < α = 0.10,

por lo que se rechaza H0 . Se aceptarı́a H0 para niveles α < 0.02382.

103

También podría gustarte

Muestreo y Distribuciones Muestrales
Aún no hay calificaciones
Muestreo y Distribuciones Muestrales
24 páginas
Tema 9
Aún no hay calificaciones
Tema 9
23 páginas
Muestreo y Distribuciones Muestrales
Aún no hay calificaciones
Muestreo y Distribuciones Muestrales
14 páginas
Introducción a la Inferencia Estadística
Aún no hay calificaciones
Introducción a la Inferencia Estadística
11 páginas
Introducción a la Inferencia Estadística
Aún no hay calificaciones
Introducción a la Inferencia Estadística
7 páginas
Inferencia Estadística y Muestreo Aleatorio
Aún no hay calificaciones
Inferencia Estadística y Muestreo Aleatorio
29 páginas
Inferencia Estadística y Muestreo
Aún no hay calificaciones
Inferencia Estadística y Muestreo
47 páginas
Estimación Puntual en Estadística
Aún no hay calificaciones
Estimación Puntual en Estadística
47 páginas
Inferencia Estadística: Métodos y Estimaciones
Aún no hay calificaciones
Inferencia Estadística: Métodos y Estimaciones
13 páginas
Criterios de Estimación Estadística
Aún no hay calificaciones
Criterios de Estimación Estadística
57 páginas
Fundamentos de Estadística y Probabilidad
Aún no hay calificaciones
Fundamentos de Estadística y Probabilidad
84 páginas
Estimación Estadística: Muestras y Parámetros
Aún no hay calificaciones
Estimación Estadística: Muestras y Parámetros
86 páginas
Inferencia Estadística y Muestreo Normal
Aún no hay calificaciones
Inferencia Estadística y Muestreo Normal
10 páginas
Inferencia Estadística: Estimación y Confianza
Aún no hay calificaciones
Inferencia Estadística: Estimación y Confianza
15 páginas
Inferencia Estadística y Muestreo
Aún no hay calificaciones
Inferencia Estadística y Muestreo
14 páginas
Fundamentos de Inferencia Estadística
Aún no hay calificaciones
Fundamentos de Inferencia Estadística
4 páginas
Estimación Puntual en Inferencia Estadística
Aún no hay calificaciones
Estimación Puntual en Inferencia Estadística
46 páginas
T4 Esquema
Aún no hay calificaciones
T4 Esquema
10 páginas
Inferencia Estadística: Muestreo y Estimación
Aún no hay calificaciones
Inferencia Estadística: Muestreo y Estimación
58 páginas
Contenido
Aún no hay calificaciones
Contenido
58 páginas
Tema3 INTERFERENCIA ESTADISTICA
Aún no hay calificaciones
Tema3 INTERFERENCIA ESTADISTICA
24 páginas
Introducción a la Estadística Inferencial
Aún no hay calificaciones
Introducción a la Estadística Inferencial
35 páginas
Inferencia Estadística en Bioestadística
Aún no hay calificaciones
Inferencia Estadística en Bioestadística
65 páginas
Inferencia Paramétrica en Estadística
Aún no hay calificaciones
Inferencia Paramétrica en Estadística
20 páginas
Estadística - ALBS - MGN - Tema 2
Aún no hay calificaciones
Estadística - ALBS - MGN - Tema 2
34 páginas
Inferencia Estadística: Conceptos Clave
Aún no hay calificaciones
Inferencia Estadística: Conceptos Clave
38 páginas
Estadística Inferencial para Administradores
Aún no hay calificaciones
Estadística Inferencial para Administradores
67 páginas
Estimación en Inferencia Estadística
Aún no hay calificaciones
Estimación en Inferencia Estadística
20 páginas
Estimación en Estadística Inferencial
Aún no hay calificaciones
Estimación en Estadística Inferencial
27 páginas
Apuntes de Inferencia Estadística
Aún no hay calificaciones
Apuntes de Inferencia Estadística
15 páginas
Introducción a la Inferencia Estadística
Aún no hay calificaciones
Introducción a la Inferencia Estadística
9 páginas
Inferencia y Estimación en Estadística
Aún no hay calificaciones
Inferencia y Estimación en Estadística
22 páginas
UNIDAD 2 - 2.1 Conceptos Basicos
Aún no hay calificaciones
UNIDAD 2 - 2.1 Conceptos Basicos
6 páginas
Unidad II Estadistica Parametrica I
Aún no hay calificaciones
Unidad II Estadistica Parametrica I
150 páginas
Inferencia Estadística: Métodos y Conceptos
Aún no hay calificaciones
Inferencia Estadística: Métodos y Conceptos
28 páginas
Estimación Puntual en Estadística
Aún no hay calificaciones
Estimación Puntual en Estadística
113 páginas
Apunte Est I. de Conf PDF
Aún no hay calificaciones
Apunte Est I. de Conf PDF
42 páginas
Tema 3 Estadística II All
Aún no hay calificaciones
Tema 3 Estadística II All
6 páginas
Introducción a la Inferencia Estadística
Aún no hay calificaciones
Introducción a la Inferencia Estadística
23 páginas
Estimación de Promedios Poblacionales
Aún no hay calificaciones
Estimación de Promedios Poblacionales
61 páginas
Clase 08 11 2022
Aún no hay calificaciones
Clase 08 11 2022
130 páginas
Introducción a la Inferencia Estadística
Aún no hay calificaciones
Introducción a la Inferencia Estadística
19 páginas
Estimacion Puntual
Aún no hay calificaciones
Estimacion Puntual
16 páginas
Estimación e intervalos de confianza en bioestadística
100% (1)
Estimación e intervalos de confianza en bioestadística
15 páginas
Inferencia Estadística: Muestra y Población
Aún no hay calificaciones
Inferencia Estadística: Muestra y Población
25 páginas
Estimación Puntual en Estadística
Aún no hay calificaciones
Estimación Puntual en Estadística
21 páginas
Inferencia Bayesiana en Estadística
Aún no hay calificaciones
Inferencia Bayesiana en Estadística
103 páginas
Estadística PEI 2: Teoremas y Variables
Aún no hay calificaciones
Estadística PEI 2: Teoremas y Variables
8 páginas
Tema 4 Introducción A La Inferencia
Aún no hay calificaciones
Tema 4 Introducción A La Inferencia
35 páginas
Estimación Estadística: Puntual e Intervalos
Aún no hay calificaciones
Estimación Estadística: Puntual e Intervalos
14 páginas
Inferencia Estadística en Economía
100% (1)
Inferencia Estadística en Economía
47 páginas
Tema 4
Aún no hay calificaciones
Tema 4
13 páginas
La Tabla Periódica: Profesora J.M. Gálvez Panamá
Aún no hay calificaciones
La Tabla Periódica: Profesora J.M. Gálvez Panamá
18 páginas
Análisis de Presupuesto de Pavimento Vial
Aún no hay calificaciones
Análisis de Presupuesto de Pavimento Vial
8 páginas
Se Oye un Son en Alta Esfera
Aún no hay calificaciones
Se Oye un Son en Alta Esfera
1 página
Mi Carrera como Docente de Artes Plásticas
Aún no hay calificaciones
Mi Carrera como Docente de Artes Plásticas
40 páginas
Carta a Lizardo: La muerte en dos tiempos
Aún no hay calificaciones
Carta a Lizardo: La muerte en dos tiempos
3 páginas
Guía de Programación Convertidor de Frecuencia VLT® HVAC Basic PDF
Aún no hay calificaciones
Guía de Programación Convertidor de Frecuencia VLT® HVAC Basic PDF
118 páginas
Preparación de Superficies Fase 6 Lijado Aparejo
Aún no hay calificaciones
Preparación de Superficies Fase 6 Lijado Aparejo
2 páginas
Aprendizje Basado en El Trabajo
Aún no hay calificaciones
Aprendizje Basado en El Trabajo
75 páginas
Guía de Residencia Docente 2023
Aún no hay calificaciones
Guía de Residencia Docente 2023
3 páginas
Ejercicios de Cálculo y Optimización
Aún no hay calificaciones
Ejercicios de Cálculo y Optimización
2 páginas
Iniciación a Orisa Yoruba: Ritual y Ebo
Aún no hay calificaciones
Iniciación a Orisa Yoruba: Ritual y Ebo
59 páginas
OFICIAL Gestion General Tarea Académica - N°1
Aún no hay calificaciones
OFICIAL Gestion General Tarea Académica - N°1
8 páginas
Funcionamiento del Oscilador Magnético
Aún no hay calificaciones
Funcionamiento del Oscilador Magnético
5 páginas
Funciones Clave en Revistas y Catálogos
Aún no hay calificaciones
Funciones Clave en Revistas y Catálogos
6 páginas
Trabajo Del Area de Sociales
Aún no hay calificaciones
Trabajo Del Area de Sociales
9 páginas
Contaminación en río: impacto en acería y pescadería
0% (3)
Contaminación en río: impacto en acería y pescadería
16 páginas
Memoria poética de José Pascual Buxó
Aún no hay calificaciones
Memoria poética de José Pascual Buxó
290 páginas
Guía de Ventas en Turismo Técnico
Aún no hay calificaciones
Guía de Ventas en Turismo Técnico
51 páginas
Exam COMIPEMS 1
Aún no hay calificaciones
Exam COMIPEMS 1
38 páginas
Conminución: Proceso de Preparación Mineral
Aún no hay calificaciones
Conminución: Proceso de Preparación Mineral
72 páginas
Análisis de Unicel y Bioplásticos TPS
Aún no hay calificaciones
Análisis de Unicel y Bioplásticos TPS
4 páginas
Interdependencia Positiva en Educación
Aún no hay calificaciones
Interdependencia Positiva en Educación
4 páginas
Grupo de Trabajo y Dominios, Diferencias
Aún no hay calificaciones
Grupo de Trabajo y Dominios, Diferencias
3 páginas
Adaptación Biológica de Especies
Aún no hay calificaciones
Adaptación Biológica de Especies
7 páginas
Diseño de Reguladores PID en Simulink
Aún no hay calificaciones
Diseño de Reguladores PID en Simulink
13 páginas
Proyecto Clase LACHTOSA - FASE 3
Aún no hay calificaciones
Proyecto Clase LACHTOSA - FASE 3
22 páginas
Operativos PNP y SUTRAN en Poroy
Aún no hay calificaciones
Operativos PNP y SUTRAN en Poroy
2 páginas
Certificado Alianza Fiduciaria S.A. 2024
Aún no hay calificaciones
Certificado Alianza Fiduciaria S.A. 2024
4 páginas
Mantenimiento Preventivo Elevadores KONE
Aún no hay calificaciones
Mantenimiento Preventivo Elevadores KONE
18 páginas
Extraer Datos de Un Libro y Varias Hojas
Aún no hay calificaciones
Extraer Datos de Un Libro y Varias Hojas
4 páginas

Introducción a la Inferencia Estadística

Cargado por

Introducción a la Inferencia Estadística

Cargado por

PARTE III: Inferencia Estadı́stica

 Tema 5: Introducción a la Inferencia Estadı́stica

 Tema 6: Estimación puntual

 Tema 7: Intervalos de confianza

 Tema 8: Contrastes de hipótesis

 Población es el conjunto de elementos en los que se estudian una o varias caracterı́sticas.

Clasificación de los métodos de Inferencia Estadı́stica

 Inferencia no paramétrica: En el contexto de la inferencia no paramétrica la distribución

 Espacio paramétrico: Conjunto de posibles valores del parámetro, denotado por Θ.

Muestro aleatorio simple. Se caracteriza porque:

 Cada elemento de la población tiene la misma probabilidad de ser elegido.

Distribución de una muestra aleatoria simple. Sea X la variable aleatoria en estudio en

n variables aleatorias X1 , X2 ,..., Xn independientes e idénticamente distribuidas (i.i.d.)

Observación. Si la población tiene N individuos, el nº total de muestras diferentes de tamaño

Aplicaciones. Algunas de las principales utilidades de los estadı́sticos son:

 Construcción de intervalos de confianza: se basan en un estadı́stico pivote.

 Resolución de contrastes de hipótesis: se utiliza un estadı́stico de contraste.

Distribución de un estadı́stico. Un estadı́stico es una variable aleatoria, cuyos valores

a) En el caso n = 2, la m.a.s. (X1 , X2 ) estarı́a constituida por dos variables aleatorias X1 y

Sin embargo, es más sencillo tener en cuenta lo siguiente:

b) Varianza y cuasivarianza muestrales. La varianza muestral de las observaciones es:

y se utiliza para hacer inferencia sobre la varianza (σ 2 ) de la población.

También se utiliza la cuasivarianza muestral:

c) Proporción muestral. Supongamos que se desea estimar la proporción p de individuos de

Para estimar p utilizaremos la proporción de elementos de la muestra que poseen la carac-

Estimación de la media Estimación de la proporción

Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura Nº Sexo Altura

Olvidemos ahora la información anterior, salvo el hecho de que el tamaño de la población es

Utilizando un muestreo aleatorio simple seleccionamos (aleatoriamente y con reemplazamiento)

A partir de estos datos (observados) se obtiene:

Si elegimos una muestra diferente, las estimaciones pueden variar:

Ahora: x̄ = 177.15 cm y p̂ = 0.15.

Y también podrı́amos obtener estimaciones diferentes para una tercera muestra:

En este caso: x̄ = 176.25 cm y p̂ = 0.10.

Valores de p̂ 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

Distribuciones asociadas al muestreo de poblaciones nor-

Distribución χ2 de Pearson. Sean X1 , X2 ,..., Xn variables aleatorias i.i.d. con distribución

Distribución t de Student. Sean X ∼ N (0, 1) e Y ∼ χ2n independientes. Se define la distribución

Recordemos que un estimador es un estadı́stico T = T (X1 , X2 , ..., Xn ) que toma valores en el

Veremos a continuación propiedades deseables que debe verificar un estimador y estudiaremos

Error cuadrático medio

Definición. Sea θ̂ un estimador del parámetro desconocido θ. Se define el error cuadrático

Observación. En muchas ocasiones el ECM de

Propiedades de los estimadores

Definición. Sea θ̂ un estimador del parámetro desconocido θ. Se dice que θ̂ es un estimador

E(θ̂) = θ o equivalentemente Sesgo(θ̂) = 0.

Definición. Se dice que θ̂n es un estimador asintóticamente insesgado para θ si

lim E(θ̂n ) = θ o equivalentemente lim Sesgo(θ̂n ) = 0.

Observación. Evidentemente, si un estimador es insesgado entonces es asintóticamente inses-

Para un estimador θ̂ insesgado se verifica que ECM(θ̂) = Var(θ̂) y, en consecuencia, el mejor

Propiedad. Si θ̂n es un estimador asintóticamente insesgado y lim Var(θ̂n ) = 0, entonces θ̂n es

Ejemplo 1. Sea X una variable aleatoria discreta con función de probabilidad: P (X = 1) = θ,

Estimación de la media poblacional: la media muestral

2) Estudiemos ahora la consistencia calculando previamente su varianza:

Entonces su error cuadrático medio es:

Distribución de la media muestral:

La distribución de la media muestral, como la de cualquier estadı́stico, depende de la dis-

a) Calcula la probabilidad de detener el proceso.

Sea X =“ Cantidad de café en gramos depositada en cada paquete” ∼ N (250, 10).

Es la probabilidad complementaria de la anterior:

c) Halla la probabilidad anterior si el tamaño de la muestra sube a 50 envases.

Estimación de la varianza poblacional: varianza y cuasi-

1) Estudiemos si es un estimador insesgado:

En consecuencia la varianza muestral no es un estimador insesgado de la varianza poblacional,

En cambio, la cuasivarianza muestral sı́ es un estimador insesgado de la varianza poblacional.

2) Distribución de la varianza y la cuasivarianza muestrales. Consideramos el caso de población

Ejemplo. Se ha elegido una m.a.s. de 10 mujeres y otra independiente de 14 hombres, alumnos

Necesitamos los siguientes cálculos:

Estimación de una proporción: proporción muestral

En consecuencia, la proporción muestral es un estimador insesgado y consistente de la pro-

Ejemplo. En determinada población la proporción de hogares con conexión a Internet es del

Como n > 30 podemos utilizar la aproximación:

La probabilidad que tenemos que calcular es:

Definición. Llamamos intervalo de confianza para el parámetro θ, con nivel o coeficiente de

2) La interpretación frecuentista de esta definición es la siguiente: si construimos muchos in-

Método pivotal para obtener intervalos de confianza

Tema 5: Introducción a la Inferencia Estadı́stica

Tema 6: Estimación puntual

Tema 7: Intervalos de confianza

Tema 8: Contrastes de hipótesis

Población es el conjunto de elementos en los que se estudian una o varias caracterı́sticas.

Inferencia no paramétrica: En el contexto de la inferencia no paramétrica la distribución

Espacio paramétrico: Conjunto de posibles valores del parámetro, denotado por Θ.

Cada elemento de la población tiene la misma probabilidad de ser elegido.

Construcción de intervalos de confianza: se basan en un estadı́stico pivote.

Resolución de contrastes de hipótesis: se utiliza un estadı́stico de contraste.

La aproximación mediante un valor concreto del parámetro desconocido (estimación puntual).

Tomar una muestra de n elementos y medir su duración.

Obtener una muestra de piezas producidas por la máquina.

Los valores del estadı́stico de contraste correspondientes a discrepancias grandes llevan a

Error de tipo I: Rechazar H0 siendo cierta.