Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.- INTRODUCCIÓN
101
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
Dijimos que el objetivo fundamental de la Estadística (paramétrica) es hacer inferencias sobre los
parámetros desconocidos de la distribución de una población. Hay tres grandes áreas para este fin :
▪ Estimación por intervalos (se elige en el espacio paramétrico , un intervalo que, con una cierta
probabilidad, contiene a )
▪ Test de Hipótesis (este análisis lo estudiaremos en la unidad siguiente, podemos adelantar que en
este caso se particiona en dos subconjuntos 0 y 1 y se determina la probabilidad de que 0
y 1 .)
102
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
Ejemplo: 1
Sea ( )
X 1 , X 2 ,..., X n ~ N , 2 con desconocido y 2 conocida. El estimador puntual para el
parámetro desconocido podría ser, T1 = 1 ( X 1 , X 2 ,..., X n ) = X donde t = (x , x
1 1 1 2 ,... x n ) = x es la
estimación o valor estimado del parámetro, que puede escribirse también como ̂ = x .
De acuerdo a la descripción anterior, un estimador siempre es un estadístico, tal como se definió en la
unidad anterior.
Se ha definido un estimador como una función de las variables de la muestra, por lo cual diversas
funciones de éstas pueden considerarse, en principio, como estimadores del parámetro. Lo que lleva a
disponer de tantas estimaciones puntuales, en cada muestra, como estimadores hayamos podido construir,
por lo cual será necesario alguna norma o conjunto de criterios que permitan elegir entre estos posibles
estimadores cuál es el “mejor” en cada caso.
Resolver este planteo nos lleva a proponer “Propiedades” que deben cumplir los estimadores
propuestos para decidir cuál es el mejor en cada caso.
2.2.1- INTRODUCCIÓN
Al ser desconocido el valor del parámetro nunca sabremos exactamente hasta qué punto cada estimación
(valor aproximado) se encuentra lejos o cerca del valor del parámetro, es decir su utilización conduce a la
posibilidad de cometer un error más o menos elevado al trabajar con la estimación puntual como si fuera
el valor verdadero.
Parece razonable pensar que una propiedad deseada de un estimador es la de que el estimador sea, en
términos de probabilidad, lo “más cercano posible” al verdadero valor del parámetro (o función de
parámetros). Para estos deberíamos contar con una forma de medir cercanía.
Entonces, partimos del hecho de que se desea conocer si la estimación se encuentra lejos o cerca del
valor del parámetro, siempre desconocido. En la práctica, tal pretensión no es más que un deseo
irrealizable, aunque conveniente para el planteamiento teórico del problema.
El error que podemos cometer, al tomar como valor del parámetro el proporcionado por el
estimador T = ( X 1 , X 2 ,..., X n ) , es la diferencia (T − ) o para eliminar el signo de las diferencias
(T − ) 2 . Mas aún, si pudiéramos obtener todas las muestras posibles de una población y para cada una
calcular la correspondiente estimación, una medida global de los errores sería su “esperanza matemática”,
es decir E (T − )2 . Esta esperanza recibe el nombre de error cuadrático medio. Un valor pequeño del
error cuadrático medio indicará que, en media, el estimador no se encuentra lejos del parámetro.
103
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
ECM (T ) = Var(T ) + E 2 (T ) − 2 E (T ) + 2 = Var (T ) + (E (T ) − )
2
Se sigue con la idea planteada en la introducción respecto de esta nueva “medida”, en el sentido de que un
valor pequeño del error cuadrático medio indicará que, en media, el estimador no se encuentra lejos del
parámetro.
Hemos visto que cuando se realizan estimaciones se pretende que el resultado se halle lo más cerca
posible del valor del parámetro desconocido , y una medida de esta pretensión es la minimización del
error cometido, expresado en términos del error cuadrático medio. Para que el error cuadrático medio sea
mínimo es necesario que los dos sumandos, que figuran en la expresión (1), sean mínimos. Dado que la
suma de dos números no negativos será mínima cuando lo sean los dos sumandos, es decir la var(T )
1. Que la varianza de T sea mínima tiene que ver con un estimador : Eficiente. Esta condición se logra
para un tamaño de muestra fijo, eligiendo entre los posibles estimadores el de menor varianza.
2. Que ( − E (T ) )2 sea mínimo tiene que ver con que ( − E(T )) = 0 o lo que es lo mismo
E (T ) = , estimador insesgado.
3. Para que las inferencias muestrales resulten correctas, el procedimiento de elección de muestra nos
debe conducir a su máxima representatividad y esto se podría alcanzar también aumentando el tamaño
muestral hasta conseguir que sea “infinito”, n→ , situación en la que la muestra es la misma población
y, por consiguiente, el error cuadrático medio será nulo, por no existir error. De aquí se deduce la
propiedad de Consistencia, que establece el comportamiento probabilístico de los estimadores cuando el
tamaño de la muestra es infinito, en el límite, y que puede contemplarse como la conveniencia de que la
estimación esté próxima al valor desconocido de con una probabilidad alta.
2.2.3.- OSERVACIONES
1. El tomar el ECM como una medida de la “bondad” del estimador surge del hecho que, así como la
Var ( X ) = E ( X − E ( X ) ) es una medida de la dispersión de los valores de X respecto de la media
2
E ( X ) , el ECM (T ) = E (T − )
2
es una medida de la dispersión de los valores del estimador T
respecto de . En consecuencia si T1 y T2 son los estimadores de , T1 es mejor que T2 sí y sólo sí
ECM (T1 ) ECM (T2 ) .
104
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
2. El error cuadrático medio de un estimador depende de los valores del parámetro . En consecuencia,
si T1 = 1 ( X 1 , X 2 ,..., X n ) y T2 = 2 ( X 1 , X 2 ,..., X n ) son dos estimadores del parámetro , puede
ocurrir que, para algunos valores de , T1 tendrá menor error cuadrático medio que T2 y para otros
valores de , T2 tendrá menor error cuadrático medio que T1 .
ECM (T2 ) ECM (T1 ) 1
ECM (T1 ) ECM (T2 ) 2
Ya que es prácticamente imposible (y muchas veces indeseable) encontrar un estimador que tenga el
menor error cuadrático medio de entre todos los estimadores del parámetro, deberíamos restringir la clase
de estimadores exigiendo alguna otra característica deseable y buscar, luego, en esta clase reducida, el de
menor error cuadrático medio. Esta propiedad deseable puede ser la de insesgamiento.
Hacer esta restricción a la clase de estimadores insesgados y buscar el que tiene menor ECM resulta
equivalente a buscar el que tiene menor varianza.
OBSERVACIONES
1. Encontrados los estimadores T1 y T2 de una misma función de parámetros, no siempre uno de ellos es
más concentrado o más cercano que el otro, para todo . Lo que sucede en general es que uno de
ellos es más concentrado que el otro para ciertos valores de y menos concentrado para otros valores de
y como el verdadero valor de es desconocido, es difícil seleccionar.
2. Otro detalle a tener en cuenta es considerar el tamaño de muestra. Para nosotros hasta ahora ha sido
fijo. Sin embargo, podríamos pensar en términos de muestras variables, ya que intuitivamente parecería
que los estimadores pueden mejorar si “n” es grande.
105
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
Ejemplo 2
Sea la muestra aleatoria X 1 , X 2 ,..., X n Bernoulli( ) . Como E ( X ) = es natural proponer como
estimador del parámetro a X veamos si es insesgado .
( )
Hemos visto que en general la E X = E (X ) = y en este caso la media de la población es “ ”
Ejemplo 3
Sea la muestra aleatoria X 1 , X 2 ,..., X n ~ N (, 2 ) con ambos parámetros desconocidos.
( )
2
1 n
S =
2
Xi − X
n − 1 i =1
es un estimador insesgado de 2
( )
2
1 n
y T = Xi − X
n i =1
no es un estimador insesgado de 2.
El alumno puede comprobar fácilmente esta afirmación a partir de los resultados analizados en la unidad 5…
Es decir tenemos una “sucesión de estimadores” X n que además considerando sus respectivos valores
observados x1 , x2 ,..., xn , es deseable que estos valores se aproximen a “ ” a medida que “n” aumenta.
La ventaja de que el tamaño muestral aumente radica en que la información proporcionada sobre la
población es cada vez mayor, llegando, si es infinito, a coincidir la muestra con la población y la
estimación puntual con el parámetro. Resulta evidente estudiar la conveniencia de analizar el
comportamiento de los estimadores en función del tamaño muestral.
Esta nueva propiedad establece que al variar el tamaño muestral obtendremos una “sucesión de
estimadores”, y es deseable que a medida que “n” aumenta, los valores de las estimaciones se aproximan
al valor real del parámetro. En particular si el tamaño de muestra “tiende a infinito”, en el límite, el
ECM(T) tenderá a cero.
106
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
límn→ ECM (T ) = 0
Es decir, a medida que la muestra crece, la proporción muestral se aproxima más a la proporción
poblacional.
A pesar de la indiscutible importancia de encontrar un estimador puntual para un parámetro se plantea allí
un problema: encontrado un estimador T = ( X 1 , X 2 ,..., X n ) para un parámetro , el valor estimado
de parámetro es t = ( x1 , x2 ,..., xn ) = ˆ , donde x1 , x2 ,..., xn es un valor observado de la muestra
aleatoria X 1 , X 2 ,..., X n . Pero no podemos saber qué tan alejado del verdadero valor de está ˆ . Por
ejemplo si T es una variable aleatoria continua, la probabilidad de que T tome el valor es cero, esto es
P(T = ) = 0 o bien P(( X 1 , X 2 ,..., X n ) = ) = 0 .
107
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
Por otro lado, hemos visto que la media de la muestra , X , resultó ser un buen estimador puntual de la
media de la población, , por las propiedades que verifica este estimador. Aunque en la práctica
usualmente se seleccione una muestra, sabemos que el valor promedio de todas las medias muestrales
posibles es , el parámetro verdadero de la población. Ya que el estadístico X varía de una muestra a
otra, es decir depende de los elementos seleccionados en la muestra, necesitamos considerar este hecho
con el fin de obtener una estimación más significativa y característica de la población.
Para lograr lo anterior debemos encontrar una estimación por intervalo del parámetro en cuestión,
tomando en consideración la distribución de muestreo del estimador. El intervalo obtenido tendrá una
“confianza” especificada de estimar correctamente el verdadero parámetro de la población.
Para precisar estas ideas definiremos formalmente este concepto
Entonces:
1. (T1 ,T2 ) es un “Intervalo de Confianza Aleatorio” de 100 % para .
2. es el coeficiente de confianza o nivel de confianza.
4. El valor observado (t1 ,t2 ) del intervalo aleatorio (T1 ,T2 ) es una estimación por intervalo del
parámetro.
En esta definición nos referimos a intervalos de confianza bilaterales (con dos extremos aleatorios).
También es posible definir intervalos de confianza unilaterales para un parámetro, es decir con un
extremo no aleatorio, los que veremos en la práctica. Así también, en algunos problemas, puede desearse
encontrar intervalos de confianza simultáneos para dos o más parámetros generando de este modo
regiones de confianza.
108
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
aleatorio (T1 ,T2 ) incluya el verdadero valor del parámetro antes de extraer la muestra, es decir,
P (T1 ,T2 ) = .
Una vez seleccionada la muestra X 1 , X 2 ,..., X n , la probabilidad de que el parámetro esté incluido
en el intervalo (T1 ,T2 ) es 1 ó 0, dependiendo de que el parámetro esté o no esté entre los dos números
t1 y t2 en que se convierten los extremos del intervalo al ser calculados para un valor observado de la
muestra. Es por eso que hablamos de un Nivel de Confianza .
Habiendo precisado la definición de intervalo de confianza, se plantea ahora una doble cuestión.
1. Desarrollar métodos generales que permitan construir intervalos de confianza.
2. Establecer criterios que permitan comparar dos diferentes intervalos de confianza construidos
para el mismo problema y así poder decidir cuál de los dos es mejor. Estos criterios estarán vinculados
con propiedades deseables que puede tener un intervalo y que son cuantificables, por lo que sirven para
comparar intervalos entre si.
Describiremos, a continuación, uno de los métodos que nos permiten generar intervalos de confianza,
pero para formalizarlo, se requiere conocer previamente el concepto de Cantidad Pivotal.
de las variables aleatorias de la muestra y del parámetro , que toma valores reales, es decir
q : → tal que, Q = q( X 1 , X 2 ,..., X n , ) , decimos que “Q” es cantidad pivotal sí y sólo
n
sí la distribución de Q no depende de .
Las dos propiedades de una cantidad pivotal son necesarias para que, a partir de ellas, sea posible
construir intervalos de confianza para . O sea es necesario que:
▪ ni de ningún otro parámetro desconocido, para poder
La distribución de “Q” no dependa de
realizar un enunciado probabilístico sobre “Q” del estilo P(q1 Q q2 ) = donde q1 y q2 son
109
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
Ejemplo 4
Si X 1 , X 2 ,..., X n N ( , = 9) con media desconocida y varianza igual a nueve.
2
Analice el alumno si cada una de las siguientes expresiones pueden o no pueden considerarse una
cantidad pivotal, fundamente su respuesta
1) Q1 = q1 ( X 1 , X 2 ,..... X n , ) = X − …………..……………………………..
X −
2) Q2 = q 2 ( X 1 , X 2 ,..... X n , ) = 3
……………………………………………..
n
X
3) Q3 = q3 ( X 1 , X 2 ,..... X n , ) = ……………………………………………………..
110
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
X − 3 3
P q1 q 2 = 0.95 P q1 X − q2 = 0.95
3 n n
n
3 3
P − X + q1 − − X + q2 = 0.95
n n
3 3
P X − q1 X − q2 = 0.95
n n
3 3
Es decir, se ha obtenido la expresión P X − q 2
X − q1 = 0.95 , donde los valores q1 y q2
n n
son cuantiles de la distribución Normal Estándar y el orden de cada uno es
q1 = z 0.025 y q 2 = z 0.975 respectivamente.
(T1 , T2 ) = X − z 0.975 3
; X + z 0.975
3
.
n n
4. Se calcula el valor observado del mismo en la muestra. De modo que resulta
111
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
Esta situación conduce a que con los mismos valores muestrales se obtengan diferentes intervalos
(extremos distintos), aunque todos ellos tengan el mismo nivel de confianza = 1− .
De entre todos los intervalos es deseable elegir uno sólo: el que presente menor longitud, es decir, el
intervalo cuya longitud L = T2 − T1 sea la menor posible, siempre que cumpla la condición
P (T1 T2 ) = .
Para determinar dicho intervalo se utilizan metodologías propias del cálculo. Es preciso poner de
manifiesto que no siempre es factible determinar un intervalo de confianza = 1 − de longitud mínima.
Se puede probar que cuando la distribución de “Q” es simétrica, el intervalo de confianza de longitud
mínima se obtiene para q1 = −q2 . En cambio si la distribución de “Q” no es simétrica se recurre al
1−
convenio de hacer 1 = 2 = o también 1 = 2 = con lo que el intervalo de confianza
2 2
es único aunque no sea de longitud mínima.
dq = = P(q1 Q q2 ) .
q2
q f
1
Q
3. De los infinitos pares, la idea es seleccionar aquellos que hacen mínima la longitud del intervalo de
confianza.
112
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
X −
La cantidad pivotal a considerar es Q= ~ N (0,1) (juzgue el alumno si está bien esta
n
afirmación)
X −
El método consiste en plantear P(q1 Q q2 ) = , es decir P q1 q 2 = debemos
n
trabajar con esta desigualdad de modo que nos quede el parámetro entre valores que dependan del
estadístico obtenido a partir de la muestra.
X −
P q1 q2 = P q1 X − q2 =
n n
n
P − X + q1 − − X + q2 =
n n
P X − q1 X − q2 =
n n
Es decir, hemos obtenido la expresión P X − q 2 X − q1 = , donde los valores q1 y
n n
q2 son cuantiles de la distribución Normal Estándar y el orden de cada uno es
q1 = z 1− y q 2 = z 1+ respectivamente, como se puede ver en el gráfico 3. Se puede probar que
2 2
para la distribución Normal Estándar el intervalo que tiene longitud mínima es aquel en el cual
q1 = −q2 .
113
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
El intervalo de confianza aleatorio que hemos obtenido para es X − q ; X +q con un
n n
nivel de confianza 100. % y donde q = q 2 = z 1+ . Lo que significa que para todas las muestras de
2
tamaño “n” fijo, el 100. % de los intervalos obtenidos a partir de ellas, contiene el valor real del
parámetro y el 100.(1-)% restante, no lo contiene.
DESCONOCIDA:
114
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
X − S S S S
P q1 q2 = P q1 X − q2 = P − X + q1 − − X + q2 =
S n n n n
n
S S
P X − q1 X − q2 =
n n
S S
Es decir, hemos obtenido la expresión P X − q 2 X − q1 = , donde los valores q1 y q2
n n
son cuantiles de la distribución t-Student con n-1 grados de libertad, y el orden de cada uno es
q1 = t 1− y q2 = t 1+ respectivamente. Se puede probar que para la distribución t- Student
n −1, n −1,
2 2
con n-1 grados de libertad, el intervalo que tiene longitud mínima es aquel en el cual q1 = − q 2 .
L=
S
(q 2 − q1 ) = S 2.q
n n
1+
Donde q es el cuantil de orden 2
de la distribución t de Student con n-1 grados de libertad, es decir
q=t 1+ .
n −1,
2
A partir de esta expresión es posible analizar cómo varía la longitud del intervalo si variamos el tamaño
de la muestra y dejamos la confianza o al revés.
115
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
S 2 (n − 1)
P q1 q2 = debemos trabajar con esta igualdad de modo que nos quede el parámetro
2
entre expresiones que dependan del estadístico obtenido a partir de la muestra.
S 2 (n − 1) 1 2 1
P q1 q 2 = P 2 =
q1 S (n − 1) q 2
2
S 2 (n − 1) S 2 (n − 1)
P 2 =
q 2 q1
S 2 (n − 1) 2 S 2 (n − 1)
Es decir, hemos obtenido la expresión P = , donde los valores q1 y q2
q2 q1
son cuantiles de la distribución Chi-cuadrada con (n-1) grados de libertad, y el orden de cada uno es
q1 = 2 1− y q2 = 2 1+ respectivamente, como se puede ver en el gráfico 4.
n −1, n −1,
2 2
En este caso se opta por considerar a como el área central quedando de este modo el área de las colas iguales.
116
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
S 2 (n − 1) S 2 (n − 1)
L= −
q1 q2
Luego podemos ver que obtenemos
1 1
L = S 2 (n − 1) − .
q1 q 2
A partir de esta expresión es posible analizar cómo varía la longitud del intervalo si variamos el tamaño
de la muestra y dejamos la confianza o al revés.
también para analizar la variabilidad de ambas poblaciones es decir X2 y Y2 ya que en general los
parámetros son desconocidos.
Es interesante, por ejemplo, estimar la diferencia de medias poblacionales, X − Y , para ver si son
iguales, lo que implica que la diferencia es nula. O bien una mayor que la otra, lo que implica que la
diferencia es positiva o negativa.
Un estimador puntual es X − Y . Se puede afirmar que la distribución es este estimador, si las
muestras han sido extraídas de poblaciones Normales independientes entre sí, es
X −Y ~ (
N X − Y , nXx + nYY
2 2
)
Es necesario saber en primer lugar si las varianzas poblacionales son conocidas o no lo son.
Q=
(X − Y ) − ( X − Y ) ~ N (0,1)
2
2
X
+ Y
nX nY
El Intervalo de Confianza para X − Y con un nivel de confianza , resulta
117
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
X2 Y2
(
X −Y − z )
1+
X2 Y2
+ (
; X − Y − z 1−) +
2 n X nY 2 n X nY
si es que son iguales, es decir X2 = Y2 = 2 o bien son distintas X2 Y2 . Para lograr este
X2
propósito se construye un Intervalo de Confianza para el cociente de varianzas, es decir para .
Y2
Si la varianzas poblacionales fueran iguales, ese cociente es igual a uno, en cambio si son distintas el
cociente es un número mayor que uno o bien menor que uno. El criterio para decidir en base al intervalo
construido es ver si el valor observado del intervalo en la muestra contiene al “1” o no lo contiene para
concluir si las varianzas son iguales o no lo son.
La cantidad pivotal (juzgue el alumno esta afirmación) es:
SY2 Y2
Q= 2 2 ~ F(nY −1,n X −1)
SX X
Se repasará en este caso particular la metodología para la construcción de un Intervalo de Confianza.
Una vez seleccionada la cantidad pivotal adecuada, se plantea la desigualdad
P(q1 Q q2 ) =
Siendo los cuantiles q1 y q2 cuantiles de la distribución F(nY −1, n X −1)
Luego se escribe la desigualdad de la forma:
S2 2 S2 2 S2 2 S2
P q1 2Y Y2 q 2 = P q1 Y2 X2 q 2 = P q1 X2 X2 X2 q 2 =
SX X SX Y SY Y SY
X2
El Intervalo de Confianza para resulta
Y2
S X2 S2
q1 2 ; q 2 X2
SY SY
118
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
Q=
(X − Y ) − ( X − Y ) ~ t (nX +nY −2 )
S P2 S P2
+
n X nY
S P2 =
(n x − 1) S X2 + (nY − 1) SY2
En esa expresión
n X + nY − 2
Entonces un Intervalo de Confianza de 100. % para la diferencia de medias está dado por la expresión
S P2 S P2 S P2 S P2
( X − Y ) − q2 + ; ( X − Y ) − q1 +
nX nY n X nY
Donde los valores q1 y q2 son cuantiles de la distribución t de Student con n X + nY − 2 grados de libertad y
Q=
(X − Y ) − ( X − Y ) ~ t
S X2 SY2
+
n X nY
En este caso la expresión de los grados de libertad están dados por la expresión,
2
S X2 SY2
+
= X
n nY
( ) ( )
2 2
.
2
S X nX SY2 nY
+
nX −1 nY − 1
Entonces un Intervalo de Confianza del 100. % para la diferencia de medias está dado por la expresión
119
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
S X2 SY2
(
X −Y − q )
2
S X2 SY2
+ ( )
; X − Y − q1 +
X
n nY X
n nY
Donde los valores q1 y q2 son los cuantiles correspondientes de la distribución t con grados de libertad.
estimación.
Si situamos dicho error “” en el límite aceptado, es decir, si hacemos
=z
n
Es posible determinar el tamaño de la muestra “n” a través de la igualdad
z2 2
n=
2
Esta expresión permite calcular, fijado un nivel de confianza del que depende el valor del cuantil “z” y
el error máximo “” que se está dispuesto a aceptar, el tamaño de la muestra “n” que habría que tomar,
bajo el supuesto de que 2 es conocida.
Observación
En el caso de que la varianza poblacional fuese desconocida, es decir 2 es desconocida, se calcula un
tamaño de muestra “aproximado” a partir del estimador puntual de 2 que hemos utilizado habitualmente,
la expresión resultará como:
z2 S 2
n=
2
120
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
En forma análoga el intervalo de confianza para el parámetro “ ” con un nivel viene dado por la
expresión
(
P X − z var ( X ) X + z var ( X ) = ) .
(1 − )
Puede definirse en forma equivalente por P X − z = , donde al ser X el estimador
n
puntual de , la expresión X − representa el “error” que se comete en el proceso de estimación.
z 2 (1 − )
n=
2
Esta expresión permite calcular, fijado un nivel de confianza (del que depende el valor del cuantil “z”) y
el error máximo “” que se está dispuesto a aceptar, el tamaño de la muestra “n” que habría que tomar,
bajo el supuesto de que varianza poblacional es 2 = (1 − ) es conocida, lo que quiere decir que
se tiene alguna referencia del parámetro “ ”. Si no se dispone de esta información se puede utilizar la
cota superior
z2
n=
4 2
1
Ya que el valor máximo que puede tomar la varianza del modelo Bernoulli es , es decir
4
máx( (1 − )) =
1
(ver ejercicio 13 del Trabajo Práctico 2).
4
Ejemplo 5
Una fábrica instala una línea automatizada de envasado de frutas. Sea (desconocida) la proporción de
envases mal cerrados que produce esta línea. ¿Cuántos envases n de la producción diaria se deben
examinar con la finalidad de que la probabilidad sea al menos de 0.9 de que la proporción de muestreo
(X ) de envases defectuosos difiera de en menos de 0.05?
Como desconocemos la varianza de esta población consideramos el caso en que ˆ X ) sea
var(
máxima, que es cuando = 0.5
121
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo
(0.05) n X − (0.05) n
P(−0.05 X − 0.05) = P − 0.9
0.5 0.5 0.5
n
122