Está en la página 1de 6

Estimación por intervalo de confianza.

El sólo conocimiento del estimador θ^ es incompleto si se pretende usar θ^ para sustituir al


parámetro θ , porque siempre hay un error (no es una equivocación) debido a las fluctuaciones
aleatorias inevitables que son consecuencia de la variabilidad que se produce en la muestra.

Este error de muestreo, también llamado precisión, se mide con el error estándar del estimador
σ θ^ =√ V (θ)^
Por lo tanto, toda estimación se debe acompañar del error estándar del estimador.

Una expresión más formal del estimador y su error estándar las podemos obtener por lo que se
llama estimación por intervalo de confianza o simplemente estimación por intervalo.

La estimación por intervalo es la estimación de un parámetro por un intervalo al azar, llamado


intervalo de confianza, cuyos puntos extremos finales Linferior y Lsuperior con Li<Ls son funciones de la
variable aleatoria observada, tales que la probabilidad de que quede satisfecha la desigualdad
^
Li⩽θ⩽L s se expresa en términos de un número predeterminado (1-α). Esta formulación, dado
que se desea un intervalo simétrico, se expresa:
^ |⩽k⋅σ ^ )=1−α
P(|θ−θ θ

…donde (1-α) se llama coeficiente o nivel de confianza (a veces indicado por γ), k es una constante
no negativa y resulta ser el multiplicador de confianza correspondiente al valor (1-α) y α es la
probabilidad de que el intervalo no incluya al verdadero parámetro. También se conoce al valor de
α como significación o significancia.

Demostración.
^ |⩽k⋅σ ^ )=1−α
P(|θ−θ θ
Quitando las barras de valor absoluto:

P(−k⋅σ θ^ ⩽ θ^ −θ⩽k⋅σ θ^ )=1−α


Restando θ^ en los tres miembros de la desigualdad:

P(−θ^ −k⋅σ θ^ ⩽−θ⩽− θ^ +k⋅σ θ^ )=1−α


Al multiplicar todo el paréntesis por (-1), cambia el sentido de la desigualdad:

P( θ^ +k⋅σ θ^ ⩾θ⩾θ^ −k⋅σ θ^ )=1−α


Pero puedo ordenar el paréntesis invirtiendo el orden de escritura:

P( θ^ −k⋅σ θ^ ⩽θ⩽ θ^ +k⋅σ θ^ )=1−α (Ec.1)

donde se reconocen:

Li= θ^ −k⋅σ θ^ y Ls =θ^ +k⋅σθ^


La ecuación (Ec.1) significa que si se repite n veces el cálculo de intervalos aleatorios, el (1-α)%
de las veces nos darán intervalos que contendrán al verdadero valor del parámetro.

Insistimos: lo que resulta aleatorio es el intervalo (porque depende de los valores de la muestra).

Una duda que pudiera presentarse es: ¿cuál es la distribución del estimador?

La respuesta depende del estimador que utilicemos, del tamaño de la muestra y del conocimiento
o no de la varianza poblacional. Daremos indicaciones para dos de ellos: la media muestral y la
proporción muestral.

Observación: puede resultar desconcertante hablar del conocimiento de la varianza


poblacional, puesto que siendo un parámetro, el valor suele ser desconocido. No obstante,
asumiremos que ese valor proviene de algún conocimento externo a nuestro trabajo (por
ejemplo: un informe de alguna fuente ajena, un paper, datos de otro laboratorio, etc). Es
decir que ese número no proviene de modo alguno de las muestras de las que disponemos en
nuestro estudio.

Estimación por intervalo de confianza para la media de una población con varianza
poblacional conocida (muestra grande, es decir: 30 o más ejemplares).

El Teorema Central del Límite (TCL) nos asegura que con una muestra lo suficientemente grande
las medias muestrales se distribuyen según una normal. En consecuencia, la expresión

P( θ^ −k⋅σ θ^ ⩽θ⩽ θ^ +k⋅σ θ^ )=1−α


… se transforma en:
P( x̄−Z α /2⋅σ x̄ ⩽μ⩽ x̄+Z 1−α/2⋅σ x̄ )=1−α
El valor de Z, denominado multiplicador de confianza dependerá del valor de (1-α) y se puede
extraer de la tabla de la distribución normal estandarizada. No obstante, suelen utilizarse ciertos
valores considerados usuales que daremos a continuación, en relación a los valores de (1-α).
Recordar que un intervalo de confianza está centrado, en consecuencia dejará el mismo nivel de
probabilidades tanto por debajo como por encima de dicho intervalo.
Confianza γ=(1-α) Significación α Zα/2 = - Z1-α/2 Valor aprox.
0,90 0,10 Z0,05 ±1,645
0,95 0,05 Z0,025 ±1,96
0,96 0,04 Z0,02 ±2,055
0,98 0,02 Z0,01 ±2,33
0,99 0,01 Z0,005 ±2,576

Debemos recordar que σ x̄= σ . Consecuentemente:


√n
P x̄−Z α/2⋅ σ ⩽μ⩽ x̄ +Z 1−α/ 2⋅ σ =1−α
( √n √n ) (Ec.2)

En la ecuación (Ec.2) se observa que:

Li= x̄−Z α/ 2⋅ σ Ls = x̄+Z (1−α/ 2)⋅ σ


√n √n

La amplitud del intervalo de confianza (W, por el inglés width: amplitud) será: W =L s−Li
Obsérvese que la estructura del intervalo puede interpretarse como:

P ( x̄−δ⩽μ⩽ x̄+δ )=1−α donde δ=Z α/2⋅ σ


√n
El valor de δ (en ocasiones se lo indica con la letra latina e) se llama cota de error admitido y a
veces precisión. Debe tenerse especial atención en el hecho de que el intervalo tiene una amplitud
igual a dos errores o dos precisiones, es decir:
W
δ=e= =Z α /2⋅ σ
2 √n
Debe prestarse especial atención (hablando usualmente) en el hecho de que cuanto mayor sea el error e,
menor es la precisión de la estimación, o sea: un intervalo pequeño tiene poco error pero es muy preciso (alta
precisión); en cambio un intervalo amplio con gran error es poco preciso (baja precisión).
Tamaño de la muestra para estimar μ mediante un intervalo de confianza.

Hasta ahora, dado un determinado tamaño de la muestra y un nivel de confianza dado, se calcula el
tamaño del intervalo de confianza. Un problema interesante surge de la necesidad de dar el tamaño
de la muestra que asegure un determinado nivel de confianza y un error (o precisión, es decir: ya
dada la amplitud del intervalo de confianza) ya prefijados.
Hasta ahora:
α (dado: Z) → σ(dado) →n (dado) →se determinan los límites: (Li; Ls), es decir 2e
Ahora aprenderemos a:
e(dado) → σ(dado) → α(dado: Z) →se determina el valor de n
e=Zα / 2⋅ σ error o “media amplitud”
√n
Despejando:
2
√ n=Z α /2⋅σe y elevando al cuadrado: n= Z α/2⋅σ
( e ) (Ec.3)

Observación importante: es raro que el resultado de la (Ec.3) sea un número entero. Lo usual es
que resulte un número con decimales. Pero debemos tener en cuenta que necesitamos un número
entero de ejemplares para conformar nuestra muestra. No podemos fraccionar un ejemplar, de
modo que es necesario redondear el resultado. Analicemos este asunto: si redondeamos al entero
inferior, no podemos asegurar que se cumpla el nivel de confianza (1-α) solicitado; en cambio, si
redondeamos al entero superior nos excedemos ligeramente en el valor solicitado de confianza…
¡pero cumplimos con él! De modo que el redondeo “correcto” deberá ser al entero superior.

Estimación por intervalo de confianza para la proporción de una población.

La proporción en una población puede definirse como el cociente entre X y N, donde X es la


cantidad de ejemplares o individuos que cumplen con una determinada característica y N es la
cantidad total de ejemplares. En general, esas cantidades son desconocidas por inaccesibles. En
consecuencia, la proporción poblacional, que designaremos con la letra griega π, permanece
ignorada, salvo muy contadas excepciones.
No obstante, podemos realizar una estimación puntual del parámetro π, mediante el cálculo de la
x
proporción muestral ^p= donde x es la cantidad de ejemplares o individuos de la muestra que
n
cumplen con una determinada característica y n es la cantidad total de ejemplares de la muestra.
La distribución de proporciones muestrales resulta normal y puede escribirse como sigue:

(
^p∼N μ ^p=π ;σ ^p=
√ )
π(1−π)
n
para n→∞

Observación: debe tomarse en cuenta que el desvío muestral debe afectarse de un factor de
corrección para poblaciones finitas (FCPF) cuando el número de ejemplares de la población N no
es demasiado grande cuando se lo compara con la cantidad de ejemplares de la muestra n. Como
orientación para utilizar esa corrección, debe considerarse que:
n
N
>0,05 FCPF =
√ N−n
N −1
Aplicando la transformación Z para la proporción, se tiene:
( | | )
^p−π
P Zi < σ < Z s =(1−α)
^p

Como el desvío es positivo, podemos pasarlo multiplicando a los otros dos miembros, es decir:
P ( Z i⋅σ p^ <|p^ −π|< Z s⋅σ ^p) =(1−α)
Haciendo los cambios necesarios para dejar el parámetro en el miembro central de la desigualdad,
obtendremos:
P ( p^ −Z i⋅σ ^p <π< p^ + Z s⋅σ ^p )=(1−α)
Debemos detenernos un instante porque surge un inconveniente. Si observamos la expresión
anterior, vemos que contiene el error estándar del estimador σ p^ . Pero este valor se calcula a
partir del conocimiento de π, puesto que, como se observó anteriormente:

σ p^ =
√ π(1−π)
n
Llegamos a un punto en que para determinar un intervalo de confianza para π (que desconocemos),
es necesario el conocimiento previo… ¡de π!. Esto constituye lo que se conoce como primera
paradoja. Para resolver la cuestión, vamos a reemplazar el valor de π por un estimador insesgado
del mismo, es decir por ^p . En consecuencia, el intervalo de confianza para la proporción será:

[ √
P p^ −Z ⋅
i
p^ (1− ^p )
n
< π< ^p + Z s⋅

p^ (1− p^ )
n ]=(1−α) (Ec.4)

Los conceptos de error estándar del estimador, límites inferior y superior del intervalo y amplitud
del intervalo en la expresión (Ec.4) resultan análogos a los tratados en el caso de la media. Sin
embargo nos detendremos un instante en el valor de la “precisión” o “error”. Podemos escribirlo
como:
e=Z⋅σ ^p=Z⋅

^p (1− p^ ) W
n
=
2
(Ec.5)

O sea que la expresión (Ec.5) debe considerar la sustitución de π por su estimador ^p comentado
anteriormente. Esto será especialmente útil cuando queramos determinar el tamaño de la muestra.

Tamaño de la muestra para estimar la proporción de una población mediante un intervalo de confianza.

De modo análogo a lo realizado con la media, para determinar el tamaño de la muestra debemos
despejar el valor de n de la expresión (Ec.5). De ese modo:
2
e
Z
=

p^ (1− ^p )
n
y elevando al cuadrado: () e
Z
=
p^ (1− ^p )
n
A continuación, despejamos el valor de n:
p^ (1− ^p )
n= 2
(Ec.6)
(e /Z )
Detengámonos un momento en esta última expresión y analicémosla.
Estamos tratando de determinar el valor de n; sin embargo, la expresión contiene el estimador de la
proporción que es:
x
^p=
n
Es decir que, por un lado queremos determinar n porque lo ignoramos y por otro debería ser un dato
porque forma parte del estimador. Claramente no es posible conocer aquello que estamos buscando.
Esto constituye lo que se denomina segunda paradoja. Para resolver esto, volvamos a la (Ec.6).

Ante el desconocimiento de ^p vamos a tratar de limitar el valor del numerador a su valor


máximo, es decir que maximizaremos el valor de ^p (1− ^p ) . De ese modo sobreestimaremos el
valor de n, pero eso nos permitirá cumplir holgadamente (con total seguridad) con el valor de la
confianza (1-α). Ensayaremos distintos valores de ^p y observaremos:

Para ^p =0,1 (1- ^p )= 0,9 ...entonces ^p (1- ^p )= 0,09


Para ^p =0,2 (1- ^p )= 0,8 ...entonces ^p (1- ^p )= 0,16
Para ^p =0,4 (1- ^p )= 0,6 ...entonces ^p (1- ^p )= 0,24
Para ^p =0,5 (1- ^p )= 0,5 ...entonces ^p (1- ^p )= 0,25
Para ^p =0,6 (1- ^p )= 0,4 ...entonces ^p (1- ^p )= 0,24

Se ve que el producto es máximo en el valor 0,25 cuando ^p es igual a 0,5


Adoptando este valor, asumiremos que tenemos una “varianza” máxima y el tamaño de la muestra
(algo exagerada) nos pondrá a cubierto de la situación más riesgosa que pueda plantearse. Ese
número resultará algo conservador, pero sobrecumplirá con el valor (1-α) solicitado.
0,25
n=
( e /Z)2
Este razonamiento debe realizarse solamente si se desconoce el valor de ^p y el caso general se
resuelve con la expresión de la (Ec.6). Hay ocasiones en que ese valor se conoce (o puede
aproximarse) por experiencias anteriores o cercanas. En tal caso, es útil incorporarlo puesto que
puede reducir significativamente el tamaño de la muestra y consecuentemente el costo ($) de
construcción de la muestra.
Debe considerarse aquí el mismo comentario respecto al redondeo del resultado, puesto que no se
admiten fracciones de ningún ejemplar de la muestra.

Nota importante: hemos citado dos estimadores (media y proporción) cuya distribución es normal.
De modo alguno debe entenderse que eso sucede en todos los casos. Se verá más adelante que otras
distribuciones son posibles. Ejemplo: la varianza se distribuye según una distribución χ2 (ji-
cuadrado, también conocida como chi-cuadrado) que es asimétrica y de valores solamente positivos.

También podría gustarte