Está en la página 1de 22

L.A. – C.P.

ESTADÍSTICA 2023 FCE-UNCuyo

UNIDAD Nº 5 / ESTIMACIÓN PUNTUAL Y POR INTERVALOS

1.- INTRODUCCIÓN

El objetivo fundamental de la Estadística es usar f (x,  ) . La completa especificación de este


la información contenida en una muestra para modelo depende siempre de los valores
hacer inferencias acerca de la población de la concretos de sus parámetros que lo identifican
cual se toma la muestra. Asumimos que las unívocamente.
características de los elementos en la población En principio el objeto de la inferencia se
pueden ser representadas por una variable encamina a la evaluación de estos parámetros
aleatoria. En general se quiere analizar una o desconocidos. Existen varios caminos para
más variables de interés, por ejemplo, lograrlo, como la estimación puntual, la
estudiamos las ventas en el mercado de cierto estimación por intervalos y contrastes (pruebas)
producto en los supermercados de una ciudad. de hipótesis.
Para establecer sus normas de El proceso inferencial se basará siempre en la
funcionamiento y predecir su comportamiento, información que nos pueda suministrar una
suponemos que la variable aleatoria definida en muestra aleatoria extraída de esa población. En
la población se puede describir a través de un particular, en el primero de estos caminos, a partir
determinado modelo probabilístico de la muestra aleatoria se establece una función
preestablecido. En esta primera fase toda adecuada (no debe contener parámetros de la
información que tengamos es fundamental antes distribución), que recibe el nombre de estimador,
de iniciar el proceso de Inferencia, ya que todo y se asigna al parámetro el valor que tome dicha
este trabajo previo se concretará en la función en los valores muestrales, a este valor
asignación de un modelo probabilístico asignado se lo denomina estimación puntual.
adecuado. En general se conoce el modelo
probabilístico pero se desconocen el o los
parámetros que lo especifican. El objetivo de BUSCAR UN VALOR ADECUADO PARA
muchas investigaciones estadísticas es buscar ESTOS PARÁMETROS ES EL OBJETO
un valor adecuado para uno o más parámetros DE LA ESTIMACIÓN PUNTUAL
relevantes.
Podemos decir que en general la variable La estimación tiene muchas aplicaciones
aleatoria bajo estudio, representada por X , prácticas. Por ejemplo podríamos estar
tiene densidad f X (x, ) = f (x, ) donde la interesados en estimar la media  del tiempo de
forma de la densidad (familia de distribución) es espera en una caja registradora en un
asumida conocida excepto que contiene un supermercado o la desviación estándar  del
parámetro desconocido (si  fuera conocido, error de medición de un instrumento
la función densidad estaría completamente electrónico. También se podría estar interesado
especificada y no habría necesidad de hacer en estimar la proporción  de motores que se
inferencias). Es decir X ~ f (x, ) donde espera fallen antes de la expiración de la
garantía.
  es el parámetro desconocido (puede ser
En todos estos casos consideramos una
un vector) y  es el espacio paramétrico que
población representada por una variable aleatoria
es conocido. De este modo la población bajo X con una cierta distribución. Dentro de esa
estudio estará representada por esta variable población tomamos una muestra representada por
aleatoria X y la forma de su distribución por
X 1 , X 2 ,..., X n variables aleatorias

101
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

independientes con idéntica distribución a la de distribución Normal cuyos parámetros  y 2


X , donde el conjunto de valores x1 , x2 ,..., xn son desconocidos. Es decir, a partir de una
son los valores observados de dichas variables muestra tomada de la población y teniendo en
aleatorias muestrales. cuenta la densidad conjunta de la muestra
Como hemos dicho anteriormente, lo que f X1 X 2 ...X n ( x1 x 2 ... x n ,  ) con    se buscan
ocurre habitualmente es que uno podría conocer
valores adecuados para los parámetros de
la forma de la distribución en la población (por
interés. En este caso  es un vector de
ejemplo Normal) pero desconoce el valor de los
parámetros de la misma. Por ejemplo sea parámetros y  = R  R+ , ya que
X 1 , X 2 ,..., X n una muestra aleatoria con desconocemos el valor de  y de  2
.

Dijimos que el objetivo fundamental de la Estadística (paramétrica) es hacer inferencias sobre los
parámetros desconocidos de la distribución de una población. Hay tres grandes áreas para este fin :

▪ Estimación puntual (se elige en el espacio paramétrico  , un valor como representante de  )

▪ Estimación por intervalos (se elige en el espacio paramétrico  , un intervalo que, con una cierta
probabilidad, contiene a )

▪ Test de Hipótesis (este análisis lo estudiaremos en la unidad siguiente, podemos adelantar que en
este caso se particiona  en dos subconjuntos  0 y 1 y se determina la probabilidad de que    0
y   1 .)

En esta unidad trabajaremos con los dos primeros.

2.- ESTIMACIÓN PUNTUAL


Sintetizando lo que hemos planteado podemos decir que en general tenemos una muestra aleatoria:
X 1 , X 2 ,..., X n de una población con densidad f X (,  ) con    . Conocemos la forma de la
distribución fX y el espacio de parámetros  , pero desconocemos exactamente el valor de  . Nos
proponemos “estimar” el valor del parámetro  a partir de lo que podamos observar en la muestra, se
podría plantear más general aún estimando una función h( ) del mismo.
El primer objetivo es la obtención de un valor que pueda asignarse a ese parámetro desconocido. Para
ello se obtiene de la población la información precisa mediante una muestra aleatoria simple, se elige un
estimador , es decir una función de las variables aleatorias de la muestra (sin que contenga ningún
parámetro de la distribución) y se asigna al parámetro el valor que tome esta función en la muestra
concreta, valor al que se denomina estimación puntual. Este tipo de estimación se llama estimación
puntual porque un solo valor o punto constituye la estimación del parámetro de interés.

2.1.- DEFINICIÓN DE ESTIMADOR PUNTUAL


Dada una muestra aleatoria X 1 , X 2 ,..., X n ~ f X (., ) con   el estimador puntual de  es un
estadístico T = ( X 1 , X 2 ,..., X n ) tal que sus valores t = (x1 , x2 ,... xn ) son utilizados para estimar .

102
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

La función T = ( X 1 , X 2 ,..., X n ) es el estimador del parámetro  y el valor observado del estadístico


( x1 , x 2 ,... x n ) = ˆ es la estimación o valor estimado del parámetro  .

Ejemplo: 1
Sea ( )
X 1 , X 2 ,..., X n ~ N , 2 con  desconocido y  2 conocida. El estimador puntual para el
parámetro desconocido podría ser, T1 =  1 ( X 1 , X 2 ,..., X n ) = X donde t =  (x , x
1 1 1 2 ,... x n ) = x es la
estimación o valor estimado del parámetro, que puede escribirse también como ̂ = x .
De acuerdo a la descripción anterior, un estimador siempre es un estadístico, tal como se definió en la
unidad anterior.
Se ha definido un estimador como una función de las variables de la muestra, por lo cual diversas
funciones de éstas pueden considerarse, en principio, como estimadores del parámetro. Lo que lleva a
disponer de tantas estimaciones puntuales, en cada muestra, como estimadores hayamos podido construir,
por lo cual será necesario alguna norma o conjunto de criterios que permitan elegir entre estos posibles
estimadores cuál es el “mejor” en cada caso.
Resolver este planteo nos lleva a proponer “Propiedades” que deben cumplir los estimadores
propuestos para decidir cuál es el mejor en cada caso.

2.2.- PROPIEDADES DE LOS ESTIMADORES PUNTUALES

2.2.1- INTRODUCCIÓN
Al ser desconocido el valor del parámetro nunca sabremos exactamente hasta qué punto cada estimación
(valor aproximado) se encuentra lejos o cerca del valor del parámetro, es decir su utilización conduce a la
posibilidad de cometer un error más o menos elevado al trabajar con la estimación puntual como si fuera
el valor verdadero.
Parece razonable pensar que una propiedad deseada de un estimador es la de que el estimador sea, en
términos de probabilidad, lo “más cercano posible” al verdadero valor del parámetro (o función de
parámetros). Para estos deberíamos contar con una forma de medir cercanía.
Entonces, partimos del hecho de que se desea conocer si la estimación se encuentra lejos o cerca del
valor del parámetro, siempre desconocido. En la práctica, tal pretensión no es más que un deseo
irrealizable, aunque conveniente para el planteamiento teórico del problema.
El error que podemos cometer, al tomar como valor del parámetro  el proporcionado por el
estimador T = ( X 1 , X 2 ,..., X n ) , es la diferencia (T −  ) o para eliminar el signo de las diferencias
(T −  ) 2 . Mas aún, si pudiéramos obtener todas las muestras posibles de una población y para cada una
calcular la correspondiente estimación, una medida global de los errores sería su “esperanza matemática”,
es decir E (T −  )2 . Esta esperanza recibe el nombre de error cuadrático medio. Un valor pequeño del
error cuadrático medio indicará que, en media, el estimador no se encuentra lejos del parámetro.

2.2.2.-DEFINICIÓN DE ERROR CUADRÁTICO MEDIO


Sea T un estimador de  (ó de una función del parámetro), se llama Error Cuadrático Medio (ECM) de T
con respecto a  a:

ECM (T ) = E (T −  )
2

Una propiedad interesante que en general resulta útil para calcular su valor es,

103
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

ECM (T ) = Var(T ) + ( − E(T ))


2
(1)

En efecto, es sencillo verificar:

ECM (T ) = E(T −  ) = E(T ) − 2 E(T ) +  2


2 2
(2)

Teniendo presente la expresión ( )


Var (T ) = E T 2 − E 2 (T ) y reemplazando la ( )
E T 2 en la expresión
(2) resulta:

 
ECM (T ) = Var(T ) + E 2 (T ) − 2 E (T ) +  2 = Var (T ) + (E (T ) − )
2

ECM (T ) = var(T ) + ( − E(T ))


2
Luego:

Se sigue con la idea planteada en la introducción respecto de esta nueva “medida”, en el sentido de que un
valor pequeño del error cuadrático medio indicará que, en media, el estimador no se encuentra lejos del
parámetro.
Hemos visto que cuando se realizan estimaciones se pretende que el resultado se halle lo más cerca
posible del valor del parámetro desconocido  , y una medida de esta pretensión es la minimización del
error cometido, expresado en términos del error cuadrático medio. Para que el error cuadrático medio sea
mínimo es necesario que los dos sumandos, que figuran en la expresión (1), sean mínimos. Dado que la
suma de dos números no negativos será mínima cuando lo sean los dos sumandos, es decir la var(T )

sea mínima y ( − E (T ) )2 también.


Sobre estos ejes se construyen tres de las propiedades que debe cumplir un estimador para poder
considerarlo como “bueno”.

1. Que la varianza de T sea mínima tiene que ver con un estimador : Eficiente. Esta condición se logra
para un tamaño de muestra fijo, eligiendo entre los posibles estimadores el de menor varianza.
2. Que ( − E (T ) )2 sea mínimo tiene que ver con que ( − E(T )) = 0 o lo que es lo mismo
E (T ) =  , estimador insesgado.
3. Para que las inferencias muestrales resulten correctas, el procedimiento de elección de muestra nos
debe conducir a su máxima representatividad y esto se podría alcanzar también aumentando el tamaño
muestral hasta conseguir que sea “infinito”, n→ , situación en la que la muestra es la misma población
y, por consiguiente, el error cuadrático medio será nulo, por no existir error. De aquí se deduce la
propiedad de Consistencia, que establece el comportamiento probabilístico de los estimadores cuando el
tamaño de la muestra es infinito, en el límite, y que puede contemplarse como la conveniencia de que la
estimación esté próxima al valor desconocido de  con una probabilidad alta.

2.2.3.- OSERVACIONES
1. El tomar el ECM como una medida de la “bondad” del estimador surge del hecho que, así como la
Var ( X ) = E ( X − E ( X ) ) es una medida de la dispersión de los valores de X respecto de la media
2


E ( X ) , el ECM (T ) = E (T −  )
2
 es una medida de la dispersión de los valores del estimador T
respecto de  . En consecuencia si T1 y T2 son los estimadores de  , T1 es mejor que T2 sí y sólo sí
ECM (T1 )  ECM (T2 ) .

104
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

2. El error cuadrático medio de un estimador depende de los valores del parámetro  . En consecuencia,
si T1 =  1 ( X 1 , X 2 ,..., X n ) y T2 =  2 ( X 1 , X 2 ,..., X n ) son dos estimadores del parámetro  , puede

ocurrir que, para algunos valores de  , T1 tendrá menor error cuadrático medio que T2 y para otros
valores de  , T2 tendrá menor error cuadrático medio que T1 .
ECM (T2 )  ECM (T1 )   1
ECM (T1 )  ECM (T2 )    2

Ya que es prácticamente imposible (y muchas veces indeseable) encontrar un estimador que tenga el
menor error cuadrático medio de entre todos los estimadores del parámetro, deberíamos restringir la clase
de estimadores exigiendo alguna otra característica deseable y buscar, luego, en esta clase reducida, el de
menor error cuadrático medio. Esta propiedad deseable puede ser la de insesgamiento.

2.2.4.- ESTIMADOR INSESGADO


T es un estimador insesgado de  sí y sólo sí E (T ) =  para todo    . Luego si T es un estimador
insesgado de  entonces,
ECM (T ) = Var (T )   

Hacer esta restricción a la clase de estimadores insesgados y buscar el que tiene menor ECM resulta
equivalente a buscar el que tiene menor varianza.

OBSERVACIONES
1. Encontrados los estimadores T1 y T2 de una misma función de parámetros, no siempre uno de ellos es
más concentrado o más cercano que el otro, para todo    . Lo que sucede en general es que uno de
ellos es más concentrado que el otro para ciertos valores de  y menos concentrado para otros valores de
 y como el verdadero valor de  es desconocido, es difícil seleccionar.
2. Otro detalle a tener en cuenta es considerar el tamaño de muestra. Para nosotros hasta ahora ha sido
fijo. Sin embargo, podríamos pensar en términos de muestras variables, ya que intuitivamente parecería
que los estimadores pueden mejorar si “n” es grande.

105
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

Ejemplo 2
Sea la muestra aleatoria X 1 , X 2 ,..., X n  Bernoulli( ) . Como E ( X ) =  es natural proponer como
estimador del parámetro a X veamos si es insesgado .
( )
Hemos visto que en general la E X = E (X ) =  y en este caso la media de la población es “  ”

por lo que E (X ) =  , por lo tanto X resulta un estimador insesgado para el parámetro.

Ejemplo 3
Sea la muestra aleatoria X 1 , X 2 ,..., X n ~ N (, 2 ) con ambos parámetros desconocidos.

( )
2
1 n
S =
2
 Xi − X
n − 1 i =1
es un estimador insesgado de 2

( )
2
1 n
y T =  Xi − X
n i =1
no es un estimador insesgado de  2.

El alumno puede comprobar fácilmente esta afirmación a partir de los resultados analizados en la unidad 5…

2.2.5.- ESTIMADOR CONSISTENTE


Antes de dar la definición, daremos una idea intuitiva sobre este concepto. Vimos en el ejemplo (2) que
1 n
T = Xn es un estimador insesgado del parámetro  siendo Xn =  Xi
n i =1
.

Si varía “n” tenemos X 1 , X 2 ,..., X n esto quiere decir,

X 1 la media muestral obtenida a partir de muestras de tamaño 1,


X 2 la media muestral obtenida a partir de muestras de tamaño 2,
…………………………………………………………………………………
X n la media muestral obtenida a partir de muestras de tamaño n ,

Es decir tenemos una “sucesión de estimadores” X n   que además considerando sus respectivos valores
observados x1 , x2 ,..., xn , es deseable que estos valores se aproximen a “  ” a medida que “n” aumenta.
La ventaja de que el tamaño muestral aumente radica en que la información proporcionada sobre la
población es cada vez mayor, llegando, si es infinito, a coincidir la muestra con la población y la
estimación puntual con el parámetro. Resulta evidente estudiar la conveniencia de analizar el
comportamiento de los estimadores en función del tamaño muestral.
Esta nueva propiedad establece que al variar el tamaño muestral obtendremos una “sucesión de
estimadores”, y es deseable que a medida que “n” aumenta, los valores de las estimaciones se aproximan
al valor real del parámetro. En particular si el tamaño de muestra “tiende a infinito”, en el límite, el
ECM(T) tenderá a cero.

106
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

2.2.5.1.- ESTIMADOR CONSISTENTE EN ERROR CUADRÁTICO MEDIO


Una sucesión de estimadores Tn  es consistente en error cuadrático medio si se cumple que:

límn→ ECM (T ) = 0   

T = X n . Por ser este un estimador insesgado de la media  resulta,


Para el ejemplo 2,
 (1 −  )
ECM (T ) = Var (T ) = Var ( X ) = .
n
Luego, tomando límite para n tendiendo a infinito, obtenemos,
 (1 −  )
límn→ ECM (T ) = límn→ =0.
n
Por lo tanto concluimos que la sucesión de estimadores X  es consistente en error cuadrático medio.
n

Si representamos gráficamente ECM (T ) =


 (1 −  ) en función de  para distintos tamaños
n
muestrales, podemos visualizar esta propiedad.

Es decir, a medida que la muestra crece, la proporción muestral se aproxima más a la proporción
poblacional.

3.- ESTIMACIÓN POR INTERVALOS

A pesar de la indiscutible importancia de encontrar un estimador puntual para un parámetro se plantea allí
un problema: encontrado un estimador T = ( X 1 , X 2 ,..., X n ) para un parámetro  , el valor estimado
de parámetro es t = ( x1 , x2 ,..., xn ) = ˆ , donde x1 , x2 ,..., xn es un valor observado de la muestra
aleatoria X 1 , X 2 ,..., X n . Pero no podemos saber qué tan alejado del verdadero valor de  está ˆ . Por
ejemplo si T es una variable aleatoria continua, la probabilidad de que T tome el valor  es cero, esto es
P(T =  ) = 0 o bien P(( X 1 , X 2 ,..., X n ) =  ) = 0 .

107
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

Por otro lado, hemos visto que la media de la muestra , X , resultó ser un buen estimador puntual de la
media de la población,  , por las propiedades que verifica este estimador. Aunque en la práctica
usualmente se seleccione una muestra, sabemos que el valor promedio de todas las medias muestrales
posibles es  , el parámetro verdadero de la población. Ya que el estadístico X varía de una muestra a
otra, es decir depende de los elementos seleccionados en la muestra, necesitamos considerar este hecho
con el fin de obtener una estimación más significativa y característica de la población.
Para lograr lo anterior debemos encontrar una estimación por intervalo del parámetro en cuestión,
tomando en consideración la distribución de muestreo del estimador. El intervalo obtenido tendrá una
“confianza” especificada de estimar correctamente el verdadero parámetro de la población.
Para precisar estas ideas definiremos formalmente este concepto

3.1.- DEFINICIÓN DE INTERVALO DE CONFIANZA


Sea X 1 , X 2 ,..., X n una muestra aleatoria de densidad f (., ) . Sean T1 =  1 ( X 1 , X 2 ,..., X n ) y
T2 =  2 ( X 1 , X 2 ,..., X n ) dos estadísticos tales que T1  T2 para los cuales P (T1    T2 ) =  ,
donde  no depende de  y también puede escribirse como  = 1−

Entonces:
1. (T1 ,T2 ) es un “Intervalo de Confianza Aleatorio” de 100 % para  .
2.  es el coeficiente de confianza o nivel de confianza.

3. T1 es el extremo inferior del intervalo de confianza y T2 el extremo superior.

4. El valor observado (t1 ,t2 ) del intervalo aleatorio (T1 ,T2 ) es una estimación por intervalo del
parámetro.

En esta definición nos referimos a intervalos de confianza bilaterales (con dos extremos aleatorios).
También es posible definir intervalos de confianza unilaterales para un parámetro, es decir con un
extremo no aleatorio, los que veremos en la práctica. Así también, en algunos problemas, puede desearse
encontrar intervalos de confianza simultáneos para dos o más parámetros generando de este modo
regiones de confianza.

En este curso trabajaremos sólo con intervalos de confianza.

3.1.1.- ALGUNAS OBSERVACIONES


1. (T1 ,T2 ) , antes de particularizar su valor para una muestra concreta, es un intervalo
El intervalo
aleatorio, dependiente del vector muestral X 1 , X 2 ,..., X n , fijado el nivel de confianza  , por lo tanto

la expresión P (T1    T2 ) =  no debe interpretarse como “la probabilidad de que el parámetro

 tome algún valor entre T1 y T2 es  ” por las siguientes razones:


• El parámetro  siempre será desconocido, lo que impide verificar la afirmación
anterior.

108
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

• En la expresión P (T1    T2 ) =  las variables aleatorias son T1 y T2 y no el


parámetro, el cual es una valor desconocido pero fijo.

2. La interpretación correcta de la expresión (1) es que  es la probabilidad de que el intervalo

aleatorio (T1 ,T2 ) incluya el verdadero valor del parámetro  antes de extraer la muestra, es decir,
P  (T1 ,T2 ) =  .
Una vez seleccionada la muestra X 1 , X 2 ,..., X n , la probabilidad de que el parámetro  esté incluido
en el intervalo (T1 ,T2 ) es 1 ó 0, dependiendo de que el parámetro esté o no esté entre los dos números
t1 y t2 en que se convierten los extremos del intervalo al ser calculados para un valor observado de la
muestra. Es por eso que hablamos de un Nivel de Confianza .

Habiendo precisado la definición de intervalo de confianza, se plantea ahora una doble cuestión.
1. Desarrollar métodos generales que permitan construir intervalos de confianza.
2. Establecer criterios que permitan comparar dos diferentes intervalos de confianza construidos
para el mismo problema y así poder decidir cuál de los dos es mejor. Estos criterios estarán vinculados
con propiedades deseables que puede tener un intervalo y que son cuantificables, por lo que sirven para
comparar intervalos entre si.

3.2.- LONGITUD DE UN INTERVALO DE CONFIANZA


La longitud de un intervalo de confianza (T1 ,T2 ) es L = T2 − T1 .
▪ La longitud L = T2 − T1 es una variable aleatoria por lo que tiene sentido preguntarse por el
valor esperado (si existe) de la longitud del intervalo de confianza. De todos modos, en este curso sólo se
trabajará con la longitud L .
▪ Un criterio para elegir entre intervalos de  con la misma confianza es comparando entre si sus
longitudes.

Describiremos, a continuación, uno de los métodos que nos permiten generar intervalos de confianza,
pero para formalizarlo, se requiere conocer previamente el concepto de Cantidad Pivotal.

3.3.- CANTIDAD PIVOTAL


Sea X 1 , X 2 ,..., X n una muestra aleatoria de densidad f (., ) con     y sea “Q” una función

de las variables aleatorias de la muestra y del parámetro , que toma valores reales, es decir
q :    →  tal que, Q = q( X 1 , X 2 ,..., X n , ) , decimos que “Q” es cantidad pivotal sí y sólo
n

sí la distribución de Q no depende de  .
Las dos propiedades de una cantidad pivotal son necesarias para que, a partir de ellas, sea posible
construir intervalos de confianza para  . O sea es necesario que:
▪  ni de ningún otro parámetro desconocido, para poder
La distribución de “Q” no dependa de
realizar un enunciado probabilístico sobre “Q” del estilo P(q1  Q  q2 ) =  donde q1 y q2 son

constantes que dependen de  pero que no dependen de  .

▪ La expresión funcional de “Q” sólo dependa de la muestra X 1 , X 2 ,..., X n y de  , para


luego intentar reescribir esta expresión despejando  dentro del enunciado probabilística.

109
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

Ejemplo 4
Si X 1 , X 2 ,..., X n  N (  ,  = 9) con media desconocida y varianza igual a nueve.
2

Analice el alumno si cada una de las siguientes expresiones pueden o no pueden considerarse una
cantidad pivotal, fundamente su respuesta

1) Q1 = q1 ( X 1 , X 2 ,..... X n ,  ) = X −  …………..……………………………..

X −
2) Q2 = q 2 ( X 1 , X 2 ,..... X n ,  ) = 3
……………………………………………..
n

X
3) Q3 = q3 ( X 1 , X 2 ,..... X n ,  ) = ……………………………………………………..

3.3.1.- DESCRIPCIÓN DEL MÉTODO DE LA CANTIDAD PIVOTAL


Si Q = q( X 1 , X 2 ,..., X n , ) es una cantidad pivotal para  , entonces para cualquier  fijo, con
0    1 , existen q1 , q2 que dependen de  tales que P(q1  Q q2 ) =  .

Si para cada valor x1 , x2 ,..., xn de X 1 , X 2 ,..., X n se cumple que:

q1  q(x1 , x2 ,..., xn , )  q2   (x , x ,..., x )    (x , x ,..., x )


1 1 2 n 2 1 2 n

Donde las funciones  1 y  2 no dependen de  , entonces llamando T1 =  1 ( X 1 , X 2 ,....., X n ) y


T2 =  2 ( X 1 , X 2 ,....., X n ) es (T1 ,T2 ) un intervalo de confianza 100% para  .

Se ejemplificará el método con el ejemplo anterior, X 1 , X 2 ,..., X n  N (  ,  2 = 9) con media


desconocida y varianza igual a nueve. Se desea construir un intervalo del 95% confianza para la media.
Se siguen los siguientes pasos de acuerdo al “Método de la Cantidad Pivotal”.
X −
1. Se selecciona una Cantidad Pivotal adecuada, por ejemplo Q = 3 , justifique por qué es una
n
cantidad pivotal.
2. Se plantea la desigualdad P(q1  Q q2 ) =  = 0.95 , es decir en función de la cantidad pivotal
seleccionada, resulta
 
 X − 
P q1   q 2  = 0.95
 3 
 n 

3. Se transforma la desigualdad anterior en


P(T1 ( X 1 , X 2 ,..., X n )    T2 ( X 1 , X 2 ,..., X n )) = 0.95

110
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

 
 X −   3 3 
P  q1   q 2  = 0.95  P q1  X −   q2  = 0.95
 3   n n
 n 
 3 3 
 P − X + q1  −   − X + q2  = 0.95
 n n
 3 3 
 P X − q1    X − q2  = 0.95
 n n
 3 3 
Es decir, se ha obtenido la expresión P X − q 2
    X − q1  = 0.95 , donde los valores q1 y q2
 n n
son cuantiles de la distribución Normal Estándar y el orden de cada uno es
q1 = z 0.025 y q 2 = z 0.975 respectivamente.

De forma que el intervalo de confianza aleatorio para  es:

(T1 , T2 ) =  X − z 0.975 3


; X − z 0.025
3 

 n n
O también:

(T1 , T2 ) =  X − z 0.975 3
; X + z 0.975
3 
.
 n n
4. Se calcula el valor observado del mismo en la muestra. De modo que resulta

(t1 , t 2 ) =  x − 1.96 3


; x + 1.96
3 

 n n
▪ Notar que al usar el método de la cantidad pivotal se requiere hacer el enunciado probabilístico
P(q1  Q  q2 ) =  . En general, existirán distintos pares de constantes q1 y q2 para los cuales es válido
ese enunciado probabilístico.
▪ Surge la cuestión de cómo elegir las constantes q1 y q2. Las constantes debieran elegirse de forma
tal de que el intervalo de confianza resultante (T1 ,T2 ) sea el mejor según algún criterio preestablecido.
▪ Es claro que el intervalo resultante será mejor cuanto más preciso sea, o sea, cuanto menor sea su
longitud L = T2 − T1 .

3.4.- INTERVALOS DE CONFIANZA DE LONGITUD MÍNIMA


Tal como se ha planteado la construcción de intervalos de confianza para un parámetro  se pueden
obtener, para cada muestra X 1 , X 2 ,..., X n , un número infinito de intervalos pues los valores 1 y 2,
observando el gráfico, que cumplen la condición 1 +  2 =  son infinitos. La confianza del intervalo
es  = 1−

111
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

Esta situación conduce a que con los mismos valores muestrales se obtengan diferentes intervalos
(extremos distintos), aunque todos ellos tengan el mismo nivel de confianza  = 1− .
De entre todos los intervalos es deseable elegir uno sólo: el que presente menor longitud, es decir, el
intervalo cuya longitud L = T2 − T1 sea la menor posible, siempre que cumpla la condición
P (T1    T2 ) =  .
Para determinar dicho intervalo se utilizan metodologías propias del cálculo. Es preciso poner de
manifiesto que no siempre es factible determinar un intervalo de confianza  = 1 −  de longitud mínima.
Se puede probar que cuando la distribución de “Q” es simétrica, el intervalo de confianza de longitud
mínima se obtiene para q1 = −q2 . En cambio si la distribución de “Q” no es simétrica se recurre al
 1− 
convenio de hacer 1 =  2 = o también 1 =  2 = con lo que el intervalo de confianza
2 2
es único aunque no sea de longitud mínima.

3.5.- OBSERVACIONES GENERALES


1. q1 y q2 son independientes de  por ser la distribución de Q, fQ, independiente de  .

2. Dado un  tal que 0   1 existen infinitos pares (q1,q2) que cumplen

dq =  = P(q1  Q  q2 ) .
q2
q f
1
Q

3. De los infinitos pares, la idea es seleccionar aquellos que hacen mínima la longitud del intervalo de
confianza.

4. La idea principal del método consiste en escribir la desigualdad

5. q1  q(x1 , x2 ,..., xn , )  q2   1 (x1 , x2 ,..., xn )     2 (x1 , x2 ,..., xn )

112
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

3.6.- INTERVALOS DE CONFIANZA PARA POBLACIONES NORMALES


En este caso la información muestral siempre procederá de poblaciones con distribución Normal, donde
es relativamente sencillo encontrar cantidades pivotales que faciliten la determinación de cada uno de los
intervalos de confianza. Entonces suponemos que contamos con una muestra de una población, es decir
X 1 , X 2 ,....., X n ~ N (  , 2 )

3.6.1.-INTERVALO DE CONFIANZA PARA LA MEDIA CON VARIANZA (  ) CONOCIDA:


2

X −
La cantidad pivotal a considerar es Q= ~ N (0,1) (juzgue el alumno si está bien esta

n
afirmación)
 
 X − 
El método consiste en plantear P(q1  Q  q2 ) =  , es decir P q1   q 2  =  debemos
  
 n 
trabajar con esta desigualdad de modo que nos quede el parámetro entre valores que dependan del
estadístico obtenido a partir de la muestra.
 
 X −     
P q1   q2  =   P q1  X −   q2 =
    n n
 n 
   
 P − X + q1  −   − X + q2 =
 n n
   
 P X − q1    X − q2  = 
 n n

   
Es decir, hemos obtenido la expresión P X − q 2    X − q1  =  , donde los valores q1 y
 n n
q2 son cuantiles de la distribución Normal Estándar y el orden de cada uno es
q1 = z 1− y q 2 = z 1+ respectivamente, como se puede ver en el gráfico 3. Se puede probar que
2 2

para la distribución Normal Estándar el intervalo que tiene longitud mínima es aquel en el cual
q1 = −q2 .

113
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

   
El intervalo de confianza aleatorio que hemos obtenido para  es  X − q ; X +q  con un
 n n
nivel de confianza 100. % y donde q = q 2 = z 1+ . Lo que significa que para todas las muestras de
2

tamaño “n” fijo, el 100. % de los intervalos obtenidos a partir de ellas, contiene el valor real del
parámetro y el 100.(1-)% restante, no lo contiene.

3.6.1.1- LONGITUD DEL INTERVALO


   
Para el intervalo obtenido anteriormente resulta: L = X − q1 −  X − q 2 
n  n
 
L = X − q1 − X + q2
n n
 
Luego podemos ver que obtenemos L= (q 2 − q1 ) = 2.q .
n n
A partir de esta expresión es posible analizar cómo varía la longitud del intervalo si variamos el tamaño
de la muestra y dejamos la confianza o al revés.

3.6.2.- INTERVALO DE CONFIANZA PARA LA MEDIA CON VARIANZA (  )


2

DESCONOCIDA:

La cantidad pivotal a considerar es Q = X −  ~ t (juzgue el alumno si está bien esta afirmación).


( n −1)
S
n
 
 X − 
El método consiste en plantear P(q1  Q  q2 ) =  , es decir P q1   q2  =  debemos
 S 
 n 
trabajar con esta igualdad de modo que nos quede el parámetro entre valores que dependan del estadístico
obtenido a partir de la muestra.

114
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

 
 X −   S S   S S 
P q1   q2  =   P q1  X −   q2 =  P − X + q1  −   − X + q2 =
 S   n n  n n
 n 
 S S 
 P X − q1    X − q2 =
 n n

 S S 
Es decir, hemos obtenido la expresión P X − q 2    X − q1  =  , donde los valores q1 y q2
 n n
son cuantiles de la distribución t-Student con n-1 grados de libertad, y el orden de cada uno es
q1 = t 1− y q2 = t 1+ respectivamente. Se puede probar que para la distribución t- Student
n −1, n −1,
2 2

con n-1 grados de libertad, el intervalo que tiene longitud mínima es aquel en el cual q1 = − q 2 .

El intervalo de confianza aleatorio que hemos obtenido para  es


 S S 
 X − q 2 ; X − q1 
 n n
Con un nivel de confianza 100. %.
Lo que significa que para todas las muestras de tamaño “n” fijo, el 100. % de los intervalos obtenidos a
partir de ellas, contiene el valor real del parámetro y el 100.(1-)% restante, no lo contiene.
 S S 
También podemos expresarlo como  X − q ; X +q  donde q = q 2 = t 1+
 n n n −1,
2

3.6.2.1.-LONGITUD DEL INTERVALO


Del mismo modo que para varianza conocida, la longitud del intervalo obtenido anteriormente resulta:
 S S
−  X − q 2
L = X − q1 
n  n
S S
L = X − q1 − X + q2
n n

Luego podemos ver que obtenemos

L=
S
(q 2 − q1 ) = S 2.q
n n
1+ 
Donde q es el cuantil de orden 2
de la distribución t de Student con n-1 grados de libertad, es decir

q=t 1+ .
n −1,
2

A partir de esta expresión es posible analizar cómo varía la longitud del intervalo si variamos el tamaño
de la muestra y dejamos la confianza o al revés.

115
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

3.6.3.- INTERVALO DE CONFIANZA PARA LA VARIANZA:


S 2 (n − 1)
La cantidad pivotal a considerar es Q = ~  n2−1 (juzgue el alumno si está bien esta afirmación).
 2

De acuerdo al método se plantea P(q1  Q  q2 ) =  , con la cantidad pivotal considerada,

 S 2 (n − 1) 
P q1   q2  =  debemos trabajar con esta igualdad de modo que nos quede el parámetro
  2

entre expresiones que dependan del estadístico obtenido a partir de la muestra.

 S 2 (n − 1)  1 2 1 
P q1   q 2  =   P  2   = 
  q1 S (n − 1) q 2 
2
 
 S 2 (n − 1) S 2 (n − 1) 
 P  2   = 
 q 2 q1 

 S 2 (n − 1) 2 S 2 (n − 1) 
Es decir, hemos obtenido la expresión P    =  , donde los valores q1 y q2
 q2 q1 
son cuantiles de la distribución Chi-cuadrada con (n-1) grados de libertad, y el orden de cada uno es
q1 =  2 1− y q2 =  2 1+ respectivamente, como se puede ver en el gráfico 4.
n −1, n −1,
2 2

En este caso se opta por considerar a  como el área central quedando de este modo el área de las colas iguales.

El intervalo de confianza aleatorio que hemos obtenido para 2 es


 S 2 (n − 1) S 2 (n − 1) 
 ; 
 q2 q1 
Con un nivel de confianza 100. %.

116
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

3.6.3.1.- LONGITUD DEL INTERVALO


Para el intervalo obtenido anteriormente resulta:

S 2 (n − 1) S 2 (n − 1)
L= −
q1 q2
Luego podemos ver que obtenemos
1 1 
L = S 2 (n − 1)  −  .
 q1 q 2 
A partir de esta expresión es posible analizar cómo varía la longitud del intervalo si variamos el tamaño
de la muestra y dejamos la confianza o al revés.

3.7.- INTERVALO DE CONFIANZA PARA DOS POBLACIONES NORMALES


INDEPENDIENTES
Consideremos dos poblaciones Normales e independientes N ( X ) ( )
, X2 y N  Y ,  Y2 . De cada una
de esas poblaciones se extraen muestras aleatorias X 1 , X 2 ,..., X nx y Y1 , Y2 ,..., Yn y de tamaños

n X y n y respectivamente e independientes entre si.


Se construyen Intervalos de Confianza para comparar las medias de ambas poblaciones X y Y y

también para analizar la variabilidad de ambas poblaciones es decir  X2 y  Y2 ya que en general los
parámetros son desconocidos.
Es interesante, por ejemplo, estimar la diferencia de medias poblacionales,  X − Y , para ver si son
iguales, lo que implica que la diferencia es nula. O bien una mayor que la otra, lo que implica que la
diferencia es positiva o negativa.
Un estimador puntual es X − Y . Se puede afirmar que la distribución es este estimador, si las
muestras han sido extraídas de poblaciones Normales independientes entre sí, es

X −Y ~ (
N  X − Y , nXx + nYY
2 2
)
Es necesario saber en primer lugar si las varianzas poblacionales son conocidas o no lo son.

3.7.1.- INTERVALO DE CONFIANZA PARA DIFERENCIA DE MEDIAS DE DOS


POBLACIONES NORMALES INDEPENDIENTES CON VARIANZAS CONOCIDAS
Si las varianzas poblacionales son conocidas (caso muy poco frecuente en situaciones prácticas), se puede
considerar como cantidad pivotal (juzgue el alumno esta afirmación) para estimar  X − Y a la expresión

Q=
(X − Y ) − ( X − Y ) ~ N (0,1)
 2
 2
X
+ Y
nX nY
El Intervalo de Confianza para  X − Y con un nivel de confianza , resulta

117
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

   X2  Y2  

(
 X −Y − z )
1+
  X2  Y2 
 + (
 ; X − Y − z 1−)  + 
 2  n X nY  2  n X nY  

3.7.2.- INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS DIFERENCIA


DE MEDIAS DE DOS POBLACIONES NORMALES INDEPENDIENTES
Si las varianzas poblacionales no son conocidas, que es lo que sucede habitualmente, hay que determinar

si es que son iguales, es decir  X2 =  Y2 =  2 o bien son distintas  X2   Y2 . Para lograr este
 X2
propósito se construye un Intervalo de Confianza para el cociente de varianzas, es decir para .
 Y2
Si la varianzas poblacionales fueran iguales, ese cociente es igual a uno, en cambio si son distintas el
cociente es un número mayor que uno o bien menor que uno. El criterio para decidir en base al intervalo
construido es ver si el valor observado del intervalo en la muestra contiene al “1” o no lo contiene para
concluir si las varianzas son iguales o no lo son.
La cantidad pivotal (juzgue el alumno esta afirmación) es:
SY2  Y2
Q= 2 2 ~ F(nY −1,n X −1)
SX  X
Se repasará en este caso particular la metodología para la construcción de un Intervalo de Confianza.
Una vez seleccionada la cantidad pivotal adecuada, se plantea la desigualdad
P(q1  Q  q2 ) = 
Siendo los cuantiles q1 y q2 cuantiles de la distribución F(nY −1, n X −1)
Luego se escribe la desigualdad de la forma:

 S2  2   S2  2   S2  2 S2 
P q1  2Y Y2  q 2  = P q1  Y2 X2  q 2  = P q1 X2  X2  X2 q 2  = 
 SX  X   SX Y   SY  Y SY 
 X2
El Intervalo de Confianza para resulta
 Y2
 S X2 S2
 q1 2 ; q 2 X2 
 SY SY 

Donde los cuantiles son q1 = f 1− y q2 = f 1+


(nY −1,n X −1) , ( nY −1,n X −1) ,
2 2

118
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

3.7.3.- INTERVALO DE CONFIANZA PARA DIFERENCIA DE MEDIAS DE DOS


POBLACIONES NORMALES INDEPENDIENTES CON VARIANZAS DESCONOCIDAS
Una vez que se ha determinado cómo son las varianzas poblacionales, las opciones son:

a) Si se determina con el Intervalo de Confianza obtenido en la sección 3.7.2. que  X2 =  Y2 =  2


(siempre desconocida), la cantidad pivotal para construir un Intervalo de Confianza para  X − Y es

Q=
(X − Y ) − ( X − Y ) ~ t (nX +nY −2 )
S P2 S P2
+
n X nY

S P2 =
(n x − 1) S X2 + (nY − 1) SY2
En esa expresión
n X + nY − 2
Entonces un Intervalo de Confianza de 100. % para la diferencia de medias está dado por la expresión

 S P2 S P2 S P2 S P2 
 ( X − Y ) − q2 + ; ( X − Y ) − q1 + 
 nX nY n X nY 
 
Donde los valores q1 y q2 son cuantiles de la distribución t de Student con n X + nY − 2 grados de libertad y

el orden de cada uno es q1 = t 1− y q2 = t 1+ respectivamente.


2 2

b) En cambio, si se determina con el Intervalo de Confianza obtenido en la sección 3.7.2. que


 X2   Y2 (siempre desconocidas), la cantidad pivotal para construir un IC para  X − Y es

Q=
(X − Y ) − ( X − Y ) ~ t
S X2 SY2
+
n X nY

En este caso la expresión de los grados de libertad están dados por la expresión,
2
 S X2 SY2 
 + 
=  X
n nY 

( ) ( )
2 2
.
2
S X nX SY2 nY
+
nX −1 nY − 1

Entonces un Intervalo de Confianza del 100. % para la diferencia de medias está dado por la expresión

119
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

  S X2 SY2  

(
 X −Y − q )
2
 S X2 SY2 
 + ( )
 ; X − Y − q1  + 

  X
n nY   X
n nY 

Donde los valores q1 y q2 son los cuantiles correspondientes de la distribución t con  grados de libertad.

3.8.- ESTIMACIÓN DEL TAMAÑO DE LA MUESTRA


En este punto consideraremos cómo se puede fijar el tamaño de la muestra en los casos de estimación de
una media poblacional “” o de una proporción “”, parámetros más frecuentemente utilizados en
investigación.

3.8.1.-TAMAÑO MUESTRAL PARA ESTIMAR LA MEDIA  DE UNA POBLACIÓN


Para una población normal N (  ,  ) se ha visto que el intervalo de confianza del parámetro  a un
2

nivel  y con 2 es conocida,


   
P X − z X +z  = 
 n n
  
También puede plantearse en forma equivalente por P X −   z  =  , donde al ser X el
 n
estimador puntual de  , la expresión X −  representa el “error” que se comete en el proceso de

estimación.
Si situamos dicho error “” en el límite aceptado, es decir, si hacemos

=z
n
Es posible determinar el tamaño de la muestra “n” a través de la igualdad

z2  2
n=
2
Esta expresión permite calcular, fijado un nivel de confianza  del que depende el valor del cuantil “z” y
el error máximo “” que se está dispuesto a aceptar, el tamaño de la muestra “n” que habría que tomar,
bajo el supuesto de que 2 es conocida.

Observación
En el caso de que la varianza poblacional fuese desconocida, es decir 2 es desconocida, se calcula un
tamaño de muestra “aproximado” a partir del estimador puntual de 2 que hemos utilizado habitualmente,
la expresión resultará como:

z2 S 2
n=
2

120
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

3.8.2.- TAMAÑO MUESTRAL PARA ESTIMAR LA PROPORCIÓN “  ” DE UNA POBLACIÓN

En forma análoga el intervalo de confianza para el parámetro “  ” con un nivel  viene dado por la
expresión

(
P X − z var ( X )    X + z var ( X ) =  ) .

  (1 −  ) 
Puede definirse en forma equivalente por P X −   z  =  , donde al ser X el estimador

 n 
puntual de  , la expresión X −  representa el “error” que se comete en el proceso de estimación.

Si situamos dicho error “” en el límite aceptado, es decir, si hacemos


 (1 −  )
=z
n

Es posible determinar el tamaño de la muestra “n” a través de la igualdad,

z 2  (1 −  )
n=
2

Esta expresión permite calcular, fijado un nivel de confianza  (del que depende el valor del cuantil “z”) y
el error máximo “” que se está dispuesto a aceptar, el tamaño de la muestra “n” que habría que tomar,

bajo el supuesto de que varianza poblacional es  2 =  (1 −  ) es conocida, lo que quiere decir que
se tiene alguna referencia del parámetro “  ”. Si no se dispone de esta información se puede utilizar la
cota superior

z2
n=
4 2
1
Ya que el valor máximo que puede tomar la varianza del modelo Bernoulli es , es decir
4

máx( (1 −  )) =
1
(ver ejercicio 13 del Trabajo Práctico 2).
4

Ejemplo 5
Una fábrica instala una línea automatizada de envasado de frutas. Sea  (desconocida) la proporción de
envases mal cerrados que produce esta línea. ¿Cuántos envases n de la producción diaria se deben
examinar con la finalidad de que la probabilidad sea al menos de 0.9 de que la proporción de muestreo
(X ) de envases defectuosos difiera de  en menos de 0.05?
Como desconocemos la varianza de esta población consideramos el caso en que ˆ X ) sea
var(
máxima, que es cuando  = 0.5

121
L.A. – C.P. ESTADÍSTICA 2023 FCE-UNCuyo

 
 
 (0.05) n X −  (0.05) n 
P(−0.05  X −   0.05) = P −    0.9
 0.5 0.5 0.5 
 
 n 

Luego P( X −   0.05)  0.9 .

De acuerdo a lo que planteamos antes


(0.05) n
= z 0.95 .
0 .5
z 02.95 0.5 2
A partir de este último resultado, es n= = 272.25 considerando z 0.95 = 1.65 .
(0.05)2
Es decir que si tomamos una muestra de por lo menos 273 envases se garantizan las condiciones
planteadas.

122

También podría gustarte