Está en la página 1de 33

CAPITULO II

ESTIMACIÓN DE PARÁMETROS

2.1 Introducción.- Uno de los temas centrales de la inferencia estadística es el estudio de


métodos estadísticos de estimación de parámetros; los cuales, son medidas desconocidas de
las variables de una población, que son las de tendencia central, de dispersión, las diversas
proporciones y los totales. Estas medidas desconocidas o parámetros se encuentran insertados
en las distribuciones de probabilidad de variables poblacionales, que son: la media (µ) insertada
en las distribuciones de la normal general, de la exponencial, de la uniforme, de la Poisson y en
el total poblacional, la proporción de éxitos de interés (P) insertada en las distribuciones
Bernoulli, binomial, geométrica, hipergeométrica y en el total poblacional.

La estimación estadística es el proceso mediante el cual se obtiene el valor aproximado del


valor del parámetro de la variable poblacional, a partir de la información contenida en la muestra
aleatoria y el método estadístico.

La estimación del valor de un parámetro se realiza a través de dos métodos que son: i)
Estimación Puntual, que significa obtener un único valor como estimación del valor del
parámetro. ii) Estimación por Intervalo, que involucra construir el intervalo [𝐿𝐼 - 𝐿𝑆 ] que
contenga al valor del paramento con una cierta seguridad o confianza de (1 − 𝛼)% y un cierto
margen de error o precisión de la estimación.

2.2 Estimación Puntual.-

Definición.- Sea 𝑋1 , 𝑋2 , 𝑋3 , … ,𝑋𝑛 una muestra aleatoria extraída de una población denotada
por X, con parámetro θ, y sean 𝑥1 , 𝑥2 , 𝑥3 , …, 𝑥𝑛 los valores observados de la muestra aleatoria
extraída, entonces 𝛳̂ = 𝛳̂(𝑋1 , 𝑋2 , 𝑋3 , … ,𝑋𝑛 ) es el estimador de ϴ, donde 𝛳̂ representa los
posibles valores del estimador, y ɵ̂ = ɵ̂(𝑥1 , 𝑥2 , 𝑥3 , …, 𝑥𝑛 ) es el valor particular de 𝛳̂ , que es el
estimador de θ.

2.3 Métodos para la obtención de estimadores puntuales

Existen diversos métodos para obtener estimadores puntuales, los métodos clásicos son: el
método de los Momentos, de Máxima Verosimilitud, el método de Bayes, y el método de
Mínimos Cuadrados, etc.

2.3.1 Método de los Momentos

Definición.- Sea X una variable poblacional de interés para el estudio con función de
probabilidad P(𝑋𝑖 ; θ) o f(𝑋𝑖 ; 𝜃), que contiene solo un parámetro θ. Sea 𝑋1 , 𝑋2 , 𝑋3 , …, 𝑋𝑛 una
muestra aleatoria extraída de X y sean 𝑥1 , 𝑥2 , 𝑥3 , …, 𝑥𝑛 los valores observados de la muestra
aleatoria elegida; luego, el método de los momentos consiste en igualar el primer momento
centrado respecto al origen de la población al primer momento centrado respecto al origen de la
muestra aleatoria elegida.

1
Sean 𝑀1 y 𝑚1 los primeros momentos centrados respecto al origen de la población y de la
muestra respectivamente, tomando en cuenta la base del método de los momentos se tiene la
siguiente igualdad: 𝑀1 = 𝑚1 ; la cual, se puede presentar también como sigue: E(X) = 𝑚1 . Se
resuelve la ecuación o se halla la solución para θ, que se simboliza con 𝜃̃ , el cual es el
estimador de θ obtenido por el método de los momentos.

Ejemplo 1.- Suponiendo que el número de clientes que llegan por hora a la caja cobradora de
un Micro Marquet, se aproxima a la Distribución de Poisson, con parámetro desconocido: E(X) =
µ, que representa el número medio de clientes por hora de la población de horas que trabaja el
Micro Marquet. Hallar el estimador de este parámetro por el método de los momentos.

Solución.-

Se conoce que la función de probabilidad, la media esperada y la varianza de la variable


е−µ (µ)𝑋
aleatoria poblacional distribuida según la Poisson son: P(X, µ) = para X = 0, 1, 2, 3, . . .;
𝑋!
E(X) = µ y V(X) = µ. Igualando el primer momento de la población al primer momento de la
muestra; es decir, E(X) = 𝑚1 ; cuya solución para µ, resulta ser: µ̃ = 𝑚1 = 𝑋̅; por lo que, 𝑋̅ es el
estimador de µ obtenido por el método de los momentos.

Suponiendo que el número de clientes que llegan a la caja del Micro Marquet en una muestra
de 36 horas seleccionadas al azar, son los siguientes: 45, 37, 35, 30, 37, 29, 31, 37, 43, 41, 39,
45, 42, 26, 29, 30, 35, 39, 38, 38, 37, 40, 42, 44, 38, 37, 26, 28, 29, 35, 39, 45, 43, 40, 39 y 44.
Hallar el número medio estimado de clientes por hora. El total requerido es: ∑36 1 𝑥𝑖 = 1.332. El
1.332
primer momento centrado respecto al origen de la muestra es: 𝑚1 = 𝑋̅ = = 37 clientes;
36
luego, el número medio de clientes estimado por hora es 37.

En el caso de que la distribución de la variable poblacional (X) contenga dos parámetros: 𝜃1 y


𝜃2 ; entonces, los dos estimadores se obtienen resolviendo uno de los dos siguientes sistemas
de ecuaciones simultaneas:

𝑀1 = 𝑚1 E(X) = 𝑚1
𝑀2 = 𝑚2 E(𝑋2 ) = 𝑚2

Ejemplo 2.- Suponiendo que la población de ventas mensual de una empresa comercial se
aproxima a la Distribución Uniforme con parámetros desconocidos: a = venta mensual mínima y
b = venta mensual máxima. Hallar los estimadores de esos parámetros (a y b) por el método de
los momentos; luego, hallar la venta media mensual estimada también por el método de los
momentos.

Solución.- Se conoce que la función de probabilidad de la variable aleatoria distribuida según la


1
Uniforme es: f(X, a, b) = para a ≤ X ≤ b y cero para los demás casos.
𝑏−𝑎
𝑏
𝑏 𝑋 𝑋2 𝑏2 − 𝑎2 (𝑏−𝑎)(𝑎+𝑏) 𝑎+𝑏
La media esperada: E(X) = ∫𝑎 𝑑𝑋 =[ ] =[ ] = =
𝑏−𝑎 2(𝑏−𝑎) 𝑎 2(𝑏−𝑎) 2(𝑏−𝑎) 2

2
(𝑏−𝑎)2
La varianza: V(X) = , de esta última ecuación se obtiene el segundo momento centrado
12

(𝑏−𝑎)2 𝑎+𝑏 2 𝑎2 +𝑎𝑏+𝑏2


respecto al origen como sigue: E(𝑋 2 ) - [𝐸(𝑋)]2 = V(X); E(𝑋2 ) = + ( ) = ;
12 2 3

Igualando los dos primeros momentos centrados respecto al origen de la población a los dos
primeros momentos de la muestra se tiene:
Sistema de dos ecuaciones: Soluciones para los parámetros a y b:
𝑎+𝑏
= 𝑚1 𝑎̃ = 𝑚1 - √3(𝑚2 − 𝑚12 )
2
𝑎2 +𝑎𝑏+𝑏2
= 𝑚2 𝑏̃ = 𝑚1 + √3(𝑚2 − 𝑚12 )
3

Las soluciones anteriores pueden obtenerse utilizando cualquier método de resolución de


sistemas de ecuaciones. Por ejemplo por sustitución, de la ecuación 1 se despeja: a = 2𝑚1 - b;
(2𝑚1 − b)2 +(2𝑚1 − b)𝑏+𝑏2
se sustituye en la ecuación 2: = 𝑚2 ; desarrollando el cuadrado del binomio
3

y realizando las operaciones que se observan se obtiene la siguiente ecuación de segundo


−𝐵 ± √𝐵2 −4𝐴𝐶
grado: 𝑏 2 - 2𝑚1 𝑏 + 4𝑚1 2 - 3𝑚2 = 0; la solución, es similar a: X = ; sustituyendo los
2𝐴

−(−2𝑚1 ) ± √4𝑚1 2 −4(4𝑚1 2 −3𝑚2 )


datos de nuestro caso, se tiene: 𝑏̃ = ; que puede presentarse como
2

2𝑚1 ±2√3(𝑚2 −𝑚1 2 )


sigue: 𝑏̃ = ; cuyos resultados son: 𝑎̃ = 𝑚1 - √3(𝑚2 − 𝑚12 ) y 𝑏̃ = 𝑚1 + √3(𝑚2 − 𝑚12 )
2

Ejemplo de aplicación: Suponiendo que los montos de venta mensual expresados en miles de
bolivianos (redondeados) de una muestra de 36 meses seleccionados al azar de la citada
empresa comercial, son los siguientes: 45, 37, 35, 30, 37, 29, 31, 37, 43, 41, 39, 45, 42, 26, 29,
30, 35, 39, 38, 38, 37, 40, 42, 44, 38, 37, 26, 28, 29, 35, 39, 45, 43, 40, 39 y 44. Hallar la venta
mensual mínima estimada, la venta mensual máxima estimada y la venta media mensual
estimada.
36 2
Las sumas son: ∑36
1 𝑥𝑖 = 1.332 y ∑1 𝑥𝑖 = 50.410. Los dos momentos centrados respecto al
1.332 50.410
origen de la muestra son: 𝑚1 = 𝑋̅ = = 37 y 𝑚2 = = 1.400,3.
36 36

Utilizando las dos ecuaciones de los estimadores de a y b, obtenidos anteriormente se tiene:


Venta mensual mínima estimada: 𝑎̃ = 37 - √3(1.400,3 − 372 ) = 27.30 miles de bolivianos.

Venta mensual máxima estimada: 𝑏̃ = 37 + √3(1.400,3 − 372 ) = 46,70 miles de bolivianos.


La venta mensual media estimada resulta: µ̃ = 37 miles de bolivianos; cuya ecuación se obtiene
𝑎+𝑏
como sigue: µ = ; sustituyendo los estimadores de a y b, se tiene:
2

𝑎̃+𝑏̃ 𝑚1 − √3(𝑚2 −𝑚12 ) + 𝑚1 + √3(𝑚2 −𝑚12 ) 2𝑚1


µ̃ = = = = 𝑚1 = 𝑋̅ = 37 miles de bolivianos.
2 2 2

3
3. Sea X una variable aleatoria distribuida según el modelo de probabilidad uniforme en el
intervalo [a y b] para a < b: i) Si X representa la demanda por día de un determinado producto
que oscila entre 20 y “b” unidades, determinar el estimador de “b” por el método de los
momentos, ii) Si X representa la demanda por día del indicado producto en el inciso anterior que
oscila entre “a” y 40 unidades, determinar el estimador de “a” por el método de los momentos.

Solución.-

i) Igualando el primer momento de la variable poblacional al primer momento de la muestra


20+𝑏
aleatoria, se tiene: = 𝑚1 ; de donde, se obtiene el estimador de b: 𝑏̃ = 2 𝑚1 - 20.
2

ii) Igualando también el primer momento de la variable poblacional al primer momento de la


𝑎+40
muestra aleatoria, se tiene: = 𝑚1 ; de donde, se obtiene el estimador de a: 𝑎̃ = 2 𝑚1 - 40.
2

2.3.2 Método de Máxima Verosimilitud


Las estimaciones obtenidas por este método tienen la máxima probabilidad de estar cerca del
valor del parámetro; razón por la que, se denomina también Método de Máxima Probabilidad.

Este método, se basa sobre una muestra aleatoria extraída de una variable poblacional y fue
introducida por primera vez por R. A. Fisher. Además, este método proporciona generalmente
buenos estimadores, razón por la cual es preferido al método de los momentos.

Definición.- Función de Verosimilitud.- i) Sea X una variable poblacional discreta con función
de probabilidad 𝑃𝑋 (x; θ) que depende de un parámetro desconocido θ. Sea X 1 , X 2 , ... , X n
una muestra aleatoria extraída de X y sean 𝑥1 , 𝑥2 , …𝑥𝑛 los valores muéstrales observados. La
“función de verosimilitud” para la muestra aleatoria está definida por:
L(θ) = P(𝑋1 ; 𝑋2 ; . . . ; 𝑋𝑛 ; θ) = P(x 1 ; θ) P(x 2 ; θ) ... P(x n ; θ) = ∏𝑛1 𝑃(𝑥𝑖 ; θ)

Definición.- Función de Verosimilitud.- ii) Sea X una variable poblacional continua con
función de probabilidad 𝑓𝑋 (x; θ) que depende del parámetro desconocido θ. La función de
verosimilitud de la muestra está definida por:
L(θ) = f(𝑋1 ; 𝑋2 ; . . . ; 𝑋𝑛 ; θ) = f(x 1 ; θ) f(x 2 ; θ) ... f(x n ; θ) = ∏𝑛1 𝑓(𝑥𝑖 ; θ)

Definición.- iii) Conocida la función de verosimilitud denotada por L(θ) de una muestra
aleatoria, y sea θ̂ = f(𝑥1 , 𝑥2 , ...,𝑥𝑛 ) el valor que hace máxima L(θ); es decir, L( θ̂) = máx L(θ);
luego, el estimador máximo verosímil de θ es entonces θ̂ = f(𝑥1 , 𝑥2 , ...,𝑥𝑛 ).

Generalmente, L(θ) es una función exponencial, por lo que será necesario expresar en su forma
lineal aplicando logaritmo, ya que es más fácil maximizar una función lineal que una
exponencial; en este sentido, para escoger el valor de θ que maximice L(θ), se aplican las
siguientes dos condiciones del cálculo infinitesimal:
𝑑𝑙𝑜𝑔 𝐿(θ) 𝑑 2 log 𝐿(θ)
i) Condición Suficiente: =0 ii) Condición Necesaria: <0
𝑑θ 𝑑 θ2

4
En el caso de que L(θ) contenga k parámetros desconocidos: θ1 , θ2 , …, θ𝑘 ; entonces los k
estimadores máximo verosímiles se obtienen resolviendo las k ecuaciones simultaneas de
verosimilitud:

𝜕 log 𝐿(θ) 𝜕 log 𝐿(θ) 𝜕 log 𝐿(θ) 𝜕 log 𝐿(θ)


= 0; = 0; = 0; . . .; =0
𝜕θ1 𝜕θ2 𝜕θ3 𝜕θ𝑘

y verificando la segunda condición del método de máxima verosimilitud que consiste en que la
segunda derivada sea menor que cero; o sea:

𝜕 2 log 𝐿(θ) 𝜕 2 log 𝐿(θ) 𝜕 2 log 𝐿(θ) 𝜕 2 log 𝐿(θ)


< 0; < 0; < 0; . . . ; <0
𝜕𝜃12 𝜕𝜃22 𝜕𝜃32 𝜕𝜃𝑘2

Ejemplos.-

2.3.2.1 La siguiente información constituye una muestra correspondiente al número de clientes


presentes por hora en la ventanilla de un banco durante un periodo de 400 horas de actividad
del mismo:
Nº Clientes/Hora (𝑋𝑖 ): 10 15 20 25 30 35 40 45 50
Nº de Horas (𝑛𝑖 ): 25 28 32 42 98 93 55 22 5

Las sumatorias de la variable: “Número de Clientes por Hora” ponderadas por las frequências
absolutas (número de horas) son: ∑ 𝑋𝑖 𝑛𝑖 = 11.995 y ∑ 𝑋𝑖2 𝑛𝑖 = 395.025. a) ¿La distribución de
probabilidad de Poisson constituye un modelo adecuado para la información de la muestra?.
Explique muy brevemente, b) Hallar el estimador del parámetro E(X) = λ = µ por el método de
máxima verosimilitud, c) Hallar la estimación del número medio de clientes por hora, d) Estime
la probabilidad de que se presenten más de 50 clientes en una determinada hora de actividad
del referido banco.

Solución.-

a) Los clientes llegan a la ventanilla del banco en el tiempo y en forma aleatoria; por lo que, el
modelo de distribución de probabilidad de Poisson se constituye como adecuado para describir
la distribución de probabilidad del número de llegadas por hora.
b) El estimador de µ, se obtiene como sigue: Primero se determina la función de Verosimilitud
е−µ µ𝑋𝑖 е−𝑛µ µ∑ 𝑋𝑖
para la muestra aleatoria y es la siguiente: L(µ) = ∏ = ∏ 𝑋𝑖 !
𝑋𝑖 !
Aplicando logaritmo se obtiene su forma lineal: 𝐿𝑛 𝐿(µ) = -nµ 𝐿𝑛(е) + ∑ 𝑋𝑖 ln µ − ln ∏ 𝑋𝑖 !
Aplicando la primera condición del método de Máxima Verosimilitud, se tiene:
𝑑𝑙𝑛𝐿(µ) ∑ 𝑋𝑖 −𝑛 µ+∑ 𝑋𝑖 ∑ 𝑋𝑖
=-n+ = 0; = 0; −𝑛 µ + ∑ 𝑋𝑖 = 0; −𝑛 µ = -∑ 𝑋𝑖 ; de donde, resulta: µ̂ = = 𝑋̅,
𝑑µ µ µ 𝑛

𝑑 2 𝑙𝑛𝐿(µ)
y con la segunda condición del método de máxima verosimilitud se verifica: = - n < 0;
𝑑µ2

por lo que, 𝑋̅ es el estimador de máxima verosimilitud de µ; es decir, 𝑋̅ es un valor de µ que


maximiza la función de verosimilitud.

5
c) La estimación del número medio de clientes por hora, en la ventanilla del referido banco es:
∑𝑋 𝑛 11.995
𝑋̅ = 𝑖 𝑖 = = 30 clientes.
𝑛 400

d) La distribución de probabilidad estimada del número de clientes por hora está dada por:
е−30 30𝑥
P(x) = para x = 0, 1, 2, 3, 4, … ; luego la probabilidad de que se presenten más de 50
𝑥!

clientes en una determinada hora seleccionada al azar se calcula como sigue: P(X> 50)=
е−30 30𝑥
∑∞
51 = 1- P(X≤ 50) = 1 – 1 = 0. Conclusión: es improbable que existan más de 50 clientes
𝑥!

por hora en la ventanilla del citado banco.


2.3.2.2 Suponiendo que X es una variable poblacional distribuida según la normal con media 
y varianza 𝜎 2 , ambas desconocidas. Hallar el estimador de  y 𝜎 2 por el método de máxima

verosimilitud en base a una muestra aleatoria X 1 , X 2 ,..., 𝑋𝑛 extraída de X. La función de


verosimilitud de la muestra está dada por:
1 1 1 1 𝑛 𝑛 1 𝑛
1 − (𝑋 −µ)2 − (𝑋 −µ) −2 ∑ (𝑋 −µ) 2
L(, 𝜎 2 ) = ∏𝑛1 е 2𝜎2 𝑖 = ∏𝑛1(2𝜋)− 2 (𝜎 2 )− 2 е 2𝜎2 𝑖 = (2𝜋)− 2 (𝜎 2 )− 2 е 2𝜎2 1 𝑖 .
√2𝜋𝜎2
𝑛 𝑛 ∑𝑛
1 (𝑋𝑖 −µ)
2
Aplicando logaritmo neperiano se tiene: ln L(, 𝜎 2 ) = - ln(2𝜋) - ln(𝜎 2 ) - ln(е).
2 2 2𝜎2
𝜕[ln L(,𝜎2 )] 4𝜎2 ∑𝑛1 (𝑋𝑖 −µ)
Utilizando la primera condición del método, se tiene: = = 0; ∑ 𝑋𝑖 - nµ = 0;
𝜕µ 4𝜎4
∑𝑛
1 𝑋𝑖
hallando la solución para µ se obtiene: µ̂ = = 𝑋̅. Calculando la derivada segunda se tiene:
𝑛
𝜕 2 [ln L(,𝜎2 )]
= - n < 0. Por este último resultado se concluye que 𝑋̅ es el estimador de  obtenido
𝜕µ2

por el método de máxima verosimilitud, ya que maximiza la función de verosimilitud de la


muestra.
𝜕[ln L(,𝜎2 )] 𝑛 ∑𝑛
1 (𝑋𝑖 −µ)
2 −𝑛 𝜎2 + ∑𝑛
1 (𝑋𝑖 −µ)
2
El estimador de 𝜎 2 se obtiene como sigue: =- + = 0; = 0;
𝜕𝜎2 2𝜎2 2𝜎4 2𝜎 4

̂2 = ∑𝑛 ̂ )2
1 (𝑋𝑖 −µ
−𝑛 𝜎 2 = - ∑𝑛1(𝑋𝑖 − µ)2 , hallando la solución para 𝜎 2 , se obtiene: 𝜎 = 𝑆 2 . Calculando
𝑛
𝜕 2 [ln L(,𝜎2 )]
la derivada segunda se tiene: = - n < 0. Por este último resultado se concluye que 𝑆 2
𝜕(𝜎2 )2

es el estimador máximo verosímil de 𝜎 2 ya que maximiza la función de verosimilitud.

2.3.2.3 Sea X una variable poblacional con distribución exponencial, cuya función de densidad
−𝑋
1 µ
está dada por: f(x;µ) = е para x>0. Hallar el estimador de µ por el método de máxima
µ
verosimilitud, basado en una muestra aleatoria de tamaño n extraída de X.

Solución.-
Si X 1 , X 2 ,...,X n es la muestra aleatoria extraída de X, entonces la función de verosimilitud
1 1 𝑛
para la muestra está dada por: L(µ) = ∏𝑛1 е−𝑋𝑖⁄µ = е− ∑1 𝑋𝑖⁄µ ; aplicando logaritmo neperiano
µ µ𝑛

6
se tiene: ln L(µ) = - n*lnµ − ∑𝑛1 𝑋𝑖 ⁄µ ln(е). Empleando la primera condición del método de
d[ln L(µ)] 𝑛 ∑𝑛
1 𝑋𝑖 −𝑛µ + ∑𝑛
1 𝑋𝑖
máxima verosimilitud, se tiene: =- + = 0; = 0; −𝑛µ = - ∑𝑛1 𝑋𝑖 . La solución
𝑑µ µ µ2 µ2

∑𝑛
1 𝑋𝑖 𝑑 2 [ln L(µ)]
para µ, resulta: µ̂ = = 𝑋̅. Empleando la segunda condición del método, se tiene: =-
𝑛 𝑑µ2

n < 0; por lo que, µ̂ es el estimador de µ obtenido por el método de máxima verosimilitud.

Los ejemplos anteriores, podrán servir de base para determinar estimadores máximo
verosímiles de parámetros desconocidos de variables aleatorias poblacionales con
distribuciones distintas a las presentadas.

2.4 Propiedades de los estimadores puntuales.-

Tal como se expuso ampliamente en el primer capítulo, estableciendo que el estimador es una
variable aleatoria, ya que su valor varia de una muestra a otra; además, matemáticamente se
evidencia que todo estimador es función lineal de la muestra aleatoria; por lo que, tiene su
distribución de probabilidad y medidas de tendencia central y de dispersión, aspectos que
fueron analizados en el capítulo anterior.

Para escoger el mejor estimador entre dos alternativos de un mismo parámetro, habrá que
comparar los dos estimadores con base a sus respectivas distribuciones de probabilidad y
escoger el mejor; lamentablemente, esto no es fácil; por lo que, los autores emplean los
siguientes procedimientos para la evaluación del mejor estimador de un parámetro.

2.4.1 Insesgamiento

Definición.- Un estimador 𝜃̂ de un parámetro desconocido θ, es insesgado si E(𝜃̂ )= θ para


todos los valores de 𝜃̂ .

Ejemplos.-

2.4.1.1 En el capítulo anterior se demostraron las siguientes igualdades: E(𝑋̅) = µ; E(𝑃̂) = P;


𝜎2
E(𝑑𝑋̅ ) = µ1 − µ2 ; E(𝑑𝑃̂ ) = 𝑃1 − 𝑃2 ; E(𝑠2 ) = 𝜎 2 , y E(𝑆 2 ) = 𝜎 2 -
𝑛

Las primeras cinco igualdades demuestran que 𝑋̅; 𝑃̂; 𝑑𝑋̅ ; 𝑑𝑃̂ y 𝑠2 son estimadores insesgados
de los siguientes parámetros: µ, P, 𝑑µ = µ1 − µ2 , 𝑑𝑃 = 𝑃1 − 𝑃2 y 𝜎 2 ; en cambio, 𝑆 2 es un
𝜎2
estimador sesgado de 𝜎 2 . El sesgo de este estimador es - ; el cual, disminuye a medida que
𝑛
se incrementa el tamaño de la muestra aleatoria (n). Cuando n tiende a infinito, entonces el
sesgo tiende a cero, en este caso 𝑆 2 es un estimador insesgado de 𝜎 2 .

Otro estimador insesgado de interés es el correspondiente al total poblacional, que se obtiene


como sigue: T = ∑𝑁 ̂ ̅
1 𝑋𝑖 = Nµ; cuyo estimador es: 𝑇 = N𝑋 ; el cual, es un estimador insesgado, ya
que E(𝑇̂) = E(N𝑋̅) = N*E(𝑋̅) = Nµ. La varianza de este estimador insesgado de gran utilidad es la
𝜎 2 𝑁−𝑛
que sigue: 𝜎𝑇2̂ = V(𝑇̂) = V(N𝑋̅) = 𝑁 2 V(𝑋̅) = 𝑁 2
𝑛 𝑁−1

7
Un segundo estimador insesgado de interés es el correspondiente al total poblacional de
éxitos obtenido para el parámetro proporción poblacional es el siguiente: ∑𝑁
1 𝑌𝑖 = X = NP; cuyo
estimador es: 𝑋 = N𝑃 ; el cual, es un estimador insesgado, ya que E(𝑋) = E(N𝑃̂) = N*E(𝑃̂) = NP.
̂ ̂ ̂
La varianza de este estimador insesgado de gran utilidad es la que sigue: 𝜎𝑋2̂ = V(𝑋̂ ) = V(N𝑃̂) =
𝑃(1−𝑃) 𝑁−𝑛
𝑁 2 V(𝑃̂) = 𝑁 2 ; en donde, Y es una variable poblacional distribuida según la Bernoulli y
𝑛 𝑁−1
la X distribuida según la Binomial.

2.4.1.2 Verificar los siguientes enunciados: a) 𝑃̂ es un estimador insesgado de P, b) 𝑃̂(1–𝑃̂) es


𝑛
un estimador insesgado de 𝑃(1 − 𝑃), c) 𝑃̂ (1 − 𝑃̂ ) es un estimador insesgado de P(1–P).
𝑛−1

Verificación.-
𝑋 𝐸(𝑋) 𝑛𝑃
a) E(𝑃̂) = E( ) = = = P; ya que X se distribuye según la Binomial; por tanto, 𝑃̂ es un
𝑛 𝑛 𝑛

estimador insesgado de P.
b) E[𝑃̂(1 − 𝑃̂)] = E(𝑃̂) - E(𝑃̂2 ). En primer lugar se debe obtener el valor de E(𝑃̂2 ) de la
2 2
ecuación de la varianza de 𝑃̂; o sea de: 𝜎𝑃2̂ = 𝐸[𝑃̂ − 𝐸(𝑃̂ )] = 𝐸(𝑃̂ 2 ) − [𝐸(𝑃̂ )] . De esta última
ecuación y tomando en cuenta la varianza de 𝑃̂ para poblaciones infinitas se tiene:
2 𝑃𝑄 𝑃(1−𝑃)+𝑛𝑃2 𝑃−𝑃2 +𝑛 𝑃2
𝐸(𝑃̂ 2 ) = 𝜎𝑃2̂ + [𝐸(𝑃̂)] = + 𝑃2 = = y sustituyendo en la media esperada del
𝑛 𝑛 𝑛

presente inciso, se obtiene:


𝑃−𝑃2 +𝑛𝑃2 𝑛 𝑃−(𝑃−𝑃 2 +𝑛 𝑃2 ) 𝑛 𝑃−𝑃+𝑃2 −𝑛 𝑃2 𝑃(𝑛−1)−𝑃2 (𝑛−1)
E[𝑃̂(1 − 𝑃̂ )] = E(𝑃̂)- E(𝑃̂2 ) = P - = = = =
𝑛 𝑛 𝑛 𝑛
(𝑛−1)𝑃(1−𝑃) 𝑛−1
= 𝑃(1 − 𝑃). Este resultado demuestra que 𝑃̂(1–𝑃̂) no es un estimador insesgado
𝑛 𝑛

de 𝑃(1 − 𝑃).
𝑛 𝑛 𝑛 𝑛−1
c) 𝐸 [ 𝑃̂(1 − 𝑃̂ )] = 𝐸(𝑃̂ − 𝑃̂ 2 ) = 𝑃(1 − 𝑃) = 𝑃(1 − 𝑃). Este resultado demuestra
𝑛−1 𝑛−1 𝑛−1 𝑛
𝑛
que 𝑃̂ (1 − 𝑃̂ ) es un estimador insesgado de 𝑃(1 − 𝑃).
𝑛−1

2.4.2 Eficiencia

Un estimador insesgado 𝜃̂ no implica que tenga alta probabilidad de estar cerca del parámetro
desconocido. El estimador con menor varianza, tiene mayor probabilidad de estar cerca del
valor del parámetro desconocido; lo cual, se observa en la representación gráfica de la
distribución de probabilidad de dos estimadores del mismo parámetro.

8
Representación gráfica de las funciones de probabilidad de dos estimadores insesgados 𝜃̂1 y
𝜃̂2 , en donde 𝜃̂1 es más eficiente que 𝜃̂2 .

2.4.2.1 Eficiencia Absoluta

Definición.- Si 𝜃̂1 y 𝜃̂2 son estimadores insesgados de θ obtenidos de la misma muestra


aleatoria; entonces 𝜃̂1 es más eficiente que 𝜃̂2 , si la varianza de 𝜃̂1 es menor que la varianza de
𝜃̂2 ; o sea, si se verifica la siguiente desigualdad: V(𝜃̂1 ) < V( 𝜃̂2 ).

Ejemplos.-

1) Suponiendo que X es una población distribuida según la exponencial con parámetro


𝑋
1 −µ
desconocido E(X) = µ, cuya función de densidad está dada por f(x; µ) = е para X≥ 0. Sean
µ
𝑋 +𝑋 4
µ̂1 = 𝑋̅ = 1 2 y µ̂2 = 𝐺̂ = √𝑋1 𝑋2 estimadores alternativos de µ. ¿Cuál de los dos estimadores
2 𝜋
es más eficiente?.

Solución.-

a) La media esperada y la varianza de la población X distribuida según la exponencial están


dadas por: E(X) = µ y 𝜎𝑋2 = µ2 .
𝑋1 +𝑋2 µ+µ 2µ
b) 𝑋̅, es un estimador insesgado de µ, ya que: E(𝑋̅) = E( ) = = =µ
2 2 2
𝑋 +𝑋 µ 2 +µ2 2µ2
La varianza de 𝑋̅ es la siguiente: V(𝑋̅) = V( 1 2) = = = 0,5µ2
2 4 4
4
c) 𝐺̂ , es también un estimador insesgado de µ, ya que: E(𝐺̂ ) = E( √𝑋1 𝑋2 ) = µ
𝜋
4 5,51µ2 5,51µ2
La varianza de 𝐺̂ es la siguiente: V(𝐺̂ ) = V( √𝑋1 𝑋2 ) = = = 0,621µ2
𝜋 𝜋2 −1 8,86965

d) Comparando las varianzas de los estimadores alternativos de µ, se verifica que 𝑋̅ es más


eficiente que 𝐺̂ , ya que: 0,5µ2 < 0,621µ2

2.4.2.2 Eficiencia Relativa

9
Definición.- Dados dos estimadores insesgados 𝜃̂1 y 𝜃̂2 de un mismo parámetro desconocido θ,
con varianzas V(𝜃̂1 ) y V(𝜃̂2 ), respectivamente, entonces la eficiencia de 𝜃̂1 respecto a 𝜃̂2 se
̂1 )
V(𝜃
define como sigue: 𝐸𝑅𝜃̂1 = ̂2 ) ; en donde, V(𝜃̂1 ) < V(𝜃̂2 ).
V(𝜃
̂2
𝜃
V(𝑋̅ ) 0,5µ2
Ejemplo.- Para el ejemplo 1) se tiene: ER = = = 0,805. Este resultado muestra que la
V(𝐺̂ ) 0,621µ2
varianza de 𝑋̅ es solo el 80.5% de la varianza de 𝐺̂ (media geométrica); por lo que, 𝑋̅ es más
eficiente que 𝐺̂ en 19,5% del parámetro desconocido µ. En otras palabras, se dice que los
valores de 𝑋̅ están más concentrados alrededor de µ que los valores de 𝐺̂ .

Ejemplo.- Sea X una población con parámetro µ desconocida. Sean 𝑋̅ y 𝑀𝑒 estimadores


alternativos de µ obtenidos de la misma muestra aleatoria. ¿Cuál de ellos es el estimador más
eficiente de µ?

Solución.-

𝜎2
a) La media esperada y la varianza de 𝑋̅ son: E(𝑋̅) = µ; 𝜎𝑋2̅ = para poblaciones infinitas.
𝑛
2 𝜋𝜎2
b) La media esperada y la varianza de 𝑀𝑒 son: E(𝑀𝑒 ) = µ; 𝜎𝑀 𝑒
= para poblaciones infinitas.
2𝑛
c) La eficiencia relativa de la media 𝑋̅ respecto a la mediana 𝑀𝑒 , es la siguiente:
2 𝜎2
𝜎𝑋
̅ 𝑛 2𝑛𝜎 2 2
ER = 2 = 𝜋𝜎2
= = = 0,63662 ≅ 0,64. Este resultado establece que la
𝜎𝑀 𝑒
𝑛𝜋𝜎 2 3,1416
2𝑛
varianza de la media es solo el 64% de la varianza de la mediana (ambas de la misma
muestra). En otras palabras, la media de la muestra es más eficiente que la mediana de
la muestra en 36%; esto significa que 𝑋̅ está más cerca de µ que la 𝑀𝑒 ; ya que, los valores
de la media muestral están más concentrados alrededor de µ, y los valores de la mediana de la
muestra están más dispersos de µ.

Representación gráfica de las distribuciones muestrales de los estimadores 𝑋̅ y 𝑀𝑒 de la


media poblacional µ.

Ejemplo.- Una población hipotética finita está constituida por cinco hogares, cuyas
unidades son: N = {𝐻1 ; 𝐻2 ; 𝐻3 ; 𝐻4 ; 𝐻5 }. De estos hogares se analizara la variable gasto
mensual, cuyos valores hipotéticos son: X = {2, 4, 6, 8, 10}; los cuales, están expresados
en miles de bolivianos. Sean 𝑋̅ y 𝑀𝑒 estimadores alternativos de µ (gasto medio mensual de

10
la población), verificar que la media de muestras de tamaño tres extraídas de X sin restitución,
es más eficiente que la mediana de esas muestras en 44,4%.

Solución:

a) Las 10 muestras extraídas al azar son: (2 4, 6) (2, 4, 8) (2, 4, 10) (2, 6, 8) (2, 6, 10) (2, 8, 10)
(4, 6, 8) (4, 6, 10) (4, 8, 10) (6, 8, 10)
b) La media de cada una de las muestras son: 4.0, 4.7, 5.3, 6.3, 6.0, 6.7, 6.0, 6.7, 7.3, 8.0
b) La mediana de cada una de las muestras son: 4, 4, 4, 6, 6, 8, 6, 6, 8, 8
c) La distribución de probabilidad de 𝑋̅ y de 𝑀𝑒 de muestras de tamaño tres están dadas por:

d) La media esperada, la varianza y el coeficiente de variación de 𝑋̅ son: E(𝑋̅) = 6 = µ; V(𝑋̅) =


1,334
37,33 - 62 = 1,334 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝐵𝑠. )2 ; CV(𝑋̅) = √ ∗ 100 = 19,25%
6
e) La media esperada, la varianza y el coeficiente de variación de la 𝑀𝑒 son: E(𝑀𝑒 ) = 6 = µ;
2,4
V(𝑀𝑒 ) = 38,4 - 62 = 2,4 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝐵𝑠. )2 ; CV(𝑀𝑒 ) = √ ∗ 100 = 25,82%.
6
f) Comparando los valores del coeficiente de variación, se verifica que la media muestral tiene
menor dispersión que la mediana muestral; o sea: 19,25% < 25,82%. Este resultado muestra
que los valores de la media están concentrados alrededor de µ y los valores de la mediana
muestral están más dispersos de µ; por lo que, la media es más eficiente que la mediana.

Distribución de la Media Distribución de la Mediana


𝑋̅𝑖 P(𝑋̅𝑖 ) 𝑋̅𝑖 P(𝑋̅𝑖 ) 𝑋̅𝑖2 P(𝑋̅𝑖 ) 𝑀𝑒 𝑃(𝑀𝑒 ) 𝑀𝑒 𝑃(𝑀𝑒 ) 𝑀𝑒2 P(𝑀𝑒 )
4,00 0,10 0,40 1,60 4 0,3 1,2 4,8
4,70 0,10 0,47 2,21 6 0,4 2,4 14,4
5,30 0,20 1,06 5,62 8 0,3 2,4 19,2
6,00 0,20 1,20 7,20 TOTAL 1,0 6,0 38,4
6,70 0,20 1,34 8,98
7,30 0,10 0,73 5,33
8,00 0,10 0,80 6,40
TOTAL 1,00 6,00 37,33

g) La eficiencia relativa de la media 𝑋̅ respecto a la mediana 𝑀𝑒 , es la siguiente:


V(𝑋̅ ) 1,334
ER = = = 0,556. Este resultado significa que la varianza de la media es solo el
V(𝑀𝑒 ) 2,4
55,6% de la varianza de la mediana (ambas de la misma muestra). En otras palabras, la
media de la muestra es más eficiente que la mediana de la muestra en 44,4%. Este
resultado se obtiene como sigue: 100 - 55,6 = 44,4; lo cual, indica que 𝑋̅ está más cerca
de µ que la 𝑀𝑒 ; ya que, los valores de la media muestral están más concentrados alrededor de
µ, y los valores de la mediana muestral están más dispersos de µ.

11
Se aclara que para POBLACIONES INFINITAS la eficiencia relativa de la media respecto a la
2 𝜎2
𝜎𝑋
̅ 𝑛 2𝑛𝜎 2 2
mediana es: ER = 2 = 𝜋𝜎2
= = = 0,63662 ≅ 0,64. En cambio, para
𝜎𝑀 𝑒
𝑛𝜋𝜎 2 3,1416
2𝑛
poblaciones finitas es 0,556 ≅ 0,56.

2.4.2.3 Estimadores eficientes

Un estimador es eficiente o de varianza mínima u óptimo, si su varianza es igual a la Cota


Inferior de la Desigualdad de Cramer - Rao, cuya definición es la siguiente:

Definición.- Sea X una población con función de probabilidad P(X; θ) o f(X; θ) que depende de
un parámetro desconocido θ. Sea 𝜃̂ el estimador de este parámetro θ calculado de una muestra
aleatoria extraída de X. Sea además, E(𝜃̂ ) = θ + h(θ); donde h(θ) es el sesgo del estimador;
2 [1+ℎ′ (𝜃)]2
̂
luego, la Desigualdad de Cramer - Rao está dada por: E[𝜃 − 𝐸(𝜃̂)] ≥ ;
𝜕𝑙𝑜𝑔𝑓(𝑋; 𝜃 2
𝑛∗𝐸{[ ] }
𝜕𝜃
2
siendo E[𝜃̂ − 𝐸(𝜃̂ )] el segundo momento de 𝜃̂ centrado respecto 𝐸(𝜃̂ ).

2
Si 𝜃̂ es un estimador insesgado de θ, entonces E[𝜃̂ − 𝐸(𝜃̂)] = V(𝜃̂ ), luego la Desigualdad de
1
Cramer – Rao está dada por: V(𝜃̂ ) ≥ ; ya que h(θ) = 0.
𝜕𝑙𝑜𝑔𝑓(𝑋; 𝜃 2
𝑛∗𝐸{[ ] }
𝜕𝜃
Esta desigualdad, proporciona una cota inferior para hallar la varianza mínima de un estimador,
hasta donde es posible reducir la varianza de un estimador.

Ejemplo.- Sea X una variable poblacional distribuida según la Binomial con media E(X) = k*P y
varianza V(X) = k*P*(1-P), ambas medidas desconocidas ya que P es un parámetro
desconocido, cuya función de probabilidad de X está dada por: P(X; P) = (𝑋𝑘 )𝑃 𝑋 (1 − 𝑃)𝑘−𝑋 para
x = 0, 1, 2, . . . ,k . a) Hallar el estimador de P por método de máxima verosimilitud basado en
una muestra aleatoria de tamaño n extraída de X. Demostrar que el estimador del inciso anterior
(𝑃̂) es: b) Insesgado, c) Es consistente, d) Es eficiente o sea de varianza mínima de P.

Solución

a) Para obtener el estimador de P por el método de máxima verosimilitud se procede a calcular


la Función de Verosimilitud:
L(P) = ∏𝑛1 (𝑋𝑘 ) 𝑃 𝑋𝑖 (1 − 𝑃)(𝑘−𝑋𝑖 ) = 𝑃 ∑ 𝑋𝑖 (1 − 𝑃)(𝑛𝑘−∑ 𝑋𝑖 ) ∏𝑛1 (𝑋𝑘 ). El logaritmo de esta función de
𝑖 𝑖

verosimilitud es: log L(P) = ∑ 𝑋𝑖 logP + (𝑛𝑘 − ∑ 𝑋𝑖 )log(1 − 𝑃) + log∏𝑛1 (𝑋𝑘 ). La derivada de esta
𝑖

𝑑𝑙𝑜𝑔𝐿(𝑃) ∑ 𝑋𝑖 (𝑛𝑘−∑ 𝑋𝑖 )
función de verosimilitud respecto a P e igualando a cero es: = + (1−𝑃)
(-1) = 0;
𝑑𝑃 𝑃
(1−𝑃) ∑ 𝑋𝑖 −𝑃(𝑛𝑘−∑ 𝑋𝑖 ) ∑ 𝑋𝑖 −𝑃 ∑ 𝑋𝑖 −𝑛𝑘𝑃+𝑃 ∑ 𝑋𝑖
= 0; = 0; ∑ 𝑋𝑖 − 𝑛𝑘𝑃 = 0; Hallando la solución para P, se
𝑃(1−𝑃) 𝑃(1−𝑃)

12
∑ 𝑋𝑖 𝑑 2 𝑙𝑜𝑔𝐿(𝑃)
tiene: 𝑃̂ = . La segunda derivada respecto a P resulta: = - nk < 0; por lo que, 𝑃̂ es el
𝑘𝑛 𝑑𝑃2

estimador máximo verosímil de P, ya que maximiza a la función de verosimilitud.

∑𝑋 1 1 𝑛𝑘𝑃
b) E(𝑃̂) = E( 𝑖) = ∑ 𝐸(𝑋𝑖 ) = (∑ 𝑘𝑃) = = P. Por lo que 𝑃̂ es estimador insesgado de P
𝑘𝑛 𝑘𝑛 𝑘𝑛 𝑘𝑛
∑𝑋 𝑉(∑ 𝑋 ) ∑ 𝑉(𝑋𝑖 ) ∑ 𝑘𝑃(1−𝑃) 𝑛𝑘𝑃(1−𝑃) 𝑃(1−𝑃)
V(𝑃̂) = V( 𝑖) = 2 2𝑖 = = = = . Aplicando límites a la media
𝑘𝑛 𝑘 𝑛 𝑘 2 𝑛2 𝑘 2 𝑛2 𝑘 2 𝑛2 𝑘𝑛

esperada y varianza de 𝑃̂ cuando 𝑛 → ∞, se verifica que 𝑃̂ es un estimador consistente de P; o


𝑃(1−𝑃)
sea: lim𝑛→∞ E(𝑃̂) = lim𝑛→∞ 𝑃 = P y lim𝑛→∞ V(𝑃̂ ) = lim𝑛→∞ = 0. Estos dos últimos
𝑘𝑛

resultados señalan lo siguiente: A medida que se incrementa el tamaño de la muestra aleatoria


(n) el valor del estimador (𝑃̂) se aproxima al valor del parámetro (P); bajo estas condiciones se
dice que 𝑃̂ es un estimador consistente de P.

c) Para verificar que 𝑃̂ es un estimador eficiente o de varianza mínima de P, se utiliza la


Desigualdad de Cramer-Rao, que consiste en lo siguiente: log P(X; P) = log (𝑋𝑘 )𝑃 𝑋 (1 − 𝑃)𝑘−𝑋 ;
𝑑𝑙𝑜𝑔𝑃(𝑋; 𝑃) 𝑋 (𝑘−𝑋) 𝑋(1−𝑃)−𝑃(𝑘−𝑋)
log P(X; P) = log (𝑋𝑘 ) + 𝑋𝑙𝑜𝑔𝑃 + (𝑘 − 𝑋)𝑙𝑜𝑔(1 − 𝑃); : = + (1−𝑃)
(-1) = =
𝑑𝑃 𝑃 𝑃(1−𝑃)

𝑋−𝑃𝑋−𝑘𝑃+𝑃𝑋 𝑋−𝑘𝑃 𝑋−𝐸(𝑋) 𝑑𝑙𝑜𝑔𝐿(𝑋; 𝑃) 2 𝐸[𝑋−𝐸(𝑋)]2 𝑘𝑃(1−𝑃) 𝑘


= = . Luego, E{[ ] } = = = . Finalmente,
𝑃(1−𝑃) 𝑃(1−𝑃) 𝑃(1−𝑃) 𝑑𝑃 𝑃2 (1−𝑃)2 𝑃2 (1−𝑃)2 𝑃(1−𝑃)

sustituyendo el resultado anterior en la Desigual de Cramer-Rao, se obtiene la cota inferior de


𝑃(1−𝑃)
esta desigualdad: V(𝑃̂) ≥ , y debido a que la varianza de 𝑃̂ es igual a esta cota inferior,
𝑛𝑘

entonces es un estimador eficiente o de varianza mínima de P.

Problemas para resolver.-

1) Sea Y una variable poblacional distribuida según la Bernoulli con parámetro desconocido P.
Sea 𝑃̂ el estimador insesgado de P, obtenido de una muestra aleatoria extraída de la población
Y. Demostrar que 𝑃̂ es un estimador eficiente o de varianza mínima de P.

2) Sea una variable poblacional distribuida según la normal con media µ y varianza 𝜎 2 . Sea µ̂ el
estimador insesgado de µ calculado de una muestra aleatoria extraída de la población X;
demostrar que µ̂ es un estimador eficiente o de varianza mínima de µ.

3) Sea X una variable poblacional distribuida según la exponencial con media E(X) = µ
𝑥
1 −µ
desconocida, cuya función de probabilidad está dada por: f(x; µ) = е para x≥0. Sea µ̂ el
µ
estimador insesgado de µ obtenido de una muestra aleatoria de tamaño n extraída de X.
Demostrar que µ̂ es un estimador eficiente o de varianza mínima de µ.

La Consistencia de un Estimador

13
Definición.- Un estimador 𝜃̂𝑛 es consistente del parámetro θ, si 𝜃̂𝑛 es asintóticamente
insesgado y su varianza tiende a cero, cuando n tiende a infinito; es decir: i) lim𝑛→∞ 𝐸(𝜃̂𝑛 ) → θ
y ii) lim𝑛→∞ 𝑉(𝜃̂𝑛 ) → 0.

Ejemplos.-

1) Sea X una variable poblacional distribuida según la exponencial con media E(X) = µ
𝑥
1 −µ
desconocida y varianza V(X) = µ2 , cuya función de probabilidad está dada por: f(x; µ) = е
µ
para x ≥ 0. Sea µ̂ el estimador insesgado de µ obtenido de una muestra aleatoria de tamaño n
extraída de X. Demostrar que µ̂ es un estimador consistente de µ.

Demostración:

∑𝑛
1 𝑋𝑖 ∑𝑛
1 𝑋𝑖
El estimador de µ es: µ̂ = . La media esperada y la varianza de µ̂ son: i) E(µ̂) = E( )=
𝑛 𝑛

∑𝑛
1 𝐸(𝑋𝑖 ) ∑𝑛
1µ 𝑛µ ∑𝑛
1 𝑋𝑖 ∑𝑛

2 𝑛∗µ2 µ2
= = = µ, ii) V(µ̂) = V( )= = = . Aplicando límites a
𝑛 𝑛 𝑛 𝑛 𝑛2 𝑛2 𝑛
la media esperada y varianza de µ̂ se tiene: i) lim𝑛→∞ 𝐸(µ̂) = lim𝑛→∞ µ = µ, y ii) lim𝑛→∞ 𝑉(µ̂) =
µ2
lim𝑛→∞ = 0. Estos resultados demuestran que µ̂ es un estimador consistente de µ.
𝑛

2) Sea X una variable aleatoria distribuida según el modelo de probabilidad uniforme en el


intervalo [a y b] para a < b. Si X representa la demanda por día de un determinado producto que
oscila entre 20 y “b” unidades, i) Determinar el estimador de “b” por el método de los momentos,
ii) Verificar que el estimador de “b” es insesgado y consistente.

Verificación:

El estimador de b obtenido por el método de los momentos es: 𝑏̃ = 2𝑚1 - 20 = 2𝑋̅ – 20


20+𝑏
∑𝑛
1 𝑋𝑖 ∑𝑛
1 𝐸(𝑋𝑖 )
∑𝑛
1 𝑛(20+𝑏)
E(𝑏̃) = E(2𝑋̅ – 20) = 2E( ) – 20 = 2( ) – 20 = 2[ 2
]=2 - 20 = 20 +
𝑛 𝑛 𝑛 2𝑛

b – 20 = b.
Se verifica que 𝑏̃ es un estimador insesgado de b, y la varianza de 𝑏̃ es V(𝑏̃) = V(2𝑋̅ – 20) =
(𝑏−20)2
∑𝑛
1 𝑋𝑖 ∑𝑛
1 𝑉(𝑋𝑖 )
∑𝑛
1 𝑛(𝑏−20)2 (𝑏−20)2
4V( ) = 4( ) = 4[ 12
]= 4 12𝑛2 = .
𝑛 𝑛2 𝑛 2 3𝑛

14
Aplicando límite a la media esperada y varianza de 𝑏̃ se tiene lim𝑛→∞ E(𝑏̃) = lim𝑛→∞ 𝑏 = 𝑏;
(𝑏−20) 2
lim𝑛→∞ V(𝑏̃) = lim𝑛→∞ 3𝑛 = 0. Estos resultados demuestran que 𝑏̃ es un

estimador consistente de b.
Los resultados matemáticos anteriores se pueden aclarar de una forma sencilla con el siguiente
ejemplo numérico:

Ejemplo.- Sea una variable poblacional X con media desconocida µ y varianza hipotética
conocida 𝜎 2 = 9. Sea 𝑋̅ la media de una muestra aleatoria extraída de X y es el estimador de µ.
9
Verificar que la varianza de 𝑋̅, que en este caso es: V(𝑋̅) = tiende a cero a medida que n se
𝑛
incrementa; lo cual, indica la existencia de alta probabilidad de que el valor de 𝑋̅ se aproxima al
valor de µ.
n 1 10 20 30 50 80 100 1000
9⁄𝑛 9 0,9 0,45 0,3 0,18 0,1125 0,09 0,009

Distribución Asintótica.- Cuando es difícil derivar analíticamente la distribución exacta de un


estimador o estadístico, una solución es estudiar su distribución de probabilidad cuando la
muestra tiende a infinito. Si a medida que el tamaño de muestra va aumentando la distribución
del estimador se aproxima cada vez a una distribución específica conocida, entonces, para
tamaños de muestra grandes se puede usar esa distribución como una aproximación a la
verdadera distribución del estimador.
La propiedad de consistencia garantiza que el estimador 𝜃̂𝑛 tiene alta probabilidad de que esté
próximo al parámetro θ cuando el tamaño de la muestra aleatoria es grande.

Representación gráfica ilustrativa de la consistencia de un estimador 𝜃̂𝑛 . A medida que crece el


tamaño de la muestra, la distribución de probabilidad del estimador está más concentrada
alrededor del valor del parámetro θ

Cuando n es grande, la varianza del estimador es pequeña; lo cual significa, que la mayor
proporción de valores del estimador están concentrados alrededor del valor del parámetro,
entonces se dice que el estimador es consistente. Esto significa que el valor del estimador tiene
alta probabilidad de estar cerca del valor del parámetro.

15
Definición.-

Un estimador 𝜃̂𝑛 es consistente de θ si y solo si: lim𝑛→∞ 𝑃(|𝜃̂𝑛 − 𝜃| ≤ 𝜉) = 1 para ξ> 0. En otras
palabras, el estimador 𝜃̂𝑛 converge en probabilidad al verdadero valor de θ, si: lim𝑛→∞ 𝑃(|𝜃̂𝑛 −
𝜃| ≤ 𝜉) = 1 para ξ> 0; donde θ es el límite en probabilidad de 𝜃̂𝑛 y significa lo siguiente: “La
probabilidad de que el valor de 𝜃̂𝑛 pertenezca al intervalo [𝜃 − 𝜉 ; 𝜃 + 𝜉] está muy próxima a 1,
si n es suficientemente grande. Por otra parte, utilizando el complemento de la Desigualdad de
Chebychev, se tiene que: lim𝑛→∞ 𝑃(|𝜃̂𝑛 − 𝜃| > 𝜉) = 0, para ξ> 0; donde θ es el límite en
probabilidad de 𝜃̂𝑛 y significa lo siguiente: “La probabilidad de que el valor de 𝜃̂𝑛 no pertenezca
al intervalo [𝜃 − 𝜉 ; 𝜃 + 𝜉] está muy próxima a cero (0) si n es suficientemente grande.

Se dice que un estimador 𝜃̂𝑛 es consistente si converge en probabilidad al verdadero valor del
parámetro θ; pero si 𝜃̂𝑛 converge en probabilidad a un valor distinto de θ se dice que no es
consistente.

Problemas para resolver

1) Sea X una variable poblacional distribuida según la exponencial con media E(X) = µ
𝑥
1 −µ
desconocida, cuya función de probabilidad está dada por: f(x; µ) = е para x≥0. Sea µ̂ el
µ
estimador insesgado de µ obtenido de una muestra aleatoria de tamaño n extraída de X.
Demostrar que µ̂ es un estimador consistente de µ.

2) Sea X una variable poblacional distribuida según la Poisson con media E(X) = µ y varianza
е−µ µ𝑋
V(X) = µ desconocidas, cuya función de probabilidad está dada por: f(x; µ) = para x = 0, 1,
𝑋!
2, 3, . . . Sea µ̂ el estimador insesgado de µ obtenido de una muestra aleatoria de tamaño n
extraída de X. Demostrar que µ̂ es un estimador consistente de µ.

3) Sea Y una variable poblacional distribuida según la Bernoulli con parámetro desconocido P.
Sea 𝑃̂ el estimador insesgado de P, obtenido de una muestra aleatoria extraída de la población
Y. Demostrar que 𝑃̂ es un estimador consistente de P.

Representación gráfica de las funciones de probabilidad de la proporción muestral (𝑃̂𝑛 ) para


muestras de tamaño n = 81 y n = 361, de una población cuya proporción poblacional es P = 0,6.
16
4) Sea una variable poblacional distribuida según la normal con media µ y varianza 𝜎 2 . Sea µ̂ el
estimador insesgado de µ calculado de una muestra aleatoria extraída de la población X;
demostrar que µ̂ es un estimador consistente de µ.

5) Suponiendo la existencia de la siguiente relación: 𝑌𝑖 = β𝑋𝑖 + 𝑈𝑖 entre las variables 𝑌𝑖 y 𝑋𝑖 . Donde 𝑋𝑖 es


una variable no aleatoria (no estocástica) 𝑈𝑖 es una variable aleatoria distribuida con media esperada 0
(cero) y varianza 𝜎 2 . Se definen dos estimadores para el parámetro desconocido β, que son los
𝑛
∑ 𝑌 𝑛
∑ 𝑋 𝑌
siguientes: 𝛽 ∗ = ∑𝑛1 𝑋𝑖 y 𝛽̂ = ∑1𝑛 𝑋𝑖 2 𝑖 Demostrar que ambos estimadores son insesgados y consistentes
1 𝑖 1 𝑖
del parámetro desconocido β.

2) Sea Y una variable poblacional distribuida según la Bernoulli con parámetro desconocido P.
Sea 𝑃̂ el estimador insesgado de P, obtenido de una muestra aleatoria extraída de la población
Y. Demostrar que 𝑃̂ es un estimador consistente de P.

3) Sea una variable poblacional distribuida según la normal con media µ y varianza 𝜎 2 . Sea µ̂ el
estimador insesgado de µ calculado de una muestra aleatoria extraída de la población X;
demostrar que µ̂ es un estimador consistente de µ.

2.5 Estimación de Parámetros por Intervalo

2.5.1 Introducción

El estimador puntual no exhibe el error de estimación por las variaciones de sus valores de
muestra a muestra; por esta razón, es conveniente y necesaria la determinación de la medida
de precisión correspondiente al tamaño del error de estimación.
Si el valor de la desviación estándar del estimador (𝜎𝜃̂ ) es pequeño y el estimador es
insesgado, entonces una gran proporción de los valores del estimador están concentrados
alrededor del valor del parámetro (θ); es decir, una gran proporción de los valores de 𝜃̂ se
encontrara dentro de una pequeña variación respecto a θ.
Si el valor de la desviación estándar del estimador (𝜎𝜃̂ ) insesgado es grande una pequeña
proporción de valores del estimador estarán concentrados alrededor del parámetro (θ); por
tanto, la precisión de un estimador insesgado se determina por la desviación estándar del
estimador, mejor si el estimador es de varianza mínima.

La precisión de un estimador puede determinarse construyendo intervalos de (1- 𝜶)% de


confianza para el parámetro (θ) a partir de la información de la muestra aleatoria.

Definición.- Sea 𝑋1 , 𝑋2 , 𝑋3 , …, 𝑋𝑛 una muestra aleatoria extraída de una variable poblacional


de interés X con función de probabilidad denotada por P(𝑋𝑖 ; θ) o f(𝑋𝑖 ; 𝜃), que contiene un solo
parámetro θ; se dice que 𝐿𝐼 = f(𝑋1 , 𝑋2 , 𝑋3 , …, 𝑋𝑛 ) y 𝐿𝑆 = f(𝑋1 , 𝑋2 , 𝑋3 , …, 𝑋𝑛 ) son los limites
inferior y superior del intervalo de (1- 𝜶)% de confianza para la estimación de θ; si:
P(𝐿𝐼 ≤ θ ≤ 𝐿𝑆 ) = 1-𝜶; en donde, 1- 𝜶 se denomina coeficiente de confianza; 𝜶 es la probabilidad
𝐿𝑆 −𝐿𝐼
de que el intervalo [𝐿𝐼 − 𝐿𝑆 ] no contenga al valor del parámetro; es el margen máximo de
2
error o precisión de la estimación.

17
Ejemplo.- Si P(𝐿𝐼 ≤ θ ≤ 𝐿𝑆 ) = 0.99. Este intervalo se interpreta de tres formas distintas:

1) La probabilidad de que el valor de θ se encuentre entre 𝐿𝐼 y 𝐿𝑆 es 0.99.


2) Con un 99% de confianza se estima que el valor de θ se encuentre entre 𝐿𝐼 y 𝐿𝑆
3) Si se extraen varias muestras aleatorias de tamaño n y se calcula el intervalo de
confianza para cada una de ellas, se estima que el 99% de esos intervalos contendrán al
valor de θ y el 1% de los restantes intervalos no contendrán al valor de θ.

2.5.2 Intervalo de Confianza para la Estimación de la Media de una Población distribuida


según la Normal con 𝝈𝟐 conocida

Teorema.- Sea X una población distribuida según la normal con media µ (desconocida) y
varianza 𝜎 2 (conocida); luego, los límites de (1-𝜶)% de confianza para µ son:

𝑋̅ ± 𝑍(1− 𝛼)𝜎𝑋̅ .
2

𝜎 𝑛 𝜎 𝑁−𝑛 𝑛
En donde: 𝜎𝑋̅ = para <0.05; y 𝜎𝑋̅ = √ para ≥0.05
√𝑛 𝑁 √𝑛 𝑁−1 𝑁

(𝑋̅ −µ)
Demostración.- Si X~N (µ; 𝜎 2 ) , entonces 𝑋̅ ~𝑁(µ; 𝜎𝑋2̅ ); luego: Z = ~𝑁(0, 1)
𝜎𝑋
̅

La probabilidad de que Z se encuentre entre dos de sus valores: -𝑍(1− 𝛼) y 𝑍(1− 𝛼) esta dada por:
2 2

P(−𝑍(1− 𝛼) ≤ Z ≤ 𝑍(1− 𝛼)) = (1 − 𝛼).


2 2

(𝑋̅ −µ)
Sustituyendo el valor de Z, se tiene P(−𝑍(1− 𝛼) ≤ ≤ 𝑍(1− 𝛼) ) = (1 − 𝛼), y realizando las
2 𝜎𝑋
̅ 2

operaciones dentro el paréntesis: P(−𝑋̅ − 𝑍(1− 𝛼) 𝜎𝑋̅ ≤ −µ ≤ 𝑍(1− 𝛼) 𝜎𝑋̅ − 𝑋̅) = (1 − 𝛼);
2 2
multiplicando los cinco términos dentro del paréntesis por -1, se tiene el siguiente resultado:
P(𝑋̅ + 𝑍(1− 𝛼)𝜎𝑋̅ ≥ µ ≥ −𝑍(1− 𝛼) 𝜎𝑋̅ + 𝑋̅) = (1 − 𝛼). Finalmente, realizando arreglos algebraicos
2 2
se obtiene el intervalo de confianza para la estimación de µ, que es el siguiente:
P(𝑋̅ − 𝑍(1− 𝛼)𝜎𝑋̅ ≤ µ ≤ 𝑍(1− 𝛼) 𝜎𝑋̅ + 𝑋̅) = (1 − 𝛼); en el cual, se encuentran los límites inferior (𝐿𝐼 )
2 2

18
y superior (𝐿𝑆 ) del intervalo de confianza; que son variables aleatorias, ya que dependen del
estimador 𝑋̅.

2.5.3 Determinación del Tamaño de Muestra Aleatoria

El número de observaciones necesarias para estimar la media (µ) de una variable X poblacional
distribuida según la normal, con un límite para el error de estimación de magnitud ξ, se obtiene
utilizando la siguiente igualdad: ξ = Z𝜎𝑋̅
𝜎 𝑍 2 𝜎2
i) Para poblaciones infinitas: ξ = Z ; de donde se obtiene: n =
√𝑛 𝜉2

𝜎 𝑁−𝑛
ii) Para poblaciones finitas: ξ = Z √ ; elevando al cuadrado ambos lados de la igualdad se
√𝑛 𝑁−1

𝜎2 𝑁−𝑛
tiene: 𝜀 2 = 𝑍 2 ; realizando dos operaciones sencillas: n(N-1) 𝜀 2 = 𝑍 2 𝜎 2 N - 𝑍 2 𝜎 2 n;
𝑛 𝑁−1
𝑍 2 𝑁 𝜎2
factorizando n se tiene: n[(𝑁 − 1)𝜀 2 + 𝑍 2 𝜎 2 ] = 𝑍 2 𝜎 2 N; de donde se obtiene: n = (𝑁−1)𝜉 2
+ 𝑍 2 𝜎2

Para calcular el valor de n en cualquiera de los dos casos se procede como sigue:

i) El valor de Z y de ℰ es fijado por el responsable de la elaboración del trabajo de investigación.

Por ejemplo, si (1 - α) = 0,99; entonces α = 0,01; luego 𝑍(1− 0.01)= 𝑍0,995 = 2,58; o sea, la
2
confiabilidad de las estimaciones es 99%. El valor admitido de ℰ = ∓ (𝑋̅ - µ) depende de la
unidad de medida de la variable; de la cual su media desconocida es µ.

ii) El problema está en obtener el valor de 𝜎 2 , debido a que es la varianza de la población, cuyo
valor es desconocido; sin embargo, se puede proceder como sigue: a) Podría existir en algún
estudio elaborado anteriormente y se puede utilizar solo para estimar el tamaño de la muestra
aleatoria, b) Como segunda opción se puede utilizar el valor de 𝑠2 calculado con los datos de
una muestra piloto y utilizar provisionalmente este valor para estimar el tamaño de muestra
aleatoria.

2.5.4 Intervalo de Confianza para la Estimación de la Media de una Población distribuida


según la Normal, con 𝝈𝟐 desconocida y n ≤30

Teorema.- Sea X una población distribuida según la normal con media µ y varianza 𝜎 2 (ambas
desconocidas); luego, los límites de (1-𝜶)% de confianza para µ son:
𝑋̅ ± 𝑡(1−𝛼)(𝑛−1) 𝜎̂𝑋̅
2

𝑠 𝑛 𝑠 𝑁−𝑛 𝑛
En donde: 𝜎̂𝑋̅ = para <0.05, y 𝜎̂𝑋̅ = √ para ≥0.05
√𝑛 𝑁 √𝑛 𝑁−1 𝑁

19
(𝑋̅ −µ)
Demostración.- Si X~N (µ; 𝜎 2 ), entonces 𝑋̅~𝑁(µ; 𝜎̂𝑋2̅ ); luego: T = ̂𝑋
~𝑡(𝑛−1) . La probabilidad
𝜎 ̅

de que T se encuentre entre dos de sus valores: -𝑡(1−𝛼)(𝑛−1) y 𝑡(1−𝛼)(𝑛−1) esta dada por:
2 2

P(−𝑡(1− 𝛼)(𝑛−1) ≤ T ≤ 𝑡(1− 𝛼)(𝑛−1) ) = (1 − 𝛼).


2 2

Sustituyendo el valor de la T y realizando las operaciones con las desigualdades dentro el


paréntesis, se tiene el siguiente intervalo de confianza para la estimación de µ:

P(𝑋̅ − 𝑡(1− 𝛼)(𝑛−1) 𝜎̂𝑋̅ ≤ µ ≤ 𝑡(1− 𝛼)(𝑛−1) 𝜎̂𝑋̅ + 𝑋̅) = (1 − 𝛼); en el cual, se encuentran los límites
2 2

inferior (𝐿𝐼 ) y superior (𝐿𝑆 ) del intervalo de confianza.

2.5.5 Intervalo de Confianza para la Estimación de la Media de una Población distribuida


según la Normal con 𝝈𝟐 desconocida y n >30

Si la muestra aleatoria es mayor a 30, entonces la distribución de la t de Student se aproxima a


la distribución normal estándar, luego los límites del intervalo de (1 − 𝛼)% de confianza para la
estimación de µ son: 𝑋̅ ± 𝑍(1−𝛼) 𝜎̂𝑋̅
2

𝑠 𝑛 𝑠 𝑁−𝑛 𝑛
En donde: 𝜎̂𝑋̅ = para <0.05, y 𝜎̂𝑋̅ = √ para ≥0.05.
√𝑛 𝑁 √𝑛 𝑁−1 𝑁

2.5.6 Intervalo de confianza para la estimación de la varianza de una población


distribuida según la normal

Los límites de (1 − 𝛼)% de confianza para la estimación de la varianza (𝜎 2 ) de una población


(X) distribuida según la normal con media µ y varianza 𝜎 2 , cuyos valores son desconocidos, son
(𝑛−1) 𝑠 2 (𝑛−1) 𝑠 2
los siguientes: 𝐿𝐼 = y 𝐿𝑆 =
𝑋2 𝛼 𝑋 2𝛼
(1− 2 ) (𝑛−1) ( 2 ) (𝑛−1)

20
Demostración.- Para este propósito se toma en cuenta el resultado obtenido en el capítulo
(𝑛−1)𝑠 2
anterior sobre la distribución ji cuadrado; o sea: ×2 = ~⨉2(𝑛−1)
𝜎2

La probabilidad de que ⨉2 se encuentre entre dos de sus valores: ⨉2 (𝛼)(𝑛−1) y ⨉2 (1− 𝛼)(𝑛−1) esta
2 2

dada por: P(⨉2 ( 𝛼)(𝑛−1) ≤ ×2 ≤ ⨉2 (1− 𝛼)(𝑛−1) ) = (1 − 𝛼)


2 2

Representación gráfica de la distribución Ji Cuadrado

Sustituyendo el valor de ×2 y realizando las operaciones con las desigualdades dentro el


(𝑛−1)𝑠 2
paréntesis, se tiene: P(⨉2 ( 𝛼)(𝑛−1) ≤ ≤ ⨉2 (1− 𝛼)(𝑛−1) ) = (1 − 𝛼); hallando el reciproco de
2 𝜎2 2

1 1 1
cada uno de los términos dentro el paréntesis: P( ≥ (𝑛−1)𝑠2
≥ ) = (1 − 𝛼);
⨉2 𝛼 ⨉2 𝛼
( )(𝑛−1) 𝜎2 (1− )(𝑛−1)
2 2

aplicando medios y extremos en el segundo término y cambiando la orientación de las


(𝑛−1)𝑠 2 (𝑛−1)𝑠 2
desigualdades, se tiene: P( ≥ 𝜎2 ≥ ) = (1 − 𝛼). Finalmente, realizando los
⨉2 𝛼 ⨉2 𝛼
( )(𝑛−1) (1− )(𝑛−1)
2 2

arreglos algebraicos se obtiene el intervalo de confianza para la estimación de 𝜎 2 :

(𝑛−1) 𝑠 2 (𝑛−1) 𝑠 2
P( ≤ 𝜎2 ≤ ) = (1 − 𝛼); en el cual, se encuentran los límites inferior (𝐿𝐼 ) y
𝑋2 𝛼 𝑋 2𝛼
(1− 2 ) (𝑛−1) ( 2 ) (𝑛−1)

superior (𝐿𝑆 ) del mismo.

El intervalo de (1 − 𝛼)% de confianza para la estimación de la desviación estándar de una


población distribuida según la normal (σ) es igual a: P(√𝐿𝐼 ≤ 𝜎 ≤ √𝐿𝑆 ) = (1 − 𝛼).

21
2.5.7 Problemas resueltos de estimación de paramentos por intervalo

2.5.7.1 La siguiente información constituye una muestra correspondiente al número de clientes


presentes por hora en la ventanilla de un banco durante un periodo de 400 horas de actividad
del mismo:
Nº Clientes/Hora (𝑋𝑖 ): 10 15 20 25 30 35 40 45 50
Nº de Horas (𝑛𝑖 ): 25 28 32 42 98 93 55 22 5
Las sumatorias del “Número de Clientes por Hora” ponderados por frequências absolutas
(número de horas) son: ∑ 𝑋𝑖 𝑛𝑖 = 11.995 y ∑ 𝑋𝑖2 𝑛𝑖 = 395.025. a) Estime el número medio de
clientes por hora E(X) = λ = µ mediante un intervalo del 99% de confianza. b) Calcule el margen
máximo de error para la estimación del inciso anterior con una confianza del 99%.

Solución.-

a) Los límites de (1 − 𝛼)% de confianza para la estimación de µ son: 𝑋̅ ∓ 𝑍(1− 𝛼)𝜎̂𝑋̅ ; en donde, la
2
𝑋̅ 30
desviación estándar está dada por: 𝜎̂𝑋̅ = √ = √ = 0.274. El número medio de clientes por
𝑛 400
∑𝑋 𝑛 11.995
hora estimado, en la ventanilla del citado banco es: 𝑋̅ = 𝑖 𝑖 = = 30; luego, los límites del
𝑛 400
99% de confianza para la estimación de µ son: 30 ∓ (2.58)(0.274); o sea 30 ∓ 0.71. Finalmente,
el intervalo de confianza es: P(29 ≤ µ ≤ 31) = 0.99; es decir, con un 99% de confianza se
estima que el número de clientes por hora se encuentre entre 29 y 31.
b) El margen máximo de error del estimador 𝑋̅ con una confianza de 99% es 0.71
(aproximadamente ∓ 1 cliente).

2.5.7.2 Las partes de una determinada maquinaria, sometidas a un mantenimiento periódico,


tienen una vida útil representada por Y en horas. La distribución de probabilidad de esa variable
−𝑦
1
es exponencial, cuya función de densidad está dada por: f(y) = е µ para Y>0 y cero (0) para
µ
otros valores de Y. Dada la siguiente muestra aleatoria referida a la duración en horas de 20
partes: 175, 165, 170, 220, 230, 190, 200, 205, 170, 155, 180, 150, 145, 180, 195, 200, 170,
155, 165 y 190; cuyas sumatorias son: ∑Xi = 3.610; ∑Xi2 = 661.700, a) Tomando en cuenta que
el estimador de µ obtenido por el Método de Máxima Verosimilitud es 𝑋̅, determinar el valor
estimado de µ mediante un intervalo del 95% de confianza e interpretar su resultado, b) Hallar
el margen máximo de error para la estimación del inciso anterior con una confianza del 95%.

Solución.-

22
a) Los límites del intervalo de (1 − 𝛼)% de confianza para la estimación de la duración media
𝑋̅
(µ) de la población de partes de la citada maquinaria, son 𝑋̅ ± 𝑇(1− 𝛼)(𝑛−1) . Se utiliza la
2 √𝑛
distribución de T de Student, debido a que se desconoce el valor de la varianza de la variable
poblacional; además, la muestra es pequeña, es decir 𝑛 < 30.
∑𝑋 3.610 180.5
𝑋̅= 𝑖 = = 180.5 horas; 𝑡(1− 0.05)(20−1) = 𝑡(0.975)(19) = 2,093; 180.5±(2,093) ; por lo que,
𝑛 20 2 √20
el intervalo de confianza es: P(96 ≤ µ ≤ 265) = 0.95; el cual, significa que con un 95% de
confianza se estima que la duración media de las partes de esa maquinaria se encuentra entre
96 y 265 horas.
b) El margen máximo de error de estimación de la duración media con un 95% de confianza es
84.5 horas. Este resultado muestra que la precisión de la estimación es bastante baja (error
bastante alto).

2.5.7.3 Las partes de una determinada maquinaria, sometidas a un mantenimiento periódico,


tienen una vida útil representada por Y en horas. La distribución de probabilidad de esa variable
−𝑦
1
es exponencial, cuya función de densidad está dada por: f(y) = е µ para Y>0 y cero (0) para
µ
otros valores de Y. Dada la siguiente muestra aleatoria referida a la duración en horas de 20
partes: 175, 165, 170, 220, 230, 190, 200, 205, 170, 155, 180, 150, 145, 180, 195, 200, 170,
155, 165 y 190; cuyas sumatorias requeridas son: ∑Xi = 3.610; ∑Xi2 = 661.700, a) Tomando en
cuenta que el estimador de µ obtenido por el Método de Máxima Verosimilitud es 𝑋̅, determine
el valor estimado de µ mediante un intervalo del 95% de confianza e interprete su resultado, b)
Calcule el margen máximo de error estimado del inciso anterior con una confianza del 95%.

Solución.-

a) Los límites del intervalo de (1 − 𝛼)% de confianza para la estimación de la duración media
𝑋̅
(µ) de la población de partes de la citada maquinaria, son 𝑋̅ ± 𝑡(1− 𝛼)(𝑛−1) Se utiliza la
2 √𝑛
distribución de T de Student, debido a que se desconoce el valor de la varianza de la variable
poblacional; además, la muestra es pequeña, es decir 𝑛 < 30.
∑𝑋 3.610 180.5
𝑋̅= 𝑖 = = 180.5 horas; 𝑡(1− 0.05)(20−1) = 𝑡(0.975)(19) = 2,093; 180.5±(2,093) ; por lo que,
𝑛 20 2 √20
el intervalo de confianza es: P(96 ≤ µ ≤ 265) = 0.95; el cual, significa que con un 95% de
confianza se estima que la duración media de las partes de esa maquinaria se encuentra entre
96 y 265 horas.
b) El margen máximo de error de estimación de la duración media con un 95% de confianza es
𝑋̅ 180.5
ℰ = 𝑡(1− 𝛼
)(𝑛−1)
=±(2,093) = 84.5 horas. Este resultado muestra que la precisión de la
2 √𝑛 √20
estimación es bastante baja (margen máximo de error del valor de 𝑋̅ bastante alto).

2.5.7.4 La demanda diaria de un determinado producto en unidades físicas se distribuye


aproximadamente alrededor de un modelo de probabilidad Uniforme dentro del intervalo
[a y b], tal que a<b. Si las cantidades de demanda diaria observadas en una muestra
aleatoria de 36 días son las siguientes: 35, 40, 65, 38, 45, 58, 70, 65, 63, 67, 30, 40, 50,
60, 65, 42, 44, 44, 55, 55, 60, 50, 36, 33, 60, 58, 45, 48, 50, 61, 65, 58, 56, 59, 65 y 40,
cuyas sumatorias son: ∑Xi = 1.875; ∑Xi2 = 102.007, i) Estimar la demanda media diaria
(µ) mediante un intervalo del 95% de confianza, ii) Determinar el margen máximo de
error de la estimación de µ con un nivel de confianza de 95%.

Solución.-

23
X: Demanda diaria de un determinado producto en unidades
µ: Demanda diaria media en unidades de la variable poblacional X
1.875 102.007
n = 36 días muestra aleatoria; 𝑋̅ = 𝑚1 = = 52.1 unidades; 𝑚2 = = 2.833,53 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠 2
36 36
i) Los límites de (1 − 𝛼)% de confianza para la estimación de µ estas dados por: 𝑋̅ ∓ 𝑍 𝛼 𝜎 ̂ 𝑋̅ ;
(1− 2 )
𝑚2 −𝑚12 2.833,53−2.712,67
en donde 𝜎̂𝑋2̅ = = = 3.36; 𝜎̂𝑋̅ = √3.36 = 1,833; 52.1∓ (1.96)(1,833);
𝑛 36
52.1∓3.6; luego, el intervalo de confianza para µ es: P(48≤ µ ≤ 56) = 0.95; o sea que, con un
95% de confianza se estima que la demanda media diaria se encuentra entre 48 y 56 unidades.
ii) El margen máximo de error o precisión del estimador de µ y su estimación, están dadas por:
ℰ = 𝑍(1− 𝛼) 𝜎
̂ 𝑋̅ = ∓ (1.96)(1,833) = ∓3.6 = ∓4 unidades por día.
2

2.5.7.5 Suponiendo que una variable poblacional X se distribuye según la normal con
media µ y varianza σ2, ambos parámetros desconocidos. Se extrae una muestra
aleatoria de tamaño 10, que arroja una varianza 𝑠 2 = 2.25. Determinar los límites del
95% de confianza para la varianza (σ2) y para la desviación estándar de la variable
poblacional1.

Solución.-

a) Los límites del intervalo del 95% de confianza para la estimación de 𝜎 2 , son: 𝐿𝐼 =
(10−1)(2.25) (10−1)(2.25)
= 1,066 y 𝐿𝑆 = = 7,500; P(1,066≤ 𝜎 2 ≤ 7,500) = 0.95.
19.0 2.70

b) El intervalo del 95% de confianza para la desviación estándar de X está dado por:
P(√1,066 ≤ 𝜎 ≤ √7,500) = 0.95; P(1,032≤ 𝜎 ≤ 2,739) = 0.95; luego, con un 95% de
confianza se estima que la variabilidad media de X se encuentra entre 1,032 y 2,739.

2.5.7.6 Sea X el salario semanal de los trabajadores de una determina organización; la


misma, que se supone se encuentra distribuida según la normal con media µ y varianza
σ2, ambos parámetros desconocidos. Una muestra aleatoria de tamaño 15 arrojó las
siguientes sumatorias: ∑Xi = 8.7 miles de bolivianos y ∑Xi2 = 27.3 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝐵𝑠. )2 .
Determinar un intervalo del 99% de confianza para para la varianza y para la desviación
estándar de esa variable poblacional2.

Solución.-
8.7
a) 𝑋̅ = 15 = 0.58 miles de Bs., es el salario medio semanal estimado con los datos de la
27.3−(15)(0.58)
muestra; la varianza de la muestra es 𝑠 2 = = 1,329 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝐵𝑠. )2 ; y la
15−1

desviación estándar es s = 1,153 miles de Bs. El intervalo del 99% de confianza para 𝜎 2

1
Máximo Mitacc Meza; Tópicos de Inferencia Estadística; pág. 232.
2
Máximo Mitacc Meza, Tópicos de inferencia Estadística, pág. 232.
24
(15−1)(1,329) (15−1)(1,329) 18,606 18,606
está dado por: P(𝑋 2 ≤ 𝜎2 ≤ ) = 0.99; P( ≤ 𝜎2 ≤ ) = 0.99;
0.01 𝑋 20.01 31.3 4.07
(1− )(15−1) ( )(15−1)
2 2

P(0,534≤ 𝜎 2 ≤ 4,571) = 0.99.


b) P(√0,534 ≤ 𝜎 ≤ √4,571) = 0.99; P(0,731≤ 𝜎 ≤ 2,138) = 0.99. Por lo que, con un 99%
de confianza se estima que la desviación estándar del salario semanal de los
trabajadores de esa organización se encuentra entre 0,731 y 2,138 miles de bolivianos.

2.5.7.7 Una muestra aleatoria de 30 empaques de un determinado producto de


consumo masivo, arrojó los siguientes pesos expresados en kilogramos: 250, 265, 267,
269, 271, 275, 277, 281, 283, 284, 287, 289, 291, 293, 293, 298, 301, 303, 306, 307,
307, 309, 311, 315, 319, 322, 324, 328, 335 y 339, cuyas sumatorias son: ∑X i = 8.899;
∑Xi2 = 2.654.071. Por medio del intervalo del 95% de confianza, responder si esta
muestra satisface la especificación técnica; por la cual, el peso medio de la población
de empaques debe ser 300 kgrs3.

2.6 Intervalo de confianza para la estimación de la diferencia de medias de dos


poblaciones independientes

Sea 𝑋11 , 𝑋12 , 𝑋13 , . . . , 𝑋1𝑛1 una muestra aleatoria extraída de una población 𝑋1 ~𝑁(µ1 ; 𝜎12 ), y
sea 𝑋21 , 𝑋22 , 𝑋23 , . . . , 𝑋2𝑛2 otra muestra aleatoria extraída de una población independiente de
la primera y distribuida 𝑋2 ~𝑁(µ2 ; 𝜎22 ). Se define 𝑑µ = µ1 − µ2 como la diferencia de medias de
esas dos poblaciones y 𝑑𝑋̅ = (𝑋̅1 − 𝑋̅2 ) es el estimador de 𝑑µ ; luego 𝑑𝑋̅ ~𝑁(𝑑µ ; 𝜎𝑑2𝑋̅ ), y como
𝑑𝑋
̅ −𝑑µ
consecuencia, Z = ~𝑁(0, 1). En este caso se tienen los siguientes casos particulares:
𝜎𝑑 ̅
𝑋

Caso I.- Las varianzas de las dos poblaciones son conocidas

Los límites de (1 − 𝛼)% de confianza para la estimación de 𝑑µ son: 𝑑𝑋̅ ∓ 𝑍(1−𝛼)𝜎𝑑𝑋̅ ; en donde:
2

𝜎12 𝜎22 𝜎12 𝑁1 −𝑛1 𝜎22 𝑁2 −𝑛2


𝜎𝑑𝑋̅ =√ + para poblaciones infinitas y 𝜎𝑑𝑋̅ =√ + para poblaciones finitas;
𝑛1 𝑛2 𝑛1 𝑁1 −1 𝑛2 𝑁2 −1

𝜎12 𝜎22
cuyas varianzas son: 𝜎𝑑2𝑋̅ = V(𝑋̅1 - 𝑋̅2) = + para el primer caso, y para el segundo
𝑛1 𝑛2

𝜎12 𝑁1 −𝑛1 𝜎22 𝑁2 −𝑛2


caso resulta: 𝜎𝑑2𝑋̅ = V(𝑋̅1 - 𝑋̅2) = 𝑛1 𝑁1 −1
+
𝑛2 𝑁2 −1
.

Finalmente, los límites de (1 − 𝛼)% para la estimación de 𝑑µ son 𝑑𝑋̅ ∓ 𝑍(1−𝛼)𝜎𝑑 ̅


2 𝑋

Caso II.- Las varianzas de las dos poblaciones son desconocidas, pero iguales y
(𝒏𝟏 + 𝒏𝟐 ) ≤ 30

3
Maximo Mitacc; Topicos de Inferencia; Pag.
25
En este caso, los límites del intervalo de (1 − 𝛼)% de confianza para la estimación de 𝑑µ son

(𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22 1 1


𝑑𝑋̅ ∓ 𝑡(1− 𝛼)(𝑛 𝜎̂ ̅ ;
−2) 𝑑𝑋
en donde, 𝜎̂𝑑𝑋̅ =√ (𝑛 + 𝑛 ), para
2 1 +𝑛2 𝑛1 +𝑛2 −2 1 2

poblaciones infinitas.
Demostración.- Si las dos variables poblacionales tienen distribución normal; es decir,
𝑋1 ~𝑁(µ1 ; 𝜎12 ), y 𝑋2 ~𝑁(µ2 ; 𝜎22 ), entonces 𝑑𝑋̅ ~𝑁(𝑑µ ; 𝜎𝑑2𝑋̅ ), luego Z =
𝑑𝑋
̅ −𝑑µ 𝑑𝑋
̅ −𝑑µ (𝑛1 −1)𝑠12
= ~𝑁(0, 1). Por otro lado, se sabe que: ~⨉2(𝑛1 −1) y
𝜎𝑑 ̅ 1 1 𝜎12
𝑋 (𝜎)√(𝑛 +𝑛 )
1 2

(𝑛2 −1)𝑠22 (𝑛1 −1)𝑠12 (𝑛2 −1)𝑠22


~⨉2(𝑛2 −1) ; que permite escribir la siguiente igualdad: V = + =
𝜎22 𝜎12 𝜎22

(𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22 2


~𝑋(𝑛1 +𝑛2 −2)
. Finalmente, utilizando la definición de la variable
𝜎2
𝑍
aleatoria distribuida según la T de Student, se tiene: T =
𝑉
=
√𝑛
1 +𝑛2 −2

𝑑𝑋
̅ −𝑑µ
. Este resultado se obtiene sustituyendo el valor de Z y de V.
(𝑛 −1)𝑠2 2
1 +(𝑛2 −1)𝑠2 ( 1 + 1 ),
√ 1
𝑛1 +𝑛2 −2 𝑛1 𝑛2

Luego, calculando la probabilidad de que la variable aleatoria T se encuentre entre dos


de sus valores; es decir: P(-𝑡(1−𝛼)(𝑛1+𝑛2−2) ≤ 𝑇 ≤ 𝑡(1−𝛼)(𝑛1+𝑛2−2)) = (1-α), se obtiene el siguiente
2 2

intervalo de confianza para la estimación de 𝑑µ :


(𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22 1 1 (𝑛1−1)𝑠12 +(𝑛2 −1)𝑠22 1 1
P(𝑑𝑋̅ - 𝑡(1−𝛼)(𝑛 √ (𝑛 + 𝑛 ) ≤ 𝑑µ ≤ 𝑡(1−𝛼)(𝑛 √ (𝑛 + 𝑛 ) + 𝑑𝑋̅ )=(1-α)
2 1 +𝑛2 −2) 𝑛1 +𝑛2 −2 1 2 2 1 +𝑛2 −2) 𝑛1 +𝑛2 −2 1 2

Caso III.- Las varianzas de las dos poblaciones son desconocidas, pero distintas

En este caso, los límites del intervalo de (1 − 𝛼)% de confianza para la estimación de 𝑑µ son
𝑠12 𝑠22 𝑠12 𝑁1 −𝑛1 𝑠22 𝑁2 −𝑛2
𝑑𝑋̅ ∓ 𝑡(1−𝛼)(𝐺) 𝜎
̂ 𝑑 , en donde, 𝜎̂𝑑 ̅ =√
̅
+ para poblaciones infinitas y 𝜎̂𝑑𝑋̅ =√ +
2 𝑋 𝑋 𝑛1 𝑛2 𝑛1 𝑁1 −1 𝑛2 𝑁2 −1
para poblaciones finitas.
2
𝑠2 𝑠2
(𝑛1 +𝑛2 )
1 2
Los grados de libertad están dados por la siguiente expresión: G = 2 2
𝑠2 𝑠2
(𝑛1 ) (𝑛2 )
1 2
+
𝑛1 −1 𝑛2 −1
Caso IV.- Los tamaños de las dos muestras son grandes y las varianzas de las dos
poblaciones son desconocidas

26
Para muestras grandes la distribución de probabilidad de la variable aleatoria t de Student se
aproxima bastante a la distribución de la normal estándar; por lo que, los límites de (1-α)% de
𝑠12 𝑠22
confianza para 𝑑µ son 𝑑𝑋̅ ∓ 𝑍(1−𝛼) 𝜎
̂ 𝑑 , en donde, 𝜎̂𝑑 ̅ =√
̅
+ para poblaciones infinitas y
𝑋
2 𝑋 𝑛1 𝑛2
𝑠12 𝑁1 −𝑛1 𝑠22 𝑁2 −𝑛2
𝜎̂𝑑𝑋̅ =√ + para poblaciones finitas.
𝑛1 𝑁1 −1 𝑛2 𝑁2 −1

2.6.1 Problemas resueltos

2.6.1.1 Se realiza un experimento para probar la diferencia de producciones medias de trigo por
hectárea en una región agrícola, donde se cultiva ese cereal. Para este propósito se emplean
dos tipos de FERTILIZANTES. Diez hectáreas (𝑛1 =10) se cultivan con el fertilizante tipo 1 y
𝑛2 =16 hectáreas se cultivan con el fertilizante tipo 2. La producción media y la desviación
estándar del primer experimento son 41 y 0.6 toneladas, y del segundo son 45 y 0.9 toneladas,
respectivamente. Con estos datos de las muestras y suponiendo que las producciones por
hectárea tienen distribución de probabilidad NORMAL: a) Estimar la diferencia de producciones
medias (𝑑µ = µ1 - µ2 ) de los dos tipos de fertilizantes con un 95% de confianza, suponiendo que
las varianzas de las poblaciones de producciones son iguales; b) Estimar la diferencia de
producciones medias (𝑑µ = µ1 - µ2 ) de los dos tipos de fertilizantes con un 99% de confianza,
suponiendo que las varianzas de las poblaciones de producciones son distintas.

Solución.-

𝑋1 : Produccion de trigo por hectárea en toneladas con el fertilizante 1 en la población


𝑋2 : Produccion de trigo por hectárea en toneladas con el fertilizante 2 en la población
µ1 : Producción media de trigo por hectárea en toneladas con el fertilizante 1 en la población
µ2 : Producción media de trigo por hectárea en toneladas con el fertilizante 2 en la población
𝜎 2 1 : Varianza de la producción de trigo por hectárea en ton. con el fertilizante 1 en la población.
𝜎 2 2 : Varianza de producción de trigo por hectárea en ton. con el fertilizante 2 en la población.
𝑑µ = µ1 - µ2 diferencia de medias poblacional
𝑑𝑋̅ = 𝑋̅1 − 𝑋̅2 diferencia de medias muestral = 41 – 45 = - 4
9∗0,36+15∗0,81 1 1
a) 𝜎̂𝑑 𝑋̅ = √ ( + ) = 0,3228; 𝑡(1− 0,05)(10+16−2) = t0.975(24) = 2,064; los límites del I. C.
10+16−2 10 16 2

son: - 4 ∓ (2,064)(0,3228); - 4 ∓ 0.667; - 4 ∓ 0,7; luego, el intervalo de confianza es:


P(- 4,7≤ 𝑑µ ≤ −3,3) = 0,95. Este resultado señala con un 95% de confianza que la producción
media por hectárea con el fertilizante 2 es mayor a la producción media con el fertilizante 1.
0,36 0,81 2
( 10 + 16 ) 0,36 0,81
b) G = 0,36 2 0,81 2
= 23,83 ≅ 24; la desviación estándar de 𝑑𝑋̅ es: 𝜎̂𝑑 𝑋̅ = √ + = 0,2943; el
( 10 ) ( 16 ) 10 16
+
10−1 16−1
valore de la T de Student es: 𝑡(1− 0,01)(24) = 𝑡(0,995)(24) = 2,797, los límites del 99% de confianza
2
son: - 4 ∓ (2,797)(0,2943); - 4 ∓ 0,82; luego, el intervalo es: P(- 4,82≤ 𝑑µ ≤ −3,18) = 0,99. Este

27
resultado señala también con un 99% de confianza que la producción media por hectárea con el
fertilizante 2 es mayor a la producción media con el fertilizante 1.

2.6.1.2 En una fábrica se desea estimar si la producción media de los obreros del periodo
diurno es igual a la producción media de los obreros del periodo nocturno. Para esto, se
seleccionaron dos muestras aleatorias, una de cada turno, observándose la producción de cada
obrero. Los resultados obtenidos fueron los siguientes:

Turno Tamaño Suma de valores observados Suma de valores observados al


Muestras de las muestras cuadrado de muestras
Diurno 16 180 2.660
Nocturno 21 150 2.980

Suponiendo que las cantidades producidas por turno tienen distribución de probabilidad
NORMAL, a) Estimar la diferencia de producciones medias (𝑑µ = µ1 - µ2 ) de los dos turnos con
un 95% de confianza, suponiendo que las varianzas de las poblaciones de producciones son
iguales; b) Estimar la diferencia de producciones medias (𝑑µ = µ1 - µ2 ) de los dos turnos con un
99% de confianza, suponiendo que las varianzas de las poblaciones de producciones son
distintas.

Solución.-

𝑋1 : Producción en el turno diurno en la población


𝑋2 : Producción en el turno nocturno en la población
µ1 : Producción media en el turno diurno en la población
µ2 : Producción media en el turno nocturno en la población
𝜎12 : Varianza de la producción en el turno diurno en la población.
𝜎22 : Varianza de producción en el turno nocturno en la población.
𝑑µ = µ1 - µ2 diferencia de medias de producción poblacional.
180 150 16 2.660 21 2.980
𝑋̅1 = = 11,25; 𝑋̅2 = = 7,14; 𝑠12 = [ − (11,25)2 ]=42,336; 𝑠22 = [ − (7,14)2 ]=95,471;
16 21 15 16 20 21

𝑑𝑋̅ = 𝑋̅1 − 𝑋̅2 diferencia de medias de producción muestral = 11,25 – 7,14 = 4,11
42,336 95,471
a) 𝜎̂𝑑 𝑋̅ = √ + = 2,682; 𝑍(1− 0,05) = 1,96; los límites del I. C. son: 4,11 ∓ (1,96)(2,682);
16 21 2

4,11 ∓ 5,26 luego, el intervalo de confianza es: P(- 1,1≤ 𝑑µ ≤ 9,4) = 0,95. Este resultado señala
con un 95% de confianza de que las producciones medias en ambos turnos podrían ser iguales,
debido a que los límites del intervalo de confianza incluyen el cero.

42,336 95,471
b) 𝜎̂𝑑 𝑋̅ = √ + = 2,682; 𝑍(1−0,01) = 2,58; los límites del I. C. son: 4,11 ∓ (2,58)(2,682);
16 21 2
4,11 ∓ 6,92 luego, el intervalo de confianza es: P(- 3 ≤ 𝑑µ ≤ 11) = 0,99. Este resultado señala
también que con un 99% de confianza, la producción media en ambos turnos podrían ser
iguales, debido a que los límites del intervalo de confianza incluyen el cero.

28
2.7 Intervalo de confianza para la estimación de la proporción de una población

Tal como se señaló en el capítulo anterior, e n los trabajos de investigación que se elaboran,
existe la necesidad de estimar diversas proporciones de poblaciones en las cuales se
realizan las investigaciones; tales como, proporción de hogares sin vivienda propia,
proporción de hogares con ingreso mensual inferior a Bs. 5.000.-, proporción de
viviendas de hogares sin alcantarillado, etc., etc. En estos casos, esas proporciones
poblacionales se estiman utilizando la proporción de muestras aleatorias extraídas de
esas poblaciones.

2.7.1 Estimación del tamaño de muestra aleatoria para estimación de P

Para la estimación del tamaño de muestra aleatoria se utiliza la ecuación, que incluye el tamaño
de muestra aleatoria (n), la confiabilidad (1 - α) y la precisión o margen máximo de error (ℰ) del
estimador (𝑃̂); o sea:

a) Para poblaciones infinitas


𝑃𝑄 𝑃𝑄
ℰ=Z 𝜎𝑃̂ : ℰ = Z √ ; elevando al cuadrado ambos lados de la igualdad se tiene: ℰ 2 = 𝑍 2
𝑛 𝑛
.
𝑍 2 𝑃𝑄 𝛼
Hallando la solución para n se obtiene: n = ; donde, el subíndice de Z es (1- ) y 𝑄 = (1 − 𝑃).
ℰ2 2

b) Para poblaciones finitas


𝑃𝑄 𝑁−𝑛 𝑃𝑄 𝑁−𝑛
ℰ=Z 𝜎𝑃̂ : ℰ=Z√
𝑛 𝑁−1
; elevando al cuadrado ambos de la igualdad se tiene: ℰ 2 = 𝑍 2
𝑛 𝑁−1
.

𝑍 2 𝑁𝑃𝑄 𝛼
Hallando la solución para n se obtiene: n = ; donde, el subíndice de Z es (1 − ) y
(𝑁−1)ℰ 2 +𝑍 2 𝑃𝑄 2

𝑄 = (1 − 𝑃 ).
Para calcular el valor de n en cualquiera de los dos casos se procede como sigue:

i) El valor de Z y de ℰ es fijado por el responsable de la elaboración del trabajo de investigación.


Por ejemplo, si (1 - α) = 0,99; entonces α = 0,01; luego 𝑍(1− 0.01)= 𝑍0,995 = 2,58; o sea, la
2
confiabilidad de las estimaciones será 99%. El valor admitido de ℰ podría ser uno de estos
valores: ℰ = ∓ (𝑃̂- P) = ∓ 0.04; 0.06 o cualquier otro valor comprendido entre 0.01 y 0.10.

ii) El problema está en obtener el valor de P, debido a que es la proporción de la población,


cuyo valor es desconocido; sin embargo, se puede proceder como sigue: a) Podría existir en
algún estudio elaborado anteriormente y se puede utilizar solo para estimar el tamaño de
muestra aleatoria, b) Se debería calcular el valor de 𝑃̂ con base a los datos de una muestra
piloto y utilizar provisionalmente este valor para estimar el tamaño de muestra aleatoria, c) En
caso de no poder obtener por las dos alternativas señaladas anteriormente, es posible utilizar el
supuesto de que la proporción de éxitos por estimarse más relevante de la investigación sea P
= 0.5. Es muy frecuente utilizar este supuesto para la estimación del tamaño de la muestra
aleatoria; además, bajo este supuesto se obtiene la muestra más grande, debido a que cuando
P = 0.5; Q = 0.5 la distribución de probabilidad Binomial es simétrica y su representación gráfica
se aproxima bastante a la de la curva normal; la cual, se utiliza para muestras grandes.

29
2.7.2 Intervalo de confianza para la estimación de la proporción de una población

Caso I: n ≤ 30

Los límites de (1 – 𝛼)% de confianza para la estimación de P son: 𝑃̂ ∓ 𝑡(1−𝛼)(𝑛−1) 𝜎̂𝑃̂ ; en donde,
2
𝑃̂(1−𝑃̂) 𝑛 𝑃̂(1−𝑃̂) 𝑁−𝑛 𝑛
𝜎̂ 𝑃̂ = √ ; cuando <0.05, y 𝜎̂ 𝑃̂ = √ ; cuando ≥0.05.
𝑛 𝑁 𝑛 𝑁−1 𝑁

Caso II: n > 30

Los límites del intervalo de (1 – 𝛼)% de confianza para estimación de P son 𝑃̂ ∓ 𝑍(1−𝛼) 𝜎̂𝑃̂ ; en
2
̂ ̂ ̂ ̂
donde, 𝜎̂𝑃̂ = √𝑃(1−𝑃); cuando
𝑛
<0.05, y 𝜎̂𝑃̂ = √𝑃(1−𝑃) 𝑁−𝑛; cuando
𝑛
≥0.05.
𝑛 𝑁 𝑛 𝑁−1 𝑁

2.7.3 Problemas resueltos.-

2.7.3.1 Se ha efectuado un estudio para estimar si las amas de casa de una cierta ciudad
(población) prefieren una marca especial de detergente. Entre las 50 amas de casa
entrevistadas, 30 dijeron que prefieren esa marca: a) Sabiendo que el estimador de la
proporción poblacional (P), obtenido por los métodos de los Momentos y de Máxima
Verosimilitud es 𝑃̂, determine la proporción estimada de amas de casa que prefieren esa marca
especial de detergente para todas las amas de casa de esa ciudad (P), b) Estime la citada
proporción poblacional mediante un intervalo del 98% de confianza e interprete el resultado, c)
Calcule el margen máximo de error para la estimación del inciso a) con una confianza del 98%,
d) Suponiendo que la población es finita de 25.000 amas de casa, estime mediante un intervalo
del 98% de confianza, el número de amas de casa que prefieren esa marca especial de
detergente, e) Determinar el margen máximo de error con 98% de confianza.

Solución.-

30
a) 𝑃̂ = = 0.60, la proporción de la muestra es 0.60; o sea que, se estima que el 60% de las
50
amas de casa de esa ciudad (mercado) prefieren esa marca de detergente.
b) Los límites del intervalo de (1 − 𝛼)% de confianza para la estimación de la proporción
𝑃̂ 𝑄 ̂ (0.6)(0.4)
poblacional (P), son 𝑃̂ ∓ 𝑍(1− 𝛼)√ ; o sea, 0.60 ± 𝑍(1− 0.02)√ ; 0.60± (2.33)(0.069);
2 𝑛 2 50

luego, el intervalo de confianza resulta: P(0.44 ≤ 𝑃 ≤ 0.76) = 0.98; o sea que, con un 98% de
confianza se estima que la proporción de amas de casa que prefieren esa marca de detergente
se encuentra entre el 44% y 76%.
c) El margen máximo de error de 𝑃̂, con un 98% de confianza es: (2.33)(0.069) =± 0.16
d) Los límites del intervalo de (1 − 𝛼)% de confianza para la estimación del total poblacional (X),
𝑃̂ 𝑄 ̂ 𝑛
son 𝑋̂ ∓ 𝑍(1− 𝛼) 𝑁√ , no se usa el factor de corrección de población finita debido a que =
2 𝑛 𝑁
50
= 0.002< 0.05. El número de amas de casa estimado que prefiere esa marca de
25.000
detergente es 15.000; o sea 𝑋̂ = N𝑃̂ = (25.000)(0.6) = 15.000; luego, los límites del intervalo de
confianza son 15.000 ∓ (2.33)(25.000)(0.069); o sea, 15.000± 4.019; luego, el intervalo de 98%

30
de confianza para el total poblacional es: P(10.981 ≤ 𝑋 ≤ 19.019) = 0.98; o sea que, de las
25.000 amas de casa de la población, con un 98% de confianza se estima que el número de
amas de casa que prefieren esa marca de detergente se encuentra entre 10.981 y 19.019.
e) El margen máximo de error estimado con 98% de confianza es 4.019 amas de casa.

2.7.3.2 Se ha efectuado un estudio para estimar si las amas de casa de una cierta ciudad
(población) prefieren una marca especial de detergente. Entre las 50 amas de casa
entrevistadas, 30 dijeron que prefieren esa marca: a) Sabiendo que el estimador de la
proporción poblacional (P), obtenido por el método de los Momentos y de Máxima Verosimilitud
es 𝑃̂, determine la proporción estimada de amas de casa que prefieren esa marca especial de
detergente para todas las amas de casa de esa ciudad (P), b) Estime la citada proporción
poblacional mediante un intervalo del 98% de confianza e interprete el resultado, c) Calcule el
margen máximo de error para la estimación del inciso a) con una confianza del 98%, d)
Suponiendo que la población es finita de 25.000 amas de casa, estimar mediante un intervalo
de 98% de confianza el número de amas de casa que prefieren esa marca especial de
detergente, e) Determinar el margen máximo de error con 98% de confianza.

Solución.-

30
a) 𝑃̂ = = 0.60, la proporción de la muestra es 0.60; o sea que, se estima que el 60% de las
50
amas de casa de esa ciudad (mercado) prefieren esa marca de detergente.
b) Los límites del intervalo de (1 − 𝛼)% de confianza para la estimación de la proporción
𝑃̂ 𝑄 ̂ (0.6)(0.4)
poblacional (P), son 𝑃̂ ∓ 𝑍(1− 𝛼)√ ; o sea 0.60±𝑍(1− 0.02) √ ; 0.60±(2.33)(0.069);
2 𝑛 2 50

0.60±0.16 ; luego, el intervalo de confianza resulta: P(0.44 ≤ 𝑃 ≤ 0.76) = 0.98; o sea que, con
un 98% de confianza se estima que la proporción de amas de casa que prefieren esa marca de
detergente se encuentra entre el 0.44 y 0.76.
c) El margen máximo de error de 𝑃̂, con un 98% de confianza es (2.33)(0.069) =± 0.16

d) El total poblacional de éxitos (∑𝑁


1 𝑌𝑖 = X = NP) se obtiene de la proporción poblacional; o
∑𝑁
1 𝑌𝑖 𝑋
sea de: P = = ; en donde, 𝑌𝑖 es una variable distribuida según la Bernoulli y la X distribuida
𝑁 𝑁
según la Binomial. El estimador de X es: 𝑋̂ = N𝑃̂; el cual, es insesgado, ya que E(𝑋̂ ) = E(N𝑃̂) =
N*E(𝑃̂) = NP. La varianza de este estimador de gran utilidad es la que sigue: 𝜎 2̂ = V(𝑋̂) = V(N𝑃̂)
𝑋
𝑃(1−𝑃) 𝑁−𝑛
= 𝑁2 V(𝑃̂) = 𝑁 2 .
𝑛 𝑁−1
𝑃̂(1−𝑃̂) 𝑁−𝑛
La varianza estimada de 𝑋̂ es: 𝜎̂𝑋2̂ = 𝑁 2 ; y la desviación estándar estimada de 𝑋̂ es:
𝑛 𝑁−1
𝑃̂(1−𝑃̂) 𝑁−𝑛
𝜎̂𝑋̂ = N√
𝑛 𝑁−1

Los límites del intervalo de (1 − 𝛼)% de confianza para la estimación del total poblacional
𝑃̂ 𝑄 ̂
(X=NP), son 𝑋̂ ∓ 𝑍(1− 𝛼) 𝑁√ , no se usa el factor de corrección de población finita debido a
2 𝑛
𝑛 50
que = = 0.002< 0.05. El número de amas de casa estimado que prefiere esa marca de
𝑁 25.000
detergente es 15.000; o sea 𝑋̂ = N𝑃̂ = (25.000)(0.6) = 15.000; luego, los límites del intervalo de
31
confianza son 15.000 ∓ (2.33)(25.000)(0.069); o sea, 15.000± 4.019; luego, el intervalo de 98%
de confianza para el total poblacional es: P(10.981 ≤ 𝑋 ≤ 19.019) = 0.98; o sea que, de las
25.000 amas de casa de la población, con un 98% de confianza se estima que el número de
amas de casa que prefieren esa marca de detergente se encuentra entre 10.981 y 19.019.
e) El margen máximo de error de la estimación puntual con 98% de confianza es 4.019 amas de
casa.

2.7.3.3 De 400 agricultores, elegidos al azar, se encontró que 260 eran propietarios, en tanto
que 140 sólo eran arrendatarios. Con esta información, hallar un intervalo del 95% de confianza
para la proporción de propietarios de granjas en la población muestreada de agricultores.

Solución.-
260
Para 1 -  = 0,95, 𝜶 = 0,05, Z0.975 = 1.96; 𝑃̂ = = 0,65 esta es la proporción de agricultores
400
propietarios en la zona. La desviación estándar estimada de la proporción muestral (𝑃̂) es: 𝜎̂ 𝑃̂ =
0,65∗0,35
√ = 0,0238. Los límites del intervalo de confianza son 0,65±(1,96)(0,0238);
400
0,65±(0,047); luego, el intervalo de confianza resulta: P(0,603≤ 𝑃 ≤ 0,697) = 0,95. De manera
que se concluye con un 95% de seguridad, que de entre todos los agricultores de la población,
el porcentaje de agricultores propietarios de granjas, está entre 60,3% y 69,7%.

2.7.4 Estimación de la diferencia de proporciones de dos poblaciones independientes

Caso I: (𝑛1 + 𝑛2 ) ≤ 30

Las varianzas de las dos poblaciones son desconocidas, pero iguales (𝑷𝟏 𝑸𝟏 = 𝑷𝟐 𝑸𝟐 )
En este caso, los límites del intervalo de (1 − 𝛼)% de confianza para la estimación de 𝑑𝑃 son
(𝑛1 −1)𝑃̂1 𝑄̂1 +(𝑛2 −1)𝑃̂2 𝑄̂2 1 1
𝑑𝑃̂ ∓ 𝑡(1−𝛼)(𝑛
1 +𝑛2 −2)
𝜎
̂𝑑 ;
̂
𝑃
en donde, 𝜎̂𝑑𝑃̂ =√
𝑛1 +𝑛2 −2
(
𝑛1
+
𝑛2
), para poblaciones
2

infinitas.

Caso II. Las varianzas de las dos poblaciones son desconocidas, pero distintas

En este caso, los límites del intervalo de (1 − 𝛼)% de confianza para la estimación de 𝑑𝑃 son
𝑃̂1 𝑄̂1 𝑃̂2 𝑄̂2
𝑑𝑃̂ ∓ 𝑡(1−𝛼)(𝐺) 𝜎
̂𝑑 ; en donde, 𝜎̂𝑑𝑃̂ = √ + para poblaciones infinitas y
2
̂ 𝑃 𝑛1 𝑛2

𝑃̂1 𝑄̂1 𝑁1 −𝑛1 𝑃̂2 𝑄̂2 𝑁2 −𝑛2


𝜎̂𝑑𝑃̂ =√ + para poblaciones finitas.
𝑛1 𝑁1 −1 𝑛2 𝑁2 −1

̂ 1𝑄
𝑃 ̂1 𝑃 ̂2 2
̂ 2𝑄
( + )
𝑛1 𝑛2
Los grados de libertad están dados por la siguiente expresión: G = 2 2
̂ 𝑄
𝑃 ̂1 ̂ 2𝑄
𝑃 ̂2
( 1 ) ( )
𝑛1 𝑛2
+ 𝑛 −1
𝑛1 −1 2

Caso III.- Estimación de la diferencia de proporciones de dos poblaciones con muestras


grandes (n1 + n2) > 30

32
Para muestras grandes la distribución de probabilidad de la variable aleatoria t de Student se
aproxima bastante a la distribución de la normal estándar; por lo que, los límites de (1-α)% de
𝑃̂1 𝑄̂1 𝑃̂2 𝑄̂2
confianza para 𝑑𝑃 son: 𝑑𝑃̂ ∓ 𝑍(1−𝛼)𝜎
̂ 𝑑 , en donde, 𝜎̂𝑑 ̂ = √ + para poblaciones infinitas y
̂
2
𝑃 𝑃 𝑛1 𝑛2

𝑃̂1 𝑄̂1 𝑁1 −𝑛1 𝑃̂2 𝑄̂2 𝑁2 −𝑛2


𝜎̂𝑑𝑃̂ =√ + para poblaciones finitas.
𝑛1 𝑁1 −1 𝑛2 𝑁2 −1

2.7.5 Problemas resueltos

2.7.5.1 Unas encuestas realizadas en dos muestras aleatorias de 100 varones y 90 mujeres
extraídas de un determinado mercado revelan que el 30% de los varones y el 20% de las
mujeres están familiarizadas con las características de un producto de consumo masivo.
Hallar el intervalo del 98% de confianza para la diferencia de proporciones de ambas
poblaciones con base a datos de esas dos muestras aleatorias señaladas anteriormente.
Solución.-
𝑛𝑉 = 𝑛1 = 100; 𝑛𝑀 = 𝑛2 = 90; 𝑃̂𝑉 = 𝑃̂1 = 0,3; 𝑃̂𝑀 = 𝑃̂2 = 0,2; la desviación estándar estimada de
(0.3)(0.7) (0.2)(0.8)
𝑑𝑃̂ es: 𝜎̂𝑑𝑃̂ = √ + = 0,0623; 𝑍(1− 0,02) =𝑍0,99 =2,33; 𝑑𝑃̂ = 0,30 – 0,20 = 0,10. Los
100 90 2

límites del 98% de confianza son: 𝑑𝑃̂ ± 𝑍(1− 𝛼) 𝜎̂𝑑𝑃̂ ; 0,10± (2,33)(0,0623); 0,10± 0,15; luego, el
2

intervalo de confianza resulta: P(−0,05 ≤ 𝑑µ ≤ 0,25) = 0,98; o sea, con un 98% de confianza
se estima que la diferencia de proporciones de varones y mujeres familiarizadas con el
producto se encuentra entre los limites calculados. Debido a que esos límites incluyen el cero,
se espera que las proporciones de ambas poblaciones (mujeres y varones) familiarizados con
el producto sean iguales.

33

También podría gustarte