Está en la página 1de 15

Universidad de la Costa Inferencia Estadística

Apuntes de Clase de Estadística Inferencial

Inferencia Estadística: Es la rama de la estadística cuyas técnicas permiten la toma de decisiones


acerca de la población solo con base en la observación y análisis de una muestra. Estas técnicas
permiten hacer inducciones en los que el grado de incertidumbre es cuantificable.
Inducción. Parte de lo particular a lo general.
Deducción. Parte de lo general a lo particular.
Incertidumbre. Es todo aquello que no se sabe que va a pasar.
Certidumbre. Cuando se sabe que algo va a pasar.

Muestreo aleatorio simple (MAS): Este tipo de muestreo se caracteriza porque cualquier mues-
tra de tamaño n de la población en estudio, tiene la misma probabilidad de ser seleccionada
que cualquier otra muestra del mismo tamaño. Es decir, con el MAS estamos eliminando cual-
quier problema en el que se sobreestime o subestime de forma consciente o inconsciente alguna
característica de la población y por lo tanto, las observaciones que se realizan son de forma in-
dependiente y al azar.

Muestra aleatoria (m.a.): Una muestra aleatoria de tamaño n de una población con distribución
fX (x), es una colección de n variables aleatorias independientes X1 , ..., Xn , que tienen la misma
distribución fX (x). fX (x) representa la función de probabilidad de una v.a. discreta o la función
de densidad de una v.a. continua, segun sea el caso.
Antes de obtener los datos, X1 , ..., Xn son variables aleatorias; una vez que se obtienen las obser-
vaciones x1 , , ..., xn son realizaciones de dichas v.a.’s. Una realización es una muestra observada,
un valor particular de la muestra teórica.
Por ejemplo: Si tenemos una m.a. X1 , ..., Xn , entonces,
1 P
X= n
Xi es una media muestral, pero de las v.a´s. (Media teórica).
x = n1 xi es una media muestral, basada en las realizaciones de las v.a.´s.
P

Ejemplo (∗): Se tiene la m.a. X1 , , ..., X5 , donde Xi ∼ N (µ, σ 2 ), i = 1, 2, ..., 5. Supongamos que
una realización de las v.a.´s es 3.5 2.2 3.3 2.6 3.4,
La media basada en las v.a.’s es X = 15 Xi
P

La media basada en las realizaciones es x = 15 xi = 51 (3.5 + 2.2 + ... + 3.4) = 15


P
5
=3

Parámetro: Constante numérica desconocida de un modelo probabilístico o una función de la


constante desconocida del modelo, que expresa un hecho numérico de interés acerca de la po-
blación en estudio.
Por ejemplo:
Sea X ∼ Exp (λ), el parámetros es λ.
Sea X ∼ N (µ, σ 2 ), los parámetros son µ y σ 2 .
Sea X ∼ Bin (n, p), los parámetros son n y p.

Dos conceptos fundamentales de la estadística inferencial son el de estimación de parámetros y


el de contrastación o pruebas de hipótesis.

Dr. David Israel Celis Euan 1


Universidad de la Costa Inferencia Estadística

La estimación de parámetros puede ser puntual o por intervalo.


Supongase que θ(theta) representa al parámetro de alguna distribución de probabilidad. Theta
es una constante cuyo valor numérico es desconocido y se pretende averiguar.

Estimación puntual: Su objetivo es producir un número a partir de la muestra, que tendrá una
alta probabilidad de ser muy parecido al valor desconocido del parámetro.

Estadística o estadístico: Es una función de los valores de la muestra que no depende de pará-
2
metros desconocidos. Por ejemplo: T = 2 Xi , W = X , etc.
P

Estimador o estimador puntual de θ: Es una estadística construida con el fin de conocer el pará-
metro. Notación: θ.
b Ejemplos: µ b 2 = Sn2 , etc.
b = X, σ

Estimación puntual de θ: Es el valor numérico que toma el estimador cuando se obtiene la


muestra y se evalua en el. Diferentes selecciones de una m.a. darán como resultado diferentes
valores del estimador. En el ejemplo (∗) la estimación puntual es 3.
b Es la desviación estándar de los valores que toma el estimador a partir
Error estándar de θ:
de muestras de igual tamaño extraídas aleatoriamente de una misma población;
  es decir, es la
desviación estándar de la distribución muestral del estimador. Notación: EE θb .

Distribuciones Muestrales
Se llama distribución muestral a la distribución de probabilidad de la estadística en estudio.
Ejemplos:
La estadística µb = X tiene alguna distribución de probabilidad.
La estadística σb 2 = Sn2 tiene alguna distribución de probabilidad.

Resultado 1: Si se tiene una m.a. X1 , ..., Xn de una población con distribución de probabilidad
cualquiera, con media µ y varianza σ 2 , entonces, la distribución muestral de X tendra:

µX = µ media
 
2 σ2
V ar X = σX = n
varianza
r  
V ar X = σX = √σ error estándar
n

Demostración:

Resultado 2: Si se tiene una m.a. X1 , ..., Xn de una población con


 distribución
 de probabilidad
2 σ2
normal (µ, σ ), entonces X tiene distribución muestral normal µ, n .

Resultado 3. Teorema del Límite Central: Si se tiene una m.a. X1 , , ..., Xn de una población con
distribución de probabilidad cualquiera, con media µ y varianza σ 2 , a medida que
 el2 tamaño de
muestra n aumenta, la distribución muestral de X se aproxima a una normal µ, σn . Y, por lo

Dr. David Israel Celis Euan 2


Universidad de la Costa Inferencia Estadística
√ h X−µ i
tanto, la forma límite de la variable Z = n σ es una distribución normal estándar cuando
n se hace infinita.
Ejemplo: Un cierto tipo de tornillos se fabrica con un diámetro promedio de 10mm. y una des-
viación estándar de un milímetro, ¿cual es la probabilidad de que una muestra aleatoria de 400
tornillos tenga un diámetro promedio de no más de 10.05mm?.
Sean X1 , ..., X400 las variables aleatorias que representan los diámetros en milímetros
 de los400
tornillos, para µ = 10, σ = 1 y n = 400. La probabilidad que se pide es P X ≤ 10.05 =
 
X−µ 10.05−10
P √
σ/ n ≤ √
1/ 400
= P (Z ≤ 1) = 0.8413

Resultado 4. Si se toma una m.a. X1 , ..., Xn , de una población con distribución de probabilidad
Bernoulli (P ) con el objeto de conocer su media poblacional P , la media muestral que servirá
para estimar la media poblacional es la proporción de éxitos en la muestra y se denota por
Pb = N úmero de éxitos
n
en la muestra
= número de

elementos de la muestra que poseen la caracterı́stica de interés
 tamaño de la muestra .
La varianza poblacional se estima con P 1 − P = P Q. Luego, por el teorema del límite central,
b b b b
 
si n es grande, la distribución muestral de Pb es N P, PnQ .

1.3. Propiedades de los estimadores


Insesgadez: Si el valor esperado del estadístico muestral es igual al parámetro poblacional que se
estudia, se dice que el estadístico muestral es un estimador insesgado del parámetro poblacional.
El estadístico muestral es un estimado insesgado del parámetro poblacional θ si,
 
E θb = θ
 
Donde E θb es el valor esperado del estadístico muestral θ.
b

Ejemplo 1. Sea X1 , ..., Xn una m.a. de N (µ, 1).


a) Prueba si X 2 − 1 es un estimador insesgado de µ2 para una sola observación.
E (X 2 − 1) = E (X 2 ) − 1 pero E (X 2 ) = V ar (X) + [E (X)]2 = 1 + µ2 .
Entonces E (X 2 − 1) = 1 + µ2 − 1 = µ2 . Por lo tanto X 2 − 1 es un estimador insesgado de µ2 .

b) Prueba si T = 21 (2X1 + X2 − X3 ) es insesgado de µ.


h i
1
E 2
(2X1 + X2 − X3 ) = 21 E (2X1 + X2 − X3 ) = 21 (2µ + µ − µ) = 12 (2µ) = µ

Ejemplo 2. Se tiene una m.a. X1 , ..., Xn de una población con distribución de probabilidad cual-
quiera, con media µ y varianza σ 2 . Se desea estimar la varianza poblacional. Se proponen dos
estimadores Sn2 y Sn−1
2
. Determina cual de los dos es mejor de acuerdo a la definición de insesga-
dez.
Se van a determinar las propiedades de insesgadez de ambos estimadores.
2 2 2
P  h  i nP  o
E (Sn2 ) = n1 E Xi2 − nX 1
Xi2 ) − E nX 1
E (Xi2 ) − nE X
P
= n
E( = n

2
 
Se van a calcular de manera separada las expresiones E (Xi2 ) y E X .
P

Primero para E (Xi2 ):


P

Dr. David Israel Celis Euan 3


Universidad de la Costa Inferencia Estadística

E (Xi2 ) = V ar (Xi ) + [E (Xi )]2 = σ 2 + µ2


E (Xi2 ) = (σ 2 + µ2 ) = nσ 2 + nµ2
P P

2
 
Ahora para E X :
 2
  P 2
1 1
E ( Xi )2
P
E X =E n
Xi = n2
= n12 E (X12 + X22 + ... + Xn2 + 2X1 X2 +
2X1 X3 + ... + 2Xn−1 Xn )
1 P 2
= n2 E { Xi + 2 (X1 X2 + X1 X3 + ... + Xn−1 Xn )}
= n12 {E [ Xi2 ] + E [2 (X1 X2 + X1 X3 + ... + Xn−1 Xn )]}
P

= n12 { E [Xi2 ] + 2E [X1 X2 + X1 X3 + ... + Xn−1 Xn ]}


P

= n12 { E [Xi2 ] + 2 [E (X1 X2 ) + E (X1 X3 ) + ... + E (Xn−1 Xn )]}


P

= n12 { E [Xi2 ] + 2 [E (X1 ) E (X2 ) + E (X1 ) E (X3 ) + ... + E (Xn−1 ) E (Xn )]}.
P

n 
= n12 { (σ 2 + µ2 ) + 2 [µ2 + µ2 + ... + µ2 ]}. Se tienen   combinaciones de productos Xi Xj ,
P

2
i 6= j.
n
 
n 2
o 2
= n12 (nσ 2 + nµ2 ) + 2 n 2−n µ2 , debido a que   = n(n−1)(n−2)!
2!(n−2)!
= n(n−1)
2
= n 2−n
2
1 2 2 2 2
= n2 {(nσ + nµ ) + (n − n) µ }
= n12 {nσ 2 + nµ2 + n2 µ2 − nµ2 }
= n12 [nσ 2 + n2 µ2 ] = n1 [σ 2 + nµ2 ]
Finalmente, regresando a calcular E (Sn2 ),
n o
1
E (Sn2 ) = n
(nσ 2 + nµ2 ) − n n1 (σ 2 + nµ2 ) = 1
n
{nσ 2 + nµ2 − σ 2 − nµ2 }
1 σ 2 (n−1) σ2
= n
{nσ 2 − σ 2 } = n
= σ2 − n

Nótese lo siguiente:
Despejando n−1 n
de la ecuación anterior,
n 2 2
n−1
E (Sn ) = σ
2
h P i
n 1
n−1
E n
Xi2 − nX = σ2
2
  hP i
n 1
n−1 n
E Xi2 − nX = σ2
2
hP i
1
n−1
E Xi2 − nX = σ2
2
h P i
1
E n−1
Xi2 − nX = σ2
h i
2
E Sn−1 = σ 2 por lo tanto Sn−1
2
es un estimador insesgado de σ 2 .

Sesgo de un estimador: Es una función que representa la diferencia entre el valor esperado
de un estimador y el parámetro que estima. Dada una muestra X1 , ..., Xn y un estimador θb del
parámetro poblacional θ, el sesgo es:
 
S (θ) = E θb − θ

Dr. David Israel Celis Euan 4


Universidad de la Costa Inferencia Estadística

De tal forma que si S (θ) = 0 entonces θb es un estimador insesgado de θ.

2
Ejemplo 3. Usando los datos del ejemplo 2, determina el sesgo de Sn2 y de Sn−1 con respecto a σ 2 .
σ2 2
S (Sn2 ) = E (Sn2 ) − σ 2 = σ 2 − n
− σ 2 = − σn
   
2 2
S Sn−1 = E Sn−1 − σ 2 = σ 2 − σ 2 = 0. Sn−1
2
es mejor que Sn2 porque su sesgo es cero.

Error cuadrado medio


Anteriormente se estudió a los estimadores insesgados. Sin embargo, no todos los estimadores
son insesgados y por consiguiente se quiere conocer otra forma de saber que estimador puede
ser mejor que algún otro. Esta propiedad de mejor estimador se puede medir por medio de la
función llamada Error Cuadrado Medio.
Supóngase que se tiene un m.a. X1 , X2 , ..., Xn de densidades fX (x) y se desea estimar θ. Sea θb un
estimador de θ, se define el error cuadrado medio como,
 2   2
ecm (θ) = E θ−θ ,
b i.e., el valor esperado de θb − θ
 2 
Proposición: ecm (θ) = E θb − θ = V ar (θ) + [S (θ)]2
Demostración: No se hará, consultar algún libro de inferencia teórica.
Nota:
a) Un error cuadrático medio pequeño indicará que en media el estimador θb no se encuentra le-
jos del parámetro θ.
b) De la proposición de ecm podemos observar que cuando el estimador es insesgado, el ecm
coincide con la varianza.

Dr. David Israel Celis Euan 5


Universidad de la Costa Inferencia Estadística

c) Cuando los estimadores son sesgados el error cuadrado medio nos dice cual de ellos es mejor,
ya que a menor error cuadrado medio el estimador es mejor.

Ejemplo 4. Sea X1 , ..., Xn una m.a. de N (µ, σ 2 ). Se tienen los siguientes estimadores de µ:
T1 = X
T2 = 12 (2X1 + X2 − X3 )
Calcula el ecm de ambos estimadores con respecto a µ y determina cual es el mejor.
  h  i2 h i
σ2
ecm (T1 ) = V ar (T1 ) + [S (T1 )]2 = V ar X + S X = 1
n
(σ 2 + nµ2 ) − µ2 + 0 = n

ecm (T2 ) = V ar (T2 ) + [S (T2 )]2 = 32 σ 2 + 0 = 1.5σ 2


Nótese que el mejor estimador es T1 debido a que tiene menor Error Cuadrado Medio.
Cálculo de V ar (T2 ):
h i
1
V ar 2
(2X1 + X2 − X3 ) = 14 V ar (2X1 + X2 − X3 ) = 41 (4σ 2 + σ 2 + σ 2 ) = 41 (6σ 2 ) = 23 σ 2

Eficiencia
Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos estimadores
puntuales insesgados de un mismo parámetro poblacional. En estas circunstancias preferirá usar
el estimador puntual que tenga el menor error estándar (o desviación estándar), ya que dicho
estimador tenderá a dar estimaciones más cercanas al parámetro poblacional (más preciso). Se
dice que el estimador puntual con menor error estándar tiene mayor eficiencia relativa que los
otros.
Seanθb1 y θb2 dos estimadores
 insesgados. Se dice que
 θ1 es más
b
 eficiente que θ2 si se verifica que
b

V ar θb1 < V ar θb2 lo cual es equivalente a EE θb1 < EE θb2 .


V ar(θb1 )
La eficiencia relativa se mide por la razón: .
V ar(θb2 )

La eficiencia de los estimadores está limitada por las características de la distribución de proba-
bilidad de la muestra de la que proceden.
Ejemplo 5. Usando los datos del ejemplo 4. Calcular el error estándar de los estimadores y deter-
minar cual es el mas eficiente.
  r   q
σ2 √σ
EE (T1 ) = EE X = V ar X = n
= n
h i r h i q
1 1 3 2
EE (T2 ) = EE 2
(2X1 + X2 − X3 ) = V ar 2
(2X1 + X2 − X3 ) = 2
σ = 1.22474σ
Se puede ver que T1 es el más eficiente.

Consistencia (en media cuadrática)


Un estimador puntual es consistente si el valor del estimador puntual tiende a estar más cerca
del parámetro poblacional a medida que el tamaño de la muestra aumenta. En otras palabras,
una muestra grande tiende a proporcionar mejor estimación puntual que una pequeña.
Teoricamente, un estimador es consistente cuando su ecm se aproxima a cero cuando el tamaño
de la muestra aumenta. Para verificar si un estimador es consistente (en media cuadrática), bas-
tará con demostrar que la varianza y el sesgo del estimador tienden a cero cuando n → ∞; i.e.

Dr. David Israel Celis Euan 6


Universidad de la Costa Inferencia Estadística
   
lim V ar (θ) + [S (θ)]2 = 0
lim ecm θb = n→∞
n→∞

Ejercicio:
Considere una m.a de N (µ, σ 2 ). Demuestre que la media muestral es consistente en media cua-
drática.
     h  i2  q 
σ2
lim ecm X = lim V ar X + S X = n→∞
lim n
+0 =0
n→∞ n→∞

Observe que en el caso de la media muestral, la varianza (o error estándar) de X está dado por σX = σ/√n.
Puesto que σX está vinculado con el tamaño de la muestra, de manera que muestras mayores dan valores
menores de σX , entonces muestras de tamaño grande tienden a proporcionar estimadores puntuales más
cercanos a la media poblacional µ.
Mediante un razonamiento similar, concluya que la proporción muestral Pb es un estimador con-
sistente de la proporción poblacional P .

1.4. Exactitud, precisión y confiabilidad


Exactitud: La exactitud es lo cerca que el resultado de una medición está del valor verdadero.
En términos estadísticos, la exactitud está relacionada con el sesgo de una estimación. Cuanto
menor es el sesgo más exacta es una estimación.

Precisión: La precisión es lo cerca que los valores medidos están unos de otros. Se refiere a la
dispersión del conjunto de valores obtenidos de mediciones repetidas de una magnitud. Cuanto
menor es la dispersión mayor la precisión. Una medida común de la variabilidad es la desvia-
ción estándar de las mediciones y la precisión se puede estimar como una función de ella. Esta
relacionada con el error estándar.

Dr. David Israel Celis Euan 7


Universidad de la Costa Inferencia Estadística

Confiabilidad: Está referida al grado en que un método estadístico produce estimaciones con-
sistentes si se realizan mediciones repetidas.
Un método estadístico es confiable si tiene la capacidad de proporcionar resultados similares
cuando se aplica reiteradas veces al mismo fenómeno. Un instrumento confiable proporciona
medidas confiables.

1.5. Estimadores de intervalo


Anteriormente se mencionó que un estimador puntual es un estadístico muestral que se usa
para estimar un parámetro poblacional. Por ejemplo, la media muestral es un estimador puntual
de la media poblacional µ y la proporción muestral es un estimador puntual de la proporción
poblacional P . Como no se puede esperar que un estimador puntual suministre el valor exacto
del parámetro poblacional, se suele calcular una estimación por intervalo.
El objetivo de la estimación por intervalo es aportar información de qué tan cerca se encuentra
la estimación puntual, obtenida de la muestra, del valor del parámetro poblacional.
Definición 1. Un intervalo aleatorio es aquel en el que al menos uno de sus dos extremos es una
variable aleatoria.
Definición 2. Se dice que se tiene un intervalo de confianza (I.C.) (1 − α)×100 % para el parámetro
θ cuando las funciones de la v.a. X, g1 (X) y g2 (X), son tales que,

Dr. David Israel Celis Euan 8


Universidad de la Costa Inferencia Estadística

P (g1 (X) < θ < g2 (X)) = 1 − α

Observese que en los extremos están las variables aleatorias.


Para una realización x1 , x2 , ..., xn de X1 , X2 , ..., Xn se dice que el intervalo de números reales
(g1 (X) , g2 (X)) es un intervalo de confianza con coeficiente (nivel) de confianza 1 − α.
El nivel de confianza de un intervalo indica a la larga en qué porcentaje de estos intervalos estará
el parámetro θ.

1.5.1. Estimación de medias


Estimación por intervalo de una media poblacional: σ conocida.
Sea X1 , ..., Xn una m.a. de una normal (µ, σ 2 ) con σ conocida, entonces un intervalo de confianza
para µ con coeficiente de confianza 1 − α esta dado por:
 q q 
σ2 σ2
P X − Z α2 n
< µ < X + Z α2 n
=1−α
q q
σ2 σ2
X − Z α2 n
< µ < X + Z α2 n
 q q 
σ2 σ2
X −Z α
2 n
, X +Z α
2 n
,
q
σ2
X ± Z α2 n

X ± M argen de Error
q
σ2
Para una realización de X1 , ..., Xn , el I.C. es: x ± Z α2 n

Ejemplo de aplicación:
Cada semana, la empresa Lloyd’s Department Store selecciona una muestra aleatoria simple de
100 clientes con objeto de conseguir información acerca de la cantidad que gastan en cada visita a
la tienda. Lloyd’s ha estado realizando estudios semanales durante varios años. Con base en sus
datos anteriores, Lloyd´s supone que el valor conocido de la desviación estándar poblacional es
σ = $20. Los datos anteriores (históricos) indican también que la población tiene una distribución
normal. En la última semana, en su estudio de 100 clientes, Lloyd’s obtuvo como media muestral
x = $82. La media muestral de la cantidad gastada permite una estimación puntual de la media
poblacional de la cantidad gastada en cada visita, µ.
q
400
82 ± 1.96 100
=82 ± 1.96 (2)= 82 ± 3.92 → (78.08 , 85.92)

En la tabla de probabilidad normal estándar se encuentra que 95 % de los valores de cualquier


variable aleatoria distribuida normalmente aparecen dentro de ±1.96 desviaciones estándar de
la media. Por tanto, si la distribución muestral se encuentra distribuida normalmente, 95 % de
los valores de deben estar dentro de ±1.96σx de la media µ. En el ejemplo de Lloyd´s, se sabe
que la distribución muestral de está distribuida normalmente y que el error estándar σx = 2.
Como ±1.96σx = 1.96(2) = 3.92 , se puede concluir que 95 % de los valores de obtenidos usando
muestras de n = 100 estarán dentro de ±3.92 de la media poblacional. Véase la siguiente figura.

Dr. David Israel Celis Euan 9


Universidad de la Costa Inferencia Estadística

El IC de 90 % de confianza es: 82 ± 3.29 → (78.71 , 85.29)


El IC de 95 % de confianza es: 82 ± 3.92 → (78.08 , 85.92)
El IC de 99 % de confianza es: 82 ± 5.15 → (76.85 , 87.15)
Al comparar los resultados para los niveles de 90 %, 95 % y 99 % de confianza, es claro que para
tener mayor grado de confianza, el margen de error y con esto la amplitud del intervalo de
confianza debe ser mayor.

Estimación por intervalo de una media poblacional: σ desconocida.


2
Si X es la media de una m.a. de tamaño n de la cual no se conoce σ pero se conoce Sn−1 , tomada
2
de una población normal (µ, σ ), entonces el intervalo de confianza de (1 − α) × 100 % esta dado
por:
r !
2
Sn−1
q
(n−1) σ2
X − tα n
, X + Z α2 n
,
2

r
2
Sn−1
(n−1)
X ± tα n
2

2 (n−1)
Donde Sn−1 es la varianza muestral, (1 − α) es el coeficiente de confianza y t α es el valor de
2
α
t que proporciona un área de 2 en la cola superior de la distribución t para n − 1 grados de
libertad.
r
(n−1) s2n−1
Para una realización de X1 , ..., Xn , el I.C. es: x ± t α n
2

Ejemplo de aplicación:

Dr. David Israel Celis Euan 10


Universidad de la Costa Inferencia Estadística

Scheer Industries está considerando un nuevo programa asistido por computadora con el fin
de capacitar a los empleados de mantenimiento para realizar la reparación de las máquinas.
Con objeto de evaluar este programa, el director de manufactura solicita una estimación de la
media poblacional del tiempo requerido para que los empleados de mantenimiento completen la
capacitación asistida por computadora. Considerando una muestra de 20 empleados que siguen
el programa de capacitación se tiene una media muestral de x = 51.5 días y una desviación
estándar de sn−1 = 6.84 dias.
q
46.7856
El I.C del 95 % de confianza está dado por 51.5 ± 2.093 20
= 51.5 ± 3.2 → (48.3 , 54.7)
El margen de error es 3.2 días y el intervalo de confianza de 95 % va de 48.3 días a 54.7 días.

1.5.2. Estimación de una diferencia de medias


Sean X1 , ..., Xn1 una m.a. de N (µ1 , σ12 ) y otra m.a. Y1 , ..., Yn2 de N (µ2 , σ22 ) y además las muestras
son independientes entre sí, no se conocen σ12 y σ22 , con n1 y n2 grandes. Entonces un intervalo al
(1 − α) × 100 % de confianza para µ1 − µ2 , está dado por:
r r
S12 S22 S12 S22
   
X − Y − Z α2 n1
+ n2
< µ1 − µ2 < X − Y + Z α2 n1
+ n2

r r !
S12 S22 S12 S22
   
X − Y − Z α2 n1
+ n2
< µ1 − µ2 < X − Y + Z α2 n1
+ n2

r
S12 S22
 
X − Y ± Z α2 n1
+ n2

r
s21 s22
Para una realización de las m.a.´s el I.C. es (x − y) ± Z α2 n1
+ n2

Donde S12 y S22 son las varianzas muestrales; es decir, son los estimadores de σ12 y σ22 , respectiva-
mente.

Nota: Para el caso de muestras pequeñas con σ12 y σ22 desconocidas se usa la fórmula:
r
S12 S22
 
(g.l)
X − Y ± tα n1
+ n2
2

 2 2
2
S1 S2
n1 + n2
donde g.l. =  2  2
1 S2 S2
n1−1
1
n1 +n 1 2
n2
2−1

Ejemplo de aplicación:
El salario medio semanal en una muestra de n = 30 empleados de una empresa grande es x =
$280.00 y la desviación estándar muestral es s = $14.00. En otra empresa grande en una muestra
aleatoria de n = 40 empleados el salario medio semanal es $270.00 y la desviación estándar
muestral es s = $10.00. Obtenga un I.C. del 99 % de confianza para estimar la diferencia entre los
niveles de los salarios medios semanales en las dos empresas.

Dr. David Israel Celis Euan 11


Universidad de la Costa Inferencia Estadística
q
142 102
1 − α = 0.99 n1 = 30 n2 = 40 (280 − 270) ± 2.58 30
+ 40
α = 0.01 x = $280.00 y = $270.00 10 ± 2.58 (3.01)
α
2
= 0.005 s1 = $14.00 s2 = $10.00 10 ± 7.77
Z α2 = Z0.005 = 2.58 ($2.23 , $17.77)

Asi, es posible afirmar que el salario promedio semanal en la primera empresa es mayor que
el salario promedio semanal en la segunda empresa, en una cantidad entre 2.23 y 17.77, con
una confianza de 99 % en esta estimación de intervalo. Oserve que los tamaños de muestra son
suficientemente grandes para permitir el uso de Z.

1.5.3. Estimación de proporciones

El intervalo al (1 − α) × 100 % de confianza para P (proporción poblacional) es,


r r
P
bQ P
bQ
Pb − Z α2 <P < Pb + Z α2
b b
n n

r r !
P
bQ P
bQ
Pb − Z α2 , Pb + Z α2
b b
n n

r
P
bQ
Pb ± Z α2
b
n
q
pq
El I.C. para una realización de una m.a. es: pb ± Z α2 bb
n
.

Ejemplo de aplicación:
Una empresa de investigación de mercado establece contacto con una muestra aleatoria de 100
hombres de una comunidad grande y encuentra que una proporción muestral de 0.40 prefiere
las hojas de rasurar fabricadas por la empresa cliente a las de otras marcas. A continuación, se
calcula un I.C. de 95 % de confianza para la proporción de hombres en toda la comunidad que
prefieren las hojas de rasurar de la empresa cliente.
q
Pb = 0.40 0.40 ± 1.96 0.24
100
Qb = 1 − Pb = 0.60 0.40 ± 1.96 (0.05)
Pb Qb = 0.40 (0.60) = 0.24 0.40 ± 0.098
Z α2 = Z0.025 = 1.96 (0.30 , 0.50)

Por tanto, con 95 % de confianza se estima que la proporción de todos los hombres de la comu-
nidad que prefieren las hojas de la empresa cliente está aproximadamente entre 0.30 y 0.50.

1.5.4. Estimación de una diferencia de proporciones


Para estimar la diferencia
 entre
 las proporciones de dos poblaciones, el estimador puntual inses-
gado de (P1 − P2 ) es P1 − P2 . Entonces, en este caso, se tienen consideran muestras X1 , ..., Xn1
b b

y Y1 , ..., Yn2 (de tamañosn1 y n2 ) con estimadores Pb1 y Pb2 , respectivamente. El intervalo al (1 − α)×
100 % de confianza para (P1 − P2 ) esta dado por:

Dr. David Israel Celis Euan 12


Universidad de la Costa Inferencia Estadística
  r   r
P
b1 Q P
b2 Q P
b1 Q P
b2 Q
Pb − Pb − Z α2 + < P1 − P2 < Pb − Pb − Z α2 +
b1 b2 b1 b2
1 2 n1 n2 1 2 n1 n2

r r !
   
P
b1 Q P
b2 Q P
b1 Q P
b2 Q
Pb1 − Pb2 − Z α2 + , Pb1 − Pb2 − Z α2 +
b1 b2 b1 b2
n1 n2 n1 n2

  r
b1 Q
P b2 Q
P
Pb1 − Pb2 ± Z α2 +
b1 b2
n1 n2

r
p q1
Para una realización de las m.a.’s. el I.C. es: (pb1 − pb2 ) ± Z α2 b1 b
n1
+ pbn2 bq22

Ejemplo de aplicación:
Se considera cierto cambio en un proceso de fabricación de partes componentes. Se toman mues-
tras del procedimiento existente y del nuevo para determinar si éste tiene como resultado una
mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80
de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza
de 90 % para la diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo.
n1 = 1500, n2 = 2000
75 80
pb = 1500 = 0.05, pb1 = 2000 = 0.04
qb1 = 0.95, qb2 = 0.96
Z0.05 = 1.64 o 1.65
 q 
(0.05)(0.95) 0.04(0.96)
(0.05 − 0.04) ± 1.64 + con 1.64 1500 2000
 √ 
0.01 ± 1.64 0.0000316 + 0.0000192 con 1.64
(−0.00168 , 0.02168) con 1.64
(−0.001748 , 0.021748) con 1.65
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo procedimiento
producirá una disminución significativa en la proporción de artículos defectuosos comparado
con el método existente.

1.6. Tamaño de muestra con margen de error y nivel de confianza fijas


Cálculo del Tamaño de la Muestra para Estimar una Media
Se describe cómo elegir un tamaño de muestra suficientemente grande para obtener un margen
de error deseado. Para explicar esto, usemos la fórmula del I.C. para la media poblacional con σ
conocida.
q
σ2
X ± Z α2 n
q
σ 2
La cantidad Z n
es llamada el margen de error. De manera que, como se ve, Z α2 , la desviación
α
2
estándar poblacional σ, y el tamaño de la muestra n se combinan para determinar el margen de
error. Una vez que se selecciona el coeficiente de confianza 1 − α, se determina Z α2 . Por tanto, si
se tiene el valor de σ, es posible encontrar el tamaño de muestra n necesario para proporcionar
cualquier margen de error deseado. A continuación se presenta la deducción de la fórmula que
se usa para calcular el tamaño n de muestra deseado. Sea E =el margen de error deseado,
q
σ2
E = Z α2 n
= Z α2 √σn

Dr. David Israel Celis Euan 13


Universidad de la Costa Inferencia Estadística

E n = Z α2 σ
√ Zα σ
n = E2
 2 Z 2α σ 2
Zα σ
n= 2
E
= 2
E2
(1.6.1)

En la ecuación anterior, n proporciona el tamaño de muestra al nivel de confianza elegido con


un margen de error, E, que el usuario está dispuesto a aceptar.
Para usar la ecuación es necesario contar con el valor de la desviación estándar poblacional σ.
Sin embargo, aun cuando este valor no se conozca, puede usarse la ecuación (1.6.1) siempre que
se tenga un valor preliminar o un valor planeado de σ. En la práctica, se suele usar alguno de los
procedimientos siguientes para obtener este valor planeado de σ:
1. Usar como valor planeado de σ una estimación de la desviación estándar poblacional calcula-
da a partir de datos de estudios anteriores.
2. Emplear un estudio piloto seleccionando una muestra preliminar. La desviación estándar
muestral obtenida de la muestra preliminar puede usarse como valor planeado de σ.
3. Use su juicio para el valor de σ. Por ejemplo, se puede empezar por estimar el mayor y el
menor valor en los datos de la población. Esta diferencia entre el mayor y el menor valor pro-
porciona una estimación del rango de los datos. Por último, este valor dividido entre 4 suele
considerarse como una aproximación burda a la desviación estándar y tomarse como un valor
planeado aceptable de σ.
Ejemplo de aplicación:
En un estudio previo para investigar el costo de la renta de automóviles en Estados Unidos se
encontró que el costo medio de la renta de un automóvil mediano era aproximadamente $55 por
día. Suponga que la organización que realizó dicho estudio quiere realizar un nuevo estudio para
estimar la media poblacional de las rentas por día de automóviles medianos en Estados Unidos.
Antes de iniciar, especificó que la media poblacional de las rentas por día debe estimarse con un
margen de error de $2 y que se desea un nivel de 95 % de confianza. El analista revisó los datos
muestrales del estudio anterior y encontró que la desviación estándar poblacional del costo de
la renta diaria era $9.65.
E=2 1 − α = 0.95 Z α2 = 1.96 σ = 9.65
(1.96)2 (9.65)2
n= 22
= 89.43
El tamaño de la muestra necesario para obtener un margen de error de $2 debe ser de por lo
menos 89.43 rentas de automóviles medianos. En casos como éste, en los que el valor de n no es
un número entero, se redondea al siguiente valor entero; así que el tamaño de muestra que se
aconseja es 90 rentas de automóviles medianos.

Cálculo del Tamaño de la Muestra para Estimar una Proporción


Siguiendo el razonamiento acerca de la obtencion del tamaño de muestra para estimar una me-
dia, se puede obtener la expresión para calcular el tamaño de muestra para estimar una propor-
ción. La formula es:

Dr. David Israel Celis Euan 14


Universidad de la Costa Inferencia Estadística

Z 2α P (1−P )
n= 2
E2
En donde,
E =Es el margen de error deseado
Z α2 =Es el nivel de confianza
P =Es un valor planeado de P

En la práctica, el valor planeado, P , se determina mediante alguno de los métodos siguientes:

1. Utilizar la proporción poblacional de una muestra previa de las mismas unidades o de


unidades similares.

2. Utilizar un estudio piloto y elegir una muestra preliminar. La proporción muestral de esta
muestra se usa como valor planeado, P .

3. Proponer una “mejor aproximación” para el valor de P .

4. Si no aplica ninguna de las alternativas anteriores, emplear como valor planeado P = 0.5.

Ejemplo de aplicación:
En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de Hamilton, Cana-
dá, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se requiere que sea una muestra
si se quiere tener 95 % de confianza de que la estimación de P esté dentro de 0.02?
Se tratarán a las 500 familias como una muestra preliminar que proporciona una estimación de
P = 340/500 = 0.68.
2
n = (1.96)(0.02)
(0.68)(0.32)
2

Por lo tanto si basamos nuestra estimación de P sobre una muestra aleatoria de tamaño 2090, se
puede tener una confianza de 95 % de que nuestra proporción muestral no diferirá de la propor-
ción real por más de 0.02.

1.7. Relación entre confiabilidad, precisión (margen de error) y tamaño de muestra


Margen de error, nivel de confianza y tamaño de la muestra siempre van de la mano. Si se quiere
obtener un margen de error y un nivel de confianza determinado (por ejemplo, error del 5 %
con confianza 95 %) se necesitará un tamaño de muestra mínimo correspondiente. Modificar
cualquiera de los 3 parámetros, altera los restantes:
1. Reducir el margen de error obliga a aumentar el tamaño de la muestra.
2. Aumentar el nivel de confianza obliga a aumentar el tamaño de la muestra.
3. Si aumenta el tamaño de la muestra, se puede reducir el margen de error o incrementar el
nivel de confianza.
Pero, ¿qué fórmulas gobiernan la relación entre los parámetros anteriores? El conjunto de teore-
mas que se conocen como LEY DE LOS GRANDES NÚMEROS viene a nuestro rescate

Dr. David Israel Celis Euan 15

También podría gustarte