Documentos de Académico
Documentos de Profesional
Documentos de Cultura
evidente.
La estadística inferencial toma como base las relaciones existentes entre las
muestras y la población, para inferir acerca de ésta a partir de las muestras, es Estimador Insesgado: Se dice que θ̂ es un estimador insesgado del
decir, hace generalizaciones con base en dichas muestras. parámetro θ si:
Cualquier inferencia que se haga sobre la población tendrá que basarse
E( θ̂) = θ
necesariamente en estadísticos muestrales, es decir, en funciones de la
información muestral. El verdadero parámetro será desconocido, y un objetivo
será estimar su valor. La media y la proporción muestral son estimadores insesgados de los
correspondientes parámetros poblacionales. La varianza muestral también es
Un estimador de un parámetro poblacional es una variable aleatoria que insesgada si la población es grande, y la desviación típica muestral no es un
depende de la información muestral y cuyas realizaciones proporcionan estimador insesgado de la desviación típica poblacional.
aproximaciones al valor desconocido del parámetro. Se llama estimación a una
realización específica de esta variable aleatoria. El sesgo de θ̂ se define como la diferencia su media y θ , es decir,
Un estimador puntual de un parámetro poblacional es una función de la De aquí se deduce que el sesgo de un estimador insesgado es 0.
muestra que da como resultado un único valor. La correspondiente realización
se llama estimación puntual del parámetro. La notación para parámetros Estimador Eficiente: Sean θ̂1 y θ̂2 dos estimadores insesgados de θ ,
poblacionales, estimadores puntuales y estimaciones más comunes es:
obtenidos en muestras del mismo tamaño, entonces se dice que θ̂1 es más
Medida Parámetro Estimador eficiente que θ̂2 si: V( θ̂1) < V( θ̂2). La eficiencia relativa de un estimador
Estimación con respecto al otro es el cociente de sus varianzas, es decir:
Media µ X
x V (θˆ2 )
Varianza σ 2
S2 Eficiencia relativa =
s2 V (θˆ )
1
Desviación típica σ S
s Puede demostrarse que la mediana también es un estimador insesgado para la
Proporción p P media de la población y que su varianza es:
p̂
π σ X2 1,57σ X2
PROPIEDADES DE LOS ESTIMADORES: No hay un único criterio para V (M e ) = ⋅ ≈
seleccionar el mejor estimador puntual para todas las circunstancias. Sólo se
2 n n
dispone de un conjunto de criterios bajo los cuales pueden evaluarse distintos
estimadores. En casi todos los casos, la media, la varianza, la desviación típica El resultado indica que la media muestral es más eficiente que la mediana. La
y la proporción muestrales son estimadores satisfactorios para los eficiencia relativa de la media con respecto a la mediana es:
correspondientes valores poblacionales. Sin embargo, existen problemas para
V (M e )
n( X − µX )
Eficiencia relativa = ≈ 1,57
V (X )
∼ n(0,1) ,entonces,
σX
La varianza de la mediana muestral es un 57% mayor que la media muestral.
Para obtener una mediana con la misma varianza que la media, debe tomarse
una muestra con un 57% más de observaciones. n( X − µ X )
P − zα / 2 < < zα / 2 = 1 − α
σX
Si θ̂ es un estimador insesgado de θ , y no hay ningún otro estimador
insesgado que tenga menor varianza, entonces se dice que θ̂ es el estimador
σ σ
insesgado más eficiente o de mínima varianza de θ . P − zα / 2 X < X − µ X < zα / 2 X = 1 − α
n n
Estimador Consistente: Si para cualquier ε positivo, no importando lo
pequeño que sea, si P[| θ̂n-θ | <ε ] tiende a uno cuando n tiende a infinito, σ σ
se dice que el estimador es consistente. De manera informal, lo que esto P − X − zα / 2 X < − µ X < − X + zα / 2 X = 1 − α
significa es que si se utiliza un estimador consistente con una muestra infinita, n n
se obtendrá el resultado correcto.
σ σ
P X − zα / 2 X < µ X < X + zα / 2 X = 1 − α
n n
ESTIMACIÓN POR INTERVALOS
Dada una muestra particular con media x , entonces un intervalo de confianza
Un estimador por intervalos de un parámetro poblacional es una variable al 100(1-α )% para µ con σ 2 conocido, viene dado por:
aleatoria basada en información muestral para determinar un rango, o un
intervalo, en el cual posiblemente se encuentre dicho parámetro. La estimación σX σ
correspondiente se denomina estimación por intervalos. Basados en la x − zα / 2 < µ X < x + zα / 2 X
información muestral, se pueden encontrar variables aleatorias A y B tales que: n n
P(A<θ < B) = 1-α
El intervalo también se puede notar como:
Una realización particular de A y B es notada por a y b, entonces al intervalo
(a,b) se le denomina como “un” intervalo de confianza al 100(1-α )% para θ . σ σ
IC ( µ )100 (1−α )% = x − zα / 2 , x + tα
A α se le conoce como el nivel de significancia y a 1-α como el nivel de n n
confianza o confiabilidad
σ
IC ( µ)100 (1−α )% = x ± zα / 2
INTERVALO DE CONFIANZA PARA LA MEDIA n
a. Varianza poblacional conocida: Se cuenta con una muestra aleatoria de n Si las muestras son grandes, el intervalo sirve aún si la población no es normal.
observaciones con media muestral X procedente de una población normal Asumir que en un estudio se conoce la varianza poblacional, es en la mayoría
con varianza conocida σ 2. La deducción del intervalo parte del principio que de los casos un supuesto irreal, por esto, es necesario contar con la alternativa
de intervalos que no tenga este supuesto tan fuerte.
P(-zα / 2 < Z < zα / 2 ) = 1- α , y sabiendo que el estadístico:
2
b. Varianza poblacional desconocida: Se cuenta con una muestra aleatoria de s
n observaciones procedentes de una distribución normal, con media y IC ( µ)100 (1−α )% = x ± t ( n −1,α / 2 )
n
desviación típica muestrales X y S2 respectivamente. Dado que no se
conoce la varianza, se hace una estimación de ella a partir de S2, y para deducir Si la muestra es superior a las 60 unidades, la distribución t es muy aproximada
el intervalo se parte del estadístico: a la normal estándar, por tanto el intervalo se puede construir usando la tabla de
la normal estándar, aún cuando los datos muestrales no sean normales. Así
n( X − µX ) pues:
∼ t(n-1)
SX s
IC ( µ)100 (1−α )% = x ± zα / 2
n
Por procedimiento similar al anterior:
Ejemplo: Un fabricante de cigarrillos afirma que el contenido de
n( X − µX )
nicotina en sus cigarrillos es de 1,7 mg. Se toma una muestra de 20
P − t ( n −1,α / 2 ) < < t ( n −1,α / 2 ) = 1 − α cigarrillos y se encontró que el contenido era 2,2 con una desviación
SX estándar de 0,8 mg. Evaluar la afirmación del fabricante con base en
un intervalo de confianza del 95%.
S S s
P − t ( n −1,α / 2 ) X < X − µ X < t ( n −1,α / 2 ) X = 1 − α IC ( µ) 95 % = x − t (19 , 0, 025 )
s
; x + t (19 , 0, 025 )
n n
n n
0,8 0,8
S S = 1,7 − 2,0930 ; 1,7 + 2,0930
P − X − t ( n −1,α / 2 ) X < −µ X < − X + t ( n −1,α / 2 ) X = 1 − α 20 20
n n = (1,7 − 0,3744 ; 1,7 + 0,3744 )
= (1,8 ; 2,6)
S S
P X − t ( n −1,α / 2 ) X < µ X < X + t ( n −1,α / 2) X = 1 − α
n n
Ejemplo: El gerente de un hospital afirma que el tiempo de espera de
atención a los pacientes en urgencias es de 21 minutos. El director del
Dada una muestra particular con media x y varianza s , entonces un intervalo
2
departamento de control de calidad de una organización de salubridad
de confianza al 100(1-α )% para µ con σ 2 desconocido, viene dado por: desea evaluar esta afirmación y para ello toma una muestra aleatoria
s s de 25 pacientes de un libro de citas y encontró que el tiempo
x − t ( n −1,α / 2 ) < µ < x + t ( n −1,α / 2 )
n n promedio era de 25,5 minutos con una desviación típica de 7 minutos.
El cálculo de un intervalo de confianza al 95% es:
El valor t(n -1, α /2) es un valor de la distribución t de Student con n-1 grados de
libertad, tal que P(t(n) > t(n-1 , α )) = α . Otras notaciones apropiadas para el
intervalo son:
s s
IC ( µ)100 (1−α )% =
x − t ( n −1,α / 2 ) , x + t ( n −1,α / 2 )
n n
3
s s Entonces si n es grande (n≥ 40), un intervalo de confianza del 100(1-α )%
IC ( µ ) 95% = x − t ( 24 , 0, 025 ) , x + t ( 24 , 0, 025 ) para la proporción poblacional se deduce como:
n n
7 7
= 25,5 − 2,0639 , 25,5 + 2,0639
25 25 P −π
P− zα / 2 < < zα / 2 =1 −α
π(1 −π)
= ( 25,5 − 2,8895 , 25,5 + 2,8895 )
n
= ( 22,61 , 28,39 )
π (1 − π ) π (1 − π )
P
− P − zα / 2 < −π < −P + zα / 2 = 1 −α
El resultado también se puede ilustrar como IC(µ )95% = 25,5 ± 2,8895. Se n n
concluye con una confiabilidad del 95% que el verdadero tiempo de espera está
π (1 − π ) π (1 − π )
entre 22,61 y 28,39 minutos. Con esa confianza se afirma que la afirmación del P P − zα / 2 < π < P + zα / 2 = 1 −α
gerente no es cierta. Si la confiabilidad fuera del 99% y del 90% los intervalos n n
tomarían el siguiente valor respectivo:
El intervalo quedaría en función del parámetro desconocido π , pero al
IC ( µ) 99 % = (21,58 , 29 ,42 ) = 25 ,5 ± 3,92 reemplazar este por el estimador P, la aproximación normal del estadístico
base sigue siendo válida, luego:
IC ( µ) 90 % = ( 23 ,1 , 27 ,9) = 25 ,5 ± 2,4
PQ PQ
P P − zα / 2 < π < P + zα / 2 = 1 −α
Claramente se ve que si se quiere tener más confiabilidad de cobijar el n n
parámetro desconocido con el intervalo, este se amplía. Sobre el tamaño que
han de tomar los intervalos se puede concluir lo siguiente:
Si p̂ es una realización particular de P, entonces un intervalo de confianza al
a. Los intervalos de µ están centrados con respecto a la media muestral. 100(1-α )% de p viene dada por:
pˆ (1 − pˆ ) pˆ (1 − pˆ )
pˆ − zα / 2 < π < pˆ + zα / 2
b. Entre mayor confianza se requiera para que el intervalo contenga a µ , el n n
intervalo será más amplio.
Otras notaciones apropiadas para el intervalo son:
c. Entre más variable sea la muestra, el intervalo será más amplio.
pˆ (1 − pˆ ) pˆ (1 − pˆ )
d. Si el tamaño de muestra es grande, más angostos serán los intervalos, IC ( p )100 (1−α)% =
p − zα / 2
ˆ , pˆ + zα / 2
aunque ello no asegura consistentemente que los intervalos sean angostos, n n
pues si la población es muy variable la varianza será grande y por tanto
también los intervalos.
pˆ (1 − pˆ )
IC ( p )100 (1−α )% = pˆ ± zα / 2
n
INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
POBLACIONAL Ejemplo: En una encuesta donde se preguntó a 400 personas sobre la
preferencia por un candidato, se encontró que el 28% votaría por él en
Sea P la proporción muestral de éxitos en una muestra aleatoria de n las siguientes elecciones. Un intervalo de confianza del 95% para
observaciones procedentes de una población con una proporción π de éxitos. estimar la proporción verdadera viene dado por:
4
0, 28 (1 − 0, 28 )
0, 28 (1 − 0, 28 ) DOS POBLACIONES
IC ( p ) 95 % =
0, 28 −1,96 , 0, 28 + 1,96
= ( 0, 236 , 0,324 ) = 0.28 ± 0.044
400 400
INTERVALO DE CONFIANZA PARA EL COCIENTE DE
VARIANZAS
Se concluye con una confiabilidad del 95% que la verdadera
proporción de personas que votará por el candidato en las próximas Dadas dos muestras aleatorias independientes provenientes de poblaciones
elecciones está entre el 23,6% y el 32,4%. normales, entonces sabiendo que:
( n − 1) S 2 S X2 S Y2 σ2 S X2 S Y2
P χ (2n −1,1−α / 2 ) < < χ (2n −1,α / 2 ) = 1 − α P < X2 < = 1 −α
σ 2
f σY f ( nX −1, nY −1, 1−α / 2)
( nX −1, nY −1, α / 2 )
χ (2n −1,1−α / 2 ) 1 χ (2n −1,α / 2 ) s X2 sY2 S X2 S Y2
P < < = 1 −α Si y son realizaciones particulares de y
( n − 1) S 2 σ 2 (n − 1) S 2 respectivamente, entonces un intervalo de confianza al 100(1-α )% para el
cociente de varianzas poblacionales es:
(n − 1) S 2 (n − 1) S 2
P 2 <σ2 < 2 = 1 −α σ X2 s X2 sY2 s X2 sY2
χ χ ( n −1,1−α / 2 ) IC = ;
( n −1,α / 2 ) σ2
Y 100 (1−α )% f ( nX −1, nY −1, α / 2 ) f ( nX −1, nY −1,1−α / 2)
Si s2 es una realización particular de S2, entonces un intervalo de confianza
del 100(1-α )% para σ 2 es:
INTERVALO DE CONFIANZA PARA LA DIEFERNCIA DE MEDIAS
( n −1) s 2 ( n −1) s 2
IC (σ )100 (1−α %)
2
= 2 ; 2
χ
( n −1,α / 2 ) χ( n −1,1−α / 2 )
MUESTRAS INDEPENDIENTES: Sean dos muestras aleatorias
independientes de tamaños nX y nY, procedentes de poblaciones normales
con medias µ X yµ Y y varianzas σ X2 y σY2 respectivamente.
5
σ2 σ2 S S S S
X − Y ≈ n µ X − µ Y ; X + Y P X − Y − t ( nX + nY −2 , α / 2 ) + < µ X − µY < X − Y + t ( nX + nY −2, α / 2 ) +
n X nY nX nY nX nY
IC ( µ X − µ Y ) 100 (1−α )% = ( x − y ) ± zα / 2
σ X2 σ Y2
+ (s 2
X n X ) (n X − 1) + ( sY2 nY ) (nY − 1)
2 2
nX nY
Si x y y son observaciones particulares de X y Y y s X2 y sY2
b. Varianzas poblacionales desconocidas: Si las varianzas no son
realizaciones particulares de S X2 y S Y2 respectivamente, entonces un
conocidas, entonces se suponen que las poblaciones tienen una varianza
común, la cual se estima por medio de una varianza muestral S2 donde: intervalo de confianza al 100(1-α )% para la diferencia de medias
poblacionales es:
(n X − 1) ⋅ S X2 + (nY − 1) ⋅ S Y2
S2 = s X2 s2
n X + nY − 2 IC ( µ X − µY ) 100 (1−α )% = ( x − y ) ± t ( v ,α / 2 ) + Y
n X nY
X −Y −( µX − µY )
P−t ( nX +nY −2, α / 2 ) < < t ( nX +nY −2, α / 2 ) =1 −α si las muestras son grandes el valor t(v, α /2) puede aproximarse por la normal
S S
+ estándar, así:
n X nY
6
s X2 s2 6,685 6,685
IC ( µX − µY )100 (1−α)%
IC ( µ X − µ Y ) 100 (1−α )% = ( x − y ) ± zα / 2 + Y == (19 ,4 −18 ,9) ± 2,12
8
+
10
n X nY
= 0,475 ± 2,6
Ejemplo: = ( −2,125 ; 3,075 )
Se están ensayando dos procedimientos distintos de fabricación de El intervalo incluye el cero, lo cual sugiere que existe evidencia en
cables de acero. Dadas dos muestras, una para cada procedimiento, las muestras como para afirmar que las medias poblacionales sean
construir un intervalo de confianza al 95% para la diferencia de diferentes.
medias poblacionales. Asumir normalidad en los datos.
xi = {26, 17, 18, 19, 20, 16, 18, 21}
yi = {17, 21, 19, 18, 16, 21, 20, 22, 16, 19} MUESTRAS PAREADAS: Se cuenta con una muestra aleatoria de n pares
de observaciones (X1,Y1), (X2,Y2), ..., (Xn,Yn) procedentes de poblaciones con
x = 19,4 s X = 3,1 medias µ X y µ Y respectivamente. Si las diferencias de cada par di= Xi -Yi se
distribuyen normalmente, entonces, un intervalo de confianza al 100(1- α )
y = 18,9 sY = 2,1 % para la diferencia de medias poblacionales viene dado por:
σ X2 s X2 sY2 s X2 sY2 3,12 2,12Ejemplo 10: Se2 tomaron las diferencias del crecimiento de la carga
3,12 2en
,1 toneladas
IC 2 = ; = transportada
; = (0,519
de 17;10
empresas
,5 ) de carga que se habían
4,197 fusionado
σY 95% f ( nX −1 , nY −1 , 0, 025 ) f ( nX −1 , nY −1 ,1− 0, 025 ) 0 , 207
con otras que no se fusionaron. Las diferencias se tomaron
en empresas con locaciones y tamaños similares, la media y
desviación típica fueron d =0,105 y sd = 0,44. Un intervalo de
Como el intervalo incluye el uno, se dice que las diferencias en las
varianzas no son significativas y asumir como iguales las varianzas confianza del 95% para µ X - µ Y es:
poblacionales. Por tanto:
0,44
IC ( µ X − µY ) 100 (1−α)% = 0,015 ± 2,12 = 0,015 ± 0,226 = ( −0,121 ;
s 2
s 2 17
IC ( µX − µY ) 100 (1−α)% = ( x − y ) ± t ( n x +nY −2 ; 0 , 025 ) +
nX nY
Como el intervalo incluye el cero, se concluye que los datos no
contradicen seriamente la conclusión de que no existe diferencia
Pero significativa en las medias de crecimiento de la carga entre
(n X − 1) ⋅ S + ( nY − 1) ⋅ S Y2 (8 − 1) ⋅ 3,12 + (10 − 1) ⋅ 2,12
2 empresas fusionadas y no fusionadas.
s2 = X
= = 6,685
n X + nY − 2 8 + 10 − 2
INTERVALO DE CONFIANZA PARA LA DIEFERNCIA DE
PROPORCIONES