Curso BB - Estimaciones

Universidad Austral
Facultad de Ingeniería
Distribución Normal, Teorema del Limite
Central y Otras Distribuciones
BLACK BELT-GREEN BELT –Estimación puntual

y por intervalos
Lic. Verónica Álvarez
Lic. Carlos Zavalla - Lic. Claudio Borsetti
Ing. Carlos Cacici – Lic. Horacio Gómez Beret
Ejemplo de Teorema Central del Límite
Ejemplo de aplicación del teorema del límite central

Una empresa de mensajería que opera en la ciudad tarda una media
de 35 minutos en llevar un paquete, con una desviación típica de 8
minutos. Supongamos que durante el día de hoy han repartido
doscientos paquetes.
a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega

de hoy esté entre 30 y 35 minutos?
b) ¿Cuál es la probabilidad de que, en total, para los doscientos
paquetes hayan estado más de 115 horas?
Consideremos la variable X = “Tiempo de entrega del paquete”.

Sabemos que su media es 35 minutos y su desviación típica 8. Pero no
sabemos si esta variable sigue una distribución normal.
Durante el día de hoy se han entregado n = 200 paquetes.

Es decir, tenemos una muestra x1, x2, ..., xn de nuestra variable.
Por el teorema del límite central sabemos que la media muestral se

comporta como una normal de esperanza 35 y desviación típica:
Si utilizamos esta aproximación, ya podemos contestar a la pregunta

a. Debemos calcular:
que es aproximadamente igual a la probabilidad siguiente:

donde Z es una normal (0,1). Es decir, tenemos una probabilidad
aproximada del 0,4616 de que la media del tiempo de entrega de hoy
haya estado entre 30 y 35 minutos.
Por lo que respecta a la segunda pregunta, de entrada debemos pasar

las horas a minutos, ya que ésta es la unidad con la que nos viene dada
la variable. Observemos que 115 horas por 60 minutos nos dan 6.900
minutos. Se nos pide que calculemos la probabilidad siguiente:
y como que sabemos que la media se distribuye aproximadamente

como una normal de media 35 y desviación típica 0,566 (supondremos
siempre que la distribución de la media es normal, ya sea porque la
variable de interés es normal o porque la muestra es lo bastante
grande),
grande) esta probabilidad se puede aproximar por la probabilidad de
una distribución normal estándar Z:
Distribución de muestreo de la Media:
Teorema central del Límite
Independientemente del tamaño de las muestras, el promedio de la

distribución de las medias muestrales
E ( X ) siempre coincide con el que se obtendría en
caso de realizar un censo:  coincide con la
media poblacional
Error estándar de la media
(o error muestral o Error X 

Típico en Excel) n
Estimación
Uno de los propósitos de la estadística inferencial es estimar

las características poblacionales desconocidas, examinando
la información obtenida de una muestra, de una población.
El punto de interés es la muestra, la cual debe ser

representativa de la población objeto de estudio.
Se seguirán ciertos procedimientos de selección para

asegurar de que las muestras reflejen observaciones a la
población de la que proceden, ya que solo se pueden hacer
observaciones probabilísticas sobre una población cuando
se usan muestras representativas de la misma.
Muestreo
Errores en el Muestreo
Cuando se utilizan valores muestrales, o estadísticos para estimar
valores poblacionales, o parámetros, pueden ocurrir dos tipos generales
de errores: el error muestral y el error no muestral.
El error muestral se refiere a la variación natural existente entre

muestras tomadas de la misma población.
Error Muestral
Cualquier medida conlleva algún error. Si se usa la media para medir,
estimar, la media poblacional m, entonces la media muestral, como
medida, conlleva algún error. Por ejemplo, supongamos que se ha
obtenido una muestra aleatoria de tamaño 25 de una población con
media m = 15: si la media de la muestra es x=12, entonces a la
diferencia observada x-m = -3 se le denomina el error muestral. Una
media muestral x puede pensarse como la suma de dos
cantidades, la media poblacional m y el error muestral; si e denota el
error muestral, entonces:
X=µ+e
La media de la colección de medias muestrales es 4, la media de la

población de la que se extraen las muestras. Si mx denota la media de
todas las medias muestrales entonces tenemos:
mx = (3+4+3+4+5+5+2+4+6)/9 = 4
La suma de los errores muestrales es cero.

e1 + e2 + e3 + . . . + e9 = (-2) + (-1) + 0 + (-1) + 0 + 1 + 0 + 1 + 2 = 0
En consecuencia, si x se usa para medir, estimar, la media poblacional

m, el promedio de todos los errores muestrales es cero.
Teorema del límite central

Si se seleccionan muestras aleatorias de n observaciones de una
población con media m y desviación estándar s, entonces, cuando n es
grande, la distribución muestral de medias tendrá aproximadamente
una distribución normal con una media igual a µ y una desviación
estándar de  .
n
La aproximación será cada vez más exacta a medida de que n sea cada
vez mayor.
Ejemplo
Para la distribución
muestral de medias del
ejercicio pasado,
encuentre:
a) El error muestral de
cada media
b) La media de los errores
muestrales
c) La desviación estándar
de los errores muestrales.
Ejemplo
Para la distribución muestral de medias del ejercicio pasado, encuentre:
a) El error muestral de cada media

b) La media de los errores muestrales
c) La desviación estándar de los errores muestrales.
Solución:
a) En la tabla siguiente se ven las muestras, las medias de las muestras
y los errores muestrales:
b) La media de los errores muestrales es µe, es:
c) La desviación estándar de la distribución de los errores muestrales σe,

es entonces:
La desviación estándar de la distribución muestral de un estadístico se

conoce como error estándar del estadístico. Para el ejercicio
anterior el error estándar de la media denotado por σx, es 1.58. Con
esto se puede demostrar que si de una población se eligen muestras de
tamaño n con reemplazo, entonces el error estándar de la media es
igual a la desviación estándar de la distribución de los errores
muestrales.
En general se tiene: σx = σe
Cuando las muestras se toman de una población pequeña y sin
reemplazo, se puede usar la formula siguiente para encontrar sx .
donde s es la desviación estándar de la población de donde se toman las

muestras, n es el tamaño de la muestra y N el de la población.
Como regla de cálculo, si el muestreo se hace sin reemplazo y el

tamaño de la población es al menos 20 veces el tamaño de la
muestra (N≥20), entonces se puede usar la fórmula.
El factor N n
N 1
se denomina factor de corrección para una población finita.
Una población es Población Finita cuando el tamaño n de la muestra

presupuestado es mayor que el 5% del tamaño de la población. Esto
es:
n
 0.05
N
Ejemplo:
Suponga que la tabla siguiente muestra la antigüedad en años en el
trabajo de tres maestros universitarios de matemáticas:
Maestro de matemáticas Antigüedad
A 6
B 4
C 2
Suponga además que se seleccionan muestras aleatorias de tamaño 2

sin reemplazo.
Calcule la antigüedad media para cada muestra, la media de la

distribución muestral y el error estándar, o la desviación estándar de la
distribución muestral.
Solución:
Se pueden tener 3C2 =3 muestras posibles. La tabla lista todas las
muestras posibles de tamaño 2, con sus respectivas medias
muestrales.
Suponga además que se seleccionan muestras aleatorias de tamaño 2

sin reemplazo.
Calcule la antigüedad media para cada muestra, la media de la

distribución muestral y el error estándar, o la desviación estándar de la
distribución muestral.
Muestras Antigüedad Media Muestral
A,B (6,4) 5
A,C (6,2) 4
B,C (4,2) 3
La media poblacional es:
La media de la distribución muestral es:
La desviación estándar de la población es:
El error estándar o la desviación estándar de la distribución muestral

es:
Si utilizamos la fórmula del error estándar sin el factor de corrección

Por lo que observamos
tendríamos que: que este valor
no es el verdadero. Agregando el
factor de corrección obtendremos el
valor correcto:
El diagrama
de flujo
resume las
decisiones
que deben
tomarse
cuando se
calcula el
valor del
error
estándar:
Recordamos Distribución Normal
Estandarizada
Si recordamos la distribución normal, esta es una distribución

continua, en forma de campana en donde la media, la mediana y
la moda tienen un mismo valor y es simétrica.
Con esta distribución podíamos calcular la probabilidad de algún
evento relacionado con la variable aleatoria, mediante la siguiente
fórmula:
x
Z

Este es el recurso con que contamos para independizamos de la
magnitud de la variable y que consiste en la estandarización
Esta expresión mide la distancia entre cualquier valor de la variable y el

promedio en términos del desvío estándar,
estándar y es adimensional.
Recordamos Distribución Normal
Estandarizada
En donde z es una variable estandarizada con media igual a cero y
varianza igual a uno. Con esta fórmula se pueden a hacer los cálculos
de probabilidad para cualquier ejercicio, utilizando la tabla de la
distribución z.
x
Z

Sabemos que cuando se extraen muestras de tamaño mayor a 30 o

bien de cualquier tamaño de una población normal, la distribución
muestral de medias tiene un comportamiento aproximadamente normal,
por lo que se puede utilizar la formula de la distribución normal con
µx = µ y σ = σx
entonces la fórmula para calcular la probabilidad del comportamiento

del estadístico, en este caso la media de la muestra , quedaría de la
siguiente manera:
X 
Z
 n
y para poblaciones finitas y muestro con reemplazo:

Distribución de muestreo de la Media
Ejemplo:
Una empresa eléctrica fabrica focos que tienen una duración que se
distribuye aproximadamente en forma normal, con media de 800 horas
y desviación estándar de 40 horas. Encuentre la probabilidad de que
una muestra aleatoria de 16 focos tenga una vida promedio de menos
de 775 horas.
Solución:
La interpretación sería que la probabilidad de que la media de la

muestra de 16 focos sea menor a 775 horas es de 0.0062.
Ejemplo:
Las estaturas de 1000 estudiantes están distribuidas aproximadamente
en forma normal con una media de 174.5 centímetros y una desviación
estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de
tamaño 25 sin reemplazo de esta población, determine:
a) El número de las medias muestrales que caen entre 172.5 y 175.8
centímetros.
b) El número de medias muestrales que caen por debajo de 172
centímetros.
Solución:
Como se puede observar en este ejercicio se cuenta con una población
finita y un muestreo sin reemplazo, por lo que se tendrá que agregar el
factor de corrección. Se procederá a calcular el denominador de Z para
sólo sustituirlo en
cada inciso.
Estimación Puntual
Un estimador de un parámetro poblacional es una función de
los datos muestrales. En pocas palabras, es una fórmula que
depende de los valores obtenidos de una muestra,
muestra para
realizar estimaciones.
Por ejemplo, un estimador de la media

poblacional, μ, sería la media muestral X
según la siguiente fórmula
x i
x1  x2  ......... xn
x 1

n n
Estimación Puntual
Estimación puntual
Consiste en la estimación del valor del parámetro mediante un sólo
valor, obtenido de una fórmula determinada. Por ejemplo, si se
pretende estimar la talla media de un determinado grupo de individuos,
puede extraerse una muestra y ofrecer como estimación puntual la
talla media de los individuos de la muestra. necesito los ejemplos
x i
x1  x2  ......... xn
x 1

n n
Cuando inferimos no tenemos garantía de que la conclusión que
obtenemos sea exactamente correcta. Sin embargo, la estadística
permite cuantificar el error asociado a la estimación.
La mayoría de las distribuciones de probabilidad dependen de cierto

número de parámetros. Por ejemplo: P(λ ), N(μ ,σ2 ), Bi(n, p), etc.
Salvo que estos parámetros se conozcan, deben estimarse a partir
de los datos.
Puntos e Intervalos de Estimación
X para estimar μ
Estimadores
Puntuales S2 para estimar σ2
S para estimar σ
Representan a los parámetros poblacionales
Se puede crear un intervalo que tenga una determinada

probabilidad de incluir al verdadero parámetro
poblacional. Se lo llama “Intervalo de CONFIANZA”
El objetivo de la estimación puntual y por intervalos es usar una muestra

para obtener números que, en algún sentido, sean los que mejor
representan a los verdaderos valores de los parámetros de interés.
Estimación Puntual
Obtenida una muestra representativa el siguiente paso es conocer
parámetros de la población a partir esa muestra. Llamaremos estadístico a
cualquier función determinada a partir de los datos muestrales y
llamaremos estimador de un parámetro al estadístico que aproxima a ese
parámetro.
El estadístico tiene que ser insesgado,
insesgado es decir, la media de la
distribución muestral del estadístico ha de coincidir con el parámetro
poblacional, o lo que es lo mismo que coincide con la esperanza
matemática.
Suficiencia,
Suficiencia la muestra posee toda la información necesaria para acerca
del parámetro.
Consistencia,
Consistencia dado un estadístico diremos que es consistente si al
aumentar el tamaño de la muestra, el estadístico converge en
probabilidad al parámetro. Dicho de otro modo, cuando la muestra se
hace muy grande la probabilidad de que el estimador esté muy cerca del
parámetro es casi uno.
Eficiencia,
Eficiencia de todos los estadísticos consistentes será mejor aquel que
converja más rápidamente al parámetro. Esto lo sabremos por la
varianza, a menor varianza menor dispersión.
dispersión
Estimación Puntual
1. Estimador de la media poblacional, es la media muestral
x i
X i 1
n
2. Estimador de la varianza poblacional, es la cuasivarianza muestral
 i
( x  x ) 2
S2  i 1
n 1
La cuasivarianza muestral es un estimador insesgado de la varianza
poblacional.
Estimación Puntual
La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión
acerca de uno o más parámetros (características poblacionales). Para hacerlo, se requiere
que un investigador obtenga datos muestrales de cada una de las poblaciones en estudio.
Entonces, las conclusiones pueden estar basadas en los valores calculados de varias
cantidades muestrales. Por ejemplo, representamos con μ (parámetro) el verdadero
promedio de resistencia a la ruptura de conexiones de alambres utilizados para unir obleas de
semiconductores. Podría tomarse una muestra aleatoria de 10 conexiones para
determinar la resistencia a la ruptura de cada una, y la media muestral de la resistencia
a la ruptura se podía emplear para sacar una conclusión acerca del valor de μ.
De forma similar, si σ2 es la varianza de la distribución de resistencia a la ruptura, el valor de

la varianza muestral s2 se podría utilizar para inferir algo acerca de σ 2.
Cuando se analizan conceptos generales y métodos de inferencia es conveniente tener un
símbolo genérico para el parámetro de interés. Se utilizará la letra griega θ para este
propósito. El objetivo de la estimación puntual es seleccionar sólo un número, basados en
datos de la muestra, que represente el valor más razonable de θ.
Una muestra aleatoria de 3 baterías para calculadora podría presentar duraciones

observadas en horas de x1=5.0, x2=6.4 y x3=5.9. El valor calculado de la duración
media muestral es x = 5.77,
5.77 y es razonable considerar 5.77 como el valor
más adecuado de μ.
Estimación por Proporciones
  p̂
Proporción poblacional Proporción muestral
pˆ  p
Z
Para estandarizar proporciones p  (1  p )
n
Recordamos la variable aleatoria Binomial
Parámetros de la función
• n: número de pruebas independientes y repetidas
• p: probabilidad de que ocurra un éxito en una prueba
Dominio de la variable
0≤x≤n
Valor esperado  μ = E(x) = np
Varianza  σ2  V(x) = np(1-p)
pˆ  p
Z
Para estandarizar proporciones p  (1  p)
n
Se sabe que la proporción de artículos defectuosos en un proceso de
manufactura es del 0.10. El proceso se vigila periódicamente al tomar
muestras aleatorias de tamaño 100 e inspeccionar las unidades.
Calcule la probabilidad de que esta muestra arroje una proporción de

defectuosos a) mayor que 0.17 b) menor que 0.05 pˆ  p
Z
p  (1  p )
0.17  0.1 n
z  2.333
0.1  0.9
100
a)
P( p  0.17)  1  P( Z  2.333)  1  0.9901  0.00099  0.099%

b)
P ( pˆ  0.05)  P( z  0.05)  1  0.9525  0.0475  4.75%

Aplicación sobre el caso del Negocio de Mariano:
Si él toma una muestra aleatoria de 60 días, ¿cuál es la probabilidad de

que observe a lo sumo 25% de días con ventas superiores a $ 230?
En este planteo, y según el estudio descriptivo inicial, identificamos la
siguiente información:
X: número de días con ventas superiores a $230 → Bi (n = 60; p = 0,3636)

Con p: proporción de días con ventas superiores a $230 en n = 60
Problemas de estimación puntual:
1.Los siguientes datos corresponden a los pesos (en kilogramos) de 15 hombres
escogidos al azar y que trabajan en una empresa: 72, 68, 63, 75, 84, 91, 66, 75, 86,
90, 62, 87, 77, 70,69. Estime el peso promedio y la desviación estándar.
2.Entre los miembros de una comunidad se escogieron 150 personas al azar y se les
preguntó si estaban de acuerdo con los programas que el gobierno estaba
desarrollando para prevenir el consumo de drogas; la encuesta dio como resultado
que 130 sí estaban de acuerdo. Estime la proporción de los que estaban de acuerdo y
el error estándar.
3.De las 50 aulas que tiene un edificio de la facultad de matemáticas se escogieron al
azar 5 y se determinó el número de alumnos que había en cada una de ellas en la
primera hora de clases. Estime el número de alumnos que hay en el edificio si todas
las aulas se encuentran ocupadas a esa hora, y si el numero de alumnos en cada una
de las aulas inspeccionadas fue: 24, 35, 16, 30, 28.
4.Teniendo en cuenta los datos del problema I, estime el error del peso promedio.
5.Teniendo en cuenta los datos del problema III, estime el error del número total de
estudiantes.
α y Nivel de Confianza
Valor Valor
Crítico Crítico
Ocurrencia 1-α Ocurrencia

Rara Rara
 
2 2
8 de diciembre de 2021 36
α y Nivel de Confianza y Significación Estadística
Para
Para ser
ser clasificada
clasificada como
como Significante,
Significante el
Significante
Significante, el valor
valor real
real medido
medido debe
debe
exceder
exceder al
al valor
valor Crítico.
Crítico.
Éste
Éste es
es el
el valor
valor tabular
tabular determinado
determinado por
por la
la distribución
distribución de
de
probabilidad
probabilidad yy el
el riesgo
riesgo de
de error.
error.
Este
Este riesgo
riesgo de
de error
error se
se llama Riesgo  ee indica
llama Riesgo indica la
la probabilidad
probabilidad que
que
este
este valor
valor ocurra
ocurra naturalmente.
naturalmente. Así,
Así, un riesgo  de
un riesgo de .05
.05 (5%)
(5%) significa
significa
que
que este
este valor
valor crítico
crítico será
será excedido
excedido por
por una
una ocurrencia
ocurrencia aleatoria
aleatoria << 5%
5%
de
de veces.
veces.
Valor Valor
Crítico Crítico
  2.5%   2.5%
2 Ocurrencia Ocurrencia Ocurrencia 2
Rara Común Rara
8 de diciembre de 2021 37
Intervalos de Estimación
Cuando se obtiene una estimación puntual de un

parámetro, es conveniente acompañar dicha estimación
por una “medida” de la precisión de la estimación.
estimación Un
modo es reemplazar la estimación puntual por un
intervalo de valores posibles para el parámetro.
Si indicamos un nivel de Probabilidad con el cual

deseamos realizar la estimación : 1 – α
Buscamos 2 límites k1 y k2 entre los cuales esté el
parámetro buscado
P (k1 < parámetro < k2) = 1 - α

Por ejemplo podríamos decir que la probabilidad de que

la diferencia entre x y µ esté entre -2 y 2 sea 90%
O sea que α = 0,10
P (-2 < x - µ < 2) = 0,90

Supongamos que tenemos datos de una distribución

N(μ,σ2) con varianza conocida. Por ser los datos
normales, sabemos que:
sabemos que la probabilidad de que se encuentre entre

Z0.025=– 1,96 y Z0.975 =1,96 es 0,95, es decir
 X  
P Z  n  Z1   1  
 2 0 2

 X  
P   1.96  n  1.96   0,95
 0 
 X  
P  1,96  n  1,96   0,95
 0  95%
2,5%
Z=-1,96 Z=1,96
Estimación por Intervalos de confianza
Un estimado puntual, por ser un sólo número, no proporciona por sí
mismo información alguna sobre la precisión y confiabilidad de la
estimación.
Por ejemplo, imagine que se usa el estadístico para calcular un estimado

puntual de la resistencia real a la ruptura de toallas de papel de cierta
marca, y suponga que la media x = 9322.7. Debido a la variabilidad de la
muestra, nunca se tendrá el caso de que x = μ.
Una alternativa para reportar un solo valor del parámetro que se esté
estimando es calcular e informar todo un intervalo de valores factibles, un
estimado de intervalo o intervalo de confianza (IC).
 X  
P  1,96  n  1,96   0,95
 0 
 0 0   0 0 
P  1,96  X    1,96   0,95  P X  1,96    X  1,96   0,95
 n n  n n
Es decir, que la probabilidad de que el

intervalo contenga el verdadero valor del
parámetro μ es 0,95
 0 0 
 X  1,96 , X  1,96 
 n n 
se denomina intervalo de confianza de nivel (1 – α)

para el parámetro µ.
Ejemplo: Puntos e Intervalos de Estimación
Calcular el intervalo de 95 % de confianza para

µ donde n = 16 ; s = 2.8 ; X = 15.7
Qué Formula se Usa???
 S S 
 X  t n 1, / 2 , X  t n 1, / 2 
 n n
Calculo de Intervalos de Confianza con EXCEL
Estimar µ cuando σ es
desconocido
 S S 
 X  t n 1, / 2 , X  t n 1, / 2 
 n n
Excel no tiene una función incorporada para muestras,

pero se puede resolver usando la función t-inversa, y la
formula que se desarrollo y muestra
Tamaño de la
Muestra
Tamaño de la Muestra para estimar Medias
Muestreo aleatorio simple:
consiste en elegir aleatoriamente n elementos sin
reemplazamiento de entre los N que forman la población. Se
pueden obtener así
muestras diferentes, todas ellas equiprobables.

La probabilidad de que un elemento determinado de la
población resulte elegido en la muestra es:
Para elegir los n elementos aleatoriamente podemos optar por:

o Asignar un número a cada elemento de la población, meter en un bombo N
bolas con los números asignados y extraer después n bolas.
o Utilizar las tablas de números aleatorios.
o Obtener números del 1 al N a partir de los números aleatorios comprendidos
entre 0 y 1 que nos proporcionan las calculadoras y los ordenadores.
Si deseamos estimar una media: debemos saber:
a. El nivel de confianza o seguridad (1-  ). El nivel de

confianza prefijado da lugar a un coeficiente (Z ). Para
una seguridad del 95% = 1.96; para una seguridad del
99% = 2.58.
b. La precisión d con que se desea estimar el parámetro

(2 * d es la amplitud del intervalo de confianza).
c. La varianza σ2 de la distribución de la variable cuantitativa que

se supone existe en la población. Sino se estima de la muestra
Para muestreo con repetición o población infinita
x
precisión d  z ( 1  )
2 n
2
Z x
2
x Z x 2 2
d Z
2
 nd  Z  x  n 
2 2 2
n
n d2 d2
Para muestreo con una población finita considerando el tamaño de

la población
N  Z 2  2
n 2
d  ( N  1)  Z 2   2
Para hacer un planeamiento económico de cierta zona del país es
necesario estimar entre 10.000 establos lecheros el número de vacas
lecheras por establo con un error de estimación de 4 y un nivel de confianza
de 95%. Si se sabe que σ2 = 1.000.
¿Cuántos establos deben visitarse para satisfacer estos requerimientos?
N  10.000
Z  1.96
 2  1.000
d 4
10.000  (1.96) 2 1.000
n  234.5  n  235
16  9.999  (1.96) 1000
2
Para hacer un planeamiento económico de cierta zona del país es
necesario estimar entre 10.000 establos lecheros el número de vacas
lecheras por establo con un error de estimación de 4 y un nivel de confianza
de 95%. Si se sabe que σ2 = 1.000.
¿Cuántos establos deben visitarse para satisfacer estos requerimientos?
Si ahora omitimos el tamaño de la población usamos la ecuación anterior
N  10.000
Z  1.96
 2  1.000
d 4
(1.96) 2 1.000
n  240
16
Población Infinita Población Finita
Z2  S 2 N Z2 S2

n n 2
d2 d  ( N  1)  Z 2  S 2
En la práctica la formula de la Población Finita se emplea cuando

el tamaño n de la muestra presupuestado es mayor que el 5% del
tamaño de la población. Esto es:
n
 0.05
N
Población Infinita Población Finita
Z2  S 2 N Z2 S2
n n 2
d2 d  ( N  1)  Z 2  S 2
En cualquiera de ambas ecuaciones aparece el valor de la varianza, lo

mas frecuente es que sea desconocido por ello debemos estimarla
por cualquiera de estos medios: n
1. Mediante la varianza muestral 

(X i  X )2
S2  i 1
n 1
2. Se utilizan estimaciones previas hechas en estudios anteriores

(valores históricos)
3. Si hay evidencia que la población en estudio tiene una distribución
normal se puede aproximar la varianza usando el rango de la
población (para ello se debe conocer el valor máximo y mínimo de la
población investigada
R

4
Tamaño de la Muestra para una proporción
DE POBLACIÓN INFINITA
1. El nivel de confianza o seguridad (1-a ).
2. La precisión que deseamos para nuestro estudio.
3. Una idea del valor aproximado del parámetro que queremos medir (en
este caso una proporción). Esta idea se puede obtener revisando la
literatura, por estudio pilotos previos. En caso de no tener dicha
información utilizaremos el valor p = 0.5 (50%).
Ejemplo: ¿A cuantas personas tendríamos que estudiar para conocer la

prevalencia de diabetes?
Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que
puede ser próxima al 5%; si no tuviésemos ninguna idea de dicha
proporción utilizaríamos el valor p = 0,5 (50%) que maximiza el tamaño
muestral:
Za 2 = 1.962 (ya que la seguridad es del 95%)
Z  pq
2
p = proporción esperada (en este caso 5% = 0.05)
n 
q = 1 – p (en este caso 1 – 0.05 = 0.95)
d2 d = precisión (en este caso deseamos un 3%)
Tamaño de la Muestra para una proporción
Si la población es finita, es decir conocemos el total de la población y
deseásemos saber cuántos del total tendremos que estudiar la respuesta
seria:
N Z2  pq
n 2
d  ( N  1)  Z 2  p  q
¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para conocer
la prevalencia de diabetes?
Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser próxima al
5% ; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que
maximiza el tamaño muestral.
Según diferentes seguridades el coeficiente de Z  varía, así:

Si la seguridad Z fuese del 90% el coeficiente sería 1.645
Si la seguridad Z fuese del 97.5% el coeficiente sería 2.24
Phillips 66
1. Determinar la estatura media de
un grupo de varones adultos
cuyas alturas son: 162, 176, 169,
165, 171, 169, 172, 168, 167 y 175
cm.
2. Determinar un intervalo de
confianza para la estatura media
de toda la población de varones
adultos con una confianza del 95%
suponiendo un desvío de 4 cm.
3. Determinar el tamaño de muestra
requerido para obtener la estatura
media de la población, con una
precisión de 1 cm, si la varianza
poblacional es 25 cm2
Phillips 66
1. Si de 100 personas encuestadas,
30 se manifiestan a favor de un
determinado partido político, ¿qué
porcentaje de votos obtendría
dicho partido de celebrarse en ese
momento las elecciones?
(confianza del 95%)
2. Si el partido político desea realizar

una encuesta con el fin de
determinar el porcentaje de
votantes con una precisión del 3%
¿A cuántos individuos hay que
encuestar (confianza del 95%).
Mas Distribuciones
La DISTRIBUCION CHI CUADRADA
2 
 i
( x  x ) 2
2
( n  1)  s 2
2 
2
Estudiamos ahora la distribución de la varianza de muestras aleatorias de
poblaciones normales.
Como S2 no puede ser negativa, deberíamos sospechar que esta distribución
de muestreo no es una curva normal.
A este tipo de distribución se la llama “Distribución Chi cuadrada”
TEOREMA Si S2 es la varianza de una muestra aleatoria de tamaño n

tomada de una población normal, con varianza 2, entonces:
2 
 i
( x  x ) 2
2
( n  1)  s 2
2 
2
es la variable aleatoria con la
. distribución Chi-cuadrada, con
(n -1) grados de libertad.
FUNCIÓN DE DENSIDAD
La Distribución chi-cuadrado, tiene por función de densidad
x
k
2
1 
.e
x
2
 ( x) 
2
 2
k k
2  k
2
Donde el parámetro k de  k2 , se denomina grados de libertad de la

distribución.
La Distribución chi-cuadrado no tiene sentido para valores negativos de x,
como se puede ver en la figura.
Algunos ejemplos de uso de la distribución de
Chi-cuadrado
1. Quiero conocer cual de 2 dispensadores de gaseosa

presenta mayor variabilidad en el líquido vertido
2. La cantidad de cada uno de los compuestos de un
medicamento
3. Los gastos mensuales en una pequeña empresa
discriminados
Son variables que requieren la

implementación de rutinas de control
que den cuenta de la eficiencia de la
gestión o del proceso
Ejemplo de aplicación de la Distribución
CHI-Cuadrada
En un proceso de fabricación de cerveza un determinado

compuesto tiene un σ2 = 25 Tomando 10 botellas se quiere saber
la probabilidad que la varianza de la muestra supere 50.
Calcular con la formula y la tabla de probabilidad de χ2
 
2  i
( x  x ) 2
2 
( n  1)  s 2
2 2
Para el mismo proceso, cual será el valor del desvío de

la muestra que ocurrirá solo 1 vez en 100 veces???
Ejemplo de aplicación de la Distribución CHI-
Cuadrada con EXCEL
Calcula-
mos la
X2 con la Respuesta.
fórmula Hay un
3,51% De
probabilidad
que la
varianza
supere los
50
Cuadrada inversa con EXCEL
Encontramos de esta
forma el valor de Chi
Cuadrado para la
Probabilidad 0.01 con
9 gl.
Ahora despejamos de
la fórmula el valor de
la varianza
(10  1).s 2
21.665 
25
21.66  25
s2   60.183
9
Respuesta: El valor de la varianza muestral pedido es de 60.2
Excel permite calcular el Valor Critico para obtener una determinada
Probabilidad, para la situación dada, usando la función χ2 inversa
Cuadrada inversa con EXCEL
Respuesta:
Respuesta El valor
de la varianza que
ocurrirá 1 de 100
veces es 21.66
Excel permite calcular

el Valor Critico para
obtener una
determinada
Probabilidad, para la
situación dada, usando
la función χ2 inversa
La Distribución F
Recibió este nombre en honor a Sir Ronald Fisher, uno de los fundadores
de la estadística moderna. Esta distribución de probabilidad se usa como
estadística prueba en varias situaciones. Se emplea para probar si dos
muestras provienen de poblaciones que poseen varianzas iguales. Esta
prueba es útil para determinar si una población normal tiene una mayor
variación que la otra y también se aplica cuando se trata de comparar
simultáneamente varias medias poblacionales. La comparación
simultánea de varias medias poblacionales se conoce como análisis de
varianza (ANOVA). En ambas situaciones, las poblaciones deben ser
normales y los datos tener al menos la escala de intervalos.
La Distribución F
Características de la distribución F

1.Existe una "familia" de distribuciones F. Un miembro específico de la
familia se determina por dos parámetros: los grados de libertad en el
numerador y en el denominador . Existe una distribución F para la
combinación de 29 grados de libertad en el numerador y 28 grados en el
denominador. Existe otra distribución F para 19 grados en el numerador y 6
en el denominador.
2.La distribución F es una distribución continua.
3.F no puede ser negativa
4.La distribución F tiene un sesgo positivo
5.A medida que aumentan los valores, la curva se aproxima al eje x, pero
nunca lo toca
6.
La Distribución F
s12
La distribución F esta relacionada con el cociente de varianzas .En
2 2 s22
s
donde
1 y s 2 son las varianzas muestrales tienen una distribución
2
con (n - 1) grados de libertad.
Entonces podemos decir que:
1 2
S 2
( n 1)
v 2 
F  12 en donde 2 despejando convenientemente:
2
v2
S12
Función Densidad 
F 2
S2
La Distribución F
Si se sacan dos muestras aleatorias de una población Normal; las varianzas

muestrales s12 y s22 , correspondientes a las dos muestras que no
necesariamente tienen el mismo tamaño ni pertenecen a la misma población.
Los grados de libertad del numerador y del denominador son respectivamente
(n1 – 1) y (n2 – 1) en el denominador.
Esta distribución nos permite hacer inferencias sobre la varianza y además nos
proporciona un medio para comparar las medias de 3 o mas poblaciones
mediante el análisis de varianza (ANOVA)
s12
F=
s22
Hay tablas que tabulan las distribuciones normalmente para

el 1% y para el 5 %
La Distribución F
El Gerente de Calidad de Aguas Argentinas tiene que medir la alcalinidad
del agua. Para ello contrata a 2 laboratorios que sacan la misma cantidad
de muestras y le envían los resultados.
El analiza los datos por medio de un Box Plot y la Distribución F para
decidir a que laboratorio contratar.
9 Muestras Tomadas por c/u de los laboratorios Loys y Bayes Siempre se arma la
60 fórmula con la
varianza mas grande
55
53,0909
en el numerador, por
50
52
convención con el uso
de las tablas
TEST
45
s B2
40
F  2 1
35
sL
BAYES LOYD
Laboratorio
La Distribución F
Test for Equal Variances for ANTES (seg)
F-Test
Test Statistic 2,31
A P-Value 0,076
Lev ene's Test
TURNO
Test Statistic 2,76

P-Value 0,105
B
20 30 40 50 60
F asume
95% Bonferroni Confidence Intervals for StDevs
normalidad y
Levene no asume
normalidad de la
muestra
A
TURNO
50 75 100 125 150 175 200

A NTES (seg)
Síntesis de uso de Distribuciones
Normal estudian la distribución

y de inferencia de la
Student MEDIA
estudia ocurrencias
discretas sobre un
Poisson continuo como el tiempo
estudia el tiempo
Exponencial transcurrido entre
ocurrencias como en
Poisson
estudia distribución de
Chi Cuadrado la VARIANZA
F estudia la relación entre

VARIANZAS muestrales
Fin

Curso BB - Estimaciones

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso BB - Estimaciones

Cargado por

Copyright:

Formatos disponibles

Universidad Austral

BLACK BELT-GREEN BELT –Estimación puntual

Ejemplo de aplicación del teorema del límite central

a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega

Consideremos la variable X = “Tiempo de entrega del paquete”.

Durante el día de hoy se han entregado n = 200 paquetes.

Por el teorema del límite central sabemos que la media muestral se

Si utilizamos esta aproximación, ya podemos contestar a la pregunta

que es aproximadamente igual a la probabilidad siguiente:

Por lo que respecta a la segunda pregunta, de entrada debemos pasar

y como que sabemos que la media se distribuye aproximadamente

Independientemente del tamaño de las muestras, el promedio de la

Error estándar de la media

(o error muestral o Error X 

Uno de los propósitos de la estadística inferencial es estimar

El punto de interés es la muestra, la cual debe ser

Se seguirán ciertos procedimientos de selección para

El error muestral se refiere a la variación natural existente entre

La media de la colección de medias muestrales es 4, la media de la

La suma de los errores muestrales es cero.

En consecuencia, si x se usa para medir, estimar, la media poblacional

Teorema del límite central

a) El error muestral de cada media

b) La media de los errores muestrales es µe, es:

c) La desviación estándar de la distribución de los errores muestrales σe,

La desviación estándar de la distribución muestral de un estadístico se

donde s es la desviación estándar de la población de donde se toman las

Como regla de cálculo, si el muestreo se hace sin reemplazo y el

se denomina factor de corrección para una población finita.

Una población es Población Finita cuando el tamaño n de la muestra

Suponga además que se seleccionan muestras aleatorias de tamaño 2

Calcule la antigüedad media para cada muestra, la media de la

Suponga además que se seleccionan muestras aleatorias de tamaño 2

Calcule la antigüedad media para cada muestra, la media de la

La media poblacional es:

La media de la distribución muestral es:

La desviación estándar de la población es:

El error estándar o la desviación estándar de la distribución muestral

Si utilizamos la fórmula del error estándar sin el factor de corrección

Si recordamos la distribución normal, esta es una distribución

Esta expresión mide la distancia entre cualquier valor de la variable y el

Sabemos que cuando se extraen muestras de tamaño mayor a 30 o

entonces la fórmula para calcular la probabilidad del comportamiento

y para poblaciones finitas y muestro con reemplazo:

La interpretación sería que la probabilidad de que la media de la

Por ejemplo, un estimador de la media

La mayoría de las distribuciones de probabilidad dependen de cierto

Representan a los parámetros poblacionales

Se puede crear un intervalo que tenga una determinada

El objetivo de la estimación puntual y por intervalos es usar una muestra

2. Estimador de la varianza poblacional, es la cuasivarianza muestral

De forma similar, si σ2 es la varianza de la distribución de resistencia a la ruptura, el valor de

Una muestra aleatoria de 3 baterías para calculadora podría presentar duraciones

Calcule la probabilidad de que esta muestra arroje una proporción de

P( p  0.17)  1  P( Z  2.333)  1  0.9901  0.00099  0.099%

P ( pˆ  0.05)  P( z  0.05)  1  0.9525  0.0475  4.75%

Si él toma una muestra aleatoria de 60 días, ¿cuál es la probabilidad de

X: número de días con ventas superiores a $230 → Bi (n = 60; p = 0,3636)

Ocurrencia 1-α Ocurrencia

Cuando se obtiene una estimación puntual de un

Si indicamos un nivel de Probabilidad con el cual

P (k1 < parámetro < k2) = 1 - α

Por ejemplo podríamos decir que la probabilidad de que