Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad 2 Elementos de Inferencia Estadistica
Unidad 2 Elementos de Inferencia Estadistica
importantes
Contenido
• Distribución normal
• Regla 68-95-99,7%
• Puntajes estandarizados
• Probabilidad y percentiles
• Distribución T-Student
• Distribución Chi-cuadrado
Distribución normal
desviación
media estándar
• Unimodal y simétrica, forma de
campana. N(µ, σ)
N(µ = 0, σ = 1)
N(µ = 19, σ = 4)
Regla del 68-95-99.7
Para datos que distribuyen normal,
• El 68% de los datos caen dentro de 1 DS de la media,
• El 95% de los datos caen dentro de 2 DS de la media,
• El 99.7% de los datos caen dentro de 3 DS de la media.
Admisión laboral
Los puntajes de la prueba de inglés TEFL distribuyen normal con media
1500 y desviación estándar de 300. Los puntajes de la prueba ILT de inglés
distribuye normal con media 21 y desviación estándar de 5. El gerente de
recursos humanos quiere determinar cuál de los dos candidatos al puesto
de comercio exterior tiene un mejor inglés: Pamela, que obtuvo 1800 en el
TEFL, o Juan que obtuvo 24 en el ILT?
Juan
Pamela
Puntajes Z estandarizados
Como no podemos comparar los puntajes tal cuales, necesitamos comparar en su
lugar cuántas desviaciones estándar de la media se encuentra cada observación.
• El puntaje de Pamela es (1800 - 1500) / 300 = 1 desviación estándar sobre la
media.
• El puntaje de Juan es (24 - 21) / 5 = 0,6 desviaciones estándar sobre la media.
𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 − 𝑚𝑒𝑑𝑖𝑎
𝑍=
𝐷𝑆
Percentiles
• Cuando la distribución es normal, podemos usar los puntajes Z
para calcular percentiles.
• Percentil es el porcentaje de observaciones que caen bajo un
punto dado.
• Gráficamente, el percentil es el área del lado izquierdo por debajo
de la curva de distribución de probabilidad.
Ejemplo
• Los puntajes de la prueba de inglés TEFL distribuyen
normal con media 1500 y desviación estándar de 300.
Pamela obtuvo 1800 puntos. A qué percentil
corresponde?
Calculando percentiles
Ejemplo
• Un compañero te comenta que cuando él tomó el
test TEFL obtuvo un puntaje dentro del 10%
superior. ¿Cuál sería el menor puntaje posible que
obtuvo?
𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 − 𝑚𝑒𝑑𝑖𝑎
𝑍=
𝐷𝑆
Cálculo de probabilidades
• La probabilidad en un punto es siempre 0,
P(X = b) = 0
• Ejemplo: P(X = 2) = 0
Cálculo de probabilidades
• Se Calcula
P(a < X < b) = P(X < b) - P(X < a)
• Ejemplo: Para la distribución Normal Estándar
P(0 < X < 2) es:
P(X < 2) es: P(X < 0) es:
𝑋−𝜇
• De aquí se deduce que 𝑍 = es una v.a. N(0,1)
𝜎
Distribución normal: Propiedad 2
• Propiedad 2: Sea 𝑋1 ~𝑁 𝜇1 , 𝜎12 y 𝑋2 ~𝑁 𝜇2 , 𝜎22 ,
entonces :
• Y = X1 + X2 es una v.a. 𝑁(𝜇1 + 𝜇2 , 𝜎12 + 𝜎22 + 2𝜌𝜎1 𝜎2 )
• Si X1 y X2 son independientes (ρ = 0)
• Y = X1 + X2 es una v.a. 𝑁(𝜇1 + 𝜇2 , 𝜎12 + 𝜎22 )
Distribución normal: Generalización
Propiedad 2
• Si X1 y X2 son independientes (ρ = 0)
• Y = aX1 + bX2 es una v.a. 𝑁(𝑎𝜇1 + 𝑏𝜇2 , 𝑎2 𝜎12 + 𝑏 2 𝜎22 )
Distribución normal. Propiedad 2 para n
variables independientes.
• Si X es normal estándar.
• Distribuye Chi-cuadrado.
1 𝜐
−1
−𝑍
𝑓 𝑍 = 𝜈 𝜈 𝑍2 𝑒 2 𝑠𝑖 𝑍 ≥ 0,
22Γ(2)
∞
𝑑𝑜𝑛𝑑𝑒 Γ 𝑎 = න 𝑡 𝑎−1 𝑒 −𝑡 𝑑𝑡
0
Fundamentos para
inferencia
Parámetros
poblacionales Estimaciones
puntuales
≈ Estadísticos
muestrales
68%
Cualquier función de las variables
aleatorias de una muestra
Muestra
estadístico
1
Población Muestra
estadístico
2
Muestra
estadístico
3
Muestra
estadístico
n
distribución de distribución
las muestras ≠ muestral
Estimación de parámetros
• Usualmente nos interesan los parámetros poblacionales.
• Dado que obtener los datos de toda una población es difícil (imposible),
usamos estadisticos muestrales como estimaciones puntuales de los
parámetros poblacionales desconocidos.
• Las estimaciones puntuales varían de muestra en muestra.
• Cuantificar cómo las estimaciones varían nos ayudan a estimar el margen
de error asociado con nuestra estimación puntual.
σ𝑁
𝑖=1 𝑥𝑖 − 𝑥ҧ
2
𝜎= 𝑥ҧ 𝑋𝐼1000
𝑁
distribución muestral
𝑚𝑒𝑑𝑖𝑎(𝑥)ҧ ≈ 𝜇
error estándar 𝐷𝑆(𝑥)
ҧ <𝜎
• CLT_mean/
Teorema Central del Límite
• Si 𝑋ത es la media de una muestra aleatoria de tamaño n tomada
de una población con media μ y varianza finita σ2, entonces la
forma límite de la distribución de 𝑋ത conforme n → ∞ es:
S 𝜎
ത
𝑋~𝑁(𝑚𝑒𝑑𝑖𝑎 = 𝜇, 𝐸𝑆 = )
𝑛
• Insesgado.
• Eficiente.
• Consistente.
Estimadores insesgados
• Con E(X) =
• Var (X) =
Determine si T es insesgado
Estimadores eficientes
Distribución de 𝜃መ1
Distribución de 𝜃መ2
Ejemplo 2
• Volviendo a la m.a exponencial. Consideremos 𝜃1 = 𝑋𝑛 y
𝑋1 +𝑋2
𝜃2 = . ¿Cuál de los dos es más eficiente?
2
𝑛
1 1 𝜆
= 2 𝜆 = 2 𝑛𝜆 =
𝑛 𝑛 𝑛
𝑖=1
1 1 1
𝑉 𝜃2 = 𝑉( 𝑋1 + 𝑋2 ) = 𝑉 𝑋1 + 𝑋2 = (𝑉 𝑋1 ) + 𝑉(𝑋2 )
2 4 4
1 𝜆
= 2𝜆 =
4 2
Error cuadrático medio
• Definición: se define Error Cuadrático Medio (ECM) como:
• En general si:
• 𝜃መ es un estimador insesgado para y
መ tiende a cero si n tiende a infinito entonces el estimador es
• V(𝜃)
consistente para 𝜃.
Estimadores Máxima
Verosimilitud
Función de verosimilitud. Definición
• El método de Máxima verosimilitud es un método para
obtener estimadores con buenas propiedades.
𝐿 𝜃 = 𝑓(𝑋1 , … , 𝑋𝑛 ; 𝜃)
Estimadores de Máxima Verosimilitud
𝑛
1 1
𝐿 𝜆 = 𝑛 exp{− 𝑋𝑖 }
𝜆 𝜆
𝑖=1
Función de log-verosimilitud. Definición
• Se llama función de Log-verosimilitud (l()) al logaritmo
natural de la función de verosimilitud. Es decir:
𝑥ҧ
𝑋ത − 𝜇
𝑍=𝜎
ൗ 𝑛
ത
𝑋−𝜇
P(-za/2 < 𝜎 < za/2) = 1-a
ൗ 𝑛
Conocido!
𝜎 𝜎
𝑋ത − 𝑍𝛼 ത
< 𝜇 < 𝑋 + 𝑍𝛼
2 𝑛 2 𝑛
Encontrando el valor crítico de un IC al 95%
𝜎
𝑋ത ± 𝑍 ∗
𝑛
-1,96 Z* = 1,96
Interpretación del IC al 95%
Suponga que se sacan muchas muestras y se construye un intervalo de
confianza para cada muestra, usando la ecuación estimador puntual ±
1,96xDS.
Entonces, 95% de esos intervalos contendrán la verdadera media
poblacional (µ).
La figura muestra este proceso con
25 muestras, donde 24 de los
intervalos de confianza construidos
contienen el verdadero valor
poblacional y uno no.
Niveles de confianza utilizados en la
práctica: 90%, 95%, 99%
µ
Ancho del intervalo
Si queremos estar más seguros de capturar el parámetro poblacional, es
decir aumentar nuestro nivel de confianza, deberíamos usar un intervalo
más ancho o mas pequeño?
𝑀𝐸 = 𝑍𝛼/2 𝜎/ 𝑛
• luego, despejando n:
𝜎 2
𝑛 = 𝑍𝛼
2 𝑀𝐸
𝑋ത − 𝜇 σ𝑛
𝑖=1(𝑋𝑖 − ത 2
𝑋)
~𝑡 𝑛 − 1 , 𝑐𝑜𝑛 𝑆 2 =
𝑆 𝑛−1
𝑛
• Se quiere estimar el tiempo promedio de los corredores del tramo
34 a 38 años. Para esto se selecciona una muestra aleatoria de 100
participantes y se estima que el tiempo promedio fue 2 horas con
cinco minutos con una desviación estándar de 30 minutos.
http://www.werunsantiago.com/index.php
IC para µ cuando σ es desconocido y n
suficientemente grande
• Si n es suficientemente grande (mayor que 40) se
puede emplear la distribución Normal en lugar de la t
de Student:
• Distribución muestral
Muestra
estadístico
1
Población Muestra
estadístico
2
Muestra
estadístico
3
Muestra
estadístico
n
distribución de distribución
las muestras ≠ muestral
Fumador o no % fumadores
categórica numérica
Población 𝑝Ƹ 𝐼
chilenos 𝑝Ƹ 𝐼𝐼
N =total pob
p .
.
.
# 𝑑𝑒 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 𝑒𝑛 𝐶ℎ𝑖𝑙𝑒 .
𝑝=
𝑁 .
.
.
.
.
𝑝Ƹ𝑋𝐼
distribución muestral
𝑚𝑒𝑑𝑖𝑎(𝑝)Ƹ ≈ 𝑝
Teorema Central del Límite para
proporciones
• La distribución muestral de las proporciones es cercana a la
normal, centrada en la proporción poblacional, con un error
estándar inversamente proporcional al tamaño de la muestra:
𝑝 1−𝑝
𝑝~𝑁(𝑚𝑒𝑑𝑖𝑎
ො = 𝑝, 𝐸𝑆 = )
𝑛
2%
LE DA CONFIANZA
30%
NO LE DA CONFIANZA
No sabe
65% No contesta
¿Qué porcentaje de chilenos no confía en
la presidenta Michelle Bachellet?
𝑃 𝑝Ƹ
Estimando una proporción
Estimación puntual ± margen de error
𝑝Ƹ ± 𝑍 ∗ 𝐸𝑆𝑝ො
𝑝(1
Ƹ − 𝑝)Ƹ
𝐸𝑆𝑝ො =
𝑛
La encueta CEP encontró que 895 de 1377 (~65%) de
chilenos que contestaron la encuesta no confiaban en
la presidenta. Estime (usando un 95% de confianza) la
proporción de todos los chilenos que no confían en la
presidenta.
Tamaño muestral requerido para el
ME deseado
∗ ො
𝑝(1− ො
𝑝)
• Recuerde que 𝑀𝐸 = 𝑍
𝑛
𝑛
1
2
𝑆 = ത 2 , es la varianza muestral
(𝑋𝑖 − 𝑋)
𝑛−1
𝑖=1
Distribución muestral de S2
• Si se extrae una muestra aleatoria de tamaño n de una
población normal con media μ y varianza σ2, y se calcula la
varianza muestral, obtenemos un valor del estadístico S2.
𝑛 2
𝑋𝑖 − 𝜇
𝑌=
𝜎
𝑖=1
(𝑛 − 1)𝑆 2 (𝑋𝑖 − ത
𝑋) 2
𝜒2 = =
𝜎2 𝜎2
(𝑛 − 1)𝑆 2 (𝑛 − 1)𝑆 2
𝑃 2 ≤ 𝜎2 ≤ 2 =1−𝛼
𝜒 𝛼 𝜒𝛼
1− 2 ; 𝑛−1 2 ; 𝑛−1
𝑛−1 𝑆 2 (𝑛−1)𝑆 2
𝐼𝐶 1−𝛼 100% =( , )
𝜒2 𝛼 2
𝜒𝛼
1− 2 ; 𝑛−1 2 ; 𝑛−1
¿Cuál es la variabilidad del proceso?
S2 = 13,40 ml2
𝑛−1 𝑆 2 (𝑛−1)𝑆 2
𝐼𝐶 1−𝛼 100% = (𝜒2 , 2 )
𝛼 𝜒𝛼
1− 2 ; 𝑛−1 2 ; 𝑛−1
2 2
𝜒0,025;19 =8,907 𝜒0,975;19 = 32,852
N=20
19×13,40 19×13,40
≤ 𝜎2 ≤ c
32,852 8,907
7,7499 ≤ 𝜎 2 ≤28,5843
(𝑛−1)𝑆 2
2 ≤ 𝜎 2 , límite inferior
𝜒𝛼,𝑛−1
2 𝑛−1 𝑆 2
𝜎 ≤ 2 , límite superior
𝜒1−𝛼,𝑛−1
Intervalos de confianza.
Diferencia de media de dos
poblaciones
¿Existe alguna diferencia?
• ¿Vivirás más si ejercitas 30 minutos
al día versus si no ejercitas nada?
𝑎𝑝𝑟𝑜𝑥. 𝜎𝑦2
• 𝑌ത ~ 𝑁(𝜇𝑦 , )
𝑛𝑦
𝜎𝑥2 𝜎𝑦2
𝐼𝐶 1−𝛼 100 = 𝑋ത − 𝑌ത ± 𝑍𝛼 +
2 𝑛𝑥 𝑛𝑦
Ejemplo 1.
• En el ejemplo de salarios. Supongamos que:
• 𝑋ത = $800.000
• 𝑌ത = $680.000
• nx = 144
• ny = 121
• σx = 60.000
• σy = 50.000
𝜎𝑥2 𝜎𝑦2
𝐼𝐶95 = 𝑋ത − 𝑌ത ± 𝑍0,025 +
𝑛𝑥 𝑛𝑦
600002 500002
𝐼𝐶95 = 800000 − 680000 ± 1,96 +
144 121
𝑛 − 1 𝑆 2 + 𝑛 − 1 𝑆2
𝑥 𝑥 𝑦 𝑦
𝑆𝑝2 =
𝑛𝑥 + 𝑛𝑦 − 2
• Sx = 60.000
• Sy = 50.000
• 𝑋ത = $800.000
• 𝑌ത = $680.000
• nx = 144
• ny = 121
𝑋ത − 𝑌ത − (𝜇𝑥 − 𝜇𝑦 ) 𝑎𝑝𝑟𝑜𝑥.
𝑍= ~
𝑁(0,1)
2
𝑆𝑥2 𝑆𝑦
+
𝑛𝑥 𝑛𝑦
𝑆𝑥2 𝑆𝑦2
𝐼𝐶 1−𝛼 100 = 𝑋ത − 𝑌ത ± 𝑍𝛼 +
2 𝑛𝑥 𝑛𝑦
Ejemplo 3.
En el ejemplo de los salarios, supongamos ahora que 𝜎𝑥2 y 𝜎𝑦2 son
desconocidos pero se sabe que son distintos.
• Sx = 100.000
• Sy = 90.000
• 𝑋ത = $800.000
• 𝑌ത = $680.000
• nx = 144
• ny = 121
𝜎𝑦2
𝑃(𝐹1−𝛼 𝑛 −1 , 𝑛 −1 𝑆𝑦2 /𝑆𝑋2 < < 𝐹𝛼 𝑆𝑦2 /𝑆𝑋2 ) = 1 − 𝛼
2 𝑥 𝑦 𝜎𝑥2 2
𝑛𝑥 −1 , 𝑛𝑦 −1
1 𝜎𝑥2 1
𝑃( 𝑆𝑥2 /𝑆𝑦2 < < 𝑆𝑥2 /𝑆𝑦2 = 1 − 𝛼
𝐹𝛼 𝜎𝑦2 𝐹 𝛼
2 𝑛𝑥 −1 , 𝑛𝑦 −1 1− 2 𝑛𝑥 −1 , 𝑛𝑦 −1
1 1
𝐼𝐶 1−𝛼 100 =( 𝑆𝑥2 /𝑆𝑦2 ; 𝑆𝑥2 /𝑆𝑦2 )
𝐹 𝛼 𝐹 𝛼
𝑛𝑥 −1 , 𝑛𝑦 −1 1− 2 𝑛𝑥 −1 , 𝑛𝑦 −1
2
Ejemplo 1
• Se quiere comparar la velocidad de transmisión de cierto tipo de
enrutador ADSL con la tecnología wireless. Se toma una muestra de 14
routers ADSL y 8 transmisores inalámbricos y se obtienen los siguientes
resultados (medidos en Mbps):
• p2 la proporción de la población 2.
• El IC es de la forma:
𝑝Ƹ1 (1 − 𝑝Ƹ1 ) 𝑝Ƹ 2 (1 − 𝑝Ƹ 2 )
𝐼𝐶 1−𝛼 100 = (𝑝Ƹ1 − 𝑝Ƹ 2 ) ± 𝑍𝛼/2 +
𝑛1 𝑛2
Ejemplo 2
Un vendedor de teléfonos ha vendido 150 teléfonos de la
marca 1 y ha tenido que tramitar desperfectos durante el
período de garantía a 14 de ellos. Al mismo tiempo ha
vendido 125 teléfonos de la marca 2 habiendo tramitado
un total de 15 desperfectos en el período de garantía.
¿Hay una evidencia estadística que nos permita asegurar
que el porcentaje de desperfectos para ambas marcas es
distinto? Utilizar una confiabilidad de 95%
Test de Hipótesis
Test de hipótesis
Muestra
Método de estadística
Test de significancia inferencial
Hipótesis
Expectativa de la población
HIPÓTESIS
H0 H1
• representa nuestra pregunta de
• es lo que se cree inicialmente que es más
investigación, lo que estamos probando
probable
• Indica que el parámetro de interés cae
• status quo
dentro de un rango <, >, ≠ de valores
• el parámetro que interesa toma un valor
alternativos
específico =
• será rechazada si los datos de la muestra
indican que es un valor poco probable
Test de hipótesis
juicio
Inocente Culpable
H0 H1
Se asume verdadera Se acepta si la
hasta que una evidencia
evidencia convincentemente
convincente pruebe prueba que es el caso
lo contrario
Ejemplo dos colas
𝑋ത − 𝜇 𝑋ത − 𝜇
𝛼=𝑃 𝜎 < 𝑎|𝜇 = 07 + 𝑃( 𝜎 > 𝑏|𝜇 = 0,7)
𝑛 𝑛
𝑅𝑅 = (−∞, −𝑍𝛼 )
¿Cómo calcular la probabilidad de
cometer error de tipo II?
• β no es único
ത
𝑋−0,7
𝛽 = 𝑃(−𝑍𝛼 < 𝜎 < 𝑍𝛼 |𝐻0 𝑒𝑠 𝑓𝑎𝑙𝑠𝑎)
2 ൗ 𝑛 2
ത
𝑋−0,7
𝛽 = 𝑃(−𝑍 < 𝛼
𝜎 < 𝑍𝛼 |𝜇 ≠ 0,7)
2 ൗ 𝑛 2
𝑋ത − 0,8
𝑍= 𝜎 ~𝑁(0,1)
ൗ 𝑛
• 𝑯𝟎 : 𝑝 ≥ 0,1
• 𝑯𝟏 : 𝑝 < 0,1
𝑅𝑅 = (−∞, −1,645)
𝑍𝑜𝑏𝑠 = −2,04
Ejemplo 1
• ¿Qué sucede si p = 0,2?
Test de cola inferior para la proporción
poblacional con muestra grande (n > 30).
1. Se plantea la dócima:
• H0: p = p0
• H1: p < p0 (cola inferior)
2. Se chequean supuestos np0 ≥ 10 y n(1-p0) ≥10.
3. Se especifica un estadístico:
𝑝Ƹ − 𝑝0 𝐵𝑎𝑗𝑜𝐻0
𝑍= 𝑁(0,1)
𝑝0 (1 − 𝑝0 ) ~
𝑛
2
• a=𝜒(𝑛−1)𝛼
• 𝑅𝑅 = (0; 𝜒 2𝑛−1 𝛼 )
Pruebas de hipótesis para la varianza.
1. Dócima
• H0:𝜎 2 = 𝜎02
• H1:
• 𝜎 2 ≠ 𝜎02 (2 colas)
• 𝜎 2 < 𝜎02 (cola inferior)
• 𝜎 2 > 𝜎02 (cola superior)
No se rechaza
H0: m=40
a
H0: m=40
X 43
P-value
Es la probabilidad que tendría una región crítica que comenzase exactamente en el valor
del estadístico obtenido de la muestra.
Es la probabilidad de tener una muestra que discrepe aún más que la nuestra de H0.
Es la probabilidad de que por puro azar obtengamos una muestra “más extraña” que la
obtenida.
p es conocido después de realizar el experimento aleatorio
El contraste es no significativo cuando a*> a
a* a
No se rechaza
H0: m=40
a* a
X 43
H0: m=40
H1: m>40 a
X 50
Significación : p
El contraste es estadísticamente significativo cuando a*< a
Es decir, si el resultado experimental discrepa más de “lo tolerado” a priori.
a a*
H1: m>40
a a*
X 50
Ejemplo 1.
• La estatura promedio de mujeres de primer año de cierta
universidad es de 162,5 centímetros con una desviación
estándar de 6,9 centímetros.
2. Tamaño de la muestra/asimetría
• Mientras más asimétrica sea la distribución, más grande el
tamaño de la muestra
• La aproximación normal por lo general, será buena si nx, ny ≥ 30.
Si n < 30, la aproximación es buena sólo si la población no es
muy diferente de una distribución normal.
Dos muestras: Pruebas sobre dos medias
Test Dócima Estad del Test Dist del Estad.
𝑇= 𝑡 𝑣=
+
𝑛𝑥 𝑛𝑦
con nx , ny chicos y 2 2
𝑣 = min 𝑛𝑥 − 1, 𝑛𝑦 − 1
Dos muestras: Pruebas sobre dos medias
• p2 la proporción de la población 2.
3. Región de Rechazo
• (−∞; −𝑍𝛼 ) ∪ (𝑍1−𝛼 ; ∞)
2 2
• (−∞; −𝑍𝛼 )
• (𝑍1−𝛼 ; ∞)
4. P-value
Diferencia de proporciones
• En un estudio para estimar la proporción de residentes de cierta
ciudad y sus suburbios que están a favor de la construcción de
una planta de energía nuclear, se encuentra que 120 de 200
residentes urbanos favorecen la construcción, mientras que 240
de 500 residentes suburbanos la favorecen. ¿Estaría usted de
acuerdo en que la proporción de residentes urbanos que
favorecen la construcción de la planta nuclear es mayor que la
proporción de residentes suburbanos que la favorecen? Utilice un
valor P.