Está en la página 1de 180

Distribuciones continuas

importantes
Contenido

• Distribución normal
• Regla 68-95-99,7%
• Puntajes estandarizados
• Probabilidad y percentiles
• Distribución T-Student
• Distribución Chi-cuadrado
Distribución normal
desviación
media estándar
• Unimodal y simétrica, forma de
campana. N(µ, σ)

• Sigue reglas estrictas de cómo


se deben distribuir los datos al
rededor de la media.
• Muchas variables son casi
normales, pero ninguna es
exactamente normal.
Distribución Normal con diferentes
parámetros

N(µ = 0, σ = 1)

N(µ = 19, σ = 4)
Regla del 68-95-99.7
Para datos que distribuyen normal,
• El 68% de los datos caen dentro de 1 DS de la media,
• El 95% de los datos caen dentro de 2 DS de la media,
• El 99.7% de los datos caen dentro de 3 DS de la media.
Admisión laboral
Los puntajes de la prueba de inglés TEFL distribuyen normal con media
1500 y desviación estándar de 300. Los puntajes de la prueba ILT de inglés
distribuye normal con media 21 y desviación estándar de 5. El gerente de
recursos humanos quiere determinar cuál de los dos candidatos al puesto
de comercio exterior tiene un mejor inglés: Pamela, que obtuvo 1800 en el
TEFL, o Juan que obtuvo 24 en el ILT?

Juan
Pamela
Puntajes Z estandarizados
Como no podemos comparar los puntajes tal cuales, necesitamos comparar en su
lugar cuántas desviaciones estándar de la media se encuentra cada observación.
• El puntaje de Pamela es (1800 - 1500) / 300 = 1 desviación estándar sobre la
media.
• El puntaje de Juan es (24 - 21) / 5 = 0,6 desviaciones estándar sobre la media.

Juan Pamela Los puntajes Z se pueden


calcular para cualquier
distribución, pero solo para la
distribución normal se pueden
usar para calcular percentiles.
Puntajes Z estandarizados
• Los puntajes (Z) de una observación, es el numero de
desviaciones estándar que la observación cae sobre o
bajo la media.
• La media de puntajes Z = 0
• Observaciones inusuales |Z| > 2
• Se definen para distribuciones de cualquier forma

𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 − 𝑚𝑒𝑑𝑖𝑎
𝑍=
𝐷𝑆
Percentiles
• Cuando la distribución es normal, podemos usar los puntajes Z
para calcular percentiles.
• Percentil es el porcentaje de observaciones que caen bajo un
punto dado.
• Gráficamente, el percentil es el área del lado izquierdo por debajo
de la curva de distribución de probabilidad.
Ejemplo
• Los puntajes de la prueba de inglés TEFL distribuyen
normal con media 1500 y desviación estándar de 300.
Pamela obtuvo 1800 puntos. A qué percentil
corresponde?
Calculando percentiles
Ejemplo
• Un compañero te comenta que cuando él tomó el
test TEFL obtuvo un puntaje dentro del 10%
superior. ¿Cuál sería el menor puntaje posible que
obtuvo?
𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 − 𝑚𝑒𝑑𝑖𝑎
𝑍=
𝐷𝑆
Cálculo de probabilidades
• La probabilidad en un punto es siempre 0,
P(X = b) = 0

• Ejemplo: P(X = 2) = 0
Cálculo de probabilidades
• Se Calcula
P(a < X < b) = P(X < b) - P(X < a)
• Ejemplo: Para la distribución Normal Estándar
P(0 < X < 2) es:
P(X < 2) es: P(X < 0) es:

P(0 < X < 2)


Distribución normal: Propiedad 1
Propiedad 1: Sea X una v.a. con X~N(µ,σ2) y a un
número real, entonces:
• Y = X + a es una v.a. N(µ+a,σ2)

• Y = aX es una v.a. N(aµ,a2σ2)

𝑋−𝜇
• De aquí se deduce que 𝑍 = es una v.a. N(0,1)
𝜎
Distribución normal: Propiedad 2
• Propiedad 2: Sea 𝑋1 ~𝑁 𝜇1 , 𝜎12 y 𝑋2 ~𝑁 𝜇2 , 𝜎22 ,
entonces :
• Y = X1 + X2 es una v.a. 𝑁(𝜇1 + 𝜇2 , 𝜎12 + 𝜎22 + 2𝜌𝜎1 𝜎2 )

• Si X1 y X2 son independientes (ρ = 0)
• Y = X1 + X2 es una v.a. 𝑁(𝜇1 + 𝜇2 , 𝜎12 + 𝜎22 )
Distribución normal: Generalización
Propiedad 2

• Sea 𝑋1 ~𝑁 𝜇1 , 𝜎12 y 𝑋2 ~𝑁 𝜇2 , 𝜎22 y sean a y b


reales, entonces:
• Y = aX1 + bX2 es una v.a. 𝑁(𝑎𝜇1 + 𝑏𝜇2 , 𝑎2 𝜎12 + 𝑏 2 𝜎22 +
2𝑎𝑏𝜌𝜎1 𝜎2 )

• Si X1 y X2 son independientes (ρ = 0)
• Y = aX1 + bX2 es una v.a. 𝑁(𝑎𝜇1 + 𝑏𝜇2 , 𝑎2 𝜎12 + 𝑏 2 𝜎22 )
Distribución normal. Propiedad 2 para n
variables independientes.

Sean X1, X2, ….., Xn v.a.s independientes y a1, a2, …,an

números reales. Si 𝑋𝑖 ~𝑁 𝜇𝑖 , 𝜎𝑖2

• Y = X1+X2+….+Xn es una v.a. 𝑁(σ𝑛𝑖=1 𝜇𝑖 , σ𝑛𝑖=1 𝜎𝑖2 )

• Y = a1X1+a2X2+….+anXn es una v.a.

N(σ𝑛𝑖=1 𝑎𝑖 𝜇𝑖 , σ𝑛𝑖=1 𝑎𝑖2 𝜎𝑖2 )


Distribución t de student
• Forma de campana pero las colas son más gruesas que las de la
normal
• Las observaciones son más posibles de caer dentro de 2 DS de la
media
• Las colas gruesas ayudan a mitigar el efecto de la estimación menos
fiable del error estándar de la distribución muestral (especialmente
cuando n es pequeño)

Este IC también es válido si n es pequeño pero los datos son


normales!!
La distribución t (cont.)
Siempre está centrada en cero, al igual que la distribución normal
estándar (z).
Tiene solo un parámetro:  = grados de libertad (gl =n-1).

¿Qué ocurre con la distribución t a medida que los grados de


libertad aumentan?
Distribución Chi-cuadrado

• Si X es normal estándar.

• ¿Cual es la distribución de Z = X2?

• Distribuye Chi-cuadrado.

• Se escribe 𝑍~𝜒 2 (𝜈 = 1) donde  = 1 es un


parámetro que se conoce como grados de libertad.
Distribución Chi-cuadrado
• La distribución chi-cuadrado se utiliza para caracterizar
conjuntos de datos y estadísticos que son siempre positivos y
típicamente sesgados a la derecha.

• Tiene sólo un parámetro , el cual influye en la forma, el


centro y la dispersión de la distribución.
Distribución Chi-cuadrado
En general

• Si X1, X2, ….., Xn son v.a. normales estándar


independientes, entonces 𝑍 = 𝑋12 + 𝑋22 + ⋯ + 𝑋𝑛2
distribuye chi cuadrado con  = n grados de libertad.

1 𝜐
−1
−𝑍
𝑓 𝑍 = 𝜈 𝜈 𝑍2 𝑒 2 𝑠𝑖 𝑍 ≥ 0,
22Γ(2)

𝑑𝑜𝑛𝑑𝑒 Γ 𝑎 = න 𝑡 𝑎−1 𝑒 −𝑡 𝑑𝑡
0
Fundamentos para
inferencia
Parámetros
poblacionales Estimaciones
puntuales

≈ Estadísticos
muestrales

68%
Cualquier función de las variables
aleatorias de una muestra

Muestra
estadístico
1

Población Muestra
estadístico
2

Muestra
estadístico
3

Muestra
estadístico
n

distribución de distribución
las muestras ≠ muestral
Estimación de parámetros
• Usualmente nos interesan los parámetros poblacionales.
• Dado que obtener los datos de toda una población es difícil (imposible),
usamos estadisticos muestrales como estimaciones puntuales de los
parámetros poblacionales desconocidos.
• Las estimaciones puntuales varían de muestra en muestra.
• Cuantificar cómo las estimaciones varían nos ayudan a estimar el margen
de error asociado con nuestra estimación puntual.

Suponga que extraemos aleatoriamente una muestra de 1,000 adultos de


cada región de Chile. ¿Cómo esperarías que sea la variación del promedio del
ingreso por cápita de cada región? La misma, un poco diferente o muy
diferente?
𝑥𝐼1000
Trabajador 𝑥ҧ 𝐼𝐼1000
de Chile
N = tamaño .
pob .
µ .
.
.
.
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁 .
𝜇= .
𝑁
.

σ𝑁
𝑖=1 𝑥𝑖 − 𝑥ҧ
2
𝜎= 𝑥ҧ 𝑋𝐼1000
𝑁
distribución muestral

𝑚𝑒𝑑𝑖𝑎(𝑥)ҧ ≈ 𝜇
error estándar 𝐷𝑆(𝑥)
ҧ <𝜎
• CLT_mean/
Teorema Central del Límite
• Si 𝑋ത es la media de una muestra aleatoria de tamaño n tomada
de una población con media μ y varianza finita σ2, entonces la
forma límite de la distribución de 𝑋ത conforme n → ∞ es:
S 𝜎

𝑋~𝑁(𝑚𝑒𝑑𝑖𝑎 = 𝜇, 𝐸𝑆 = )
𝑛

forma centro dispersión


TCL - condiciones
Hay ciertas condiciones que se deben cumplir para que aplique el TCL:
Independencia: Las observaciones de la muestra deben ser independientes.
Esto es difícil de verificar, pero es más probable que ocurra si:
• Muestreo aleatorio/asignación aleatoria
• Se usó un muestreo sin reposición, n < 10% de la población.

Tamaño de la muestra / asimetría:


• Mientras más asimétrica sea la distribución, más grande el tamaño de la
muestra para que se pueda aplicar el TCL
• La aproximación normal para 𝑋, ത por lo general, será buena si n ≥ 30. Si n
< 30, la aproximación es buena sólo si la población no es muy diferente
de una distribución normal.
Ejemplo
• Supongamos que mi teléfono tiene 3.000 canciones. El histograma muestra
la distribución de la duración de estas canciones. Se sabe que para este
teléfono, la duración promedio de una canción es de 3,45 minutos y la
desviación estándar es de 1,63 minutos. Calcular la probabilidad de que
una canción seleccionada aleatoriamente dure más de 5 minutos.
Ejemplo
• Para el feriado de fiestas patrias haré un viaje al sur que dura 6 horas. Para
esto, quiero hacer una lista de reproducción aleatoria de 100 canciones.
• ¿Cuál es la probabilidad de que mi lista de reproducción dure todo el viaje?
Propiedades de estimadores
puntuales

• Insesgado.
• Eficiente.
• Consistente.
Estimadores insesgados

• Se dice que un estadístico 𝜃መ es un estimador


insesgado del parámetro 𝜃 si:
𝐸 𝜃෠ = 𝜃

• Si el estimador no es insesgado, entonces la diferencia


𝐸 𝜃෠ − 𝜃

• Se llama sesgo del estimador 𝜃.
Ejemplo 1
• Sea T = 𝑋ത un estimador para en el caso de una muestra
aleatoria exponencial. Esta distribución tiene la siguiente
función de densidad:

• Con E(X) = 
• Var (X) = 

Determine si T es insesgado
Estimadores eficientes

• Se dice que el estimador 𝜃መ1 es más eficiente que 𝜃መ2


para estimar el parámetro  si:
𝑉(𝜃መ1 ) < 𝑉(𝜃መ2 )

Distribución de 𝜃መ1

Distribución de 𝜃መ2
Ejemplo 2
• Volviendo a la m.a exponencial. Consideremos 𝜃෠1 = 𝑋𝑛 y
𝑋1 +𝑋2

𝜃2 = . ¿Cuál de los dos es más eficiente?
2

• E(𝜃෠1 ) =  (ver ejemplo 1)


1 1

• E(𝜃2 ) = (𝐸 𝑋1 ) + 𝐸 𝑋2 = 2𝜆 =𝜆
2 2

• Ambos son insesgados.


Ejemplo 2
𝑛 𝑛 𝑛
1 1 1
𝑉 𝜃෠1 = 𝑉( ෍ 𝑋𝑖 ) = 2 𝑉(෍ 𝑋𝑖 ) = 2 ෍ 𝑉(𝑋𝑖 )
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

𝑛
1 1 𝜆
= 2 ෍ 𝜆 = 2 𝑛𝜆 =
𝑛 𝑛 𝑛
𝑖=1

1 1 1

𝑉 𝜃2 = 𝑉( 𝑋1 + 𝑋2 ) = 𝑉 𝑋1 + 𝑋2 = (𝑉 𝑋1 ) + 𝑉(𝑋2 )
2 4 4
1 𝜆
= 2𝜆 =
4 2
Error cuadrático medio
• Definición: se define Error Cuadrático Medio (ECM) como:

𝐸𝐶𝑀 𝜃෠ = 𝐸 (𝜃෠ − 𝜃)2

• Se puede demostrar que


2
𝐸𝐶𝑀 𝜃෠ = 𝑉 𝜃෠ + 𝑠𝑒𝑠𝑔𝑜 𝜃෠

• Cuanto menor es el ECM, mejor el estimador

• El ECM tiene en cuenta tanto que el estimador tenga poco sesgo,

como que sea eficiente.

• Se puede buscar el estimador que minimice el ECM.


Estimadores consistentes
• Estimadores Consistentes. Se dice que un estimador 𝜃෠ es
consistente para el parámetro 𝜃 si converge en probabilidad a
𝜃 . Esto quiere decir:

lim 𝑃 𝜃෠𝑛 − 𝜃 ≥ 𝜖 = 0, 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝜖 > 0


𝑛→∞

• En general si:
• 𝜃መ es un estimador insesgado para  y
መ tiende a cero si n tiende a infinito entonces el estimador es
• V(𝜃)
consistente para 𝜃.
Estimadores Máxima
Verosimilitud
Función de verosimilitud. Definición
• El método de Máxima verosimilitud es un método para
obtener estimadores con buenas propiedades.

• La idea es encontrar un estimador del parámetro que


maximice la probabilidad de ocurrencia de la muestra.

• La función de Verosimilitud, L( ) de la muestra X1, …,Xn es


equivalente a la función de densidad conjunta pero vista
como función del parámetro 

𝐿 𝜃 = 𝑓(𝑋1 , … , 𝑋𝑛 ; 𝜃)
Estimadores de Máxima Verosimilitud

• Se intenta responder la siguiente pregunta: ¿Cuál es el valor


de  que hace más probable que la muestra haya salido?

• Para ello el método propone encontrar el valor de  que


maximice la verosimilitud.

• El Estimador de máxima verosimilitud (EMV) es el


estadístico que maximiza la función de verosimilitud.
𝜃෠𝑀𝑉 = arg{𝑚𝑎𝑥𝜃 𝐿 𝜃 }
Ejemplo
• Recordemos el caso en que se toma una muestra de ampolletas:
se mide el tiempo de duración de las mismas. Suponemos que el
tiempo de duración distribuye exponencial.

• La densidad conjunta de la muestra es:


𝑛
1 1
𝑓 𝑋1 , … , 𝑋𝑛 ; 𝜆 = 𝑛 exp{− ෍ 𝑋𝑖 }
𝜆 𝜆
𝑖=1

• La función de verosimilitud es:

𝑛
1 1
𝐿 𝜆 = 𝑛 exp{− ෍ 𝑋𝑖 }
𝜆 𝜆
𝑖=1
Función de log-verosimilitud. Definición
• Se llama función de Log-verosimilitud (l()) al logaritmo
natural de la función de verosimilitud. Es decir:

• Generalmente es más sencillo maximizar las log-


verosimilitud que la verosimilitud.
Intervalos de confianza
Contenido
• ¿Qué es un intervalo de confianza?
• Condiciones
• Interpretación
Intervalo de confianza
Un rango de posibles valores para el parámetro de la población se llama un
intervalo de confianza.
• Utilizar un solo estadístico muestral para
estimar un parámetro, es como pescar en un
lago turbio con una lanza.
• Es improbable que una estimación puntual de
una muestra dada, estime con exactitud el
parámetro poblacional.

• Mientras que usar un intervalo de confianza es


como pescar con una red.
• Es preferible determinar un intervalo dentro del
cual esperaríamos encontrar el valor del
parámetro.
Intervalo de confianza
Teorema Central del Límite (TCL)
𝜎

𝑋~𝑁(𝑚𝑒𝑑𝑖𝑎 = 𝜇, 𝐸𝑆 = )
𝑛

𝑥ҧ

Aproximadamente 95% CI: 𝜃መ ± 2 × 𝐸𝑆

Margen de error (ME)


Ejemplo
Cadem: 85% de los chilenos cree que la economía del país está estancada
http://www.estrategia.cl/11538/Titulo
La encuesta consiste en 711 casos. 502 entrevistas telefónicas y 209 entrevistas cara a
cara en puntos de afluencia. Margen de error de +/- 3,7 puntos porcentuales al 95% de
confianza.

¿Cuál de las siguientes afirmaciones es falsa?


(a) Un mayor tamaño de muestra llevará a un menor error
estándar.
(b) El IC al 95% para el porcentaje de chilenos que cree que
la economía está estancada es aproximadamente
85%±3,7%
(c) El error estándar para el porcentaje de chilenos que cree
que la economía está estancada es aproximadamente un
3,7%
(d) El IC al 99,7% para el porcentaje de chilenos que cree que
la economía está estancada es aprox 85%± 5,55%
Intervalo de confianza para la media
poblacional
• Se calcula como la media muestral mas/menos un margen de error (valor
crítico correspondiente al medio XX% de la distribución normal por el error
estándar de la distribución muestral)

𝑋ത − 𝜇
𝑍=𝜎
ൗ 𝑛

Condiciones para este intervalo de confianza:


Independencia: Las observaciones de la muestra deben ser independientes.
• Muestreo aleatorio/asignación aleatoria
• Se usó un muestreo sin reposición, n < 10% de la población.
Tamaño de la muestra / asimetría:
• n ≥ 30. Más grande si la distribución poblacional es muy asimétrica.
Intervalo de confianza para la media
poblacional
• Consideremos ahora la estimación por intervalo de μ. Si nuestra muestra se
selecciona a partir de una población normal o, a falta de ésta, si n es
suficientemente grande, podemos establecer un intervalo de confianza

para μ al considerar la distribución muestral de 𝑋.

P(-za/2 < Z < za/2) = 1-a


𝑋−𝜇
P(-za/2 < 𝜎 < za/2) = 1-a
ൗ 𝑛
Conocido!

𝜎 𝜎
𝑋ത − 𝑍𝛼 ത
< 𝜇 < 𝑋 + 𝑍𝛼
2 𝑛 2 𝑛
Encontrando el valor crítico de un IC al 95%
𝜎
𝑋ത ± 𝑍 ∗
𝑛

-1,96 Z* = 1,96
Interpretación del IC al 95%
Suponga que se sacan muchas muestras y se construye un intervalo de
confianza para cada muestra, usando la ecuación estimador puntual ±
1,96xDS.
Entonces, 95% de esos intervalos contendrán la verdadera media
poblacional (µ).
La figura muestra este proceso con
25 muestras, donde 24 de los
intervalos de confianza construidos
contienen el verdadero valor
poblacional y uno no.
Niveles de confianza utilizados en la
práctica: 90%, 95%, 99%

µ
Ancho del intervalo
Si queremos estar más seguros de capturar el parámetro poblacional, es
decir aumentar nuestro nivel de confianza, deberíamos usar un intervalo
más ancho o mas pequeño?

IC ancho confiabilidad precisión

Aumentando el tamaño de la muestra


Determinación del tamaño
muestral
• Antes de realizar un muestreo se puede definir el nivel de
confianza y precisión (margen de error) deseados y luego
determinar el tamaño muestral (n)

• suponiendo conocida σ y α eligiendo ME (margen de error).

𝑀𝐸 = 𝑍𝛼/2 𝜎/ 𝑛

• luego, despejando n:
𝜎 2
𝑛 = 𝑍𝛼
2 𝑀𝐸

• si el valor resultante no es entero se redondea hacia arriba.


Ejemplo
• Un grupo de investigadores quiere probar los posibles efectos de un
medicamento para tratar la epilepsia sobre el desarrollo cognitivo en niños.
Como evidencia, quieren estimar el puntaje IQ de niños de tres años que
nacieron de madres que tomaban el medicamento durante el embarazo.
• Estudios previos sugieren que la DS de los puntajes IQ de niños de 3 años
es de 18 puntos.
• Cuántos de esos niños debe el investigador muestrear para obtener un
intervalo de confianza del 90% con un margen de error menor o igual a 4
puntos?
IC para µ cuando σ es desconocido y n
grande
¿Cuál es el propósito de tener una muestra grande?
Mientras las observaciones sean independientes, y la distribución
poblacional no sea extremadamente sesgada, una muestra grande nos
asegura:
 La distribución de la media es cercana a la normal

 La estimación del error estándar como S/ √n es confiable

• Se puede reemplazar σ2 por S2 pero en este caso:

𝑋ത − 𝜇 σ𝑛
𝑖=1(𝑋𝑖 − ത 2
𝑋)
~𝑡 𝑛 − 1 , 𝑐𝑜𝑛 𝑆 2 =
𝑆 𝑛−1
𝑛
• Se quiere estimar el tiempo promedio de los corredores del tramo
34 a 38 años. Para esto se selecciona una muestra aleatoria de 100
participantes y se estima que el tiempo promedio fue 2 horas con
cinco minutos con una desviación estándar de 30 minutos.

http://www.werunsantiago.com/index.php
IC para µ cuando σ es desconocido y n
suficientemente grande
• Si n es suficientemente grande (mayor que 40) se
puede emplear la distribución Normal en lugar de la t
de Student:

• Esto es así porque S2 es consistente para σ2 Y el


intervalo de confianza resultante es 100(1-α)% es:
Intervalos de confianza
para las proporciones
Contenido

• Distribución muestral

• TCL para proporciones + condiciones


Cualquier función de las variables
aleatorias de una muestra

Muestra
estadístico
1

Población Muestra
estadístico
2

Muestra
estadístico
3

Muestra
estadístico
n

distribución de distribución
las muestras ≠ muestral
Fumador o no % fumadores
categórica numérica

Población 𝑝Ƹ 𝐼
chilenos 𝑝Ƹ 𝐼𝐼
N =total pob
p .
.
.
# 𝑑𝑒 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 𝑒𝑛 𝐶ℎ𝑖𝑙𝑒 .
𝑝=
𝑁 .
.
.
.
.

𝑝Ƹ𝑋𝐼

distribución muestral

𝑚𝑒𝑑𝑖𝑎(𝑝)Ƹ ≈ 𝑝
Teorema Central del Límite para
proporciones
• La distribución muestral de las proporciones es cercana a la
normal, centrada en la proporción poblacional, con un error
estándar inversamente proporcional al tamaño de la muestra:

𝑝 1−𝑝
𝑝~𝑁(𝑚𝑒𝑑𝑖𝑎
ො = 𝑝, 𝐸𝑆 = )
𝑛

forma centro dispersión


TCL - condiciones
Hay ciertas condiciones que se deben cumplir para que
aplique el TCL:
1. Independencia: Las observaciones de la muestra deben
ser independientes.
• Muestreo aleatorio/asignación aleatoria
• Muestreo sin reposición, n < 10% de la población.
2. Tamaño de la muestra / asimetría:
• Deben existir al menos 10 éxitos y 10 fracasos en la
muestra:
• np ≥ 10 y n(1-p) ≥ 10.
• Si no se conoce p entonces se usa 𝑝Ƹ
Ejemplo
• Un fabricante asegura, a una compañía que le compra un
producto en forma regular, que el porcentaje de productos
defectuosos no es mayor del 10 %. Si la compañía decide
comprobar dicha afirmación y selecciona aleatoriamente 200
unidades del producto, cuál es la probabilidad de que al menos
95% de los productos salgan sin defectos?
¿Qué sucede si…?
• La condición de éxito-fracaso no se cumple:
• El centro de la distribución muestral seguirá estando
alrededor de la proporción poblacional
• La dispersión de la distribución muestral aún se puede
aproximar usando la misma fórmula que para la desviación
estándar
• La forma de la distribución dependerá de si el verdadero
valor poblacional de la proporción es más cercano a 0 ó a 1.
Forma asimétrica de la binomial cuando
la condición de aproximación no se
cumple

distribución binomial no es simétrica


cuando p se acerca a 0 o 1.
Estudio Nacional de Opinión Pública (CEP)
La Encuesta CEP representa un estudio académico y objetivo de
las actitudes y predisposiciones políticas, económicas y sociales
de todos los habitantes del país.
Antecedentes:
• Encuesta CEP Nº 75. Noviembre y Diciembre del 2015.
• 1,449 personas, mayores de 18 años en todo Chile.
¿Pensando en la Presidenta Michelle Bachelet, ¿Ud. diría que
ella le da confianza o no le da confianza?
Confianza en la presidenta Michelle
Bachellet
3%

2%
LE DA CONFIANZA
30%
NO LE DA CONFIANZA
No sabe
65% No contesta
¿Qué porcentaje de chilenos no confía en
la presidenta Michelle Bachellet?

Parámetro de interés Estimador puntual


Porcentaje de todos los Porcentaje de chilenos en la
chilenos que no confían muestra que no confían en la
en la presidenta presidenta

𝑃 𝑝Ƹ
Estimando una proporción
Estimación puntual ± margen de error

𝑝Ƹ ± 𝑍 ∗ 𝐸𝑆𝑝ො

Error estándar de la proporción para calcular una


intervalo de confianza es:

𝑝(1
Ƹ − 𝑝)Ƹ
𝐸𝑆𝑝ො =
𝑛
La encueta CEP encontró que 895 de 1377 (~65%) de
chilenos que contestaron la encuesta no confiaban en
la presidenta. Estime (usando un 95% de confianza) la
proporción de todos los chilenos que no confían en la
presidenta.
Tamaño muestral requerido para el
ME deseado

∗ ො
𝑝(1− ො
𝑝)
• Recuerde que 𝑀𝐸 = 𝑍
𝑛

• Si existe información de estudios previos que nos puedan


ayudar a determinar 𝑝Ƹ usar ese dato.
• Si no, use 𝑝Ƹ = 0,5
• Si no se tiene antecedentes, asumir un 50-50 es una buena
suposición.
• Esto nos permite estimar un escenario conservador pues no va a
dar población más grande posible
El margen de error del anterior intervalo de confianza
fue de 2,5%. Si, para un nuevo intervalo de confianza
que se base en una nueva muestra, queremos reducir
el margen de error a 1% manteniendo el mismo nivel
de confianza, por lo menos cuántas personas debemos
encuestar?
Intervalos de confianza
para la varianza de una
distribución normal
Si el llenado de botellas es un
proceso normal (X)

¿Cuál es la variabilidad del proceso?


Distribución muestral de S2

• Ya hemos aprendido acerca de la distribución muestral de 𝑋.

• Si X1, X2, . . . , Xn representan una muestra aleatoria de


tamaño n, entonces la varianza de la muestra se define con
el estadístico

𝑛
1
2
𝑆 = ത 2 , es la varianza muestral
෍(𝑋𝑖 − 𝑋)
𝑛−1
𝑖=1
Distribución muestral de S2
• Si se extrae una muestra aleatoria de tamaño n de una
población normal con media μ y varianza σ2, y se calcula la
varianza muestral, obtenemos un valor del estadístico S2.

• ¿Cuál es la distribución muestral de S2?

• Procederemos a considerar la distribución del estadístico


(n−1)S2/σ2.
Colorario
• Si X1, X2, . . . , Xn son variables aleatorias independientes que
tienen distribuciones normales idénticas con media μ y
varianza σ2, entonces la variable aleatoria

𝑛 2
𝑋𝑖 − 𝜇
𝑌=෍
𝜎
𝑖=1

• Tiene una distribución chi cuadrada con υ = n grados de


libertad.
Distribución muestral de S2

• Si S2 es la varianza de una muestra aleatoria de tamaño n


que se toma de una población normal que tiene varianza σ2,
entonces el estadístico

(𝑛 − 1)𝑆 2 (𝑋𝑖 − ത
𝑋) 2
𝜒2 = =
𝜎2 𝜎2

• Tiene una distribución chi cuadrada con υ = n-1 grados de


libertad
Intervalos de confianza para la varianza
poblacional.

• Sea X1, X2 ….., Xn una m.a. de una distribución


normal con media µ y varianza σ2 , y sea S2 la
varianza muestral. Entonces:

• Conociendo esta distribución se puede armar un IC


para σ2 .
Distribución Chi-cuadrado
• La distribución chi-cuadrado se utiliza para caracterizar
conjuntos de datos y estadísticos que son siempre positivos y
típicamente sesgados a la derecha.

• La distribución chi-cuadrado tiene sólo un parámetro llamado


grados de libertad (df), el cual influye en la forma, el centro y
la dispersión de la la distribución.
Intervalos de confianza para la varianza
poblacional.
𝑛 − 1 𝑆2
𝑃 𝜒(2𝛼; 𝑛−1 ) ≤ ≤ 𝜒 2
𝛼 =1−𝛼
2 𝜎2 (1− ; 𝑛−1
2
)

(𝑛 − 1)𝑆 2 (𝑛 − 1)𝑆 2
𝑃 2 ≤ 𝜎2 ≤ 2 =1−𝛼
𝜒 𝛼 𝜒𝛼
1− 2 ; 𝑛−1 2 ; 𝑛−1

• El IC de (1-α )100% de dos colas para σ2 es:

𝑛−1 𝑆 2 (𝑛−1)𝑆 2
𝐼𝐶 1−𝛼 100% =( , )
𝜒2 𝛼 2
𝜒𝛼
1− 2 ; 𝑛−1 2 ; 𝑛−1
¿Cuál es la variabilidad del proceso?

S2 = 13,40 ml2

𝑛−1 𝑆 2 (𝑛−1)𝑆 2
𝐼𝐶 1−𝛼 100% = (𝜒2 , 2 )
𝛼 𝜒𝛼
1− 2 ; 𝑛−1 2 ; 𝑛−1

2 2
𝜒0,025;19 =8,907 𝜒0,975;19 = 32,852
N=20
19×13,40 19×13,40
≤ 𝜎2 ≤ c
32,852 8,907

7,7499 ≤ 𝜎 2 ≤28,5843

el intervalo para σ se obtiene sacando la


raíz de los límites del intervalo de σ2:
(2,7839; 5,3464)
Un IC para una cola
• Los límites inferiores y superiores del intervalo de
confianza para σ2 al 100(1-α)% son:

(𝑛−1)𝑆 2
2 ≤ 𝜎 2 , límite inferior
𝜒𝛼,𝑛−1

2 𝑛−1 𝑆 2
𝜎 ≤ 2 , límite superior
𝜒1−𝛼,𝑛−1
Intervalos de confianza.
Diferencia de media de dos
poblaciones
¿Existe alguna diferencia?
• ¿Vivirás más si ejercitas 30 minutos
al día versus si no ejercitas nada?

• ¿Usarán los consumidores más sus


tarjetas de créditos si éstas tienen
dólares premio o puntos para
viaje?

Aprenderemos cómo realizar correctamente comparaciones entre


grupos, y decidir si hay diferencias significativas entre ellos
Ejemplo
• Se cree que el salario promedio de recién egresados de la carrera
de ingeniería industrial es mayor que el salario promedio de
recién egresados de periodismo. Se obtuvieron muestras
aleatorias de cada grupo de egresados:

• Sea X1,…..,Xnx una m.a. de salarios de egresados de ingeniería


industrial.

• Sea Y1,…..,Yny una m.a. de salarios de egresados de periodismo.

• Se supone además que las muestras son independientes entre si.


Intervalos de confianza. Diferencia de
media de dos poblaciones
Llamaremos:

• µx: media poblacional de salarios de egresados de ing. industrial.

• µy: media poblacional de salarios de egresados de periodismo.

La idea es armar un IC para:


𝜇𝑋 − 𝜇𝑌

• Si el cero cae dentro del intervalo, los datos no dan evidencia de


diferencia entre las medias.

• Si el cero cae fuera del intervalo, los datos dan evidencia de


diferencia entre las medias.
2 2
Caso 1: 𝜎𝑥 y 𝜎𝑦 conocidos, con nx y ny
grandes
𝑎𝑝𝑟𝑜𝑥. 𝜎𝑥2
• 𝑋ത ~ 𝑁(𝜇𝑥 , )
𝑛𝑥

𝑎𝑝𝑟𝑜𝑥. 𝜎𝑦2
• 𝑌ത ~ 𝑁(𝜇𝑦 , )
𝑛𝑦

• 𝑋ത − 𝑌ത también es aproximadamente normal


ത 𝑌)
• 𝐸(𝑋- ത = 𝐸(𝑋)
ത - E(𝑌)=
ത 𝜇𝑥 -𝜇𝑦
𝜎𝑥2 𝜎𝑦2
• 𝑉 𝑋ത − 𝑌ത = 𝑉 𝑋ത + 𝑉 𝑌ത = + (porque las muestras son
𝑛𝑥 𝑛𝑦
independientes)
• Así,
ത 𝑌ത −(𝜇𝑥 −𝜇𝑦 ) 𝑎𝑝𝑟𝑜𝑥.
𝑋−
𝑍= ~
𝑁(0,1)
2
𝜎2
𝑥 +𝜎𝑦
𝑛𝑥 𝑛𝑦
Caso 1: 𝜎𝑥2 y 𝜎𝑦2 conocidos, con nx y ny
grandes
P(-za/2 < Z < za/2) = 1-a
ത 𝑌ത −(𝜇𝑥 −𝜇𝑦 )
𝑋−
P(-za/2 < < za/2) = 1-a
2
𝜎2 𝜎
𝑥+ 𝑦
𝑛𝑥 𝑛𝑦

𝜎𝑥2 𝜎𝑦2 𝜎𝑥2 𝜎𝑦2


𝑃( 𝑋ത − 𝑌ത − 𝑍𝛼 + < 𝜇𝑥 − 𝜇𝑦 < 𝑋ത − 𝑌ത + 𝑍𝛼 + )
2 𝑛𝑥 𝑛𝑦 2 𝑛 𝑥 𝑛𝑦

El IC de (1-α)100% para la diferencia de medias es:

𝜎𝑥2 𝜎𝑦2
𝐼𝐶 1−𝛼 100 = 𝑋ത − 𝑌ത ± 𝑍𝛼 +
2 𝑛𝑥 𝑛𝑦
Ejemplo 1.
• En el ejemplo de salarios. Supongamos que:

• 𝑋ത = $800.000

• 𝑌ത = $680.000

• nx = 144

• ny = 121

• σx = 60.000

• σy = 50.000

Obtener un IC al 95% para la diferencia entre las medias de los


salarios
Ejemplo 1.
El IC de 95% es:

𝜎𝑥2 𝜎𝑦2
𝐼𝐶95 = 𝑋ത − 𝑌ത ± 𝑍0,025 +
𝑛𝑥 𝑛𝑦

600002 500002
𝐼𝐶95 = 800000 − 680000 ± 1,96 +
144 121

𝐼𝐶95 =(106.756 ; 133.244)

Como el intervalo para µx - µy no contiene el cero, el resultado nos está


dando evidencia de que las medias poblacionales son diferentes. Por tanto,
los salarios promedios de los egresados de ingeniería son más altos que los
de periodismo.
Caso 2: Diferencia de media de dos poblaciones
cuando 𝜎𝑥2 y 𝜎𝑦2 son desconocidos

Hay tres subcasos:

a) 𝜎𝑥2 = 𝜎𝑦2 , con nx y ny grandes o ambas muestras


normales.

b) 𝜎𝑥2 ≠ 𝜎𝑦2 , con nx y ny grandes.

c) 𝜎𝑥2 ≠ 𝜎𝑦2 , con nx y ny pequeños y ambas muestras


normales.
Caso 2a: 𝜎𝑥2 = 𝜎𝑦2 , con nx y ny grandes o ambas
muestras normales
• En este caso se reemplaza 𝜎𝑥2 = 𝜎𝑦2 por :

𝑛 − 1 𝑆 2 + 𝑛 − 1 𝑆2
𝑥 𝑥 𝑦 𝑦
𝑆𝑝2 =
𝑛𝑥 + 𝑛𝑦 − 2

𝑋ത − 𝑌ത − (𝜇𝑥 − 𝜇𝑦 ) 𝑎𝑝𝑟𝑜𝑥. 𝑡(𝑛𝑥 + 𝑛𝑦 − 2)


𝑇= ~
𝑆𝑝2 𝑆𝑝2
+
𝑛𝑥 𝑛𝑦

• IC(1-α)100 para la diferencia de medias es:


1 1
𝐼𝐶 1−𝛼 100 = 𝑋ത − 𝑌ത ± 𝑡𝛼 𝑆𝑝 +
2 𝑛𝑥 𝑛𝑦
Ejemplo 2.
En el ejemplo de los salarios, supongamos ahora que 𝜎𝑥2 y 𝜎𝑦2 son
desconocidos pero se suponen iguales. También se sabe que:

• Sx = 60.000

• Sy = 50.000

• 𝑋ത = $800.000

• 𝑌ത = $680.000

• nx = 144

• ny = 121

¿Obtenga el IC al 95% en este caso?


Caso 2b: 𝜎𝑥2 ≠ 𝜎𝑦2 , con nx y ny grandes
• En este caso se reemplaza 𝜎𝑥2 y 𝜎𝑦2 por 𝑆𝑥2 y 𝑆𝑦2 .

𝑋ത − 𝑌ത − (𝜇𝑥 − 𝜇𝑦 ) 𝑎𝑝𝑟𝑜𝑥.
𝑍= ~
𝑁(0,1)
2
𝑆𝑥2 𝑆𝑦
+
𝑛𝑥 𝑛𝑦

• IC(1-α)100 para la diferencia de medias es:

𝑆𝑥2 𝑆𝑦2
𝐼𝐶 1−𝛼 100 = 𝑋ത − 𝑌ത ± 𝑍𝛼 +
2 𝑛𝑥 𝑛𝑦
Ejemplo 3.
En el ejemplo de los salarios, supongamos ahora que 𝜎𝑥2 y 𝜎𝑦2 son
desconocidos pero se sabe que son distintos.

• Sx = 100.000

• Sy = 90.000

• 𝑋ത = $800.000

• 𝑌ത = $680.000

• nx = 144

• ny = 121

¿Cómo cambia el IC al 95% en este caso?


Intervalos de confianza para
el cociente de dos varianzas
IC para la razón de dos varianzas
• ¿Cómo es posible desconocer 𝜎𝑥2 y 𝜎𝑦2 pero afirmar que son
iguales?
𝜎𝑥2
• Se puede armar un intervalo de confianza para
𝜎𝑦2

• Si el intervalo contiene al 1, podemos suponer que 𝜎𝑥2 = 𝜎𝑦2

• Supongamos que tenemos de nuevo dos muestras


aleatorias independientes entre si.
• X1,…..,Xnx una m.a. con distribución 𝑁(𝜇𝑥 , 𝜎𝑥2 )

• Y1,…..,Yny una m.a. con distribución 𝑁(𝜇𝑦 , 𝜎𝑦2 )


IC para la razón de dos varianzas
• Recordemos que:
(𝑛𝑥 −1)𝑆𝑥2 2
~𝜒(𝑛𝑥 −1)
𝜎𝑥2
(𝑛𝑦 −1)𝑆𝑦2 2
~𝜒(𝑛𝑦 −1)
𝜎𝑦2

• Ambos cocientes son independientes.


• Entonces, el cociente:
𝑆𝑋2 /𝜎𝑥2
2 2 ~𝐹(𝑛𝑥 −1)(𝑛𝑦 −1)
𝑆𝑦 /𝜎𝑦
IC para la razón de dos varianzas
𝜎𝑥2
Se puede armar un intervalo de confianza para mediante
𝜎𝑦2
2
𝑆𝑋 /𝜎𝑥2
𝑃(𝐹1−𝛼 < < 𝐹𝛼 )=1−𝛼
𝑛 −1 , 𝑛𝑦 −1
2 𝑥 𝑆𝑦2 /𝜎𝑦2 2
𝑛𝑥 −1 , 𝑛𝑦 −1

𝜎𝑦2
𝑃(𝐹1−𝛼 𝑛 −1 , 𝑛 −1 𝑆𝑦2 /𝑆𝑋2 < < 𝐹𝛼 𝑆𝑦2 /𝑆𝑋2 ) = 1 − 𝛼
2 𝑥 𝑦 𝜎𝑥2 2
𝑛𝑥 −1 , 𝑛𝑦 −1

1 𝜎𝑥2 1
𝑃( 𝑆𝑥2 /𝑆𝑦2 < < 𝑆𝑥2 /𝑆𝑦2 = 1 − 𝛼
𝐹𝛼 𝜎𝑦2 𝐹 𝛼
2 𝑛𝑥 −1 , 𝑛𝑦 −1 1− 2 𝑛𝑥 −1 , 𝑛𝑦 −1

1 1
𝐼𝐶 1−𝛼 100 =( 𝑆𝑥2 /𝑆𝑦2 ; 𝑆𝑥2 /𝑆𝑦2 )
𝐹 𝛼 𝐹 𝛼
𝑛𝑥 −1 , 𝑛𝑦 −1 1− 2 𝑛𝑥 −1 , 𝑛𝑦 −1
2
Ejemplo 1
• Se quiere comparar la velocidad de transmisión de cierto tipo de
enrutador ADSL con la tecnología wireless. Se toma una muestra de 14
routers ADSL y 8 transmisores inalámbricos y se obtienen los siguientes
resultados (medidos en Mbps):

• Suponiendo que las velocidades de transmisión de ambos tipos de


aparato siguen una distribución normal y que el único factor que
queremos analizar es la velocidad de transmisión (envío), ¿daría lo
mismo elegir uno u otro tipo de aparato, con una confianza del 95%?
Ejemplo 1
• Como primer paso hacemos un IC para la diferencia de
varianzas, para saber si se pueden suponer iguales o no.

• Como este intervalo no contiene al 1 no podemos suponer


varianzas iguales.
• Como segundo paso hacemos un IC para la diferencia de
medias, para saber si se pueden suponer iguales o no. Se
trata de una muestra pequeña. Suponemos datos normales
y sigma desconocidos y distintos.
IC para la diferencia de
proporciones de dos
poblaciones
IC dos proporciones
• p1 la proporción de la población 1 y

• p2 la proporción de la población 2.

• Si las muestras son suficientemente grandes:

• El IC es de la forma:
𝑝Ƹ1 (1 − 𝑝Ƹ1 ) 𝑝Ƹ 2 (1 − 𝑝Ƹ 2 )
𝐼𝐶 1−𝛼 100 = (𝑝Ƹ1 − 𝑝Ƹ 2 ) ± 𝑍𝛼/2 +
𝑛1 𝑛2
Ejemplo 2
Un vendedor de teléfonos ha vendido 150 teléfonos de la
marca 1 y ha tenido que tramitar desperfectos durante el
período de garantía a 14 de ellos. Al mismo tiempo ha
vendido 125 teléfonos de la marca 2 habiendo tramitado
un total de 15 desperfectos en el período de garantía.
¿Hay una evidencia estadística que nos permita asegurar
que el porcentaje de desperfectos para ambas marcas es
distinto? Utilizar una confiabilidad de 95%
Test de Hipótesis
Test de hipótesis

Muestra

Método de estadística
Test de significancia inferencial

Hipótesis
Expectativa de la población

Una hipótesis es una afirmación acerca de un parámetro


Test de hipótesis
Test de Hipótesis

HIPÓTESIS

Hipótesis nula Mutuamente Hipótesis alternativa


excluyentes

H0 H1
• representa nuestra pregunta de
• es lo que se cree inicialmente que es más
investigación, lo que estamos probando
probable
• Indica que el parámetro de interés cae
• status quo
dentro de un rango <, >, ≠ de valores
• el parámetro que interesa toma un valor
alternativos
específico =
• será rechazada si los datos de la muestra
indican que es un valor poco probable
Test de hipótesis

juicio
Inocente Culpable
H0 H1
Se asume verdadera Se acepta si la
hasta que una evidencia
evidencia convincentemente
convincente pruebe prueba que es el caso
lo contrario
Ejemplo dos colas

• Una fabrica de chocolate produce bombones que


empaca en bolsas de 300 gramos. Un control de
calidad toma muestras de 50 bolsas para verificar la
exactitud del llenado. Asuma un 5% de significancia
Ejemplo una cola
• El departamento de servicio al cliente está planeando
encuestar a sus clientes. Se quiere que la encuesta
tarde menos de 20 minutos en completarse. Para
probar esto, el departamento encuestó a 65 empleados
y registró su tiempo. A un nivel de significancia de 0,05,
¿pueden afirmar que el tiempo promedio para
completar la encuesta dura menos de 20 minutos?
Ejemplo 1
𝐻0 : 𝜇 = 0,7
𝐻1 : 𝜇 ≠ 0,7

• donde µ es la media poblacional del diámetro interior de cierto


tubo de PVC.

• Evaluamos si es probable que la muestra que hemos recogido, en


realidad proviene de una población con una media que es igual al
valor formulado en la hipótesis nula.
Distribución muestral de la media de la
muestra
Procedimiento para test de hipótesis
1. Se define H0 y H1
2. Se decide el nivel de significancia α
3. Se calcula una estimación puntual
4. Se chequean supuestos
5. Se especifica un estadístico de prueba a partir del cual se va a decidir
si rechazar o no la hipótesis nula.
1. Si σ es desconocido, utilizamos S y la distribución t.
𝑋ത − 𝜇 2
ത 2
σ𝑛𝑖=1(𝑋𝑖 − 𝑋)
~𝑡 𝑛 − 1 , 𝑐𝑜𝑛 𝑆 =
𝑆 𝑛−1
𝑛

6. Se especifica la región de rechazo: un conjunto de valores del


estadístico para los cuales rechazar H0
𝑅𝑅 = −∞, 𝑎 ∪ 𝑏, +∞ 𝑐𝑜𝑛 𝑎 < 0 < 𝑏
7. Si el estadístico de prueba cae en la región de rechazo, se rechaza H0.
Ejemplo 1
1. Se define H0 y H1
𝐻0 : 𝜇 = 0,7
𝐻1 : 𝜇 ≠ 0,7
2. El estadístico de prueba con σ conocido es:
𝑋ത − 𝜇0
𝑍= 𝜎
ൗ 𝑛

donde µ0 es el valor de µ en H0. En este caso µ0 = 0,7


3. Región de rechazo: en este ejemplo se rechaza para valores
muy grandes de Z o para valores muy pequeños de Z ¿Por
qué?
Ejemplo 1
• La probabilidad de cometer un error tipo I, es igual a la suma de las
áreas sombreadas en cada cola de la distribución en la figura:
𝛼 = 𝑃(𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 |𝐻0 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎)

𝑋ത − 𝜇 𝑋ത − 𝜇
𝛼=𝑃 𝜎 < 𝑎|𝜇 = 07 + 𝑃( 𝜎 > 𝑏|𝜇 = 0,7)
𝑛 𝑛

𝛼 = 𝑃 𝑍 < −𝑍𝛼 + 𝑃(𝑍 > 𝑍𝛼 )


2 2
Ejemplo 1

𝑅𝑅 = −∞, −1,96 ∪ 1,96, +∞

• Como 𝑋ത𝑜𝑏𝑠 = 0,65 se tiene que:


0,65 − 0,67
𝑍= = −5
0,01

• Z = -5 cae dentro de la región de rechazo. Se rechaza H0. Se


concluye que la media poblacional es distinta de 0,7 con un
nivel de significancia de 5%
Ejemplo 2
Test de cola inferior para la media
• El estadístico del test es el mismo que el del test de dos
colas:
𝑋ത − 𝜇0 𝐵𝑎𝑗𝑜𝐻0
𝑍= 𝜎 𝑁(0,1)
ൗ 𝑛 ~

• La región de rechazo cambia. Se rechaza para valores


pequeños de Z observado:

𝑅𝑅 = (−∞, −𝑍𝛼 )
¿Cómo calcular la probabilidad de
cometer error de tipo II?

• Queda determinado una vez que se escoge α

• β no es único

• Hay un β para cada valor posible de la H1.


Error Tipo II
• En nuestro ejemplo no se rechaza H0 para los valores del
intervalo:

𝑅𝐴 = −𝑍𝛼 ; 𝑍𝛼 = (−1,96; 1,96)


2 2


𝑋−0,7
𝛽 = 𝑃(−𝑍𝛼 < 𝜎 < 𝑍𝛼 |𝐻0 𝑒𝑠 𝑓𝑎𝑙𝑠𝑎)
2 ൗ 𝑛 2


𝑋−0,7
𝛽 = 𝑃(−𝑍 < 𝛼
𝜎 < 𝑍𝛼 |𝜇 ≠ 0,7)
2 ൗ 𝑛 2

𝛽 = 𝑃(0,7 − 𝑍𝛼 𝜎ൗ 𝑛< 𝑋ത < 0,7 + 𝑍𝛼 𝜎ൗ 𝑛


|𝜇 ≠ 0,7)
2 2
Error Tipo II
• Considerando el caso que el valor verdadero es µ’= 0,8

𝑋ത − 0,8
𝑍= 𝜎 ~𝑁(0,1)
ൗ 𝑛

𝛽(𝜇′ = 0,8) = 𝑃(0,7 − 𝑍𝛼 𝜎ൗ 𝑛< 𝑋ത < 0,7 + 𝑍𝛼 𝜎ൗ 𝑛


|𝜇 ′
= 0,8)
2 2

(0,7−𝑍𝛼 𝜎ൗ 𝑛)−0,8 (0,7+𝑍𝛼 𝜎ൗ 𝑛)−0,8


𝛽(𝜇′ = 0,8) = 𝑃( 2
𝜎 <Z< 2
𝜎 )
𝑛 𝑛
0,1 0,1

(0,7−1,96× 100
)−0,8 (0,7+1,96× 100
)−0,8
𝛽(𝜇 = 0,8) = 𝑃( 0,1 <Z< 0,1 )
100 100

𝛽(𝜇′ = 0,8) = 𝑃(-11,96 < Z< −8,04) = 1,62𝐸 −19


Resumen
Para cada valor µ’ de la H1:

• Cuanto más pequeño sea el α elegido, mayor será β(µ’) y


menor la potencia

• Cuanto más pequeño sea n, mayor será β(µ’) y menor la


potencia

• Cuanto más grande sea n, menor será β(µ’) y mayor la


potencia
Procedimiento para test de hipótesis
1. Se define H0 y H1
2. Se calcula una estimación puntual
3. Se chequean supuestos
4. Se especifica un estadístico de prueba a partir del cual se va a decidir
si rechazar o no la hipótesis nula.
1. Si σ es desconocido, utilizamos S y la distribución t.
𝑋ത − 𝜇 2
ത 2
σ𝑛𝑖=1(𝑋𝑖 − 𝑋)
~𝑡 𝑛 − 1 , 𝑐𝑜𝑛 𝑆 =
𝑆 𝑛−1
𝑛
5. Se especifica la región de rechazo: un conjunto de valores del
estadístico para los cuales rechazar H0

𝑅𝑅 = −∞, 𝑎 ∪ 𝑏, +∞ 𝑐𝑜𝑛 𝑎 < 0 < 𝑏


6. Si el estadístico de prueba cae en la región de rechazo, se rechaza H0.
Test de hipótesis
• Cuando se realiza una prueba de hipótesis se pueden cometer
dos tipo de errores:
H0 es verdadera H0 es falsa
No rechazar H0  Error tipo II
Rechazar H0 Error tipo I 

• Generalmente se le da prioridad al error de tipo I, es decir se


intenta que este sea pequeño.
• La probabilidad de cometer un error tipo I, también conocido
como nivel de significancia, se denota con la letra griega α.
• La probabilidad de cometer un error tipo II, que se denota con β,
es imposible de calcular a menos que tengamos una hipótesis
alternativa específica. donde 1 - β es la potencia del test.
Test de Hipótesis
Proporciones y varianzas
Test de hipótesis para proporciones
• Ejemplo 1: El gerente de producción de una empresa, debe decidir si

realiza o no una mejora en el proceso productivo de cierto artefacto. Para

el gerente es de crucial importancia que el porcentaje de fallas no supere

el 10 %. Si el porcentaje de fallas superara este valor, una reforma en el

proceso sería indispensable.

• 𝑯𝟎 : 𝑝 ≥ 0,1
• 𝑯𝟏 : 𝑝 < 0,1

• Error de tipo I: decidir no realizar la mejora cuando la mejora es necesaria.


• Error de tipo II: realizar una mejora cuando en realidad no era necesaria.
¿Cuál de los dos errores consideramos más graves?
Ejemplo 1
• Supongamos que tomamos una muestra de tamaño n = 150
y el porcentaje de fallas observado es 𝑝Ƹ = 0,05. Habíamos
planteado la dócima:
• 𝑯𝟎 : 𝑝 ≥ 0,1
• 𝑯𝟏 : 𝑝 < 0,1
• En este caso el estadístico del test es:
𝑝ො − 𝑝0 𝐵𝑎𝑗𝑜𝐻0
𝑍= 𝑁(0,1)
𝑝0 (1 − 𝑝0 ) ~
𝑛

• ¿Qué valor tomar como p0?


𝛼 = 𝑃(𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 |𝐻0 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎)
𝛼 = 𝑃(𝑍 ∈ 𝑅𝑅|𝑝 ≥ 0,1)
Ejemplo 1
• Si p0 = 0,1
• Rechazo para valores pequeños de pobs ¿por qué? La RR
toma la forma:
𝑅𝑅 = (−∞, 𝑎]
ො 0
𝑝−𝑝
𝛼 = 𝑃( ≤ 𝑎|𝑝 = 0,1)
𝑝0 (1−𝑝0 )
𝑛
𝑎 = 𝑍𝛼
𝑅𝑅 = (−∞, 𝑍𝛼 )
• Si α= 0,05 entonces

𝑅𝑅 = (−∞, −1,645)

𝑍𝑜𝑏𝑠 = −2,04
Ejemplo 1
• ¿Qué sucede si p = 0,2?
Test de cola inferior para la proporción
poblacional con muestra grande (n > 30).
1. Se plantea la dócima:
• H0: p = p0
• H1: p < p0 (cola inferior)
2. Se chequean supuestos np0 ≥ 10 y n(1-p0) ≥10.
3. Se especifica un estadístico:
𝑝Ƹ − 𝑝0 𝐵𝑎𝑗𝑜𝐻0
𝑍= 𝑁(0,1)
𝑝0 (1 − 𝑝0 ) ~
𝑛

4. Se especifica la región de rechazo:


𝑅𝑅 = −∞, 𝑍𝛼 (𝑐𝑜𝑙𝑎 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟)
6. Se establece la regla de decisión:
Se rechaza H0 si Zobs cae dentro de RR.
Prueba de hipótesis para las proporciones
(np0 ≥10 y n(1-p0) = ≥ 10)
1. Dócima
• H0: p = p0
• H1:
• p ≠ p0 (2 colas)
• p < p0 (cola inferior)
• p > p0 (cola superior)
𝑝Ƹ − 𝑝0 𝐵𝑎𝑗𝑜𝐻0
• Estadístico del Test: 𝑍 = 𝑁(0,1)
𝑝0 (1 − 𝑝0 ) ~
𝑛
• Región de Rechazo:
• 𝑅𝑅 = −∞, 𝑍𝛼 ∪ −𝑍𝛼 , ∞ (2 colas)
2 2
• 𝑅𝑅 = −∞, 𝑍𝛼 (colas inferior)
• 𝑅𝑅 = −𝑍𝛼 , ∞ (cola superior)
Pruebas de hipótesis para la varianza.
Veamos un ejemplo de test de una cola inferior:
1. Dócima:
𝐻0 : 𝜎 2 = 𝜎02
𝐻0 : 𝜎 2 < 𝜎02
2. Estadístico del Test:
𝐵𝑎𝑗𝑜𝐻0 2
(𝑛−1)𝑆 2
𝑋= ~𝜒(𝑛−1)
𝜎02 ~
1. Formar la región de rechazo:
Se rechaza H0 para valores pequeños de X, entonces la forma
del intervalo será:
𝑅𝑅 = (0, 𝑎)
Pruebas de hipótesis para la varianza.
• Para obtener el valor de a se fija α
𝛼 = 𝑃 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝐻0 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎 = 𝑃(𝑋 ∈
𝑅𝑅|𝜎 2 = 𝜎02 ) = 𝑃(𝑋 ≤ 𝑎|𝜎 2 = 𝜎02 )
2
• Cuando 𝜎 2 = 𝜎02 se tiene que X~𝜒(𝑛−1) por lo que a se
puede hallar empleando la tabla de distribución chi-
cuadrado.

2
• a=𝜒(𝑛−1)𝛼

• 𝑅𝑅 = (0; 𝜒 2𝑛−1 𝛼 )
Pruebas de hipótesis para la varianza.
1. Dócima
• H0:𝜎 2 = 𝜎02
• H1:
• 𝜎 2 ≠ 𝜎02 (2 colas)
• 𝜎 2 < 𝜎02 (cola inferior)
• 𝜎 2 > 𝜎02 (cola superior)

2. Estadístico del Test:


(𝑛 − 1)𝑆 2 𝐵𝑎𝑗𝑜𝐻0 2
𝑋= ~𝜒(𝑛−1)
𝜎02 ~
3. Región de Rechazo:
• 𝑅𝑅 = 0, 𝜒1−𝛼,𝑛−1 ∪ 𝜒𝛼;𝑛−1 , ∞ (2 colas)
2 2

• 𝑅𝑅 = 0, 𝜒1−𝛼;𝑛−1 (colas inferior)


• 𝑅𝑅 = 𝜒𝛼;𝑛−1 , ∞ (cola superior)
Ejemplo 2: Hipótesis para varianza

• Se espera que un proceso estandarizado produzca arandelas


con una desviación muy pequeña de su espesor. Suponga
que se toman 10 de estas arandelas y la varianza empírica
resultante fue de S2 = 1,366X10-5. Se considera que el
funcionamiento adecuado del proceso requiere que la
desviación estándar del espesor de las arandelas sea inferior
de 0,005. Los datos del ejercicio ¿dan evidencia a favor de
este requerimiento? Emplee una confiabilidad de 99%
P-value
Inferencia
Hay dos maneras de presentar los resultados de un
test:
• A través de la región de rechazo
• A través del p-value
• ambos mecanismos son equivalentes.

La ventaja del segundo es que deja decidir al lector


con qué nivel de significancia realizar el test.
P-value
• El p-value es una forma de cuantificar la fuerza de la evidencia en contra
de la hipótesis nula y en favor de la alternativa. Formalmente el p-value
es una probabilidad condicional.

• El uso del p-value da al usuario una alternativa (en términos de una


probabilidad) a la simple conclusión de “rechazo” o “no rechazo”.

• El cálculo del valor p también da al usuario información importante


cuando el estadístico cae por completo dentro de la región crıtica
ordinaria.

• El valor p es la probabilidad de que nuestro estadístico de prueba tome


un valor igual que el estadístico de prueba observado, o incluso más
extremo, dada la hipótesis nula.
P-value
• El p-value es el mínimo valor con el que se rechaza la
hipótesis nula. Lo denotaremos con α*
Interpretación:
• Para valores de α mayores a α* rechazo H0
• Para valores de α menores a α*no rechazo H0
La edad promedio de obtención de la primera vivienda propia

No se rechaza
H0: m=40

a
H0: m=40

X  43
P-value
Es la probabilidad que tendría una región crítica que comenzase exactamente en el valor
del estadístico obtenido de la muestra.
Es la probabilidad de tener una muestra que discrepe aún más que la nuestra de H0.
Es la probabilidad de que por puro azar obtengamos una muestra “más extraña” que la
obtenida.
p es conocido después de realizar el experimento aleatorio
El contraste es no significativo cuando a*> a

a* a

No se rechaza
H0: m=40
a* a

X  43
H0: m=40

H1: m>40 a

X  50
Significación : p
El contraste es estadísticamente significativo cuando a*< a
Es decir, si el resultado experimental discrepa más de “lo tolerado” a priori.

a a*

Se rechaza H0: m=40

H1: m>40
a a*

X  50
Ejemplo 1.
• La estatura promedio de mujeres de primer año de cierta
universidad es de 162,5 centímetros con una desviación
estándar de 6,9 centímetros.

• ¿Hay alguna razón para creer que hay un aumento en la


estatura promedio, si una muestra aleatoria de 50 mujeres
en el grupo actual de primer año tiene una altura promedio
de 163,6 centímetros? Utilice un valor P en su conclusión.
Suponga que la desviación estándar permanece constante.
Ejemplo 1.
Ejemplo 1.
• Si en verdad las estudiantes mujeres de primer año miden en
promedio 162,5 centímetros, hay un 12,9% de probabilidad de que
una muestral aleatoria de 50 mujeres universitarias de primer año
tengan una estatura promedio de 163,6 centímetros o superior.

• Esta es una probabilidad alta, por lo que una muestra de


estudiantes mujeres de primero año que tenga una altura promedio
de 163,6 es probable que suceda por casualidad.
Tomando una decisión…
• Dado que el p-value es alto (mayor que 5%) no rechazamos
H0.

• Los datos no proveen evidencia suficiente de que la estatura


promedio de estudiantes universitarias de primer año haya
aumentado o sea mayor que 162,5 cm.

• La diferencia entre el valor nulo 162,5 cm y el observado en


la muestra de 163,6 cm se debe solamente al azar o la
variabilidad muestral.
Caso1: σ2 conocida con muestra grande (n
> 30) o muestra pequeña y datos normales.
Caso2: σ2 desconocida con datos
normales.
Pruebas de hipótesis para las
proporciones (np0 ≥ 10 y n(1-p0) ≥ 10)
Prueba de hipótesis para la varianza
Dócima de hipótesis
para dos poblaciones
Diferencia de medias
• Se lleva a cabo un experimento para comparar el desgaste por abrasivos de dos
materiales diferentes. Se prueban 12 piezas del material 1 exponiendo cada
pieza a una máquina para medir el desgaste. Se prueban de manera similar 10
piezas del material 2. En cada caso, se observa la profundidad del desgaste. Las
muestras del material 1 dan un desgaste promedio de 85 unidades con una
desviación estándar muestral de 4; en tanto que las muestras del material 2 dan
un promedio de 81 y una desviación estándar muestral de 5.

• Podríamos concluir, con un nivel de significancia de 0,05 que el desgaste


abrasivo del material 1 es diferente del material 2? Suponga que las poblaciones
son aproximadamente normales.
Ejemplo 2

• Al gerente de una tienda le gustaría saber si las


ventas diarias promedio (medido en dólares) a
través de su sitio web son diferentes a sus ventas
en las tiendas físicas. Se han recogido y se ha
realizado un análisis al nivel de significación del 5%.
Ejemplo 3
• Una tienda de baterías afirma que su marca
genérica dura tanto como una marca nacional más
costosa. El SERNAC quiere asegurarse de que la
afirmación que está realizando la tienda no es falsa,
con un nivel de significancia del 5%. Se probaron las
baterías con equipos que imitan el uso normal y se
registró el tiempo transcurrido hasta que las
baterías ya no funcionaban.
Condiciones para inferencia de dos
medias independientes:
1. Independencia:
Dentro de los grupos: Las observaciones deben ser independientes.
• Muestreo aleatorio/asignación aleatoria
• Se usó un muestreo sin reposición, n < 10% de la población.
Entre los grupos: Los dos grupos deben ser independientes entre sí.

2. Tamaño de la muestra/asimetría
• Mientras más asimétrica sea la distribución, más grande el
tamaño de la muestra
• La aproximación normal por lo general, será buena si nx, ny ≥ 30.
Si n < 30, la aproximación es buena sólo si la población no es
muy diferente de una distribución normal.
Dos muestras: Pruebas sobre dos medias
Test Dócima Estad del Test Dist del Estad.

𝜎𝑥2 y 𝜎𝑦2 conocidos, con 𝑋ത − 𝑌ത − 𝜇𝑥 − 𝜇𝑦


𝑍=
nx y ny grandes o nx , ny 2
𝜎𝑥2 𝜎𝑦 𝑁(0,1)
chicos con datos +
𝑛𝑥 𝑛𝑦
normales
𝜎𝑥2 = 𝜎𝑦2 desconocidos, 𝑋ത − 𝑌ത − (𝜇𝑥 − 𝜇𝑦 )
𝑇=
con nx y ny grandes o 𝑆𝑝2 𝑆𝑝2
ambas muestras +
𝑛𝑥 𝑛𝑦
normales
𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝑑0 𝑛𝑥 − 1 𝑆𝑥2 + 𝑛𝑦 − 1 𝑆𝑦2 𝑡 (𝑛𝑥+𝑛𝑦 −2)
𝑆𝑝2 =
𝐻1 : 𝜇𝑥 − 𝜇𝑦 ≠ 𝑑0 𝑛𝑥 + 𝑛𝑦 − 2

𝜎𝑥2 ≠ 𝜎𝑦2 desconocidos, 𝐻1 : 𝜇𝑥 − 𝜇𝑦 < 𝑑0 𝑋ത − 𝑌ത − (𝜇𝑥 − 𝜇𝑦 )


𝐻1 : 𝜇𝑥 − 𝜇𝑦 > 𝑑0 𝑍=
con nx , ny grandes o 2
𝑆𝑥2 𝑆𝑦 𝑁(0,1)
ambas muestras +
𝑛𝑥 𝑛𝑦
normales

𝜎𝑥2 ≠ 𝜎𝑦2 desconocidos, 𝑋ത − 𝑌ത − (𝜇𝑥 − 𝜇𝑦 ) (𝑣)


𝑆𝑥2 𝑆𝑦2
2

𝑇= 𝑡 𝑣=
+
𝑛𝑥 𝑛𝑦
con nx , ny chicos y 2 2

𝑆𝑥2 𝑆𝑦2 𝑆𝑥2


𝑛𝑥
𝑆𝑦2
𝑛𝑦
muestras normales + +
𝑛𝑥 𝑛𝑦 𝑛𝑥−1 𝑛𝑦 − 1

𝑣 = min 𝑛𝑥 − 1, 𝑛𝑦 − 1
Dos muestras: Pruebas sobre dos medias

Dócima Región de rechazo P-value


𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝑑0
𝐻1 : 𝜇𝑥 − 𝜇𝑦 ≠ 𝑑0 (−∞; −𝑍𝛼 ) ∪ (𝑍1−𝛼 ; ∞) 2𝑃(𝑍 > 𝑍𝑜𝑏𝑠 )
2 2
𝐻1 : 𝜇𝑥 − 𝜇𝑦 < 𝑑0 (−∞; −𝑍𝛼 ) 𝑃(𝑍 < 𝑍𝑜𝑏𝑠 )

𝐻1 : 𝜇𝑥 − 𝜇𝑦 > 𝑑0 (𝑍1−𝛼 ; ∞) 𝑃(𝑍 > 𝑍𝑜𝑏𝑠 )

Reemplazar por la distribución correspondiente


Distribución muestral de la diferencia
de las medias
Diferencia de medias
• Se lleva a cabo un experimento para comparar el desgaste por abrasivos de dos
materiales diferentes. Se prueban 12 piezas del material 1 exponiendo cada
pieza a una máquina para medir el desgaste. Se prueban de manera similar 10
piezas del material 2. En cada caso, se observa la profundidad del desgaste. Las
muestras del material 1 dan un desgaste promedio de 85 unidades con una
desviación estándar muestral de 4; en tanto que las muestras del material 2 dan
un promedio de 81 y una desviación estándar muestral de 5.

• Podríamos concluir, con un nivel de significancia de 0,05 que el desgaste


abrasivo del material 1 es diferente del material 2? Suponga que las poblaciones
son aproximadamente normales.
Razón de varianzas
• Al probar la diferencia en el desgaste abrasivo de los dos
materiales del ejemplo anterior, supusimos que eran
distintas las dos varianzas poblacionales desconocidas. ¿Se
justifica tal suposición? Utilice un nivel de significancia de
0,10.
Pasos del test
1. Plantear la hipótesis nula y alternativa
• 𝐻0 : 𝜎𝑥2 /𝜎𝑦2 = 1
• 𝐻1 : 𝜎𝑥2 /𝜎𝑦2 ≠ 1
• 𝐻1 : 𝜎𝑥2 /𝜎𝑦2 < 1
• 𝐻1 : 𝜎𝑥2 /𝜎𝑦2 > 1
2. Estadígrafo de prueba
𝑆𝑥2
𝐹= 2
𝑆𝑦
3. Región de Rechazo
𝑛𝑥 −1 𝑛𝑦 −1 𝑛𝑥 −1 𝑛𝑦 −1
• (0; 𝐹𝛼 ∪ (𝐹 𝛼 ; ∞)
1−
2 2
𝑛𝑥 −1 𝑛𝑦 −1
• (0; 𝐹𝛼 )
𝑛𝑥 −1 𝑛𝑦 −1
• (𝐹1−𝛼 ; ∞)
4. P-value
Diferencia de dos proporciones
• p1 la proporción de la población 1

• p2 la proporción de la población 2.

• Las muestras en ambos grupos se seleccionaron/asignaron


aleatoriamente

• Se muestreó menos del 10% de la población en ambas


muestras.

• Si las muestras son suficientemente grandes en cada grupo:


• 𝑛1 𝑝Ƹ1 > 10, 𝑛1 𝑞ො1 > 10 y 𝑛2 𝑝Ƹ 2 > 10, 𝑛2 𝑞ො2 > 10
Pasos del test
1. Plantear la hipótesis nula y alternativa
• 𝐻0 : 𝑝1 = 𝑝2
• 𝐻1 : 𝑝1 ≠ 𝑝2
• 𝐻1 : 𝑝1 < 𝑝2
• 𝐻1 : 𝑝1 > 𝑝2
2. Estadígrafo de prueba
𝑝ො1 − 𝑝ො2
𝑍=
𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
+
𝑛1 𝑛2
Bajo H0 verdadera 𝑝1 = 𝑝2 = 𝑝
𝑝ො1 −𝑝ො2 𝑥1 +𝑥2
𝑍= si p y q se desconocen se estima 𝑝Ƹ =
1
𝑝𝑞(𝑛 +𝑛 )
1 𝑛1 +𝑛2
1 2

3. Región de Rechazo
• (−∞; −𝑍𝛼 ) ∪ (𝑍1−𝛼 ; ∞)
2 2
• (−∞; −𝑍𝛼 )
• (𝑍1−𝛼 ; ∞)
4. P-value
Diferencia de proporciones
• En un estudio para estimar la proporción de residentes de cierta
ciudad y sus suburbios que están a favor de la construcción de
una planta de energía nuclear, se encuentra que 120 de 200
residentes urbanos favorecen la construcción, mientras que 240
de 500 residentes suburbanos la favorecen. ¿Estaría usted de
acuerdo en que la proporción de residentes urbanos que
favorecen la construcción de la planta nuclear es mayor que la
proporción de residentes suburbanos que la favorecen? Utilice un
valor P.

También podría gustarte