Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Experimentos
Tamaño de muestra
Pruebas de hipótesis
Pruebas de hipótesis
Datos apareados
Introducción y conceptos generales
Población
Conjunto de individuos que son objeto de estudio
Variable aleatoria
Característica cuantitativa aleatoria observada en el individuo
Distribución
Pauta observada en la proporción de individuos que tienen un
determinado valor de la característica
Parámetro
Número que resume los datos observados y define la distribución de
la variable
Introducción
Un problema básico de Inferencia Estadística es el de obtener
conclusiones sobre la pauta de variabilidad y/o los parámetros de
una variable aleatoria en una determinada población, a partir de la
información contenida en una muestra aleatoria de individuos de dicha
población, así como medir su significación, esto es, la confianza que
nos merecen.
El primer requisito para que un estudio de este tipo sea válido, es que
la muestra sea representativa de la población sobre la que se desea
obtener conclusiones seleccionada al azar, o por un procedimiento
equivalente a juicio de los expertos en el proceso
Introducción
m.a.s.
POBLACIÓN
muestreo
, s, p, N
inferencia
Población 1 m.a.s. 1
, , , INFERENCIA DE DOS
m1 , 1 , p1 POBLACIONES
¿m1 = m2?
Población 2 m.a.s. 2 ¿1 = 2?
¿p1 = p2?
, , ,
m2 , 2 , p2
Un ejemplo
etc
¡ NO NECESARIAMENTE !
Un ejemplo
Tamaño de muestra
Pruebas de hipótesis
Pruebas de hipótesis
Datos apareados
Normalidad de los datos
CA > 0 CA < 0
CC > 0
kurtosis
apuntamiento
CC = 0
skewness
CA = 0 simetría
CC < 0
Papel Probabilístico Normal
95
80
50
20
5
1
0,1
1950 1970 1990 2010 2030
PESO_BOLSA
Datos PROCEDENTES de una población Normal
Papel Probabilístico Normal
95
80
50
20
Los puntos NO se alinean a
5
lo largo de una línea recta.
1
0,1
0 3 6 9 12 15
PESO (Kg)
Datos NO PROCEDENTES de una población Normal
Papel Probabilístico Normal
95
80
50
20
5
1
0,1
1950 1970 1990 2010 2030
PESO_BOLSA
Datos agrupados
mezcla de dos o más poblaciones
Análisis descriptivo: conclusiones
Tamaño de muestra
Pruebas de hipótesis
Pruebas de hipótesis
Datos apareados
Conceptos generales
Todas las distribuciones de probabilidad dependen de uno o más
parámetros que se definen basándose en toda la población.
Económicos
Temporales
Naturaleza del estudio
Estratégicos
Conceptos generales
Tamaño de muestra
Pruebas de hipótesis
Pruebas de hipótesis
Datos apareados
Estimación puntual
La estimación puntual consiste en obtener un valor
aproximado de la característica poblacional para poder utilizarlo
en los cálculos. Para ello es necesario una muestra aleatoria de
tamaño n y el estimador puntual de la característica poblacional.
Estimador puntual
Se dice que el estadístico es un estimador puntual de θ, si se
utiliza para obtener valores aproximados del parámetro θ.
Media
En una distribución simétrica, el estimador de la media poblacional es
la media muestral
∑
= ̅=
Estimación puntual
Varianza
Estimadores de la varianza poblacional es la varianza muestral
∑ − ̅
= =
−1
Proporción
El estimador de la proporción poblacional es la proporción muestral
̂=
POBLACIÓN n
X: (m,) m.a.s2
x2
2
s
Nueva población cuyos individuos son muestras
2
La media o desviación típica muestrales serán nuevas variables
…
aleatorias
n
Constantes xi
desconocidas m.a.si 2
s i
Conceptos Generales
Cualquier ESTADÍSTICO es una variable aleatoria:
Tendrá sus parámetros (centralidad, dispersión,…)
( − $ ) + .... + ( − $) ∑( − $)
= =
−1 −1
)
viene dada por la expresión:
(( − ) ≡ ,("
*
Donde ! " es una nueva distribución, conocida como chi-
cuadrado.
La distribución chi-dos o 2
Importante en el estudio de la distribución de S2 de una muestra de
una población normal (K. Perason, S. XIX)
Chi-Cuadrada
0,1
.(! ) =
10
densidad 0,08
0,06
(! ) = 2
0,04
0,02
0
0 10 20 30 40
x
La distribución chi-dos o 2
3 ! ≥ 5 = 0,05 5 = 19,675 3(! ≥ 5) = α
Distribución de la media muestral
La media muestral se define por la expresión:
+ + ... + ∑
$= <
=
$ −=
≡ @n−1
s/ (
Se define
.(; ) = 0
0,3
densidad
0,2
(; ) = ( > 2)
−2
0,1
0
-6 -4 -2 0 2 4 6
x
La distribución t de Student
3 ; C ≥ 5 = 0,025 5 = 2,16 3(; ≥ 5) = α
Distribución de la proporción muestral
La proporción muestral se define por la expresión:
+ + ... + ∑
̄= =
con xi≡D(p)
̄−
≡ (E, )
̄ (1− ̄ )/(
Distribución normal tipificada
3 F ≤ 5 = 0,025 5 = −1,96 3(F ≤ 5) = α
Tamaño de muestra
Para determinar el tamaño de la muestra que permita estimar
parámetros poblacionales es necesario:
3( − ̅ > H) ≤ I
L
<∗JK/L ∗P L
≥
L
JK/L ∗P L
≥ O L <" QJK/L
L ∗R L
OL
Población de tamaño infinito Población de tamaño N
L
<∗JK/L ∗N∗( "N)
≥
L
JK/L ∗N∗( "N)
≥ OL O L <" QJK/L
L ∗N̅ ∗( "N̅ )
previa, de tamaño np
K/L
<∗(STUVW )L∗N̅U ∗( "N̅U )
≥
K/L
(STUVW )L ∗N̅U ∗( "N̅U )
≥ OL
K/L
O L <" Q(STUVW )L∗N̅U ∗( "N̅U )
̅± ; "
Y⁄ $−
≡ ;n−1
s/
varianza
X − 1) X − 1) ( − 1) ≡!
, "
! Y⁄
" ! "
"Y⁄
0
proporción
̅ (1 − ̅ )
̄−
≡ 1(0,1)
̅±F Y⁄ ̄ (1− ̄ )/
0
Ejemplo
Confidence Intervals for PESO_BOLSA
---------------------------------------------------------------------
95,0% confidence interval for mean: 1993,6 +/- 10,9639
[1982,64;2004,56]
1. Enunciar la hipótesis
2. Elegir un nivel de significación y construir
la zona de aceptación, intervalo fuera del
cual se encuentran los valores menos
probables del estadístico a utilizar. A la α
zona de rechazo la llamaremos región
crítica, y su área (probabilidad) es el
nivel de significación.
3. Verificar la hipótesis: extraer una muestra m
rechazar aceptar 0 rechazar
(tamaño y método establecidos antes) y
calcular el correspondiente estadístico.
4. Decidir. Si el valor del estadístico cae
dentro de la zona de aceptación se
acepta la hipótesis y si no se rechaza.
Hipótesis Nula H0
Es la hipótesis de salida.
H0 verdadera H0 falsa
Decisión incorrecta
Aceptar H0 Decisión correcta Error de tipo II
2ª especie
Decisión incorrecta
Rechazar H0 Error de tipo I Decisión correcta
1ª especie
Riesgos de 1ª y 2ª especie
Se denomina riesgo de 1ª o 2ª especie a las probabilidades de
cometer los errores respectivos.
β
α
m0 m1
¿Cómo cambia el
riesgo de segunda
especie con la media
real?
m0 m1 m2 m3
AL AUMENTAR EL TAMAÑO
DE LA MUESTRA DISMINUYE
EL RIESGO DE 2ª ESPECIE
α
β
m0 m1
rechazar aceptar rechazar
Prueba de hipótesis para la media
H0: m = m0
α
H1: m ≠ m0
̅−
se calcula el estadístico tcalc
;\]^\ =
_ −; Y⁄
+; Y"
⁄
0
"
Región de aceptación
−; "
Y⁄
, +; "
Y⁄
3 − `5abc = 3( ; " > ;\]^\ )
P-Valor
α
;\]^\
0
rechazar aceptar rechazar 0
−; Y" +; Y"
⁄
rechazar
⁄
aceptar rechazar
t-test
Null hypothesis: mean = 2000,0
Alternative: not equal
α
H1: σ2 ≠ σ02
−1
el estadístico de prueba
!klmk = ! !
"Y⁄ Y⁄
" "
0
Región de aceptación:
! "Y⁄
,! Y⁄ 3 − `5abc = 3( ! " > !klmk )
" "
chi-square test
Null hypothesis: sigma = 20,0
Alternative: not equal
α
H1: p ≠ p0
̅−
se calcula el estadístico zcalc
F\]^\ =
_ −F Y⁄ +F Y⁄
_ (1 − _)
0
Región de aceptación
AUTOEVALUACIÓN:
- CAPÓS LEVANTADOS.
- CAPÓS BAJADOS.
NUEVAS PRUEBAS
CAPÓ BAJADO Y
LEVANTADO
tiempo
Realización del experimento
10 con capó
Lunes a Viernes levantado
mañana y tarde
10 con capó
bajado
̅ s
C. BAJ. 3,4 3,7 2,9 2,5 1,6 2,8 3,7 5,9 4,8 4,3 3,56 1,23
C. LEV. 2,7 3,2 1,8 1,9 1,1 2,2 2,8 4,8 4,3 3,4 2,82 1,15
¡ NO !
ALEATORIZACIÓN
Aleatorización
Asignar al azar (por sorteo) el tratamiento que se va a aplicar en
cada prueba del experimento, pero respetando el número total
asignado a cada tratamiento.
Puede ser:
Lu Ma Mi Ju Vi
B B B L B
Mañana
B B L B L
L B L L L
Tarde
B L L L B
Pruebas de hipótesis
Pruebas de hipótesis
Datos apareados
Inferencia para dos poblaciones normales
1 2
Poblaciones
m1 m2
Muestreo: X1 , X2 , … , Xn1 X1 , X2 , … , Xn2
̄ ̄
s s
Estadísticos
calculados a partir de
las muestras:
Preguntas fundamentales
− −
(o − o )
media
≡; Q "
1 1
− o − o p 1
+ 2
1−1 p + 2−1 p
p =
proporción poblaciones 1+ 2−2
− ̅ − ̅
( ̅ − ̅ )
≡ 1(0.1)
̅ 1− ̅ ̅ 1− ̅
+
1 2
Distribución del cociente de varianzas
∑( − $ )
El cociente de varianzas muestrales se define por la expresión:
−1
q = r
∑( − $ )
−1
El cociente de varianzas muestrales es una variable aleatoria, y
su distribución viene dada por la expresión:
) s*
≡ t(
) s*
" ( "
≡u " "
La distribución F de Snedecor
En el estudio de los modelos de Regresión Lineal y de Análisis de la
Varianza desempeña un papel fundamental la distribución F de Fisher,
denominada así por Snedecor,
Se define
! Wq
Con ! y!
u W, =
! Lq
independientes
L
F (razón de varianzas)
0,8
10,10
0,6
densidad
0,4
0,2
0
0 1 2 3 4 5
x
La distribución F de Snedecor
3 uv w ≥ 5 = 0,05 5 = 2,85 3(u ≥ 5) = α
Intervalos de confianza
De las correspondientes distribuciones se tiene que:
Diferencia de medias
1 1
o o
( − )±; Q
Y⁄
p +
"
1 2
1−1 p + 2−1 p
con
p =
1+ 2−2
Cociente de varianzas
⁄ ⁄
,
u "
Y⁄
" u "Y⁄
" "
Diferencia de proporciones
̅ 1− ̅ ̅ 1− ̅
( ̅ − ̅ )±F Y/
+
1 2
Ejemplo
Comparison of Standard Deviations
Ratio of Variances = 1,14937
95,0% Confidence Intervals
Standard deviation of CBAJ: [0,845661;2,2445]
Standard deviation of CLEV: [0,788798;2,09358]
Ratio of Variances: [0,285488;4,62738]
α
H1: σ12 ≠ σ22
u\]^\ = ⁄
se calcula
uY " "
0
Región de aceptación:
Si u = ⁄
o si P-Valor ≥ α, entonces aceptar H0
pertenece a la región de aceptación,
Ejemplo
F-test to Compare Standard Deviations
Null hypothesis: sigma1 = sigma2
Alt. hypothesis: sigma1 NE sigma2
F = 1,14937 P-value = 0,839105
Do not reject the null hypothesis for alpha = 0,05.
Dado que el P-Valor = 0,839105 > 0,05, las varianzas son iguales,
los resultados obtenidos son compatibles con la idea de que
levantar el capó no influye sobre la variabilidad (varianza) del
número de suciedades por capó
Prueba de hipótesis para comparar medias
( ̅ − ̅ )
H0: m1= m2
;\]^\ =
1 1
H1: m1≠ m2
1−1 + 2−1
=
Región de aceptación 1+ 2−2
−; Q
Y/
" , +; Q
Y⁄
"
3 − `5abc = 3( ; Q " > ;\]^\ )
̅ − ̅
H0: p1= p2
F\]^\ =
H1: p1 ≠ p2
1 1
′(1 − z )( + 2)
Se toman dos muestras, de tamaños
1
n1 y n2, y se calcula el estadístico
1 ̅ + 2 ̅
′=
1+ 2
Región de aceptación
Media estimada
Dato = + Residuo
del tratamiento
Residuo
Normalidad
Papel Probabilístico Normal (Normalidad, Valores anómalos)
Incorrelación
Los errores no están relacionados entre sí. Aleatorizar.
Gráfico de residuos / orden de pruebas
Homocedasticidad
Los errores tienen la misma varianza
Prueba para la varianza
Residuos y Papel Probabilístico Normal
99,9
99
95
80
50
20
5
1
0,1
-2 -1 0 1 2 3
Residuos suciedades
2
Residuos
-1
-2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Orden pruebas
1,5
residual
0,5
-0,5
-1,5
-2,5
bajado levantado
POSICION
Aunque las alturas de los intervalos pueden parecer un poco
diferentes, son iguales, porque la prueba de la varianza ha indicado
que deben considerarse iguales