Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Inferencial
Estadística Inferencial
Héctor Varela V.
Población: Colección completa de valoraciones de una
característica de interés en un conjunto de individuos o elementos.
Población
completa
Muestra
(subconjunto)
Media :
Varianza :
Desv. Est. :
Proporción : p
Héctor Varela V. 3
Un estimador de un parámetro poblacional es una
función de los datos que conforman una muestra
aleatoria simple.
Héctor Varela V. 4
Estimadores puntuales
̂ X
n 2
(x X )
i
ˆ S
2 i 1
n 1
ˆ S S 2
Héctor Varela V. 5
Población v/s Muestra
POBLACION MUESTRA
10
F re q uenc y
5
80 85 90 95
X
2 S X2
SX
Héctor Varela V. 6
Estimación puntual de la proporción poblacional
x1 , x2 ,, xn m.a.s. C
c
C p = Pr ob(C )
Datos dicotómicos
n
xi
pˆ i 1 N de datos en la muestra que satisface C
n n
Héctor Varela V. 7
Considerar una población de tamaño N 6
Elemento Característica X
A 1
B 2
C 3
D 3
E 4
F 5
18 5
3 2
6 3
Héctor Varela V. 8
Muestras de Tamaño 2
Héctor Varela V. 9
Distribución de los promedios muestrales de tamaño 2
Histogram of C1
3,0 k : Nº de muestras
2,5
de tamaño 2
2,0
N
Frequency
1,5
k 15
n
1,0
0,5
0,0
1,5 2,0 2,5 3,0 3,5 4,0 4,5
C1
Promedio es un estimador
insesgado de μ
Héctor Varela V. 11
Distribución de los promedios muestrales de tamaño 4
Histogram
3,0
2,5
2,0
k : Nº de muestras
Frequency
1,5 de tamaño 4
1,0
= 15
0,5
0,0 Promedios de
2,25 2,50 2,75 3,00 3,25 3,50 3,75
C2 las Muestras
Héctor Varela V. 12
La Distribución de la Media Muestral
x
x
n
3. Está distribuida normalmente cuando la población paterna está
distribuida normalmente. O estará distribuida normalmente para
muestras de tamaño 30 o más cuando la población paterna no
está distribuida normalmente.
Héctor Varela V. 13
Intervalos de confianza
¿Porqué preocuparse de los intervalos de confianza?
Héctor Varela V. 14
Intervalos de confianza para la media
1
2 2
X
Media poblacional
Héctor Varela V. 15
Intervalos de confianza para la media
Basados en una muestra de tamaño n
s s
Pr( X - t/2, n -1 X + t /2, n -1 ) 1
n n
t ( n 1)
1
t 2 ,( n 1 ) t 2 ,( n 1 )
Héctor Varela V. 16
Estadísticas > Estadística Básica > Resumen Gráfico
Rechazo.MTW
Héctor Varela V. 17
En un intervalo de confianza para la media poblacional de la
forma
s s
X - t /2, n -1 X + t /2, n -1
n n
s
Error estándar (SE)
n
s
t /2, n -1 Error de estimación
n
s X s
X - t /2, n -1 X + t /2, n -1
n n
Héctor Varela V. 18
Determinación del tamaño de muestra
2
z(1 2 )
n S 2
d0
Héctor Varela V. 19
En el caso de los tiempos de limpieza de bordes, el error de estimación en
el intervalo para el tiempo medio está dado por
Héctor Varela V. 20
Estadísticas > Potencia y tamaño de muestra
> z de 1 muestra
Tamaño Potencia
de la del Potencia
Diferencia muestra objetivo real
0,1 334 0,5 0,500757
Héctor Varela V. 21
Intervalos de confianza para la desviación estándar
( n 1) S 2
( n 1) S 2
Pr( X
X
) 1
2
( n 1,1 2 ) 2
( n 1, 2 )
0.12
2
0.1 ( n1)
0.08
0.06
1
0.04
0.02 2 2
0
0
(2n1, 52) 10
2
15
(n1,1 2)
20 25 30
Héctor Varela V. 22
Estadísticas > Estadística Básica > Resumen Gráfico
Héctor Varela V. 23
Tamaño de muestra para la media
Poblaciones finitas
Héctor Varela V. 24
z(1 2
n
) 2
d0
2
S N : Tamaño poblacional
n
Si 0.05 Entonces se debe recalcular el tamaño
N muestral, que estará dado por n0 donde
n
n0
n
1
N
n
Si 0.05 El tamaño de muestra será el n calculado
N previamente
Héctor Varela V. 25
Ejemplo
Un área de suelo en estudio, está dividida en 130 cuadrantes
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40 41 42
43 44 45 46 47 48 49 50 51 52 53 54 55
56 57 58 59 60 61 62 63 64 65 66 67
68 69 70 71 72 73 74 75 76 77
78 79 80 81 82 83 84 85 86
87 88 89 90 91 92 93 94
95 96 97 98 99 100 101
102103 104 105 106 107
Un estudio piloto sobre concentración 108109 110 111 112
de un químico en el suelo, en 15 113 114 115 116
cuadrantes elegidos al azar proporcionó 117 118 119 120
una desviación estándar de 12.3 121 122 123 124
125 126 127 128
129 130
Héctor Varela V. 26
¿Cuántos cuadrantes deberían ser elegidos para estimar la
concentración media, con un error de estimación no superior a
2.5 y con una confianza del 95%?
Sample Target
Difference Size Power Actual Power n 93
2,5 93 0,5 0,500095
n 93
0, 7154 0, 05
N 130
n 93
n0 54, 21 55cuadrantes
n 1, 7154
1
N
Héctor Varela V. 27
Pruebas de Hipótesis
Un problema de estimación incluye un parámetro poblacional θ, para
el cual no se tiene una noción preconcebida de su valor
Es decir, se está proponiendo una teoría respecto del valor (o los valores)
del parámetro θ
Esta teoría debe ser contrastada con la realidad mediante una muestra
aleatoria simple de la población
Héctor Varela V. 28
Pruebas de Hipótesis
Héctor Varela V. 29
¿Cuándo es necesario hacer pruebas de hipótesis?
Cuando se desea analizar entradas para determinar si afectan a una
salida dada
Salidas
Entrada A
Entrada B Proceso Productos o servicios
Entrada C
Héctor Varela V. 30
Hipótesis
Héctor Varela V. 31
Lineamientos para hacer un test de hipótesis
La hipótesis nula H0
La hipótesis alternativa HA
El estadístico de la prueba de H0
La región de rechazo de H0
Héctor Varela V. 32
Planteamiento de hipótesis
Hipótesis nulas
H 0 : q = q0 (conocido) H 0 : q1 = q2
Hipótesis alternativas
H 0 : q ¹ q0 (bilateral ) H 0 : q1 ¹ q2 (bilateral )
Héctor Varela V. 33
Errores en pruebas de hipótesis
Los tests de hipótesis están basados en los datos muestrales (pruebas)
para obtener una conclusión sobre los parámetros poblacionales
verdaderos (estados de naturaleza)
NO RECHAZAR Ho RECHAZAR Ho
Población / Realidad
Error tipo I
Ho Decisión a
VERDAD
VERDADERA correcta
Riesgo del productor
Ho Error tipo II
Decisión
FALSA b
correcta
Riesgo del consumidor
Héctor Varela V. 35
El error de tipo I; α define un límite de decisión c (valor crítico)
para rechazar H0
Héctor Varela V. 37
Potencia de la prueba de hipótesis
1- b
Héctor Varela V. 38
Matriz de cuatro bloques
¿Cuáles son las pocas X vitales que deben pasar a la etapa Mejorar?
¿Qué entradas (las x) son estadísticamente significativas y deberían
mejorarse?
¿ Qué entradas (las x) son prácticamente significativas y contribuirán al
beneficio ($)?
Salidas Y
Cualitativas/
Continuas
Categorizadas
Regresión Lineal
Regresión
Continuas Regresión no
Entradas X
Logística
lineal
Comparaciones Comparaciones
Cualitativas/ de medias, de proporciones.
Categorizadas medianas, Pruebas chi-
varianzas, DOE cuadrado
Héctor Varela V. 39
Test de hipótesis sobre la media poblacional μ
Hipótesis
Hip. nula H0 : m = m0
Hip. Alt HA : m ¹ m0
Hip. Alt1 HA : m > m0
Hip. Alt2 HA : m <m0
Héctor Varela V. 40
Test - t de una muestra
Supuestos
Estadístico de prueba de H0
( X - m0 ) n
t0 = t ( n -1 )
S
Héctor Varela V. 41
Test - t de una muestra
H 0 : m = m0 vs H A : m ¹ m0
t ( n 1)
1
a 2 a 2
-t(n-1;1-a 2) t( n-1;1-a 2)
Rechazar H0 si
( X - m0 ) n ( X - m0 ) n
t0 = £ -t( n-1;1-a 2 ) O si, t0 = ³ t( n-1;1-a 2 )
S S
Rechazar H0 si
p valor
t ( n 1)
a
t( n-1;1-a )
Rechazar H0 si ( X - m0 ) n
t0 = ³ t ( n -1;1- a )
S
Rechazar H0 si
p valor
t ( n 1)
a
-t(n-1;1-a)
Rechazar H0 si
( X - m0 ) n
t0 = £ - t ( n -1;1- a 2 )
S
Rechazar H0 si
p valor
p valor Pr ob(t( n 1) t0 )
Héctor Varela V. 44
EJEMPLO
Se enviaron a 14 laboratorios soluciones estandarizadas que se
prepararon con un contenido de oxígeno disuelto de 1.2 mg/L. Se
solicitó a los laboratorios que midieran la concentración de oxígeno
disuelto usando el método de titulación de Winkler. Las
concentraciones reportadas por los laboratorios en mg/L están en el
archivo OD.MTW.
¿En promedio miden los laboratorios 1.2 mg/L, o existe algún sesgo?.
H 0 : 1.2
v/s
H A : 1.2
Héctor Varela V. 45
Los datos satisfacen los supuestos de m.a.s. de una distribución normal
OD.MTW
Seleccionar la
hipótesis alternativa
Héctor Varela V. 46
x 0
T s/ n
1,2
Prueba de mu = 1,2 vs. no = 1,2
1,3643
0,2453
14
Error
estándar
de la
Variable N Media Desv.Est. media IC de 95% T P
OD 14 1,3643 0,2453 0,0656 (1,2227. 1,5059) 2,51 0,026
Héctor Varela V. 47
Caso de muestras pareadas (dependientes)
Test t - pareado
Héctor Varela V. 48
Pruebas de hipótesis sobre la media de las diferencias con observaciones
pareadas es idéntica a la prueba respecto de una media poblacional, en
donde los valores de xi se reemplazan por diferencias di de dos
observaciones pareadas.
H A : d 0
H A : d 0
Héctor Varela V. 49
Muestra de pares; ( xi , yi ) i 1,2,, n
Estadístico de prueba de H0
d
t0 Sd
t0 ~ t-student (n - 1)
n
n n n
di ( xi yi ) i
( d d ) 2
d i 1
i 1
, Sd i 1
n n n 1
Héctor Varela V. 50
Estudio Interlaboratorio
H 0 : d 0 vs H A : d 0
Héctor Varela V. 51
Los datos satisfacen los supuestos de m.a.s. de una distribución normal
Estadísticas > Estadística Básica > t pareada
Héctor Varela V. 52
T pareada para Winkler - Electrodo
Error
estándar
de la
N Media Desv.Est. media
Winkler 14 1,3929 0,3050 0,0815
Electrodo 14 1,7214 0,3068 0,0820
Diferencia 14 -0,329 0,494 0,132
Héctor Varela V. 53
Homogeneidad de Varianzas
Para comparar medias de dos poblaciones, se debe verificar
que las varianzas poblacionales son iguales
Hipótesis
H0 : 2
2 2 Estadístico de prueba de H0
1
HA : 2
2 2
S12
F0 2
1
H A : 1 2
2 2
S2
H A : 1 2
2 2
Héctor Varela V. 54
Ejemplo
Balde A Balde B
T Llenado T Llenado
Se registran los tiempos de llenado (en
segundos) para dos tipos diferentes de 22 29
baldes. Pruebe la hipótesis de que las 25 21
varianzas de estas muestras son iguales 24 21
29 26
27 19
23 23
H 0 : A2 B2 22 11
23 24
21 28
H 0 : A2 B2 20 20
22 21
23 30
19 17
24 17
20 23
Héctor Varela V. 55
Baldes.MTW
Héctor Varela V. 56
Estadísticas > Estadística Básica > 2 varianzas
datos en
columnas
diferentes
Héctor Varela V. 57
Estadísticas
IC para IC para
Distribución relación de relación de
de los datos Desv.Est. varianza
Normal (0,305. 0,907) (0,093. 0,823)
Continuo (0,241. 1,058) (0,058. 1,119)
Pruebas
Estadística
Método GL1 GL2 de prueba Valor P
Prueba F (normal) 14 14 0,28 0,022
Prueba de Levene (cualquiera continua) 1 28 3,67 0,066
Héctor Varela V. 58
Test de hipótesis sobre la diferencia de dos
medias poblacionales μ1 – μ2
Hipótesis
Supuestos
Muestras aleatorias independientes
Distribuidas aproximadamente normales
Con varianzas iguales
Héctor Varela V. 59
Estadístico de prueba de H0
x1 , x2 , , xn m.a.s. de N ( 1 , ) 2
y1 , y2 , , ym m.a.s. de N ( 2 , 2 )
Independientes
X -Y
t0 = t( n+m-2)
(n -1) S + (m -1) S
2 2
æ 1 1 ÷ö
X Y çç + ÷
n+m-2 çè n m ÷ø
Héctor Varela V. 60
Ejemplo
Marca A Marca B
Una empresa de camiones desea 4,2 4,4
probar la eficiencia de dos marcas 3,1 3,2
de diesel. Se realizaron 15 pruebas 4,8 4,9
con cada marca de diesel, y se 5,9 5,9
registraron los kilómetros por litro. 5,8 5,8
¿Hay alguna diferencia entre las 6,4 6,5
marcas? 2,2 2,2
4,3 4,5
5,7 5,7
3,3 3,6
H0 : m1 -m2 = 0 HA : m1 -m2 ¹ 0 3,8 3,8
2,7 2,8
2,5 2,6
Diesel.MTW
3,5 3,4
3,7 3,8
Héctor Varela V. 61
Chequear Supuestos
Tests de normalidad:
Usar test - F
P-value = 0.974
Suponer igualdad de varianzas
Héctor Varela V. 62
Estadísticas > Estadística Básica > t de 2 muestras
Hipótesis alternativa
Héctor Varela V. 63
T de dos muestras para Marca A vs. Marca B
Error
estándar
de la
N Media Desv.Est. media
Marca A 15 4,13 1,33 0,34
Marca B 15 4,21 1,32 0,34
Héctor Varela V. 64
Comparación de medias, cuando las
varianzas son desiguales
Si se rechaza la hipótesis H0 : 1 2
2 2
X -Y
t =
'
0
S X2 SY2
+
n m
Héctor Varela V. 65
Ejemplo
Para el caso de los tiempos de llenados de baldes, se encontró que
existe evidencia de varianzas diferentes. Y se desea comparar los
tiempos medios de llenado en cada balde
Baldes.MTW
Estadísticas > Estadística Básica > t de 2 muestras
Para varianzas
desiguales
Héctor Varela V. 66
Error
estándar
de la
N Media Desv.Est. media
Balde A 15 22,93 2,66 0,69
Balde B 15 22,00 5,06 1,3
Rechazar con una t con 10 g.l., implica rechazar con una t con 11 g.l. Pero no
necesariamente es así en el sentido inverso
Héctor Varela V. 67
ANALISIS DE VARIANZA
Héctor Varela V. 68
Análisis de varianza
Hipótesis
H 0 : ......
Supuestos
– Muestras aleatorias independientes
– Residuos con distribución normal
– Varianzas iguales
Héctor Varela V. 69
Toma de muestras
y ,y , ...... , y m.a.s. de N ( , 2 )
11 12 1n1 1
y 21 , y 22 , ...... , y 2 n m.a.s. de N ( 2 , 2 )
2
y ,y , ...... , y m.a.s. de N ( , 2 )
k1 k2 kn k k
Independientes
Héctor Varela V. 70
Cálculos previos
k ni ni k
Y.. yij , Yi. yij , n ni
i 1 j 1 j 1 i 1
k ni ni
yij yij
i 1 j 1 Y.. j 1 Yi.
Y , Yi
n n ni ni
Héctor Varela V. 71
Descomposición de la variación total:
Variaciones dentro de
Variación Variaciones
Total = + grupos o debida al
entre grupos ruido experimental
Héctor Varela V. 72
Cuando H0 es verdadero, se obtienen 2 estimaciones de la
varianza 2 de la población
k: N° de grupos.
n: N° total de observaciones
F: Estadístico de prueba de H0
P: valor-p
Héctor Varela V. 74
Homogeneidad de Varianzas
H 0 : 12 22 k2
Héctor Varela V. 75
Ejemplo
El archivo TurnosGC.MTW contiene registros de %Cu para los meses de
febrero, marzo, abril y mayo. Se desea comparar los porcentaje de cobre medios
entre los meses
i2 : Varianza de % Cu en mes i
Se desea probar
H 0 : 3 4
vs
HA: Alguna diferencia existe
Héctor Varela V. 76
Verificación de varianza constante
H 0 : 12 22 32 42
Estadísticas > Anova > Prueba de varianzas iguales
Héctor Varela V. 77
Héctor Varela V. 78
Intervalos de confianza de Bonferroni de 95%
para desviaciones estándar
Héctor Varela V. 80
H 0 : 1 2 3 4
ANOVA unidireccional: % Cu vs. Mes
Fuente GL SC CM F P
Mes 3 1082,0 360,7 19,35 0,000
Error 671 12504,6 18,6
Total 674 13586,6
Héctor Varela V. 81
Héctor Varela V. 82
Agrupar información utilizando el método de
Tukey
Héctor Varela V. 83
Intervalos de confianza simultáneos de Tukey del 95%
Todas las comparaciones de dos a dos entre los niveles de Mes
Héctor Varela V. 84
Mes = mar restado de:
%Cu medio de marzo difiere de %Cu medio de abril y %Cu medio de mayo
Héctor Varela V. 85
Chequear residuos
Re siduo Yij Yi
Héctor Varela V. 86
Prueba de normalidad de los residuos
Héctor Varela V. 87
Estadísticas no paramétrica
Héctor Varela V. 88
Test de Mann - Whitney
H 0 : Mediana 1 Mediana 2
Independientes
Héctor Varela V. 89
Se ordena la muestra conjunta en magnitud no
decreciente y se asignan rangos de 1 a (n+m)
2 1 1 2 1 1 2 2 2 2 1
1.5 1.8 1.9 2.1 2.5 2.6 2.7 3.4 3.6 3.7 3.9
Rangos 1 2 3 4 5 6 7 8 9 10 11
Héctor Varela V. 90
Para observaciones iguales se promedian los rangos
Estadístico de prueba de H0
n
W R1i (Wilcoxon)
i 1
n ( n 1)
U W (Mann - Whitney)
2
Uso de
Se rechaza H0 si p value
software
estadístico No se rechaza H0 p value
Héctor Varela V. 91
Ejemplo
Héctor Varela V. 92
Para desapilar en Minitab
Datos > Desapilar columnas
Stock.MTW
Columnas
no apiladas
Héctor Varela V. 93
Estadísticas > No parametricos > Mann-Whitney
N Mediana
Cut_B 79 0,4300
Cut_C 101 0,4900
No diferencia significativa
Héctor Varela V. 94
Test de Kruskal - Wallis
y k1 , y k 2 , ...... , y kn m.a.s. de Población k
k
Héctor Varela V. 95
Se ordena la muestra conjunta y se asignan rangos de 1 a n
k
n ni
i1
Ri Suma de los rangos de la muestra (i ésima )
Estadístico de prueba de H0
k R 2
12
K
n( n 1)
n
i 3( n 1)
i 1 i
K 2
( k 1)
Héctor Varela V. 96
Ejemplo
Héctor Varela V. 97
Estadísticas > No paramétricos > Kruskal-Wallis
Rechazo.MTW
Clasificación
Turno N Mediana del promedio Z
1 16 0,3550 28,4 -1,02
2 24 0,3500 26,0 -2,16
3 24 0,4750 41,8 3,08
General 64 32,5
H = 9,63 GL = 2 P = 0,008
H = 9,69 GL = 2 P = 0,008 (ajustados para los vínculos)
diferencias significativas
Héctor Varela V. 98
INFERENCIA CON DATOS CUALITATIVOS
x1 , x2 , xn m.a.s.
x i
N º de datos en la muestra que satisface C
pˆ i 1
n n
Estadístico de prueba de H 0 : p = p0
pˆ p 0
Z0 ~N ( 0,1)
p 0 (1 p 0 )
n
Límite
Muestra X N Muestra p superior 95% Valor Z Valor P
1 65 500 0,130000 0,154739 -1,25 0,105
Estadístico de prueba de H0
nn
(n ) i j 2
k m
ij
J n
0
i 1 j 1
nn i j
n
J0 ~ 2
( k 1)( m 1)
n
J
Coeficiente de Contingencia de Pearson
o
J n
o
2 14 25 27 24 10 100
15,20 24,80 26,20 23,80 10,00
0,095 0,002 0,024 0,002 0,000
3 15 20 20 23 9 87
13,22 21,58 22,79 20,71 8,70
0,239 0,115 0,342 0,254 0,010
4 3 5 5 0 0 13
1,98 3,22 3,41 3,09 1,30
0,531 0,978 0,746 3,094 1,300
0 si t x(1)
i
F( n ) (t ) si x( i ) t x( i 1)
n
1 si x( n ) t
Héctor Varela V. 116
Ejemplo
La siguiente muestra de 10 observaciones
5,2 3,5 8,6 6,8 9,2 12,7 6,5 4,7 11,8 9,7
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3 F10 (9.7) = 0.8
0,2
0,1
0,0
F10 (11.7) = 0.8
3,5
4,7
5,2
6,5
6,8
8,6
9,2
9,7
11,8
12,7
C1