Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Test de hipótesis
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 1 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 2
Prueba de hipótesis
• si rechazamos una hipótesis correcta ⇒ error α (Tipo I)
H0: µ1= µ Si se estandarizan los datos el test es:
• si aceptamos una hipótesis incorrecta ⇒ error β (Tipo II)
Ha: µ1≠ µ x −µ
Z= ~ N (0;1)
σ/ n
Nivel de significación = α = Prob. de cometer un error tipo I
o directamente:
H0: µ1= µ x ~ N ( µ ;σ / n )
Zona de rechazo
test de dos colas Prob.
Ha: µ1> µ α=0.05 con α/2 c/u,
95%
µ α/2 α/2
µ1
variable
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 3 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 4
1
Para las hipótesis
Prob. • si aceptamos una hipótesis incorrecta ⇒ error β (Tipo II)
H0: µ1 = µ α
π= potencia del test
Ha: µ1 > µ µ xc variable
H0: µ1= µ Zona de β=0.70
una cola a derecha con área α Pr. aceptación
x ~ N ( µ ;σ / n ) Ha: µ1> µ
π=0.30
95%
Prob
α
H0: µ1 = µ, µ µ1 variable
xc µ variable
Ha: µ1 < µ
α=0.05
una cola a izquierda con área α. Zona de rechazo
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 5 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 6
µ=20.15 n
En un perfil se extrajeron 15 especímenes de una
arenisca y se les midió la porosidad. En un espec. porosidad σ=5.23 ∑x
i =1
i x = 18.46
estudio anterior de la misma unidad litológica, 1 24.31 % σ2=27.3529 x=
efectuado en otro sitio, se obtuvo un valor medio 2 18.94
espec. porosidad n
de porosidad de 20.15 % con una desviación
3 15.69
1 24.31 % n
S2=21.5412
∑ (x − x)
4 13.47 2 18.94 2
estándar de 5.23% . 5 17.21 3 15.69 i
6 23.32 i =1 S=4.64
a) Considerando la muestra representativa de la
7 12.79
4 13.47
s =
2
población, se quiere saber si, desde el punto de 8 11.25
5
6
17.21
23.32
n −1
vista de sus porosidades, ¿es posible considerar 9 19.67 7 12.79
que ambos estratos forman parten de una misma 10 22.11 8 11.25
Asumimos que las varianzas de muestra y de
9 19.67
población, con un nivel de confianza del 95%?. 11 20.15 población se pueden considerar equivalentes.
10 22.11
12 19.47
b) calcular el valor p 13 27.69
11 20.15
12 19.47 (lo indicado sería comprobarlo)
c) considerando una segunda población con 14 16.57 13 27.69
media =15% calcular el error β y la potencia π del 15 14.24 14 16.57 a) Comprobar si medias de muestra y de
test. 15 14.24 población se pueden considerar equivalentes
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 7 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 8
2
Test de hipótesis para medias
DATOS Test estadístico: Distribuciones muestrales
H0: µ1= µ
µ= 20.15 σ PROPIEDAD de los ESTADÍGRAFOS EFICIENTES
Ha: µ1≠ µ x ~ N µ ; sus diferencias o sus sumas siguen una distribución normal con medias y
σ= 5.23 n varianzas que se pueden calcular a partir de los parámetros de las
*Test de dos colas distribuciones individuales.
x =18.46 x ~ N ( µ;σ / n )
*nivel de Consideremos dos estadígrafos a1 y a2.
S= 4.64
significación α=0.05 La distribución D(a1+a2) será normal
n = 15 Dos áreas críticas con media y varianza:
α=0.05 del 2.5% de prob. µ
cada una 17.50 22.80 µa +a = µa + µa
1 2 1 2 σ 2 a +a = σ 2 a + σ 2 a
1 2 1 2
20.15 18.46 La distribución de las diferencias D(a1-a2) también será
=DISTR.NORM.INV(0.025;20.15;5.23/RAIZ(15)) =17.50
normal con media : y varianza:
=DISTR.NORM.INV(0.975;20.15;5.23/RAIZ(15)) =22.80
Al 95% de confianza no puedo rechazar la µ a −a = µ a − µ a σ 2 a1 −a 2 = σ 2 a1 + σ 2 a 2
1 2 1 2
hipótesis de media común
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 9 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 10
µx −x = µx − µx = µ1 − µ2 σ 2 x − x = σ 2 x + σ 2 x = σ 1 + σ
2 2
Calculamos todas las diferencias posibles entre las 1 2 1 2 1 2 1 2
2
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 11 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 12
3
De manera similar, si lo que consideramos es la Ejemplo: En un suelo desarrollado contaminado se calculó el
contenido medio de Cr . Para el horizonte A la media es 18ppm,
distribución de la suma de medias, la distribución tendrá:
con error estándar=6, en el B1 es 36ppm con error estándar=13, y
en el B2 es 44ppm con error estándar=28 . El volumen a remover
µ x + x = µ x + µ x = µ1 + µ 2
1 2 1 2
de cada horizonte es A=10 tn, B1=80tn y B2=150tn¿Cuál sería el
contenido total en el suelo y su desviación estándar?
A B1 B2 unidades totales
media 18 36 44 ppm
σ 21 σ 22 error estand.
σ =σ +σ
6 3 8 ppm
2
x1 + x 2
2
x1
2
x2 = + tonelaje 10 80 150 tn
n1 n2 varianza 36 9 64 ppm2
contenido 180 2880 6600 g 9660
k^2*varianza
Medias se suman o restan según sea el caso desviac. est.
3600 57600 1440000 g2
g
1501200
1225
Varianzas siempre se suman
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 13 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 14
Distribución χ2
• La forma de la fdp varía con v
χ2
: Distribución Chi-cuadrado
• Distribución de una variable X que es suma de los cuadrados • v =1
de v variables independientes normales estandarizadas ∞ para x=0, luego 0,5
decrece 0,4
v
∑z
2 v=2
Y − µi
∼χ
v
2 2 • v =2 forma
X = ∑ i
0,3
i v similar a
i =1 σi 0,2
i =1 exponencial con v=6
λ=1/2 0,1
v=10
1 Parámetro : v = grados de libertad
0
v
−1 • v ≥3 fdp
C.x 2 exp(− x / 2) si x ≥ 0
0 5 10 15 20 25 30
unimodal
f ( x) =
0 si x < 0 • a >v la fdp se hace más simétrica y se acerca a la de una
distribución normal
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 15 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 16
4
Chi-cuadrado, v=8
0,15
media = v
0,1 Aplicación de la Distribución χ2
Var = 2v
0,05
para Comparar Varianzas
0 S = √2v
0 5 10 15 20 25 30
Test de hipótesis
• permite hacer inferencias sobre el valor de σ2 conocida S2 Ej: En un estudio de contaminación hecho en un arroyo se
( n − 1) S 2 extrajeron 15 especímenes de sedimentos de fondo. Las mediciones
~ χ n2 − 1 de contenido de Pb tienen una media de 74 ppm y una varianza de
σ2
289. Se quiere saber, con significancia de 0.05, si se puede
• Propiedad aditiva: La suma de variables aleatorias considerar que este arroyo tiene mayor contaminación de Pb que
independientes distribuidas como χ2a, χ2b, χ2c,.... está otro densamente muestreado cuyo valor medio es de 65 ppm, con
distribuida como χ2a+b+c+... desviación estándar de 19ppm.
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 17 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 18
DATOS DATOS
Comparar Varianzas Comparar Medias
µ= 65 ; µ=65
Test estadístico: H0: µ1= µ
σ=19 H0: σ21= σ2 σ=19 Ha: µ1> µ
2
σ2=361
Ha: σ21≠ σ2 χ n -1
(n - 1)S ~ 2
n=15 5%
n=15 σ2 σ
x=74 x ~ N µ ;
x=74 =11.208 α=0.05 n
65 73
s2=289
=PRUEBA.CHI.INV(0,05;14) Test de una cola
α=0.05
= 23.6848 región crítica derecha con prob=5%
11.208 < 23.6848 x =74
=DISTR.NORM.INV(0.95; 65; 19/RAIZ(15)) =73.07
no cae en área crítica x =74 > 73.07
Al 95% de confianza Se puede considerar que la diferencia es significativa:
α aceptamos la igualdad de
χ2(α)
las varianzas el contenido de Pb es significativamente mayor
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 19 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 20
5
Ej. : Se determinó el contenido medio de materia orgánica de una DATOS Comparar Medias
roca a partir de las mediciones hechas en 14 muestras,
µ=22 H0: µ1= µ
obteniéndose un valor de 19g / 100g de muestra seca. Se quiere
saber al 90 % de confianza, si este valor es significativamente σ=9 Ha: µ1< µ
menor respecto a una roca con contenido medio de 22 g/100g y n=14 σ
desviación estándar de 9 g/100g. x ~ N µ ;
x =19 n
α=0.10 22
18,92
DATOS Test de una cola
región crítica izquierda con prob=10%
µ=22 No puedo comparar varianzas,
=DISTR.NORM.INV(0.10;22;9/RAIZ(14)) =18.92
σ=9
las asumo iguales:
x = 19
σ21= σ2 x =19 < xc=18,92
n=14 el contenido no es significativamente menor
x =19 a cual significación se podría considerar menor?
valor p p= 0.106 región crítica izquierda con prob=10.6%
α=0.10
=DISTR.NORM(19; 22; 9/RAIZ(14);VERDADERO)
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 21 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 22
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 23 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 24
6
Distribución F
La distribución F se emplea para:
Parámetros: v1 ; v2
0,08
• v1>2 → fdp unimodal
grados de libertad: 10, 9 • comparar cantidades estimadas que tengan distribución χ2
0,06
0,04
v1 (v2 − 2) 2 (v 2 − 4)
2
σ 2
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 25 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 26
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 27 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 28
7
Aunque la población tenga una distribución Normal Distribución t de Student
•distribución de una variable aleatoria t definida a partir de
• generalmente no conocemos los parámetros dos variables X e Y, aleatorias e independientes
⇒incertidumbre asociada es mayor que la de una
distribución normal X −µ fdp
•X ~ N(µ,σ)
t= σ
•Y~ χ2v
Distribución t de Student Y
v 0
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 29 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 30
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 31 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 32
8
Varianzas iguales : Varianzas distintas :
Test estadístico
H0: µ1 = µ2 Varianza ponderada: H0: µ1 = µ2 x1 − x 2
Ha: µ1 ╪ µ2 Ha: µ1 ╪ µ2 t= ~t
S12 S 22 v
(n − 1) S + (n2 − 1) S 2 2
+
S = 1
2 1 2
p
n1 + n 2 −2 n1 n2
2
S12 S 22
Test estadístico +
x1 − x 2 n n
v= −2
1 2
t= ~ tn 2 2
1 1 1 + n2 − 2 S12 S 22
Sp + n n
n1 n 2 1
+
2
n1 − 1 n2 − 1
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 33 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 34
Porosidad % Muestra
Ejemplo 1: Se realizó un muestreo de una A B a) asumo µ=18 H0: µ1 = µ0 ….→ ( µ1 ≤ 18%)
formación de areniscas que aflora en dos 1 19 16 Ha: µ1 > µ0 .... → (µ1 > 18%)
xA=20.40 estadígrafo
localidades distintas (A y B). De cada 2 18 13 SA=3.87 Test estadístico: x−µ
localidad se tomaron al azar 15 muestras 3 17 18 t= ~ tv
para un estudio de porosidad cuyos xB=19.93 S n
4 24 23
resultados se tabulan a continuación. 5 27 20 SB=3.31
• Elegimos un nivel de confianza del 95%
Queremos saber: 6 29 18 nA=nB=15 • test de una cola (excel calcula para 2
a) si las muestras de ambas localidades 7 19 19 colas, por eso pongo el doble de α=0.10)
pueden considerarse provenientes de una 8 17 24
• calculamos:
población con porosidad mayor al 18%. 9 20 19
• tA = (20.40-18)/(3.87/√15) = 2.40
10 16 23
b) si son equivalentes las medias en 11 21 23
1.7613
• tB= (19.93-18)/(3.31/√15) = 2.26
ambas localidades. 12 18 21
• t(14,0.05) = DISTR.T.INV(0.10;14) = 1.7613
xA= 20.40 S²A=14.97 SA=3.87 13 24 17
Aceptamos que ambas muestran provienen de una población con
14 19 20 porosidad mayor al 18%.
xB= 19.93 S²B=10.92 SB=3.31
15 18 25
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 35 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 36
9
valor p? =DISTR.T(2.40, 14, 1) = 0.015 98.5% de confianza • probamos la igualdad entre las medias
=DISTR.T(2.26, 14,1 ) = 0.020 para A y 98% para B H0: µ1= µ2 x1 − x 2
Test estadístico: t= ~ tv
Ha: µ1≠ µ2 Sp
1
+
1
b) son equivalentes las medias de las dos localidades? n1 n 2
Datos Primero Comparar Varianzas:
2 (n1 − 1) S12 + (n2 − 1) S 22
xA=20.40
σ2 α/2 Sp =
1= σ2
H0 : α/2 =12.9476
2 S
2
n1 + n2 − 2
SA=3.87
Ha: σ2 >σ2
A
2
~ F(n − 1)(nB − 1)
1 2 S B A -2.0484 2.0484 t = 0.0987
xB=19.93
• test de dos colas: t (n1 + n2 -2); (α/2)
SB=3.31
nA=nB=15 F= 14.97 / 10.92 =1.371 tv = t0.025 = DISTR.T.INV (0.05;28) = 2.0484
= - 2.0484
F14,14 =DISTR.F.INV(0,05;14;14) = 2.484
Aceptamos la igualdad entre varianzas = Como el valor de t no cae en ninguna de las áreas
homocedasticidad críticas, aceptamos la hipótesis de igualdad.
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 37 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 38
10
n1 = 25
x1 = 14.5
H0: µ1= µ2 x1 − x 2 Prueba de Bondad de Ajuste con χ2
Ha: µ1> µ2 t= ~t
S12 = 0.47 S12 S 22 v
n2 = 27 + • bondad de ajuste con un modelo
n1 n2
x2 = 13.9
S22 = 0.98 •comparación de frecuencia observada oi
2
S12 S 22 ei
+ t = 2.5562 con frecuencia esperada
v= n1 n2 −2
S12
2
S 22
2
> •frecuencia esperada ⇐ probabilidad del modelo
n n v = 44
1
+
2
n1 − 1 n2 − 1 Test estadístico:
α=0.05 tv =DISTR.T.INV(0,10;44) =1.680
(o i − e i ) 2
χ 2 = ∑i =1
k
~ χ (2k −1)
el primer yacimiento tiene un contenido significativamente mayor ei
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 41 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 42
Ej-1: Se quiere saber si los tamaños de los ejes mayores de granos Ejemplo 2:
minerales (en tabla) se pueden considerar distribuidos uniformente Se tomaron 100 muestras de agua de un acuífero
dentro del rango de 0 a 24 mm, con un nivel de significación del 0,05. contaminado por la entrada de agua marina y se hicieron
mediciones de salinidad. Se quiere saber si se puede
Tamaño
(nmm) f H0: p1=p2=...=p6=1/6 considerar que los valores siguen una distribución normal.
Emplear clases de ancho=1:
0-4 11
Ha: alguna es ≠ α
4-8 17 χ 2( α ) 6,6 11,2 8,6 3,4 6,6 8,9 8,0 10,3 9,1 5,4
12 1,9 6,6 6,7 6,0 9,0 6,1 7,9 4,8 7,1 7,0
8-12 2
k ( oi − e i ) 8,9 6,7 5,7 8,7 7,6 8,0 9,1 7,6 6,4 1,7
χ ∑i ~ χ (2k −1 )
10 2
12-16 = 4,4
3,7
7,4
4,6
3,4
5,0
9,6
4,9
5,9
7,4
4,4
7,4
7,1
5,7
9,6
6,3
3,3
5,7
6,4
5,3
=1
16-20 4 ei 7,6 2,6 7,0 6,9 11,1 9,0 5,4 4,7 5,9 3,9
8,3 6,6 6,9 7,1 6,9 8,4 7,9 10,6 6,6 7,5
20-24 6 =10,6 χ2 7,0 5,1 5,6 9,1 9,3 8,7 9,1 8,0 6,1 7,6
n = 60 k =6 8,6 4,9 10,0 2,3 10,1 7,0 7,3 5,6 8,6 9,1
8,0 7,3 6,7 7,2 9,3 7,3 6,3 8,3 2,9 6,3
ei=10 χ2(k-1; 0.05)=PRUEBA.CHI.INV(0,05;5) =11,071
No se aparta significativamente de la uniformidad Test de bondad de ajuste con modelo normal
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 43 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 44
11
•Estimamos: media = 6.89 S = 2.03 clases: k = 13
media = 6.89
χ2 = ∑
k
(oi − ei )2 ∼ χ 2 S = 2.03
( k −1− p )
ei
i =1
p=Nº parámetros Li ,Ls
estimados=2 clase i oi
• ordenamos los 100 datos de < a > Li Ls ei = n Pi
• menor =1.7
•dividimos en clases de ancho=1
• mayor =11.2 Pi = DISTR.NORM (Ls;media;DS;VERDADERO) —
(arbitrario)
[1;2); [2;3),...,[11;12), =11 clases DISTR.NORM (Li;media;DS;VERDADERO)
χ 2 (α )
• si se conocen los parámetros de la distribución tomada como
χ2 = 6.3555 modelo, los grados de libertad son (k-1).
χ2 (13-1-2; 0.05) =PRUEBA.CHI.INV(0,05;10) =18.3070 • si no se conocen estos p parámetros y se estiman con los datos,
los g.l. son (k-1-p)
(( si empleara (k-1) ⇒ χ2 (13-1; 0.05) =PRUEBA.CHI.INV(0,05;12) =21.0261 )) • si se usa una distrib.teórica, conviene agregar 2 clases extremas.
el estadígrafo calculado no cae en el área crítica • clase i =(Linf;Lsup) → oi ; → ei=nPi ; Pi= Pacum(Lsup) - Pacum(Linf)
al 95% de confianza los datos presentan buen ajuste con • se puede efectuar empleando como modelo una distribución
una distribución normal. empírica de la que surgen las frecuencias esperadas (bootstrap).
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 47 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 48
12
Distribución exponencial
Distribución exponencial
• distribución asimétrica Decaimiento exponencial λ
λ E(λ)
• fdp decreciente Ejemplo: Supongamos que la probabilidad
f ( x) = λ exp( −λ x) de que una magnetización se mantenga
inalterada con el paso del tiempo tiene
• Prob{x=0} = λ distribución exponencial con λ=10-7. Qué
α
probabilidad de encontrar la remanencia
• λ : único parámetro xα variable
original tendremos al cabo de 5 Ma. ?
0
1 1
Prob(X≥λx) = exp[-λx] = exp[-10−7.5.106] = 0.6065
media = Var = área de la cola α = exp[ −λ x ]
λ λ 2
O sea que a partir de esta hipótesis tenemos un
superior:
60,65% de probabilidad de medir la remanencia
F(x)=Prob{X≤x}=1-exp[-λ x] cuantil: xα = −
1
ln α original
λ
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 49 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 50
estimamos x y S2
Límites de confianza
intervalo de confianza para la media 95%
calculamos una cantidad a partir de una muestra limitada de observaciones
sabemos que : x−µ t0.025, n-1
⇒ resultado sujeto a error
2
~ t n −1
S al 95%
expresar el grado de incertidumbre
n -t0.025, n-1
intervalo de confianza
S2 S2
por ej.
x − t 0.025, n−1 µ x + t0.025, n −1
intervalo del 95 % de confianza que incluye al verdadero valor
n n
Linf 95% Lsup 95%
⇒ calcular límites de confianza
x
necesito conocer distribución
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 51 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 52
13
y si quiero que el intervalo de confianza tenga un ancho determinado? Para una muestra con distribución Normal estimamos x y S2
qué tamaño debe tener la muestra?
S2
x ± t0.025, n−1 intervalo de confianza para la varianza
intervalo de confianza n
χ2α/2 , n-1
es lo más lejos que puedo estar de la media verdadera (n − 1) S 2
~ χ n2−1 al 100(1-α)%
si no quiero estar más alejado que d ⇒ x ± d σ2 95% χ21-α/2 , n-1
t0.025,n −1 S / n ≤ d
2 α/2=0.025 1-α/2=0.975
2
t (n-1) S2 / χ20.025;n-1 ≤ σ2 ≤ (n-1) S2 / χ2 0.975; n-1
n ≥ 0.025,n −1 S 2
d Linf 95% Lsup 95%
con muestra inicial de tamaño n1 obtengo S12 S2
con esos valores obtengo t0.025, n1-1 y calculo n
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 53 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 54
14