Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Métodos multivariantes
Métodos bivariantes o multivariantes ⇒ Matrices • permiten el análisis simultáneo de varias variables a la vez
Métodos Bivariantes
geología una roca ígnea
analizar 2 variables en forma conjunta generalmente datos multivariantes un fósil
describir
Y
un sedimento
30
matriz de datos X Y Para caracterizar un objeto
20 geológico generalmente se Pero también es necesario
X usar las menos posibles
M1 necesitan muchas variables
10
M2 ¿cuales son las más importantes para describir un objeto?
0 X
0 10 20 30 40 ...
... matriz de datos X1 X2 X3............ Xp
p variables
cada objeto → un punto en el plano Mn X M1
nxp
forma de la distribución Análisis multivariantes requieren
n objetos M2
muestras grandes!!!
relación entre objetos n objetos ...
si tomamos p variables siempre:
X ...
nx2
relación entre variables Mn n>p
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 1 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 2
Métodos Bivariantes
investigar posible relación funcional de una variable
respecto de otra (u otras)
analizar 2 variables en forma conjunta estimar esta relación funcional
regresión
estudiar posible relación entre variables variables diferenciadas en independiente y dependientes
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 3 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 4
1
20/05/2014
Correlación
•Quiero saber si dos variables son independientes
Están afectadas en forma conjunta por una causa externa
??? no debe haber correlación entre ellas
• como cambia una variable cuando cambia la variable asociada
• Quiero inferir los valores de una variable conociendo los
cuantificar valores de otra variable asociada
• la existencia de una relación entre dos variables
• el tipo de relación Au - W Perfilaje sónico - porosidad
• el grado de esta relación
la correlación da una medida del grado de
•medida del grado en que dos variables varían determinación conjunta entre las dos
conjuntamente Extender para más de 2 .
variables
• es una herramienta poderosa para el análisis de datos
• tanto la presencia como la ausencia de correlación
permiten hacer conjeturas sobre las variables consideradas Coeficiente de Correlación
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 5 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 6
800
60
90
200
100
>X ⇒ >Y
50
0
0 50 100 150 200 250
Datos correlacionados
60
40 X
30
30 Importancia: puede indicar variables unidas directa o
20
10 0
indirectamente por procesos geológicos causantes
0 0 10 20 30 40 50 60
0 20 40 60 80 100
tendencia general
Y Y
30 >X ⇒ <Y
20
cierta correlación lineal
X
10
Roca carbonática: porosidad y contenido de Mg
0 X
0 10 20 30 40 Cómo medir grado de correlación lineal?
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 7 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 8
2
20/05/2014
S x2 = i =1 i
; S y2 = i =1 i 20
y Cov: dependiente de unidades
n −1 n−1 10 + -
0 estandarizar
Se basa en covarianza de las dos variables SP 0 10 20 30 40
X
x
∑ i=1( x i − x )( y i − y )
n
0
+ - es adimensional
0 10
x
20 30 40
X
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 11 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 12
3
20/05/2014
Zn(ppm)
200
150
correlación lineal?
• en qué grado están relacionadas? 100
50 variables unidas por el
0
proceso que las origina?
Coeficiente de Correlación 0 50
Pb(ppm)
100 150
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 13 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 14
∑ (x − x )2 ∑ (y − y )2
n n
n −1 n −1
Cov( X , Y )
r=
300 Cov ( X , Y ) ∑ i=1( x i − x )( y i − y )
n
250 r= SxS y
Cov( X , Y ) =
SxS y n −1
Zn(ppm)
200
150
∑
n 2
xi −
1
(
∑ xi
n
)
2
( )(∑ y )
es adimensional
100 1
∑ ∑ xi
i =1
S = 2 n i =1 n
xi y i −
n n
i =1 i
50
entre 1 y –1
x
n −1 Covxy = n i =1 i =1
0
n −1
0 50
Pb(ppm)
100 150
requisitos: ∑
n
i =1
yi −
2 1
n
∑
n
(
y
i =1 i
)
2
S y2 =
La relación entre las variables n −1
SP debe ser de tipo lineal
∑
n
(∑ x )(∑ y )
xi y i −
1 n n
∑ (x − x )( y i − y )
n i =1 i =1 i i =1 i
i las distribuciones deben ser r= n
i =1
− (∑ x ) ∑ y − (∑ y )
Cov( X , Y ) = n 2 1 1
∑i =1 xi
unimodales y más o menos 2 2
n −1 n
i
n
i
2 n
i
simétricas n i =1
n i =1 i =1
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 15 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 16
4
20/05/2014
Prueba t n − h −1
r (n − 2)
2 t =1.5632 rh
t= ~ t α ;( n − 2 )
H0: ρ=0 1− r2 t0.05;8 =2.3060
correlograma
Ha: ρ ≠0 h
no es significativa
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 19 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 20
5
20/05/2014
r′ = 1 − H0: ρ=0
(
n n −12
) Ha: ρ ≠0
r’=0 ⇒ no correlación
r´
r’= 1 ⇒ correlación perfecta niveles de significación
6
20/05/2014
CC Spearman
6∑i =1 (i − R (l i ) )
n 2
Series de eventos terremotos 45
6∑i =1 (R ( xi ) − R ( y i ) )
n 2
r′ = 1 −
( )
40
r′ = 1 − n n2 −1
Fechas de erupciones volcánicas (
n n2 −1 ) 35
30
l
m 25
i h l R(li) (i-R(li))2 r’=0.577
Datos = puntos en tiempo 1 0,5
20
espesores 1,8 8 49
15
2 2,3 0,9 2 0
3 3,2 1,0 3,5 0,25
H0: no hay tendencia 10
45
Secuencia de 45m de potencia de carbonatos 4 4,2 0,7 1 9 5 h
40 5 4,9 2,1 10 25 Ha: si hay tendencia 0
35 con horizontes delgados de tobas 6 7,0 4,4 13 49
intercalados 7 11,4 1,3 5 4 valor crítico, α=0.05, n=16
30
8 12,7 1,9 9 1
m 25 9 14,6 1,4 6 9
: r’c=0.427
7,0
10 16,0 5,5 15 25
longitud de intervalo
20 6,0
11 21,5 1,0 3,5 56,25
15 la aparición de tobas sigue algún patrón? 12 22,5 3,3 11 1
5,0
4,0
13 25,8 4,5 14 1 3,0
10 2,0
14 30,3 1,6 7 49
5 la frecuencia de lo eventos tiende a 15 31,9 4,3 12 9
1,0
0,0
n = 16 36,2
0 aumentar o a disminuir ? 6,6 16 0 0 2 4 6 8 10 12 14 16
17 42,8 Σ= 287,5 número de intervalo
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 25 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 26
Correlación serial 45
Análisis de Regresión
40
20
• si la ocurrencia de un evento está relacionada a Variable
15
X relación Variable
mecanismos de acumulación y alivio 10 independiente funcional
Y dependiente
5
0
• si los eventos se agrupan en fases de actividad • lineal
relación • polinómica
relación entre intervalos sucesivos i y i+1 funcional • exponencial
6∑i =1 (R (l i ) − R (l i +1 ) )
n 2
C.C.Spearman • logaritmica
r′ = 1 −
(
n n2 −1 ) La relación entre X e Y se puede expresar mediante una
n= número de intervalos -2 ecuación de regresión
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 27 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 28
7
20/05/2014
Regresión se calcula :
para visualizar correlación y regresión entre dos
cuando hay una correlación estadísticamente significativa
variables escalares ⇒ diagramas de dispersión.
cuando hay una dependencia causa-efecto previamente establecida
90
60
Ventajas de regresión: 50
60
40
• Se pueden hacer pruebas estadísticas rigurosas aunque los 30
30
datos no tengan D. Normal 20
10 0
• se pueden probar relaciones rectas o curvas 0 0 10 20 30 40 50 60
0 20 40 60 80 100
• se puede definir en forma precisa la naturaleza de la relación Y
bivariada mediante una ecuación 150
30
interpolando 100
20
extrapolando 50
10
podemos hacer predicciones 0
empleando la 0 10 20 30 40 50 60
0 X
ecuación 0 10 20 30 40
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 29 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 30
10
para cada valor de X habrá un único valor de Y = valor que tomaría y cuando x=0
0
unidades de y 0 10 20 30 40
X
relación
Variable Variable β1 = pendiente de la recta ⇒ hay una proporcionalidad
funcional constante
independiente dependiente
= Coeficiente de regresión lineal. •si la regresión es curva la
X Y unidades de y /unidades de x proporcionalidad no es constante!
8
20/05/2014
Modelo de regresión I : valores X fijos El modelo de regresión lineal simple que relaciona funcionalmente y con x será:
sólo los y tienen variación muestral aleatoria y = β 0 + β1 x + ε o bien yi = β 0 + β1 xi + ε i
Vble. aleatoria, DN(0,σ2)
Y ⇒ εi ~ DN(0,σ2).
Frecuencia Coeficiente de regresión lineal
Frecuencia
+β 1X
con Var =σ2 yi Y=β o
βo
βo
( yi es uno de esos
xi X valores posibles ) xi X
para cada valor xi existe una distribución de valores y posibles σ2 =Var →desviaciones alrededor del valor y dado por la regresión
centrados entorno del punto (β0 +β1xi) sobre la recta el valor yi observado para (xi, yi) es una selección de
con varianza constante =σ2 uno de los valores y posibles de esta distribución
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 33 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 34
n Ecuación de regresión
∑(y − yˆ i )
2
Regresión lineal simple i = mínimo
i =1 ordenada al origen =b0
yi = b0 + b1xi pendiente=b1
estimar ecuación de la recta
y=b0+b1x sumo todos los yi
∧
desviación ∆: yi - yi multiplico por xi y sumo de i=1 a n n n
Y valores estimados ∑ yi = bo n + b1 ∑ xi
)α ⇒ tg α =b1 ordenada al origen i =1 i =1
yi Ecuaciones Normales
∧ ∆ n n n
∑ xi yi = bo ∑ xi + b1 ∑ xi2
pendiente
yi despejo bo , igualo y despejo b1
∧ n n
yi = b0 + b1xi i =1 i =1 i =1
∑x∑y
b0
n i i
∑x y
n n
−
∑y ∑x
recta definida por cuadrados mínimos i =1 i =1
xi X i i
n SPxy i i
v. independiente =regresor b1 = i =1
=
n n 2
SC x b0 = i =1
− b1 i =1
∑ xi
= predictor
∑ (y − yˆ i ) n n
2
= mínimo n
∑ xi − i =1
v. dependiente =regresada i 2
i =1
= predicha i =1 n b0 = y − b1 x
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 35 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 36
9
20/05/2014
∧
Y si los yi (estimados con la Var explicada por regresión :
Y
yi regresión) coinciden con los
y ∧ yi (observados) ⇒ S2R=SCR / gl
yi y
n
∑ (y − yˆ i ) = 0
n
SCR = ∑ ( yˆ i − y )
2 2
b0
i b0
i =1 i =1
xi X
x X
x b0
S2T=SCT / gl
gl= 2-1=1
La variación total de la variable dependiente Y es : b1
x X
x X gl= n-2
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 37 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 38
Y
yi Modelo de regresión I : valores X fijos
)α ⇒ tg α =b1
ANOVA D sólo los y tienen variación muestral aleatoria
yi ŷi R T
y ∧ establecer significación de la y origen de grados Suma Cuadrados
Test F
yi variación libertad cuadrados Medios
regresión
regresión 2-1 SCR S2 R
b0 S2 R
Ho: la regresión no es significativa desviaciones n-2 SCD S2 D
xi
x S2 D
x X Total n-1 SCT S2 T
origen de grados Suma Cuadrados n n
SC R = ∑ ( yˆ i − y )
n
SCT = ∑ ( yi − y )
Test F
SC D = ∑ ( yi − yˆ i )
variación libertad cuadrados Medios 2 2 2
10
20/05/2014
n
SC D = ∑ ( y i − yˆ i )
Ecuación de regresión 2
y = b 0 + b 1x
S2y.x = S2D
calculamos bo y b1 ⇒ estimamos β o y β 1 i =1
∑ (y − b0 − b1 xi )
n 2
y = β0 + β1x + ε i
S 2
y. x = i =1
podemos hacer estimaciones de los valores esperados para y, dada x n−2
Particionamos la variación de Y en una parte atribuible a la regresión
Intervalo de confianza (n − 2) S y2. x
(explicable) y otra parte residual no explicada por la regresión.
para σ2 ~ χ n2-2
el cuadrado medio de los residuos=CMD σ 2
SPxy σ2 1
b1 = Var(b1 ) = b0 = y − b1 x Var (b0 ) = σ 2 + n
x2
∑ (x − x) n 2
n
∑i=1 i
( )
2
SC x x − x
i =1 i
intervalo de confianza para β1
intervalos de confianza para β0
b1 − β1
t= ~ t n -2 S2y.x estimación de σ
S 2 b1
b0 − β 0 S2y.x ⇒σ
t= ~ t n -2
2
S bo
S y2. x
b1 ± tn−2;α / 2 .
∑ (x − x )
n 2
i
i =1 1 x2
β0 ∈ b0 ± tn−2;α / 2 .S y. x +
∑ (x − x )
n 2
n i
i =1
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 43 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 44
11
20/05/2014
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 45 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 46
n − 2; α / 2 n ∑ ( xi − x )2
i =1
Int.Confianza para un valor medio de y dado xi
yˆx j ± t S y. x
1 (x − x )
+ n j
2
n − 2; α / 2 n ∑ (xi − x )2
i =1 ymedio
Y regres
la Var empleada corresponde al valor medio de y,dado xi
Lím inf
≠ a la Var correpondiente a una única predicción Lím sup
xmedio
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 47 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 48
12
20/05/2014
∑x ∑ (x − x )
2
frecuencias
x= i
; S2x =
n n −1
f(X)
y=∑ =∑
y (y − y) 2
i
; S2y f(Y)
n n −1
ymedio
X
Y regres
f(X)
x
Lím inf fdp individuales
f(Y)
y
Lím sup
xmedio Ls(Yp)
Y
Li(Yp)
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 49 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 50
f(X,Y) y
1 1 (y − µ y )2 f(Y)
f (Y ) = exp −
2π σ y 2 σ y
2
x Y
B=−
1 ( x − µ )2
x x − µ x y − µ y y − µ y
− 2 ρ +
( )
2
A exp B
X X
(
2 1− ρ 2 ) σ x
2
σ x σ y σ 2y
x
y
y parámetro ρ = coeficiente de correlación
13
20/05/2014
y f ( X ,Y ) plano vertical // X
f (Y | X ) = corta la campana en la fdp condicional f(X|Y)
f (X )
Y
f ( X ,Y )
f (X | Y ) = ;
f (Y )
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 53 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 54
σx
µ x| y = µ x + ρ
σy
(y − µ y ) Y µx| y
µy| x
Las dos rectas de regresión definen la
elipse y están separadas un ángulo θ
medias condicionadas f(X,Y)
σy θ (1 − ρ 2 )σ xσ y
(x − µ x ) fdp(X,Y)
tgθ =
µ y|x = µ y + ρ
σx ( 2
ρ σx +σy
2
)
σ 2 = σ 2 (1 − ρ 2 ) µy
Si X e Y son independientes =
x| y x no están correlacionadas
varianzas condicionadas
x X ρ =0
σ 2 = σ 2 (1 − ρ 2 ) f(X,Y)=f(X).f(Y)
y| x y
y rectas de regresión // ejes X e Y
funciones lineales σx σ
µ x| y = µ x − ρ µy + ρ x y regresión lineal
X θ = 90°
σy σy de X en Y Y
µx
14