Está en la página 1de 14

20/05/2014

Métodos multivariantes
Métodos bivariantes o multivariantes ⇒ Matrices • permiten el análisis simultáneo de varias variables a la vez
Métodos Bivariantes
geología una roca ígnea
analizar 2 variables en forma conjunta generalmente datos multivariantes un fósil
describir
Y
un sedimento
30
matriz de datos X Y Para caracterizar un objeto
20 geológico generalmente se Pero también es necesario
X usar las menos posibles
M1 necesitan muchas variables
10
M2 ¿cuales son las más importantes para describir un objeto?
0 X
0 10 20 30 40 ...
... matriz de datos X1 X2 X3............ Xp
p variables
cada objeto → un punto en el plano Mn X M1
nxp
forma de la distribución Análisis multivariantes requieren
n objetos M2
muestras grandes!!!
relación entre objetos n objetos ...
si tomamos p variables siempre:
X ...
nx2
relación entre variables Mn n>p
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 1 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 2

Métodos Bivariantes
investigar posible relación funcional de una variable
respecto de otra (u otras)
analizar 2 variables en forma conjunta estimar esta relación funcional
regresión
estudiar posible relación entre variables variables diferenciadas en independiente y dependientes

estudiar la naturaleza de esta relación las relaciona una f lineal


polinómica
exponencial
correlación logarítmica,
correlación ….
Análisis de estimar grado de asociación entre dos variables

≡estimar grado de covariación existente entre ellas


regresión variables NO diferenciadas en independiente y dependientes

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 3 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 4

1
20/05/2014

Correlación
•Quiero saber si dos variables son independientes
Están afectadas en forma conjunta por una causa externa
??? no debe haber correlación entre ellas
• como cambia una variable cuando cambia la variable asociada
• Quiero inferir los valores de una variable conociendo los
cuantificar valores de otra variable asociada
• la existencia de una relación entre dos variables
• el tipo de relación Au - W Perfilaje sónico - porosidad
• el grado de esta relación
la correlación da una medida del grado de
•medida del grado en que dos variables varían determinación conjunta entre las dos
conjuntamente Extender para más de 2 .
variables
• es una herramienta poderosa para el análisis de datos
• tanto la presencia como la ausencia de correlación
permiten hacer conjeturas sobre las variables consideradas Coeficiente de Correlación

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 5 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 6

800

El modo rápido de visualizar la correlación entre dos 700


600 nube de datos
variables escalares es hacer un diagrama de dispersión. 500
Y 400
tendencia general
300

60
90
200
100
>X ⇒ >Y
50
0
0 50 100 150 200 250
Datos correlacionados
60
40 X
30
30 Importancia: puede indicar variables unidas directa o
20

10 0
indirectamente por procesos geológicos causantes
0 0 10 20 30 40 50 60

0 20 40 60 80 100

tendencia general
Y Y
30 >X ⇒ <Y
20
cierta correlación lineal
X
10
Roca carbonática: porosidad y contenido de Mg
0 X
0 10 20 30 40 Cómo medir grado de correlación lineal?
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 7 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 8

2
20/05/2014

Coeficiente de Correlación Signos de Covarianza


estimar con muestra disponible Y
>Cov⇒ > correlación lineal
30
- +
∑ (x − x) ∑ (y − y)
n 2 n 2

S x2 = i =1 i
; S y2 = i =1 i 20
y Cov: dependiente de unidades
n −1 n−1 10 + -
0 estandarizar
Se basa en covarianza de las dos variables SP 0 10 20 30 40
X

x
∑ i=1( x i − x )( y i − y )
n

Cov( X , Y ) = coeficiente de Cov ( X , Y )


n −1 r=
Y correlación de SxS y
30 SP Cov + Pearson
y
20
- + + + estimación de ρ
- + o del producto de los momentos
10

0
+ - es adimensional
0 10
x
20 30 40
X

- - + - Cov - toma valores entre 1 y –1


Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 9 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 10

Coeficiente de correlación de Pearson: r Para aplicar el Coeficiente de Pearson


se deben cumplir ciertos requisitos:
r =0 ⇒ falta total de correlación,
= independencia completa entre las dos variables La relación entre las variables debe ser
de tipo lineal
r= +1 ⇒ correlación perfecta, positiva,
= la variación de una variable tiene una relación las distribuciones deben ser unimodales
directa respecto de la variación de la otra. y más o menos simétricas
r= -1 ⇒ correlación perfecta, negativa,
= la variación de una variable tiene una relación Si no se cumplen estas condiciones, el
inversa respecto de la variación de la otra. coeficiente no tiene sentido.

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 11 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 12

3
20/05/2014

analizar simultáneamente la variación de 2 variables medidas en


cada objeto o espécimen de la muestra
Correlación entre 2 variables análisis geoquímicos tabla

medidas ambas sobre un mismo objeto objeto Pb (ppm) Zn (ppm)


n=10
Están afectadas en forma conjunta por una causa externa ? 1 19 87
• como cambia una variable cuando cambia la otra? diagrama de dispersión 2 68 184
•existe una relación entre las dos variables? 300
... ... ...
250
• de que tipo es la relación?

Zn(ppm)
200
150
correlación lineal?
• en qué grado están relacionadas? 100
50 variables unidas por el
0
proceso que las origina?
Coeficiente de Correlación 0 50
Pb(ppm)
100 150

• presencia o ausencia de correlación


Coeficiente de Correlación: medir el grado de
⇒ información sobre variables correlación lineal

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 13 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 14

∑ (x − x )2 ∑ (y − y )2
n n

coeficiente de correlación de Pearson con los datos estimamos:


S 2x = i =1 i
; S y2 = i =1 i

n −1 n −1
Cov( X , Y )
r=
300 Cov ( X , Y ) ∑ i=1( x i − x )( y i − y )
n

250 r= SxS y
Cov( X , Y ) =
SxS y n −1
Zn(ppm)

200
150

n 2
xi −
1
(
∑ xi
n
)
2

( )(∑ y )
es adimensional
100 1
∑ ∑ xi
i =1
S = 2 n i =1 n
xi y i −
n n
i =1 i
50
entre 1 y –1
x
n −1 Covxy = n i =1 i =1

0
n −1
0 50
Pb(ppm)
100 150
requisitos: ∑
n
i =1
yi −
2 1
n

n
(
y
i =1 i
)
2

S y2 =
La relación entre las variables n −1
SP debe ser de tipo lineal

n
(∑ x )(∑ y )
xi y i −
1 n n

∑ (x − x )( y i − y )
n i =1 i =1 i i =1 i
i las distribuciones deben ser r= n
i =1

− (∑ x )  ∑ y − (∑ y ) 
Cov( X , Y ) =  n 2 1  1 
 ∑i =1 xi
unimodales y más o menos 2 2
n −1 n
i
n
i
2 n
i
simétricas  n  i =1
n  i =1 i =1

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 15 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 16

4
20/05/2014

Problemas con r de Pearson: Pruebas de significación para r


•Si hay correlación curva, aunque sea perfecta, a mayor n mayor significación
va a estar mal Si las dos variables tienen Distribución Normal
Y Y
definida por r o al menos unimodales y simétricas

Prueba t (Si no, mejor emplear planteos no


r=0.9 paramétricos o regresión lineal)
r=0
H0: ρ=0
X X Ha: ρ ≠0 r 2 ( n − 2) t α , (n-2)
t=
• es sensible a la presencia de valores espúreos altos 1− r2
• no funciona bien con datos cerrados Si t > tα , (n-2)
Una o dos colas????
Cual es la significación del r estimado? rechazamos H0 con 100(1-α)% de confianza
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 17 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 18

hay ciclos o periodicidad en secuencia estratigráfica?


300
250
análisis geoquímicos X autocorrelación
Zn(ppm)

200 de una serie consigo


150 n=10 misma, después de un
100
50
tiempo (o espacio) h
0 es significativa la h
profundidad
0 50 100 150
Pb(ppm)
correlación?
r=
Cov ( X , Y )
Cov( X i , X i + h ) n−h
SxSy r =0.4837 rh =
S X2 ∑ (x i − x )( xi + h − x )
Cov( X i , X i + h ) = i =1

Prueba t n − h −1
r (n − 2)
2 t =1.5632 rh
t= ~ t α ;( n − 2 )
H0: ρ=0 1− r2 t0.05;8 =2.3060
correlograma
Ha: ρ ≠0 h
no es significativa
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 19 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 20

5
20/05/2014

correlación cruzada entre dos secuencias Correlación no paramétrica


datos isotópicos (xi,yi)
Coeficiente de Correlación de Rangos
de Spearman
Rango: posición de un valor en la secuencia ordenada

Datos : (xi,yi) i=1,.., n R(xi) ; R(yi)


isótopos estables de O: 16O ; 17O ; 18O Correlación perfecta ⇒ R(xi)=R(yi) ∀i
estimación de paleotemperatura de océanos midiendo distribución de
6∑i =1 (R ( xi ) − R ( y i ) )
n 2
isótopos de O en carbonatos de calcio (calcita y aragonita)
r′ = 1 −
CO3= se enriquecen en 18O respecto del agua en función de la T° (
n n2 −1 )
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 21 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 22

Coeficiente de Correlación de Rangos de Spearman Pruebas de significación para r´


6∑i =1 (R ( xi ) − R ( y i ) )
n 2

r′ = 1 − H0: ρ=0
(
n n −12
) Ha: ρ ≠0

r’=0 ⇒ no correlación

r’= 1 ⇒ correlación perfecta niveles de significación

Un alto valor de r’ ⇒ una buena relación lineal


Si n>20, aproximación
X tiene alta monotonicidad con Y
Prueba t
Es posible tener alto r y bajo r’ o viceversa
grados de libertad = (n-2) r 2 (n − 2)
t= ~t α , (n-2)
significación: tablas de r´crítico 1− r2
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 23 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 24

6
20/05/2014

CC Spearman
6∑i =1 (i − R (l i ) )
n 2
Series de eventos terremotos 45

6∑i =1 (R ( xi ) − R ( y i ) )
n 2
r′ = 1 −
( )
40
r′ = 1 − n n2 −1
Fechas de erupciones volcánicas (
n n2 −1 ) 35

30
l
m 25
i h l R(li) (i-R(li))2 r’=0.577
Datos = puntos en tiempo 1 0,5
20
espesores 1,8 8 49
15
2 2,3 0,9 2 0
3 3,2 1,0 3,5 0,25
H0: no hay tendencia 10
45
Secuencia de 45m de potencia de carbonatos 4 4,2 0,7 1 9 5 h
40 5 4,9 2,1 10 25 Ha: si hay tendencia 0
35 con horizontes delgados de tobas 6 7,0 4,4 13 49
intercalados 7 11,4 1,3 5 4 valor crítico, α=0.05, n=16
30
8 12,7 1,9 9 1
m 25 9 14,6 1,4 6 9
: r’c=0.427
7,0
10 16,0 5,5 15 25

longitud de intervalo
20 6,0
11 21,5 1,0 3,5 56,25
15 la aparición de tobas sigue algún patrón? 12 22,5 3,3 11 1
5,0
4,0
13 25,8 4,5 14 1 3,0
10 2,0
14 30,3 1,6 7 49
5 la frecuencia de lo eventos tiende a 15 31,9 4,3 12 9
1,0
0,0
n = 16 36,2
0 aumentar o a disminuir ? 6,6 16 0 0 2 4 6 8 10 12 14 16
17 42,8 Σ= 287,5 número de intervalo

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 25 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 26

Correlación serial 45
Análisis de Regresión
40

están correlacionadas las longitudes de 35


Investigar posible relación funcional
intervalos sucesivos? 30
de una variable respecto de otra
m 25

20
• si la ocurrencia de un evento está relacionada a Variable
15
X relación Variable
mecanismos de acumulación y alivio 10 independiente funcional
Y dependiente
5

0
• si los eventos se agrupan en fases de actividad • lineal
relación • polinómica
relación entre intervalos sucesivos i y i+1 funcional • exponencial
6∑i =1 (R (l i ) − R (l i +1 ) )
n 2
C.C.Spearman • logaritmica
r′ = 1 −
(
n n2 −1 ) La relación entre X e Y se puede expresar mediante una
n= número de intervalos -2 ecuación de regresión
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 27 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 28

7
20/05/2014

Regresión se calcula :
para visualizar correlación y regresión entre dos
cuando hay una correlación estadísticamente significativa
variables escalares ⇒ diagramas de dispersión.
cuando hay una dependencia causa-efecto previamente establecida
90
60

Ventajas de regresión: 50
60
40
• Se pueden hacer pruebas estadísticas rigurosas aunque los 30
30
datos no tengan D. Normal 20

10 0
• se pueden probar relaciones rectas o curvas 0 0 10 20 30 40 50 60

0 20 40 60 80 100
• se puede definir en forma precisa la naturaleza de la relación Y
bivariada mediante una ecuación 150
30

interpolando 100
20

extrapolando 50
10
podemos hacer predicciones 0
empleando la 0 10 20 30 40 50 60
0 X
ecuación 0 10 20 30 40

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 29 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 30

Análisis de Regresión modelo de regresión lineal simple


y i = β 0 + β 1 xi + ε i Y

Sean dos variables aleatorias X e Y relacionadas de 30

manera tal que Y es una función de X β0 =ordenada al origen 20

10
para cada valor de X habrá un único valor de Y = valor que tomaría y cuando x=0
0
unidades de y 0 10 20 30 40
X

relación
Variable Variable β1 = pendiente de la recta ⇒ hay una proporcionalidad
funcional constante
independiente dependiente
= Coeficiente de regresión lineal. •si la regresión es curva la
X Y unidades de y /unidades de x proporcionalidad no es constante!

variable no aleatoria, variable


(valores Regresión simple Todas las posibles variaciones aleatorias que influyen
aleatoria sobre los valores de y están englobadas en la variable
predeterminados
experimentalmente) aleatoria εi
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 31 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 32

8
20/05/2014

Modelo de regresión I : valores X fijos El modelo de regresión lineal simple que relaciona funcionalmente y con x será:
sólo los y tienen variación muestral aleatoria y = β 0 + β1 x + ε o bien yi = β 0 + β1 xi + ε i
Vble. aleatoria, DN(0,σ2)
Y ⇒ εi ~ DN(0,σ2).
Frecuencia Coeficiente de regresión lineal

+β 1X ∀xi, ∃ Distr. (y), Y


yi Y=β o
centrados en ^yi,

Frecuencia
+β 1X
con Var =σ2 yi Y=β o
βo
βo
( yi es uno de esos
xi X valores posibles ) xi X

para cada valor xi existe una distribución de valores y posibles σ2 =Var →desviaciones alrededor del valor y dado por la regresión
centrados entorno del punto (β0 +β1xi) sobre la recta el valor yi observado para (xi, yi) es una selección de
con varianza constante =σ2 uno de los valores y posibles de esta distribución
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 33 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 34

n Ecuación de regresión
∑(y − yˆ i )
2
Regresión lineal simple i = mínimo
i =1 ordenada al origen =b0
yi = b0 + b1xi pendiente=b1
estimar ecuación de la recta
y=b0+b1x sumo todos los yi

desviación ∆: yi - yi multiplico por xi y sumo de i=1 a n n n

Y valores estimados ∑ yi = bo n + b1 ∑ xi
)α ⇒ tg α =b1 ordenada al origen i =1 i =1
yi Ecuaciones Normales
∧ ∆ n n n

∑ xi yi = bo ∑ xi + b1 ∑ xi2
pendiente
yi despejo bo , igualo y despejo b1
∧ n n
yi = b0 + b1xi i =1 i =1 i =1
∑x∑y
b0
n i i

∑x y
n n

∑y ∑x
recta definida por cuadrados mínimos i =1 i =1
xi X i i
n SPxy i i
v. independiente =regresor b1 = i =1
=
n   n 2
SC x b0 = i =1
− b1 i =1
 ∑ xi 
= predictor
∑ (y − yˆ i ) n n
2
= mínimo n

∑ xi −  i =1 
v. dependiente =regresada i 2
i =1
= predicha i =1 n b0 = y − b1 x
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 35 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 36

9
20/05/2014


Y si los yi (estimados con la Var explicada por regresión :
Y
yi regresión) coinciden con los
y ∧ yi (observados) ⇒ S2R=SCR / gl
yi y
n

∑ (y − yˆ i ) = 0
n
SCR = ∑ ( yˆ i − y )
2 2
b0
i b0
i =1 i =1
xi X
x X
x b0
S2T=SCT / gl
gl= 2-1=1
La variación total de la variable dependiente Y es : b1

Var no explicada por regresión, o Var residual o Var debida a desviaciones : σ2


Y n
SCT = ∑ ( yi − y )
2 Y
S2D=SCD / gl
y i =1
y n
SC D = ∑ ( y i − yˆ i )
2
b0 gl= n-1
b0 i =1

x X
x X gl= n-2

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 37 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 38

Y
yi Modelo de regresión I : valores X fijos
)α ⇒ tg α =b1
ANOVA D sólo los y tienen variación muestral aleatoria
yi ŷi R T
y ∧ establecer significación de la y origen de grados Suma Cuadrados
Test F
yi variación libertad cuadrados Medios
regresión
regresión 2-1 SCR S2 R
b0 S2 R
Ho: la regresión no es significativa desviaciones n-2 SCD S2 D
xi
x S2 D
x X Total n-1 SCT S2 T
origen de grados Suma Cuadrados n n
SC R = ∑ ( yˆ i − y )
n
SCT = ∑ ( yi − y )
Test F
SC D = ∑ ( yi − yˆ i )
variación libertad cuadrados Medios 2 2 2

regresión 2-1 SCR CMR =S2 R i =1 2 i =1 i =1


 n  =  n 
2
desviaciones n-2 SCD CMD=S2D
S2 R
n
 ∑ yi   ∑ yˆ i 
SCT = ∑ yi −  i =1 
S2 D n
SC R = ∑ yˆ i −  i =1 
2
Total n-1 SCT S2 T
2 SC D = SCT − SC R
i =1 n n
i =1
Si rechazo es porque la Var. de la regresión es mayor Bondad de ajuste de la recta de regresión con las observaciones:
⇒ la regresión explica bien la variación de los datos
Coef. de SCR R2∈[0;1]
⇒ los datos responden a una regresión lineal Determinación R2 = , se puede poner como %
SCT
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 39 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 40

10
20/05/2014

n
SC D = ∑ ( y i − yˆ i )
Ecuación de regresión 2
y = b 0 + b 1x
S2y.x = S2D
calculamos bo y b1 ⇒ estimamos β o y β 1 i =1

∑ (y − b0 − b1 xi )
n 2
y = β0 + β1x + ε i
S 2
y. x = i =1
podemos hacer estimaciones de los valores esperados para y, dada x n−2
Particionamos la variación de Y en una parte atribuible a la regresión
Intervalo de confianza (n − 2) S y2. x
(explicable) y otra parte residual no explicada por la regresión.
para σ2 ~ χ n2-2
el cuadrado medio de los residuos=CMD σ 2

es la varianza respecto de la regresión S2y.x = S2D → σ2


(n − 2) S 2y . x (n − 2) S 2y. x
Var y = σ2 /n ≤σ ≤ 2

χ n2−2;α / 2 χ n2− 2;1−α / 2


⇒ estimación del error experimental = S 2
y. x /n
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 41 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 42

SPxy σ2 1 
b1 = Var(b1 ) = b0 = y − b1 x Var (b0 ) = σ 2  + n
x2 
∑ (x − x) n 2 
n
∑i=1 i
( )
2
SC x x − x
i =1 i  
intervalo de confianza para β1
intervalos de confianza para β0
b1 − β1
t= ~ t n -2 S2y.x estimación de σ
S 2 b1
b0 − β 0 S2y.x ⇒σ
t= ~ t n -2
2
S bo
S y2. x
b1 ± tn−2;α / 2 .
∑ (x − x )
n 2
i
i =1 1 x2
β0 ∈ b0 ± tn−2;α / 2 .S y. x +
∑ (x − x )
n 2
n i
i =1

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 43 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 44

11
20/05/2014

si X es fijo ⇒ x fijo, sólo pueden variar y y la pendiente b1


intervalo de confianza para yj medio cuando x=xj ( o sea yxj)
si cambia y la recta sube o baja
la estimación
si cambia b1, la recta gira en (x, y) yˆx j = b0 + b1 x j
⇒ el efecto sobre la estimación depende de (x -x)
tiene varianza
y 1 (x − x )2 
^
y ( )
Var yˆxi = σ 2  + n i
n
y y
∑i =1 (xi − x ) 
2

bo bo
si xj=x, ⇒ var(y) da la amplitud
mínima del intervalo
x
x x

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 45 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 46

Los límites de confianza de una regresión dan dos funciones


podemos construir la yˆx j − media hiperbólicas cuya menor separación se encuentra en (x, y)
variable aleatoria t t= ~t
S yˆx j n−2
yˆx j ± t S
1 (x j − x )
+ n
2

n − 2; α / 2 n ∑ ( xi − x )2
i =1
Int.Confianza para un valor medio de y dado xi

yˆx j ± t S y. x
1 (x − x )
+ n j
2

n − 2; α / 2 n ∑ (xi − x )2
i =1 ymedio
Y regres
la Var empleada corresponde al valor medio de y,dado xi
Lím inf
≠ a la Var correpondiente a una única predicción Lím sup
xmedio
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 47 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 48

12
20/05/2014

Cuando se hace una predicción para un valor de y, el intervalo es Modelo de


más amplio tanto x,como y tienen variación muestral aleatoria
la variable predicha es ypxi regresión II : X ~ N(µx,σ2x), Y~ N(µy,σ2y) ,

Int.Confianza para ypxi y px j ± t S 1+


1 (x − x )
+ n j
2
dos variable aleatorias X e Y con fdp conjunta f(X,Y)
n − 2; α / 2 n ∑ ( xi − x )2
i =1 puedo estimar sus parámetros con:

∑x ∑ (x − x )
2
frecuencias
x= i
; S2x =
n n −1
f(X)
y=∑ =∑
y (y − y) 2
i
; S2y f(Y)
n n −1
ymedio
X
Y regres
f(X)
x
Lím inf fdp individuales
f(Y)
y
Lím sup

xmedio Ls(Yp)
Y
Li(Yp)

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 49 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 50

fdp conjunta = f(X,Y) =campana centrada en el punto (x,y) f(X,Y)


f(X,Y)= A exp (B)
f(X) y f(Y) son las fdp marginales de la distribución conjunta
f(X) donde:
1  1 (x − µ x )2  frecuencias
f (X ) = exp −  1
x X A=
(1 − ρ )σ xσ y
2
2π σ x  2 σx 
f(Y) f(X) 2π 2 2 2

f(X,Y) y
1  1 (y − µ y )2  f(Y)
f (Y ) = exp − 
2π σ y  2 σ y
2
 x Y
B=−
1  ( x − µ )2
 x  x − µ x  y − µ y  y − µ y
− 2 ρ   +
( ) 
2

A exp B
X X
(
2 1− ρ 2 )  σ x
2
 σ x  σ y  σ 2y 
x
y
y parámetro ρ = coeficiente de correlación

Y Y ρ da una medida de la asociación o dependencia mutua


existente entre las variables aleatorias X e Y.
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 51 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 52

13
20/05/2014

plano vertical // eje Y que pasa por x corta la campana de la f(X,Y)


fdp(X,Y) en una curva
= distribución de muestra
extraída bajo la condición
f(X,Y) X=x
x X
fdp de Y condicional en X:
y
x f(Y|X).
f(Y|X)x X Y

y f ( X ,Y ) plano vertical // X
f (Y | X ) = corta la campana en la fdp condicional f(X|Y)
f (X )
Y
f ( X ,Y )
f (X | Y ) = ;
f (Y )

Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 53 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 54

σx
µ x| y = µ x + ρ
σy
(y − µ y ) Y µx| y
µy| x
Las dos rectas de regresión definen la
elipse y están separadas un ángulo θ
medias condicionadas f(X,Y)
σy θ (1 − ρ 2 )σ xσ y
(x − µ x ) fdp(X,Y)
tgθ =
µ y|x = µ y + ρ
σx ( 2
ρ σx +σy
2
)
σ 2 = σ 2 (1 − ρ 2 ) µy
Si X e Y son independientes =
x| y x no están correlacionadas
varianzas condicionadas
x X ρ =0
σ 2 = σ 2 (1 − ρ 2 ) f(X,Y)=f(X).f(Y)
y| x y
y rectas de regresión // ejes X e Y
funciones lineales σx σ
µ x| y = µ x − ρ µy + ρ x y regresión lineal
X θ = 90°
σy σy de X en Y Y
µx

b0x b1x pendientes correlación perfecta estimación de ρ Cov( X , Y )


ρ=1 o ρ = −1,
r=
σy σy SxSy
ordenadas µ y |x = µ y − ρ µx + ρ x regresión lineal rectas de regresión superpuestas
al origen σx σx θ = 0°.
coeficiente de correlación de Pearson, o del
de Y en X producto de los momentos
b0y b1y
Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 55 Mabel Mena Geoestadística- UNLaR, I cuatrimestre 2014 56

14

También podría gustarte