Está en la página 1de 42

Estimar la relacin entre dos variables

cuantitativas
Relacin lineal
Relacin no-lineal

Aplicaciones
Rectas de calibracin
Correlacin entre parmetros clnicos
Curvas estndar de crecimiento

42
50

40

38
36

40

34

32
30

CONC

20
20

28
26
40

40

50

60

EDAT

EDAT

10

-10

CONC

CONC

30

-20
40

EDAT

50

60

50

60

44

-26

42

-28

40

-30

38

-32

36
-34
34
-36
32
-38

CONC

CONC

30
28
26
40

50

EDAT

Relacin directa

60

-40
-42
40

50

EDAT

Relacin inversa

60

Cul es la recta
que mejor explica la
relacin entre X e Y?

200
100
0

50

150

Y a bX

20

40

60
X

80

100

620
600
580

560
540
520

500
480
90

xi
100

110

620
600

yi a b xi
Error!!

580
560
540
520

yi
error yi yi

500
480
90

xi
100

110

620

600
580
560

540

yi
yi a b xi

Error!!

520

500
480
90

xi
100

110

620
600
580

yi a b xi

560

Error!!

540
520

500
480
90

yi
xi
100

110

620
600

Criterio de mnimos
cuadrados

580
560
540

520

500
480
90

SQE ( yi y i ) 2 M nimo
i

100

110

SSE ( yi y i ) 2 ( yi (a b xi )) 2 Mnimo
i

SSE
0
a
SSE
0
b

n X iYi X i Yi
b
2
n X i2 X i

a Y b X

100

110

120

Y
130

140

150

50
55
60

X
65
70

n X iYi X i Yi

b
2
n X i2 X i

X Y 163171.9
X 1225.1
Y 2636
X 75761.53

a Y b X

i i
i

2
i

n 20

n X iYi X i Yi

b
2.373
2
2
n X i X i

a Y b X 13.542

Y=-13.542+2.373*X

Y=-13.542+2.373*X

Una recta de regresin


no debe utilizarse para
extrapolar fuera del
intervalo de los datos.

45

45

42.5

42.5

40

40

37.5

37.5

35

35

32.5

32.5

30

30

27.5

27.5

45

40

45

50

55

60

65

45

42.5

42.5

40

40

37.5

37.5

35

35

32.5

32.5

30

30

27.5

27.5
40

45

50

55

60

65

40

45

50

55

60

65

40

45

50

55

60

65

620
600
580
560

Variabilidad de Y

yi

540
520

500
480
90

SQT ( yi Y )

i
100

110

620

600
580
560

540
520

Variabilidad respecto
2
al modelo

SQE ( yi y i )

yi
y i

SQT ( yi Y ) 2
i

500
480
90

SQT SQE SQR


100

110

620

SQT ( yi Y )

600

2 La variabilidad de las Y
es apreciable

580
560

540

520

500
480
90

100

110

620

SQE ( yi yi )

600

La desviacin respecto
del modelo es pequea

580

560

540
520

500
480
90

100

110

620

600
580
560

SQE 0
SQT SQE SQR
SQT SQR

540

SQT SQE
1
SQT

520

500
480
90

100

110

620

SQT SQE

600
580
560

540
520

500
480
90

SQT SQE
0
SQT

100

110

SQT SQE
2
R
SQT

R 2 0 Mal ajuste
R 2 1 Buen ajuste

Coeficiente de correlacin lineal

r
2

2
xy
2 2
x y

s s

S xy X iYi nXY
i

S x2 X i2 nX 2
i

S y2 Yi 2 nY 2
i

yi 0 1 xi i

X Y
1

1
X 1
1

0
0

1.3
2.2
0 Y 3.5
2.9


1

5.1
4.2

6
5.1

X ' X X ' Y X ' X X 'Y


1

X ' X X 'Y
1

r2=0.8299

r2=0.1075

Los IC de los parmetros incluyen el


valor 0. Por lo tanto, podemos
considerar que X e Y son
independientes (linealmente).

Plot.Prediction.IC.LR <- function(X=X,Y=Y,data=data)


{
attach(data)
X.sort <- sort(X)
res <- lm(Y~X)
pred.res <- predict(res,newdata=data.frame(X=X.sort),int="pred")
plot(Y~X,data=data)
abline(res)
lines(X.sort,pred.res[,2],lty=2)
lines(X.sort,pred.res[,3],lty=2)
detach(data)
}

Beers: Nmero de cervezas consumidas.


BAL: Blood alcohol level

Valor extremo

El valor extremo determina que la recta estimada


se desplace hacia arriba y no ajuste
adecuadamente el resto de observaciones.

La eliminacin del valor extremo determina un


mejor resultado.

El valor predicho de peso para


una persona de 170 cm de altura
es de 64.6 kg, con un IC entre
47.8 y 81.5.

Relacin entre el peso real (weight) y el peso


indicado por cada persona (perwt).
Utilizamos el fichero donde hemos eliminado el
valor extremo.

En rojo se indica la recta estimada.


En negro la recta ideal.

Un r2=0.25 indica que hay otros factores


que influyen en el valor final de la altura
del hijo.
La altura del padres solo explica el 25%
de la variabilidad observada en la altura
de los hijos.

Los hijos de padres bajos


tienden a ser ms altos y los de
padres altos ms bajos
(regresin a la media)

Se dispone de datos de IQ
(coeficiente de inteligencia) en
gemelos que fueron separados
al nacer.
Determina si el IQ varia en
funcin de haber sido criado en
distintos mbitos

En primer lugar, graficaremos


los datos.
plot(Foster~Biological,data=twins)
Vemos que existe una
tendencia lineal clara.
Estimaremos la recta de
regresin para obtener una
recta que explique esta
tendencia.

y 9.2076 0.9014 x

Seria conveniente obtener los


IC de los parmetros.
En principio, el valor en el
origen debera ser 0.

y 9.2076 0.9014 x

Los parmetros,
especialmente la constante,
tienen mucha variabilidad.
Podemos mirar de ajustar un
modelo con una constante
igual a 0.

y 9.2076 0.9014 x

y 0.9956 x

El modelo con la
constante nos da un
r2=0.78.

El ajuste es
relativamente bueno,
pero los IC de los
parmetros eran
bastante amplios.

El modelo con la
constante nos da un
r2=0.99.

El ajuste es mucho
mejor, y el IC del
parmetro es razonable.
Podemos concluir que
los gemelos tienden a
tener el mismo IQ,
independientemente de
haber sido criados en
familias distintas.

El procedimiento de regresin lineal se utiliza para


estimar la relacin (lineal) entre dos variables
cuantitativas.
La varianza de la variable dependiente debe ser constante

para los distintos valores de la variable independiente.


La variable independiente est controlada por el
experimentador.

Anlisis tpico
Ajustar la recta de regresin y los IC de los parmetros.
Obtener el valor de r2.
Obtener los IC de prediccin para cada valor de la variable

independiente.