Está en la página 1de 68

Regresin Linear

Correlacin de Pearson, r
Regresin Mltiple
Regresin Logstica
Regresin de Poisson

Propsitos de RL
Evaluar si las dos variables estn
asociadas (r)
Predecir en base a una variable, qu
se obtiene de la otra? (ARS)
Evaluar grado de concordancia entre
los valores de las dos variables (ARS)

Supuestos
1. Existencia (para cualquier valor de la variable
X, Y es una variable al azar con una cierta
probabilidad de distrib teniendo un promedio y
varianza finitos)
2. Independencia (los valores de Y son
estadsticamente independientes uno de otro).
3. Linearidad (el promedio de Y es una funcin
linear de X)

4. Homocedasticidad (La varianza de Y


es la misma para cualquier X)
5. Distribucin normal (Para cualquier
valor de X, Y tiene distribucin normal)

Variables
Dependiente: eje Y
Independiente: eje X

Intervalares
Distribucin normal
Grfico: PLOT DE DISPERSIN
Pares de observaciones

Tipo de relaciones

Regresin linear
La lnea recta es descrita por ecuacin:

Intercepto

Y = 2 + 5X

FPLOT y = x+2

Var dep Pendiente Var indep

Hiptesis nula
b=0
a=0

pendiente = 0
intercepto = 0

Relacin entre presin sistlica mm/Hg vs.


Edad (aos)
250

Presin mm/Hg

200

y a bx

150

a = intercepto
b = pendiente

100

50
20

30

40 50 60 70
Edad en aos

80

90

Systat
Residual

250

Presin mm/Hg

200

150

100

50
20

30

40 50 60 70
Edad en aos

80

90

Stata 10

100

150

200

250

Relacin entre Presin sistlica y Edad

20

40

Edad (aos)

95% CI
Presin Sistlica (mm / Hg)

60

80
Fitted values

Relacin fisuras vs. Ao (C Holuigue, 2005).


Ao 2000: inicio del suplemento de cido flico en la harina.

ES ESTO UNA RELACIN LINEAL?


NO !!!

Evolucin de peso vs das en nios con fisuras (con y


sin tratamiento ortopdico). (N: control: 40; Fisurados
con trat ortop: 32; Fisurados sin trat ortop: 20)
Jara y Vergara, 2009, UM.
GRUPO
Fisurado con Ortop

Control

Fisurado sin Ortop


10,000
9,000
8,000
7,000

5,000
4,000
3,000
2,000
0

50

100

DIA

150

200

50

100

DIA

150

200

50

100

DIA

150

200

PESO

6,000

Evolucin de peso vs das en nios con fisuras, (con y


sin tratamiento ortopdico). Jara y Vergara, 2009, UM.
GRUPO
Fisurado con Ortop

Control

Fisurado sin Ortop


10,000
9,000
8,000
7,000

5,000
4,000
3,000
2,000
0

50

100

DIA

150

200

50

100

DIA

150

200

50

100

DIA

150

200

PESO

6,000

Evolucin de peso vs das en nios con fisuras, (con y


sin tratamiento ortopdico). Jara y Vergara, 2009, UM.
10,000
9,000
8,000

PESO

7,000
6,000
5,000

GRUPO
Control
Fisurado con Ortop
Fisurado sin Ortop

4,000
3,000
2,000

50

100

DIA

150

200

Evolucin de peso vs das en nios con fisuras, (con y


sin tratamiento ortopdico). Jara y Vergara, 2009, UM.
FISURA
Paladar Fisurado

FLP Unilateral

FLP Bilateral

Control
10,000
9,000
8,000
7,000
6,000

PESO

Hombres

5,000

SEXO

4,000
3,000
2,000
10,000
9,000
8,000
7,000

5,000
4,000
3,000
2,000
0

50

100

DIA

150

200

50

100

DIA

150

200

50

100

DIA

150

200

50

100

DIA

150

200

PESO

6,000

Mujeres

Requisitos
Las dos variables deben ser continuas
Deben ser independientes una de la
otra
Deben tener distribucin normal

Calcular
Y = a + bX
a = intercepto
b = pendiente

Demostrar Ho: b = 0
IC 95% de a; IC 95% de b
Correlacin de Pearson (r)

ANALISIS DE REGRESIN

Edad vs. Presin sistlica en 33 pacientes.


Edad
22
23
24
27
28
29
30
32

n = 33

PS
131
128
116
106
114
123
117
122

Edad

PS

Edad

PS

Edad

PS

33
35
40
41
41
46
47
48

99
121
147
139
171
137
111
115

49
49
50
51
51
51
52
54

133
128
183
130
133
144
128
105

56
57
58
59
63
67
71
77
81

145
141
153
157
155
176
172
178
217

x = 1542
x2 = 79.176
x = 46,73

y = 4575
y2 = 656.481
y = 138,64

xy = 223 144

( x x) x
2

( y y) y
2

( x ) 2 / n

= 79.716 (1542) 2 / 33 = 7662,6

( y ) 2 / n

= 656.481 (4575) 2 / 33 = 22219,6

( x x)( y y) xy ( x)( y) / n
= 223144 (1542)(4575)/33 = 9366,7

y a bx

(
x

x
)(
y

y
)

(
x

x
)

a y bx

Pendiente e intercepto
9366,7
b
1,22mmHg / ao
7662,6
a 138,65 (1,22)(46,73) 81,54
y 81,54 1,22x
a: intercepto, en mm de Hg
b: pendiente, ps aumenta 1,22 mmHg por
cada ao de edad.

S y. x
S y. x

a y b xy
n2

656481 (81,54)(4575) (1,22)(223144)

18,66
33 2

sx
r b
b
sy

x
y

( x)

( y )

7662,6
r 1,22
0,71
22219,6

n
2

Karl Pearson, 1857-1936

Correlacin de Pearson
r = 0,71 (Fuerza de la asociacin entre las dos variables, puede
variar entre -1 y 1, entre ms cerca a uno mejor dicha
asociacin
0,65 a 1
BUENA
0,4 a 0,649
REGULAR
< de 0,4
MALA.
r2 = 0.51

Qu tan bueno es el
modelo?
r2= Proporcin de la variacin total en la
variable y, dependiente, en este caso
de la presin sistlica, que es explicada
por la variacin en la variable
independiente x, o edad en este caso).
O sea 51% de la variacin en y es
explicada por la variable x (edad).

Error estndar de pendiente e intercepto

SEb

2
y. x

( x x)

1
x
2
SEa S y. x

2
n ( x x)
2

Error estndar de b y a
SEb

s y2. x

2
(
x

x
)

SEb 347,41

7662,6

0,2129

1
x
2
SEa S y . x

2
n ( x x)

1 46,732
SEa 347,41
10,47
33 7662,6

Intervalo de Confianza (95%) de la pendiente

b (t31, 0.05) (SEb)

=
=

1,22 (1,96) (0,2129)


1,22 0,417

Test de significancia para Ho b = 0


b-0
1,22
t31 = ------------- = ------------- = 5,74
SEb
0,2129

p<0,001

Resultados con systatwg


Dep Var: PRESION N: 33 Multiple R: 0.718 Squared multiple R: 0.515
Adjusted squared multiple R: 0.500 Standard error of estimate: 18.639
Effect
CONSTANT
EDAD

Coefficient
81.517
1.222

Std Error

Std Coef

10.465
0.213

Tolerance

P(2 Tail)

0.000
0.718

.
1.000

7.789
5.741

0.000
0.000

Analysis of Variance
Source

Sum-of-Squares df Mean-Square

F-ratio

SSY - SSE
SSY = ( y y) y ( y) / n
SSY - SSE: Suma de
cuadrados de la reg.
2

Regression
11449.926 1 11449.926
32.958
Residual
10769.710 31
347.410
-------------------------------------------------------------------------------

0.000

Valor de F, en tabla de anova es para


determinar si la b (pendiente) es significatvia

Dependent Variable

PS

33

Multiple R

0.718

Squared Multiple R

0.515

Adjusted Squared
Multiple R

0.500

Resultados con Systat v. 12

Standard Error of
18.639
Estimate
Regression Coefficients B = (X'X)-1X'Y
Effect

Coefficient Standard
Error

Std.
Coefficient

Tolerance

p-value

CONSTANT

81.517

10.465

0.000

7.789

0.000

EDAD

1.222

0.213

0.718

1.000

5.741

0.000

Qu escribir ?

Y = 81,52 + 1,22X
r = 0,718
r2 = 0,515

250

PRESION

200
Residual

150

100

50
20

30

40

50 60
EDAD

70

80

90

Plot of Residuals against Predicted Values

Nube ?

50
40
30

10
0
-10
-20
-30
-40
250

-50
100 110 120 130 140 150 160 170 180 190
ESTIMATE

200

Presin mm/Hg

RESIDUAL

20

150

100

50
20

30

40 50 60 70
Edad en aos

80

90

Valores observados (PS), Estimados y Residuales


Case
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

PS
131.000
128.000
116.000
106.000
114.000
123.000
117.000
122.000
99.000
121.000
147.000
139.000
171.000
137.000
111.000
115.000
133.000
128.000

ESTIMATE
108.410
109.632
110.854
114.522
115.744
116.966
118.189
120.634
121.856
124.301
130.413
131.635
131.635
137.747
138.970
140.192
141.415
141.415

RESIDUAL
22.590
18.368
5.146
-8.522
-1.744
6.034
-1.189
1.366
-22.856
-3.301
16.587
7.365
39.365
-0.747
-27.970
-25.192
-8.415
-13.415

Cajas de dispersin de PS, Estimada y residual


250

180

40

160
150
140
130

100

50

30

120

20

RESIDUAL

ESTIMATE

PS

50

170

200

150

190

10
0
-10
-20
-30

110

-40

100

-50

Regresin Caractersticas de una relacin


(Wilkinson, 1996)

Existe?
Qu fuerza tiene?
Qu tamao?
Qu direccin tiene?
Qu patrn tiene?

Existencia de la relacin.
El valor de p en la tabla de anlisis de varianza de la
regresin nos indica si el modelo es
significativamente diferente del azar.
Los test t y valores de p asociados con los
coeficientes individuales nos indican si existe una
relacin entre cada variable independiente y la
variable dependiente.

Fuerza de la asociacin.
Uno no est satisfecho con saber si existe una
relacin adems quiere saber que tan fuerte es.
Generalmente la vemos con el valor de R mltiple, el
R mltiple al cuadrado, el R cuadrado ajustado, y el
error estndar de la media. El mejor de todos es R
cuadrado ajustado.
R mltiple al cuadrado indica la proporcin de
varianza en la variable dependiente que puede
ser explicada por la(s) variable(s)
independiente(s).

Tamao de la asociacin
A veces uno est interesado en el tamao de los
coeficientes de la regresin ms que en demostrar
que difieren de 0.
Para esto simplemente ver los valores de los
coeficientes.

Direccin de la asociacin.
El signo de los coeficientes nos da esta direccin.

Patrn de la asociacin.

Los plots y los estadsticos basados en los valores residuales nos dan
informacin acerca del patrn de la relacin :
Es la relacin linear?
Presentan los plots algn valor escapado, o fuera de lugar (outlier)?
Existe indicacin por los valores de Cook, residual estandarizado, o
Leverage de algn caso influyente?
Estn los residuales curvados o por otro lado presentan forma o
direccin irregular? En otras palabras deber agregarse otras
variables al modelo?
Los residuales estn formando una banda horizontal a lo largo de todo
el rango de la variable dependiente?, o sea estn los residuales
homoscedsticos?
Tienen los residuales una distribucin normal?

Homocedasticidad: de -homo (igual) y scedastic: disperso

Anlisis de Regresin Linear


MODEL CS = CONSTANT+LSMUFC
ESTIMATE
Dep Var: CS N: 30 Multiple R: 0.626 Squared multiple R: 0.392
Adjusted squared multiple R: 0.370 Standard error of estimate: 6.543
Effect

Coefficient

CONSTANT
LSMUFC

-19.601
5.987

Std Error
7.712
1.409

Std Coef Tolerance


0.0
0.626

.
-2.542
1.000 4.248

P(2 Tail)
0.017
0.000

Regresin Linear,
comparacin entre
dos grupos

Presin arterial (PA)


y Hemoglobina Glicosilada
(HB_GLI) en dos
Grupos:
con Enalapril (1)
y Placebo (0)

CASO

PA

HB_GLI

GRUPO$

GRUPO

91

9,8

Enalapril

104

7,4

Enalapril

107

7,9

Enalapril

107

8,3

Enalapril

106

8,3

Enalapril

100

9,0

Enalapril

92

9,7

Enalapril

92

8,8

Enalapril

105

7,6

Enalapril

10

108

6,9

Enalapril

11

98

9,5

Placebo

12

105

6,7

Placebo

13

100

7,0

Placebo

14

101

8,6

Placebo

15

99

8,7

Placebo

16

87

9,5

Placebo

17

98

9,0

Placebo

18

104

7,6

Placebo

19

106

8,5

Placebo

20

90

8,6

Placebo

Concentracin total de Hemoglobina glicosilada (%)

12

4
GRUPO
0
80
90
100
110
Presin Sangunea arterial media (mmHg)

Enalapril
Placebo

Concentracin total de Hemoglobina glicosilada (%)

10

7
GRUPO
6
80
90
100
110
Presin Sangunea arterial media (mmHg)

Donde est la diferencia?

Enalapril
Placebo

Concentracin total de Hemoglobina glicosilada (%)

10

7
GRUPO
6
80
90
100
110
Presin Sangunea arterial media (mmHg)

Donde est la diferencia?

Enalapril
Placebo

Caso
PA
HB GRUPO
1
91
9,8 Enalapril
2
104
7,4 Enalapril
3
107
7,9 Enalapril
4
107
8,3 Enalapril
5
106
8,3 Enalapril
6
100
9,0 Enalapril
7
92
9,7 Enalapril
8
92
8,8 Enalapril
9
105
7,6 Enalapril
10
108
6,9 Enalapril
Promedios: 101,2
8,37
DS:
6,941
0,9615
DS de la lnea de regresin (Sres): 0,5485

S res

Caso
PA
HB GRUPO
11
98
9,5 Placebo
12
105
6,7 Placebo
13
100
7,0 Placebo
14
101
8,6 Placebo
15
99
6,7 Placebo
16
87
9,5 Placebo
17
98
9,0 Placebo
18
104
7,6 Placebo
19
106
8,5 Placebo
20
90
8,6 Placebo
Promedios: 98,8
8,17
DS:
6,161
1,0914
DS de la lnea de regresin (Sres): 0,9866

(n 1)(S y2 b 2 S x2 )
n2

Resultado con Systat v. 11


Anlisis de regresin de cada grupo, Enalapril y Placebo
ENALAPRIL
Dep Var: HB_GLIC N: 10 Multiple R: 0.843 Squared multiple R: 0.711
Adjusted squared multiple R: 0.675 Standard error of estimate: 0.548
Effect
CONSTANT
PA

Coefficient
20.189
-0.117

Std Error Std Coef

Tolerance

2.671
0.026

.
1.000

7.558 0.000
-4.434 0.002

0.000
-0.843

P(2 Tail)

PLACEBO
Dep Var: HB_GLIC N: 10 Multiple R: 0.523 Squared multiple R: 0.274
Adjusted squared multiple R: 0.183 Standard error of estimate: 0.987
Effect
CONSTANT
PA

Coefficient
17.327
-0.093

Std Error Std Coef

Tolerance

5.283
0.053

.
1.000

3.280 0.011
-1.736 0.121

0.000
-0.523

P(2 Tail)

Resultado con Systat v. 11


Comparando los dos grupos

Dep Var: HB_GLIC N: 20 Multiple R: 0.682 Squared multiple R: 0.464

Adjusted squared multiple R: 0.401 Standard error of estimate: 0.779


Effect
CONSTANT
PA
GRUPO1

Coefficient
18.659
-0.106
0.455

Std Error

Std Coef Tolerance

P(2 Tail)

2.774
0.028
0.355

0.000
-0.686
0.232

6.727
-3.797
1.283

0.000
0.001
0.217

.
0.964
0.964

Hiptesis nula
Las pendientes son iguales (bE = bP)
Los interceptos son iguales (aE = aP)
Las correlaciones son iguales (rE = rP)

Intervalo de confianza para la


diferencia de dos pendientes
1. Calcular DS mezclada
2
2
(n1 2) S res
(n2 2) S res
1
2
(pooled) residual
S pool
n1 n2 4
segn:

2. luego:

SE(b1 b2 ) S pool

1
1

(n1 1) S x21 (n2 1) S x22

3. IC 95% = b1 b2 t1 / 2 SE(b1 b2 )

Ecuacin y correlacin para los grupos


PLACEBO y ENALAPRIL

Grupo PLACEBO:
Y=17,33 0,093X

r = -0,523

Grupo ENALAPRIL:
Y=20,189 0,117X

r = -0,843

Son las pendientes iguales?

S pool
S pool
S pool

2
2
(n1 2) S res

(
n

2
)
S
1
2
res 2

n1 n2 4

(10 2)0,548 (10 2)0,987

10 10 4
0,7982

1
1
SE(b1 b2 ) 0,7982

0,05774
2
2
9 6,941 9 6,161
b1 b2 0,117 0,093 0,024
0,024 t1 / 2 SE(b1 b2 )
0,024 2,12 0,05774 0,147

0,098

Incluye 0 por lo tanto no hay dif significativa entre las pendientes

Anlisis de Regresin Mltiple (RM)


MODEL CS = CONSTANT+BUFFER+VFS
ESTIMATE
Dep Var: CS N: 30 Multiple R: 0.033 Squared multiple R: 0.001
Adjusted squared multiple R: 0.0 Standard error of estimate: 8.540
Effect

Coefficient

Std Error

CONSTANT
BUFFER
VFS

12.784
0.177
-0.660

6.368
1.847
5.088

Std Coef
0.0
0.019
-0.025

Tolerance

P(2 Tail)

.
0.980
0.980

2.007
0.096
-0.130

0.055
0.924
0.898

Analysis of Variance
Source

Sum-of-Squares

df Mean-Square

Regression
2.201
2
1.100
Residual
1969.166
27
72.932
-------------------------------------------------------------------------------

F-ratio
0.015

P
0.985

Regresin Logstica
Variable dependiente o de inters en el
estudio: binaria (tiene infarto / no tiene
inf.)
En lugar de utilizar una combinacin de
variables exploratorias para predecir la
variable dependiente como en RM, se
predice una transformacin de la
variable dependiente

Variable binaria (0 / 1)
0 = No
1 = Si

(No tuvo infarto)


(Tuvo infarto)

El promedio de estos valores en una


muestra en estudio es igual a la
proporcin de individuos con la
caracterstica.

0
1
0
1
1
1
1
1
0
1
------7/10=0,7

Modelo de regresin logstica:


Predecir la proporcin de sujetos con la
caracterstica de inters (o la probabilidad
de un individuo de tener la caracterstica)
para cualquier combinacin de las variables
exploratorias en el modelo.
Se utiliza una transformacin de esta
proporcin ya que si no es imposible
trabajar con valores fuera del rango de 0 a 1

Transformacin
Se llama logit (p) (p: proporcin de
individuos con la caracterstica)
p: proporcin con infarto
1-p: proporcin sin infarto
Relacin (odds): p / (1-p)

log it ( p ) loge
1 p

Hipertensin, tabaco, obesidad, ronquera


(Norton y Dunn, 1985)
Fuma

Obeso

Ronca

Nmero de
hombres con
Hipertensin
N
(%)

60

(18)

17

(11)

(13)

(0)

187

35

(19)

85

13

(15)

51

15

(29)

23

(35)

79

(18)

Total 433

Anlisis de RL de los datos de la tabla anterior


Parameter Estimates
Parameter

Estimate

Standard
Error

p-value

95 % Confidence Interval

Lower

Upper

1 CONSTANT

-2.378

0.380

-6.254

0.000

-3.123

-1.633

2 FUMA

-0.068

0.278

-0.244

0.807

-0.613

0.477

3 OBESIDAD

0.695

0.285

2.439

0.015

0.137

1.254

4 RONCA

0.872

0.398

2.193

0.028

0.093

1.651

Odds Ratio Estimates


Parameter

Odds Ratio

Standard
Error

95 % Confidence Interval

Lower

Upper

2 FUMA

0.934

0.260

0.542

1.612

3 OBESIDAD

2.004

0.571

1.146

3.505

4 RONCA

2.392

0.951

1.097

5.213

Receiver Operating Characteristic Curve


1.0

Sensitivity

0.8

0.6

0.4

0.2

0.0
0.0

0.2

0.4

0.6

0.8

1.0

1 - Specificity

Area under ROC Curve : 0.617

Anlisis de RL de los datos de la tabla anterior


SIN FUMAR
Parameter Estimates
Parameter

Estimate

Standard Error Z

p-value

95 % Confidence
Interval
Lower

Upper

2 OBESIDAD

0.695

0.285

2.440

0.015

0.137

1.254

3 RONCA

0.865

0.397

2.182

0.029

0.088

1.643

Odds Ratio Estimates


Parameter

Odds Ratio

Standard
Error

95 % Confidence Interval
Lower

Upper

2 OBESIDAD

2.005

0.571

1.146

3.505

3 RONCA

2.376

0.943

1.092

5.170

Receiver Operating Characteristic Curve


1.0

Sensitivity

0.8

0.6

0.4

0.2

0.0
0.0

0.2

0.4

0.6

0.8

1.0

1 - Specificity

Area under ROC Curve : 0.609

ROC: Receiver Operating Curve


Plot de la sensibilidad vs 1-especificidad
para cada posible punto de corte, y unin de
ellos.
Si el costo de un resultado falso negativo
es el mismo que del resultado de un falso
positivo, la mejor zona de corte es aquella
que maximiza la suma de la sensibilidad y
especificidad, la cual es el punto ms cerca
al rincn superior izquierdo

Gua para anlisis de regresin


Mtodo

Dependiente

Independiente

Propsito

Linear

Continua

Continua

Describir extensin, direccin y fuerza


de la relacin entre dos variables.

Mltiple

Continua

Continua

Describir extensin, direccin y fuerza


de la relacin entre varias variables
independientes y una variable
dependiente.

Logstica

Dicotmica

Mezcla

Determinar como una o ms variables


independientes estn relacionadas a
la probabilidad de ocurrencia de un
posible resultado.

Poisson

Discreta

Mezcla

Determinar como una o ms variables


independientes estn relacionadas
con el conteo de un posible resultado

Varianza

Continua

Nominales

Describir relacin entre una variable


continua y una o ms variables
dependientes

RESUMEN
Regresin lineal: x / y: intervalares,
independiente / dependiente.
Regresin mltiple: una dependiente,
varias dependientes (intervalares).
Regresin logstica: una dependiente
(nominal), varias independientes (puede
haber nominales, ordinales,
intervalares).

También podría gustarte