Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlacin de Pearson, r
Regresin Mltiple
Regresin Logstica
Regresin de Poisson
Propsitos de RL
Evaluar si las dos variables estn
asociadas (r)
Predecir en base a una variable, qu
se obtiene de la otra? (ARS)
Evaluar grado de concordancia entre
los valores de las dos variables (ARS)
Supuestos
1. Existencia (para cualquier valor de la variable
X, Y es una variable al azar con una cierta
probabilidad de distrib teniendo un promedio y
varianza finitos)
2. Independencia (los valores de Y son
estadsticamente independientes uno de otro).
3. Linearidad (el promedio de Y es una funcin
linear de X)
Variables
Dependiente: eje Y
Independiente: eje X
Intervalares
Distribucin normal
Grfico: PLOT DE DISPERSIN
Pares de observaciones
Tipo de relaciones
Regresin linear
La lnea recta es descrita por ecuacin:
Intercepto
Y = 2 + 5X
FPLOT y = x+2
Hiptesis nula
b=0
a=0
pendiente = 0
intercepto = 0
Presin mm/Hg
200
y a bx
150
a = intercepto
b = pendiente
100
50
20
30
40 50 60 70
Edad en aos
80
90
Systat
Residual
250
Presin mm/Hg
200
150
100
50
20
30
40 50 60 70
Edad en aos
80
90
Stata 10
100
150
200
250
20
40
Edad (aos)
95% CI
Presin Sistlica (mm / Hg)
60
80
Fitted values
Control
5,000
4,000
3,000
2,000
0
50
100
DIA
150
200
50
100
DIA
150
200
50
100
DIA
150
200
PESO
6,000
Control
5,000
4,000
3,000
2,000
0
50
100
DIA
150
200
50
100
DIA
150
200
50
100
DIA
150
200
PESO
6,000
PESO
7,000
6,000
5,000
GRUPO
Control
Fisurado con Ortop
Fisurado sin Ortop
4,000
3,000
2,000
50
100
DIA
150
200
FLP Unilateral
FLP Bilateral
Control
10,000
9,000
8,000
7,000
6,000
PESO
Hombres
5,000
SEXO
4,000
3,000
2,000
10,000
9,000
8,000
7,000
5,000
4,000
3,000
2,000
0
50
100
DIA
150
200
50
100
DIA
150
200
50
100
DIA
150
200
50
100
DIA
150
200
PESO
6,000
Mujeres
Requisitos
Las dos variables deben ser continuas
Deben ser independientes una de la
otra
Deben tener distribucin normal
Calcular
Y = a + bX
a = intercepto
b = pendiente
Demostrar Ho: b = 0
IC 95% de a; IC 95% de b
Correlacin de Pearson (r)
ANALISIS DE REGRESIN
n = 33
PS
131
128
116
106
114
123
117
122
Edad
PS
Edad
PS
Edad
PS
33
35
40
41
41
46
47
48
99
121
147
139
171
137
111
115
49
49
50
51
51
51
52
54
133
128
183
130
133
144
128
105
56
57
58
59
63
67
71
77
81
145
141
153
157
155
176
172
178
217
x = 1542
x2 = 79.176
x = 46,73
y = 4575
y2 = 656.481
y = 138,64
xy = 223 144
( x x) x
2
( y y) y
2
( x ) 2 / n
( y ) 2 / n
( x x)( y y) xy ( x)( y) / n
= 223144 (1542)(4575)/33 = 9366,7
y a bx
(
x
x
)(
y
y
)
(
x
x
)
a y bx
Pendiente e intercepto
9366,7
b
1,22mmHg / ao
7662,6
a 138,65 (1,22)(46,73) 81,54
y 81,54 1,22x
a: intercepto, en mm de Hg
b: pendiente, ps aumenta 1,22 mmHg por
cada ao de edad.
S y. x
S y. x
a y b xy
n2
18,66
33 2
sx
r b
b
sy
x
y
( x)
( y )
7662,6
r 1,22
0,71
22219,6
n
2
Correlacin de Pearson
r = 0,71 (Fuerza de la asociacin entre las dos variables, puede
variar entre -1 y 1, entre ms cerca a uno mejor dicha
asociacin
0,65 a 1
BUENA
0,4 a 0,649
REGULAR
< de 0,4
MALA.
r2 = 0.51
Qu tan bueno es el
modelo?
r2= Proporcin de la variacin total en la
variable y, dependiente, en este caso
de la presin sistlica, que es explicada
por la variacin en la variable
independiente x, o edad en este caso).
O sea 51% de la variacin en y es
explicada por la variable x (edad).
SEb
2
y. x
( x x)
1
x
2
SEa S y. x
2
n ( x x)
2
Error estndar de b y a
SEb
s y2. x
2
(
x
x
)
SEb 347,41
7662,6
0,2129
1
x
2
SEa S y . x
2
n ( x x)
1 46,732
SEa 347,41
10,47
33 7662,6
=
=
p<0,001
Coefficient
81.517
1.222
Std Error
Std Coef
10.465
0.213
Tolerance
P(2 Tail)
0.000
0.718
.
1.000
7.789
5.741
0.000
0.000
Analysis of Variance
Source
Sum-of-Squares df Mean-Square
F-ratio
SSY - SSE
SSY = ( y y) y ( y) / n
SSY - SSE: Suma de
cuadrados de la reg.
2
Regression
11449.926 1 11449.926
32.958
Residual
10769.710 31
347.410
-------------------------------------------------------------------------------
0.000
Dependent Variable
PS
33
Multiple R
0.718
Squared Multiple R
0.515
Adjusted Squared
Multiple R
0.500
Standard Error of
18.639
Estimate
Regression Coefficients B = (X'X)-1X'Y
Effect
Coefficient Standard
Error
Std.
Coefficient
Tolerance
p-value
CONSTANT
81.517
10.465
0.000
7.789
0.000
EDAD
1.222
0.213
0.718
1.000
5.741
0.000
Qu escribir ?
Y = 81,52 + 1,22X
r = 0,718
r2 = 0,515
250
PRESION
200
Residual
150
100
50
20
30
40
50 60
EDAD
70
80
90
Nube ?
50
40
30
10
0
-10
-20
-30
-40
250
-50
100 110 120 130 140 150 160 170 180 190
ESTIMATE
200
Presin mm/Hg
RESIDUAL
20
150
100
50
20
30
40 50 60 70
Edad en aos
80
90
PS
131.000
128.000
116.000
106.000
114.000
123.000
117.000
122.000
99.000
121.000
147.000
139.000
171.000
137.000
111.000
115.000
133.000
128.000
ESTIMATE
108.410
109.632
110.854
114.522
115.744
116.966
118.189
120.634
121.856
124.301
130.413
131.635
131.635
137.747
138.970
140.192
141.415
141.415
RESIDUAL
22.590
18.368
5.146
-8.522
-1.744
6.034
-1.189
1.366
-22.856
-3.301
16.587
7.365
39.365
-0.747
-27.970
-25.192
-8.415
-13.415
180
40
160
150
140
130
100
50
30
120
20
RESIDUAL
ESTIMATE
PS
50
170
200
150
190
10
0
-10
-20
-30
110
-40
100
-50
Existe?
Qu fuerza tiene?
Qu tamao?
Qu direccin tiene?
Qu patrn tiene?
Existencia de la relacin.
El valor de p en la tabla de anlisis de varianza de la
regresin nos indica si el modelo es
significativamente diferente del azar.
Los test t y valores de p asociados con los
coeficientes individuales nos indican si existe una
relacin entre cada variable independiente y la
variable dependiente.
Fuerza de la asociacin.
Uno no est satisfecho con saber si existe una
relacin adems quiere saber que tan fuerte es.
Generalmente la vemos con el valor de R mltiple, el
R mltiple al cuadrado, el R cuadrado ajustado, y el
error estndar de la media. El mejor de todos es R
cuadrado ajustado.
R mltiple al cuadrado indica la proporcin de
varianza en la variable dependiente que puede
ser explicada por la(s) variable(s)
independiente(s).
Tamao de la asociacin
A veces uno est interesado en el tamao de los
coeficientes de la regresin ms que en demostrar
que difieren de 0.
Para esto simplemente ver los valores de los
coeficientes.
Direccin de la asociacin.
El signo de los coeficientes nos da esta direccin.
Patrn de la asociacin.
Los plots y los estadsticos basados en los valores residuales nos dan
informacin acerca del patrn de la relacin :
Es la relacin linear?
Presentan los plots algn valor escapado, o fuera de lugar (outlier)?
Existe indicacin por los valores de Cook, residual estandarizado, o
Leverage de algn caso influyente?
Estn los residuales curvados o por otro lado presentan forma o
direccin irregular? En otras palabras deber agregarse otras
variables al modelo?
Los residuales estn formando una banda horizontal a lo largo de todo
el rango de la variable dependiente?, o sea estn los residuales
homoscedsticos?
Tienen los residuales una distribucin normal?
Coefficient
CONSTANT
LSMUFC
-19.601
5.987
Std Error
7.712
1.409
.
-2.542
1.000 4.248
P(2 Tail)
0.017
0.000
Regresin Linear,
comparacin entre
dos grupos
CASO
PA
HB_GLI
GRUPO$
GRUPO
91
9,8
Enalapril
104
7,4
Enalapril
107
7,9
Enalapril
107
8,3
Enalapril
106
8,3
Enalapril
100
9,0
Enalapril
92
9,7
Enalapril
92
8,8
Enalapril
105
7,6
Enalapril
10
108
6,9
Enalapril
11
98
9,5
Placebo
12
105
6,7
Placebo
13
100
7,0
Placebo
14
101
8,6
Placebo
15
99
8,7
Placebo
16
87
9,5
Placebo
17
98
9,0
Placebo
18
104
7,6
Placebo
19
106
8,5
Placebo
20
90
8,6
Placebo
12
4
GRUPO
0
80
90
100
110
Presin Sangunea arterial media (mmHg)
Enalapril
Placebo
10
7
GRUPO
6
80
90
100
110
Presin Sangunea arterial media (mmHg)
Enalapril
Placebo
10
7
GRUPO
6
80
90
100
110
Presin Sangunea arterial media (mmHg)
Enalapril
Placebo
Caso
PA
HB GRUPO
1
91
9,8 Enalapril
2
104
7,4 Enalapril
3
107
7,9 Enalapril
4
107
8,3 Enalapril
5
106
8,3 Enalapril
6
100
9,0 Enalapril
7
92
9,7 Enalapril
8
92
8,8 Enalapril
9
105
7,6 Enalapril
10
108
6,9 Enalapril
Promedios: 101,2
8,37
DS:
6,941
0,9615
DS de la lnea de regresin (Sres): 0,5485
S res
Caso
PA
HB GRUPO
11
98
9,5 Placebo
12
105
6,7 Placebo
13
100
7,0 Placebo
14
101
8,6 Placebo
15
99
6,7 Placebo
16
87
9,5 Placebo
17
98
9,0 Placebo
18
104
7,6 Placebo
19
106
8,5 Placebo
20
90
8,6 Placebo
Promedios: 98,8
8,17
DS:
6,161
1,0914
DS de la lnea de regresin (Sres): 0,9866
(n 1)(S y2 b 2 S x2 )
n2
Coefficient
20.189
-0.117
Tolerance
2.671
0.026
.
1.000
7.558 0.000
-4.434 0.002
0.000
-0.843
P(2 Tail)
PLACEBO
Dep Var: HB_GLIC N: 10 Multiple R: 0.523 Squared multiple R: 0.274
Adjusted squared multiple R: 0.183 Standard error of estimate: 0.987
Effect
CONSTANT
PA
Coefficient
17.327
-0.093
Tolerance
5.283
0.053
.
1.000
3.280 0.011
-1.736 0.121
0.000
-0.523
P(2 Tail)
Coefficient
18.659
-0.106
0.455
Std Error
P(2 Tail)
2.774
0.028
0.355
0.000
-0.686
0.232
6.727
-3.797
1.283
0.000
0.001
0.217
.
0.964
0.964
Hiptesis nula
Las pendientes son iguales (bE = bP)
Los interceptos son iguales (aE = aP)
Las correlaciones son iguales (rE = rP)
2. luego:
SE(b1 b2 ) S pool
1
1
3. IC 95% = b1 b2 t1 / 2 SE(b1 b2 )
Grupo PLACEBO:
Y=17,33 0,093X
r = -0,523
Grupo ENALAPRIL:
Y=20,189 0,117X
r = -0,843
S pool
S pool
S pool
2
2
(n1 2) S res
(
n
2
)
S
1
2
res 2
n1 n2 4
10 10 4
0,7982
1
1
SE(b1 b2 ) 0,7982
0,05774
2
2
9 6,941 9 6,161
b1 b2 0,117 0,093 0,024
0,024 t1 / 2 SE(b1 b2 )
0,024 2,12 0,05774 0,147
0,098
Coefficient
Std Error
CONSTANT
BUFFER
VFS
12.784
0.177
-0.660
6.368
1.847
5.088
Std Coef
0.0
0.019
-0.025
Tolerance
P(2 Tail)
.
0.980
0.980
2.007
0.096
-0.130
0.055
0.924
0.898
Analysis of Variance
Source
Sum-of-Squares
df Mean-Square
Regression
2.201
2
1.100
Residual
1969.166
27
72.932
-------------------------------------------------------------------------------
F-ratio
0.015
P
0.985
Regresin Logstica
Variable dependiente o de inters en el
estudio: binaria (tiene infarto / no tiene
inf.)
En lugar de utilizar una combinacin de
variables exploratorias para predecir la
variable dependiente como en RM, se
predice una transformacin de la
variable dependiente
Variable binaria (0 / 1)
0 = No
1 = Si
0
1
0
1
1
1
1
1
0
1
------7/10=0,7
Transformacin
Se llama logit (p) (p: proporcin de
individuos con la caracterstica)
p: proporcin con infarto
1-p: proporcin sin infarto
Relacin (odds): p / (1-p)
log it ( p ) loge
1 p
Obeso
Ronca
Nmero de
hombres con
Hipertensin
N
(%)
60
(18)
17
(11)
(13)
(0)
187
35
(19)
85
13
(15)
51
15
(29)
23
(35)
79
(18)
Total 433
Estimate
Standard
Error
p-value
95 % Confidence Interval
Lower
Upper
1 CONSTANT
-2.378
0.380
-6.254
0.000
-3.123
-1.633
2 FUMA
-0.068
0.278
-0.244
0.807
-0.613
0.477
3 OBESIDAD
0.695
0.285
2.439
0.015
0.137
1.254
4 RONCA
0.872
0.398
2.193
0.028
0.093
1.651
Odds Ratio
Standard
Error
95 % Confidence Interval
Lower
Upper
2 FUMA
0.934
0.260
0.542
1.612
3 OBESIDAD
2.004
0.571
1.146
3.505
4 RONCA
2.392
0.951
1.097
5.213
Sensitivity
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
1 - Specificity
Estimate
Standard Error Z
p-value
95 % Confidence
Interval
Lower
Upper
2 OBESIDAD
0.695
0.285
2.440
0.015
0.137
1.254
3 RONCA
0.865
0.397
2.182
0.029
0.088
1.643
Odds Ratio
Standard
Error
95 % Confidence Interval
Lower
Upper
2 OBESIDAD
2.005
0.571
1.146
3.505
3 RONCA
2.376
0.943
1.092
5.170
Sensitivity
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
1 - Specificity
Dependiente
Independiente
Propsito
Linear
Continua
Continua
Mltiple
Continua
Continua
Logstica
Dicotmica
Mezcla
Poisson
Discreta
Mezcla
Varianza
Continua
Nominales
RESUMEN
Regresin lineal: x / y: intervalares,
independiente / dependiente.
Regresin mltiple: una dependiente,
varias dependientes (intervalares).
Regresin logstica: una dependiente
(nominal), varias independientes (puede
haber nominales, ordinales,
intervalares).