Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BIOESTADÍSTICA
AVANZADA
CLASE 3
REGRESIÓN LINEAL
1 2
1
Análisis de correlación Coeficiente de correlación lineal de Pearson
3 4
El objetivo de este modelo es estudiar la asociación lineal Mide el grado de asociación lineal entre dos variables aleatorias
(magnitud y dirección) entre dos variables aleatorias medidas No depende de las unidades de medida de las variables originales
sobre los mismos individuos
Interesa determinar si las variables varían conjuntamente y no
si una afecta a la otra
3 4
2
Coeficiente de correlación lineal Algunos ejemplos
5
0.1 0.99 0.8 -0.95
Solo toma valores entre [-1,1]
No tiene unidades
Su signo nos indica si la posible relación es directa o inversa:
Directa: r >0
Inversa: r <0 A B
Variables independientes: r =0
Cuanto más cerca esté de +1 o -1 mejor será el grado de relación lineal
(siempre que no existan datos anómalos)
Es útil para determinar si hay relación lineal entre dos variables
r(y1,y2) = r(y2,y1)
C D
5 6
3
Prueba de hipótesis para
7 8
r = 0,91
7 8
4
Supuestos Comentarios
9 10
9 10
5
Medidas no paramétricas de asociación
12
Se utilizan cuando:
Alguna de las variables es medida en escala ordinal
No se cumple el supuesto de normalidad
Ojo: son pruebas menos potentes que la paramétrica (Pearson)
Coeficientes no paramétricos:
Coeficiente de correlación de rango de Spearman rs
A la pesca de asociaciones estadísticas Coeficiente de correlación de rango de Kendall
11 12
6
Coeficiente de correlación de rango de Análisis de regresión
Spearman
13
13 14
7
Describiendo gráficamente la relación:
Objetivos del análisis de regresión gráfico de dispersión
• Describir la relación funcional entre Y y X
• Estimar los parámetros del modelo
• Determinar cuánta de la variación en Y puede ser explicada por la
variación de X y cuánto permanece sin explicar
• Poner a prueba hipótesis sobre los parámetros del modelo
• Predecir nuevos valores de Y para valores específicos de X en el
dominio estudiado
15 16
8
Restauración con césped de suelos
contaminados con cadmio Modelo de regresión lineal simple
17 18
17 18
9
Estimación de los parámetros del ¿Cómo hallar la ecuación estimada
modelo de la recta?
19 20
19 20
10
21
Método de Cuadrados mínimos 22
Método de Cuadrados mínimos
Se busca la recta que haga
mínima
diferenciando con
respecto a b0 y b1 e
igualando a 0
21 22
11
Calculando residuos Dosis Cd
(mg Cd/kg)
Cd acumulado
(mg Cd/kg MS) Estimación de 2 (varianza del modelo)
23
60 23,2
¿Cuánto vale el residuo para la 8° 60 16,2
observación? 60 52,7
60 29,1
120
120
52,5
45,7 2Y S2Y/X= s2 Y
2Y/X= S2e=S2
120 52,9
120 84,9 2e=2
180 123,5
180 106,9
180 123,9
180 145,7
240 166,8
240 165,9
240 184,3
240 157,0
300 208,4
300 189,9
300 217,7
300 193,2 Variación total de VR =
variación explicada por el modelo + Variación no explicada (error o24residual)
23 24
12
Coeficiente de determinación R2 Supuestos del modelo
25 26
Mide la proporción de variabilidad de la variable respuesta explicada por X medida sin error
variaciones en X, es decir por el modelo de regresión Las observaciones Y son independientes
Para cada valor de X existe una subpoblación de Y
La media de cada una de estas subpoblaciones es E(Y/X) = 0 +
1 xi (linealidad)
La distribución de las
subpoblaciones es normal
las varianzas de las
R2 es adimensional y puede tomar valores entre 0 y 1 subpoblaciones son iguales,
Es una medida de la capacidad predictiva del modelo: cuanto más cercano a 1, es decir que el modelo
mejor el ajuste del modelo asume una varianza
En nuestro caso R2 = 0,95 constante 2, sin importar
el nivel de X 2
25 26
13
Los supuestos se
estudian con los residuos En este caso
27 28
Se espera encontrar una distribución al azar (sin patrones) y con variabilidad constante
27 28
14
Inferencia sobre la pendiente
29 30
29 30
15
Predicciones Validación
31 32
r = 0.9733321
31 32
16
Observaciones atípicas e influyentes Comentarios
R2=0.67 R2=0.36
33 34
17
Valores de referencia para
pruebas de función pulmonar
36
35 36
18
MVV en función de la edad Regresión con variables categóricas
37 38
Mujeres Varones
n 50 50
¿Modelo? bo 144,95 195,56
b1 -0,69 -1,06
R² 0,45 0,75
CMerror 133,83 124,61
GLerror 48 48
37 38
19
Cómo crear variables auxiliares o Modelo de regresión múltiple con dos v. explicatorias,
dummies una continua y otra categórica con dos categorías
39 40
39 40
20
Modelo de regresión múltiple con dos v. explicatorias, una
continua y otra categórica con dos categorías e interacción
41 42
interacción
41 42
21
Estimación de los parámetros
del modelo Validación del modelo
43 44
Predichos vs observados
r =0.8937
43 44
22
Dos regresiones simples vs una
45
múltiple
Tanto para RLS como para RLM:
RLS RLS
Mujeres Varones RLM
n 50 50 100
R² 0,45 0,75 0,80
CMerror 133,83 124,61 129,22
GLerror 48 48 96
Schabenberger, 2002
45 46
23
Algunos comentarios
47 48
47 48
24