Está en la página 1de 24

Diseños y Modelos

BIOESTADÍSTICA
AVANZADA
CLASE 3
REGRESIÓN LINEAL

Adriana Pérez Héctor Olguín Salinas María Llames


IIBB – INTECH - UNSAM

RESPUESTA OBSERVADA= MODELO

1 2

1
Análisis de correlación Coeficiente de correlación lineal de Pearson
3 4

 El objetivo de este modelo es estudiar la asociación lineal  Mide el grado de asociación lineal entre dos variables aleatorias
(magnitud y dirección) entre dos variables aleatorias medidas  No depende de las unidades de medida de las variables originales
sobre los mismos individuos
 Interesa determinar si las variables varían conjuntamente y no
si una afecta a la otra

 r estima al coeficiente de correlación de Pearson poblacional 

3 4

2
Coeficiente de correlación lineal Algunos ejemplos
5
0.1 0.99 0.8 -0.95
 Solo toma valores entre [-1,1]
 No tiene unidades
 Su signo nos indica si la posible relación es directa o inversa:
 Directa: r >0
 Inversa: r <0 A B
 Variables independientes: r =0
 Cuanto más cerca esté de +1 o -1 mejor será el grado de relación lineal
(siempre que no existan datos anómalos)
 Es útil para determinar si hay relación lineal entre dos variables
 r(y1,y2) = r(y2,y1)
C D

5 6

3
Prueba de hipótesis para 
7 8

 Ho:  = 0 (no existe asociación lineal entre las variables


aleatorias Y1 e Y2)
 H1:  ≠ 0 (sí existe asociación lineal entre las variables
aleatorias Y1 e Y2)

r = 0,91

Pero, ¿es estadísticamente significativa la asociación?


 IC para 

7 8

4
Supuestos Comentarios
9 10

 Atenti con los outliers


(necesarios para efectuar inferencia)  Correlación no implica causalidad
 Muestra aleatoria y observaciones entre individuos  La relación entra las variables debe ser linear para aplicar Pearson.
independientes Caso contrario, pueden aplicarse transformaciones
 Ambas variables aleatorias (ninguna de las dos bajo el control del  La correlación sólo tiene sentido cuando ambas variables son
investigador) aleatorias
 Escala al menos de intervalo para ambas variables
 Distribución normal bivariada para (Y1, Y2)
 Covariación lineal

9 10

5
Medidas no paramétricas de asociación
12

Se utilizan cuando:
 Alguna de las variables es medida en escala ordinal
 No se cumple el supuesto de normalidad
 Ojo: son pruebas menos potentes que la paramétrica (Pearson)

Coeficientes no paramétricos:
 Coeficiente de correlación de rango de Spearman rs
A la pesca de asociaciones estadísticas  Coeficiente de correlación de rango de Kendall 

11 12

6
Coeficiente de correlación de rango de Análisis de regresión
Spearman
13

Procedimiento  Es una técnica que permite estudiar cómo una variable


respuesta continua varía en función de una o más variables
 Para cada variable se asignan rangos Ri o números de orden a predictoras
cada observación; en caso de empate se asigna el rango
 Y = variable respuesta o dependiente; aleatoria
promedio de las observaciones empatadas
 X = variable predictora o independiente; no aleatoria
 Se calcula el coeficiente de correlación de Pearson pero con los
rangos
 Si la muestra es grande (n > 10), la significación puede estudiarse  En nuestro caso
como se explicó para el coeficiente de correlación de Pearson:  Y=
 X=

13 14

7
Describiendo gráficamente la relación:
Objetivos del análisis de regresión gráfico de dispersión
• Describir la relación funcional entre Y y X
• Estimar los parámetros del modelo
• Determinar cuánta de la variación en Y puede ser explicada por la
variación de X y cuánto permanece sin explicar
• Poner a prueba hipótesis sobre los parámetros del modelo
• Predecir nuevos valores de Y para valores específicos de X en el
dominio estudiado

15 16

8
Restauración con césped de suelos
contaminados con cadmio Modelo de regresión lineal simple
17 18

VR parámetros VE  El componente determinístico i=1…n


describe el valor esperado de equivalentes
la VR dadas las VE (Esperanza Valor esperado de Y = Y/x
determinístico estocástico condicional µY/X)
 Yi es la i-ésima observación de la variable dependiente Y
i  NID (0, 2)  El componente estocástico
 Xi es el i-ésimo valor de la variable predictora X
contempla todas las fuentes
de variabilidad adicional:   0 y  1 son los parámetros ordenada al origen y pendiente (o
coeficiente de regresión)
 Proceso aleatorio inherente
 Si el alcance del modelo incluye a X=0,  0 es el valor esperado de Y
 Efecto de otras VE no incluidas cuando X=0
en el modelo
  1 indica el cambio esperado en Y por cada aumento unitario de X
 Error de medición
 i es el error aleatorio, variación de Y no explicada por X;
Y se le asigna una distribución
de probabilidades i  NID (0,  2)

17 18

9
Estimación de los parámetros del ¿Cómo hallar la ecuación estimada
modelo de la recta?
19 20

 La función anterior no es observable directamente, sino que es


estimada a través de la muestra:
 Se denomina residuo a la
diferencia entre el valor
observado y el pronosticado por
el modelo
 Donde 𝛽0 y 𝛽1 son los estimadores puntuales de β0 y β1
respectivamente (y como todo estimador, tienen una distribución
de probabilidades)
 Es decir que estamos interesados en modelar E(Y/X) = f (X); pero  La suma de los residuos es cero
observamos Y = f (X)

19 20

10
21
Método de Cuadrados mínimos 22
Método de Cuadrados mínimos
Se busca la recta que haga
mínima

diferenciando con
respecto a b0 y b1 e
igualando a 0

21 22

11
Calculando residuos Dosis Cd
(mg Cd/kg)
Cd acumulado
(mg Cd/kg MS) Estimación de 2 (varianza del modelo)
23

60 23,2
¿Cuánto vale el residuo para la 8° 60 16,2
observación? 60 52,7
60 29,1
120
120
52,5
45,7 2Y S2Y/X= s2 Y
2Y/X= S2e=S2
120 52,9
120 84,9 2e=2
180 123,5
180 106,9
180 123,9
180 145,7
240 166,8
240 165,9
240 184,3
240 157,0
300 208,4
300 189,9
300 217,7
300 193,2 Variación total de VR =
variación explicada por el modelo + Variación no explicada (error o24residual)

23 24

12
Coeficiente de determinación R2 Supuestos del modelo
25 26

 Mide la proporción de variabilidad de la variable respuesta explicada por  X medida sin error
variaciones en X, es decir por el modelo de regresión  Las observaciones Y son independientes
 Para cada valor de X existe una subpoblación de Y
 La media de cada una de estas subpoblaciones es E(Y/X) = 0 +
1 xi (linealidad)
 La distribución de las
subpoblaciones es normal
 las varianzas de las
 R2 es adimensional y puede tomar valores entre 0 y 1 subpoblaciones son iguales,
 Es una medida de la capacidad predictiva del modelo: cuanto más cercano a 1, es decir que el modelo
mejor el ajuste del modelo asume una varianza
 En nuestro caso R2 = 0,95 constante 2, sin importar
el nivel de X 2

25 26

13
Los supuestos se
estudian con los residuos En este caso
27 28

Gráficos de dispersión de residuos vs


El análisis de residuos permite: predichos
 Determinar si los errores se
comportan siguiendo una
distribución normal. Prueba de
Shapiro
 Determinar si la variabilidad es
constante (homocedasticidad)
 Determinar si el modelo lineal
es el adecuado (linealidad) (los
residuos deberían distribuirse
aleatoriamente, sin patrones)
 Detectar outliers o datos
atípicos (datos con residuos
grandes)

Se espera encontrar una distribución al azar (sin patrones) y con variabilidad constante

27 28

14
Inferencia sobre la pendiente
29 30

Ho: 1 = 0  la variación de Y no se explica linealmente por la variación de X

H1: 1  0  la variación de Y sí se explica linealmente por la variación de X

Si la distribución de Y/X es normal, 𝛽 1 sigue una distribución normal, con


media β1 y EE =

Es equivalente a construir el IC para β1 y


determinar si 0 pertenece a dicho intervalo

Se demuestra que 𝛽 1 sigue una distribución aproximadamente normal


cuando n es grande (extension del Teorema Central del Límite)

29 30

15
Predicciones Validación
31 32

Una vez estimados los parámetros del modelo, se calculan las


 Una vez estimado el modelo, una de sus aplicaciones más importantes
predicciones y se comparan con los valores observados:
consiste en poder realizar predicciones acerca del valor que tomaría la
variable dependiente en el futuro o para una unidad extramuestral.
 Se pueden construir intervalos de confianza sobre dichos valores
 Los pronósticos son válidos en el rango estudiado

¿Cuál será la concentración de cadmio en hojas de pastos sometidos a las


siguientes concentraciones de cadmio en maceta?
 200 mg Cd/kg
 300 mg Cd/kg
 400 mg Cd/kg

r = 0.9733321

31 32

16
Observaciones atípicas e influyentes Comentarios

 Existen relaciones que pueden ser modeladas por funciones


distintas a una recta
R2=0.52 R2=0.89

R2=0.67 R2=0.36

 Causalidad sólo en el contexto de experimentos


33
 Atención extrapolaciones

33 34

17
Valores de referencia para
pruebas de función pulmonar
36

 La ventilación voluntaria máxima (VVM) es el máximo volumen que


puede ser ventilado dentro y fuera de los pulmones en un intervalo de 10
a 15 seg mediante esfuerzo voluntario (en litros)
 Se desea establecer valores de referencia de VVM en función de la edad
para la población sana brasileña
 Participaron 100 individuos sanos, no fumadores (50 hombres y 50
mujeres), de entre 20 y 80 años de edad

REGRESIÓN CON VARIABLES


CATEGÓRICAS

35 36

18
MVV en función de la edad Regresión con variables categóricas
37 38

 Cuando se desea ajustar modelos de regresión para distintos subgrupos


o con VE cuanti y cualitativas
 Permite:
 Mejor estimación del error del modelo

 Mejor control del error tipo I

 Las v. cualitativas deben ser codificadas para poder ser incluidas en la


regresión (v. auxiliares, indicadoras o dummy)

Mujeres Varones
n 50 50
¿Modelo? bo 144,95 195,56
b1 -0,69 -1,06
R² 0,45 0,75
CMerror 133,83 124,61
GLerror 48 48

37 38

19
Cómo crear variables auxiliares o Modelo de regresión múltiple con dos v. explicatorias,
dummies una continua y otra categórica con dos categorías
39 40

 Si la variable tiene sólo dos categorías se asignan los valores 0 y 1


 Una de las categorías debe ser tomada como referencia
 El valor 0 se asigna a la categoría de referencia

 En nuestro ejemplo, creamos la variable auxiliar varón


0: mujer 1:varón
Sexo Varón Mujer
 β0 es el valor esperado de Y cuando X1 y X2 valen 0
varón 1 0
 β1 es el cambio esperado en Y por cada aumento unitario en X1
mujer 0 1
 β2 es el cambio esperado en β0 cuando X2=1
Redundante!

39 40

20
Modelo de regresión múltiple con dos v. explicatorias, una
continua y otra categórica con dos categorías e interacción
41 42

interacción

 β0 es el valor esperado de Y cuando X1 = 0 para la categoría de referencia


 β1 es el cambio esperado en Y por cada aumento unitario en X1 para la  Ho1: 3= 0 Prueba de paralelismo
categoría de referencia  Ho2: 2= 0 Prueba de igualdad de ordenada al origen
 β2 es el cambio esperado en β0  Ho3: 1= 0
 β3 es el cambio esperado en β1  Ho4: 0= 0

41 42

21
Estimación de los parámetros
del modelo Validación del modelo
43 44

 Predichos vs observados

r =0.8937

43 44

22
Dos regresiones simples vs una
45
múltiple
 Tanto para RLS como para RLM:

 Las estimaciones de los parámetros son las mismas!


 Pero la RLM:
 Permite comparar las parámetros de ambas regresiones

 Mejor estimación del error del modelo

RLS RLS
Mujeres Varones RLM
n 50 50 100
R² 0,45 0,75 0,80
CMerror 133,83 124,61 129,22
GLerror 48 48 96
Schabenberger, 2002

45 46

23
Algunos comentarios
47 48

 Si existen más de dos categorías se deben generar tantas v. dummy como


categorías menos 1 (todas las dummy tomaran el valor 0 para la categoría
de referencia)
 Por ejemplo, si hubiese tres categorías de nivel de actividad física:
 Baja (referencia)
D1 D2
 Moderada
moderada alta
 Alta
baja 0 0
moderada 1 0
alta 0 1
 No es correcto asignar valores crecientes (por ejemplo 1, 2 y 3) ya que la
escala de la variable es ordinal y se la convierte en cuantitativa, asignándole
una métrica que no posee
 Al igual que en anova pueden realizarse contrastes

47 48

24

También podría gustarte