Correlacion RLS

Diseños y Modelos
BIOESTADÍSTICA
AVANZADA
CLASE 3
REGRESIÓN LINEAL
Adriana Pérez Héctor Olguín Salinas María Llames

IIBB – INTECH - UNSAM
RESPUESTA OBSERVADA= MODELO
1 2
1
Análisis de correlación Coeficiente de correlación lineal de Pearson
3 4
 El objetivo de este modelo es estudiar la asociación lineal  Mide el grado de asociación lineal entre dos variables aleatorias
(magnitud y dirección) entre dos variables aleatorias medidas  No depende de las unidades de medida de las variables originales
sobre los mismos individuos
 Interesa determinar si las variables varían conjuntamente y no
si una afecta a la otra
 r estima al coeficiente de correlación de Pearson poblacional 
3 4
2
Coeficiente de correlación lineal Algunos ejemplos
5
0.1 0.99 0.8 -0.95
 Solo toma valores entre [-1,1]
 No tiene unidades
 Su signo nos indica si la posible relación es directa o inversa:
 Directa: r >0
 Inversa: r <0 A B
 Variables independientes: r =0
 Cuanto más cerca esté de +1 o -1 mejor será el grado de relación lineal
(siempre que no existan datos anómalos)
 Es útil para determinar si hay relación lineal entre dos variables
 r(y1,y2) = r(y2,y1)
C D
5 6
3
Prueba de hipótesis para 
7 8
 Ho:  = 0 (no existe asociación lineal entre las variables

aleatorias Y1 e Y2)
 H1:  ≠ 0 (sí existe asociación lineal entre las variables
aleatorias Y1 e Y2)
r = 0,91
Pero, ¿es estadísticamente significativa la asociación?

 IC para 
7 8
4
Supuestos Comentarios
9 10
 Atenti con los outliers

(necesarios para efectuar inferencia)  Correlación no implica causalidad
 Muestra aleatoria y observaciones entre individuos  La relación entra las variables debe ser linear para aplicar Pearson.
independientes Caso contrario, pueden aplicarse transformaciones
 Ambas variables aleatorias (ninguna de las dos bajo el control del  La correlación sólo tiene sentido cuando ambas variables son
investigador) aleatorias
 Escala al menos de intervalo para ambas variables
 Distribución normal bivariada para (Y1, Y2)
 Covariación lineal
9 10
5
Medidas no paramétricas de asociación
12
Se utilizan cuando:
 Alguna de las variables es medida en escala ordinal
 No se cumple el supuesto de normalidad
 Ojo: son pruebas menos potentes que la paramétrica (Pearson)
Coeficientes no paramétricos:
 Coeficiente de correlación de rango de Spearman rs
A la pesca de asociaciones estadísticas  Coeficiente de correlación de rango de Kendall 
11 12
6
Coeficiente de correlación de rango de Análisis de regresión
Spearman
13
Procedimiento  Es una técnica que permite estudiar cómo una variable

respuesta continua varía en función de una o más variables
 Para cada variable se asignan rangos Ri o números de orden a predictoras
cada observación; en caso de empate se asigna el rango
 Y = variable respuesta o dependiente; aleatoria
promedio de las observaciones empatadas
 X = variable predictora o independiente; no aleatoria
 Se calcula el coeficiente de correlación de Pearson pero con los
rangos
 Si la muestra es grande (n > 10), la significación puede estudiarse  En nuestro caso
como se explicó para el coeficiente de correlación de Pearson:  Y=
 X=
13 14
7
Describiendo gráficamente la relación:
Objetivos del análisis de regresión gráfico de dispersión
• Describir la relación funcional entre Y y X
• Estimar los parámetros del modelo
• Determinar cuánta de la variación en Y puede ser explicada por la
variación de X y cuánto permanece sin explicar
• Poner a prueba hipótesis sobre los parámetros del modelo
• Predecir nuevos valores de Y para valores específicos de X en el
dominio estudiado
15 16
8
Restauración con césped de suelos
contaminados con cadmio Modelo de regresión lineal simple
17 18
VR parámetros VE  El componente determinístico i=1…n

describe el valor esperado de equivalentes
la VR dadas las VE (Esperanza Valor esperado de Y = Y/x
determinístico estocástico condicional µY/X)
 Yi es la i-ésima observación de la variable dependiente Y
i  NID (0, 2)  El componente estocástico
 Xi es el i-ésimo valor de la variable predictora X
contempla todas las fuentes
de variabilidad adicional:   0 y  1 son los parámetros ordenada al origen y pendiente (o
coeficiente de regresión)
 Proceso aleatorio inherente
 Si el alcance del modelo incluye a X=0,  0 es el valor esperado de Y
 Efecto de otras VE no incluidas cuando X=0
en el modelo
  1 indica el cambio esperado en Y por cada aumento unitario de X
 Error de medición
 i es el error aleatorio, variación de Y no explicada por X;
Y se le asigna una distribución
de probabilidades i  NID (0,  2)
17 18
9
Estimación de los parámetros del ¿Cómo hallar la ecuación estimada
modelo de la recta?
19 20
 La función anterior no es observable directamente, sino que es

estimada a través de la muestra:
 Se denomina residuo a la
diferencia entre el valor
observado y el pronosticado por
el modelo
 Donde 𝛽0 y 𝛽1 son los estimadores puntuales de β0 y β1
respectivamente (y como todo estimador, tienen una distribución
de probabilidades)
 Es decir que estamos interesados en modelar E(Y/X) = f (X); pero  La suma de los residuos es cero
observamos Y = f (X)
19 20
10
21
Método de Cuadrados mínimos 22
Método de Cuadrados mínimos
Se busca la recta que haga
mínima
diferenciando con
respecto a b0 y b1 e
igualando a 0
21 22
11
Calculando residuos Dosis Cd
(mg Cd/kg)
Cd acumulado
(mg Cd/kg MS) Estimación de 2 (varianza del modelo)
23
60 23,2
¿Cuánto vale el residuo para la 8° 60 16,2
observación? 60 52,7
60 29,1
120
120
52,5
45,7 2Y S2Y/X= s2 Y
2Y/X= S2e=S2
120 52,9
120 84,9 2e=2
180 123,5
180 106,9
180 123,9
180 145,7
240 166,8
240 165,9
240 184,3
240 157,0
300 208,4
300 189,9
300 217,7
300 193,2 Variación total de VR =
variación explicada por el modelo + Variación no explicada (error o24residual)
23 24
12
Coeficiente de determinación R2 Supuestos del modelo
25 26
 Mide la proporción de variabilidad de la variable respuesta explicada por  X medida sin error
variaciones en X, es decir por el modelo de regresión  Las observaciones Y son independientes
 Para cada valor de X existe una subpoblación de Y
 La media de cada una de estas subpoblaciones es E(Y/X) = 0 +
1 xi (linealidad)
 La distribución de las
subpoblaciones es normal
 las varianzas de las
 R2 es adimensional y puede tomar valores entre 0 y 1 subpoblaciones son iguales,
 Es una medida de la capacidad predictiva del modelo: cuanto más cercano a 1, es decir que el modelo
mejor el ajuste del modelo asume una varianza
 En nuestro caso R2 = 0,95 constante 2, sin importar
el nivel de X 2
25 26
13
Los supuestos se
estudian con los residuos En este caso
27 28
Gráficos de dispersión de residuos vs

El análisis de residuos permite: predichos
 Determinar si los errores se
comportan siguiendo una
distribución normal. Prueba de
Shapiro
 Determinar si la variabilidad es
constante (homocedasticidad)
 Determinar si el modelo lineal
es el adecuado (linealidad) (los
residuos deberían distribuirse
aleatoriamente, sin patrones)
 Detectar outliers o datos
atípicos (datos con residuos
grandes)
Se espera encontrar una distribución al azar (sin patrones) y con variabilidad constante
27 28
14
Inferencia sobre la pendiente
29 30
Ho: 1 = 0  la variación de Y no se explica linealmente por la variación de X
H1: 1  0  la variación de Y sí se explica linealmente por la variación de X
Si la distribución de Y/X es normal, 𝛽 1 sigue una distribución normal, con

media β1 y EE =
Es equivalente a construir el IC para β1 y

determinar si 0 pertenece a dicho intervalo
Se demuestra que 𝛽 1 sigue una distribución aproximadamente normal

cuando n es grande (extension del Teorema Central del Límite)
29 30
15
Predicciones Validación
31 32
Una vez estimados los parámetros del modelo, se calculan las

 Una vez estimado el modelo, una de sus aplicaciones más importantes
predicciones y se comparan con los valores observados:
consiste en poder realizar predicciones acerca del valor que tomaría la
variable dependiente en el futuro o para una unidad extramuestral.
 Se pueden construir intervalos de confianza sobre dichos valores
 Los pronósticos son válidos en el rango estudiado
¿Cuál será la concentración de cadmio en hojas de pastos sometidos a las

siguientes concentraciones de cadmio en maceta?
 200 mg Cd/kg
 300 mg Cd/kg
 400 mg Cd/kg
r = 0.9733321
31 32
16
Observaciones atípicas e influyentes Comentarios
 Existen relaciones que pueden ser modeladas por funciones

distintas a una recta
R2=0.52 R2=0.89
R2=0.67 R2=0.36
 Causalidad sólo en el contexto de experimentos

33
 Atención extrapolaciones
33 34
17
Valores de referencia para
pruebas de función pulmonar
36
 La ventilación voluntaria máxima (VVM) es el máximo volumen que

puede ser ventilado dentro y fuera de los pulmones en un intervalo de 10
a 15 seg mediante esfuerzo voluntario (en litros)
 Se desea establecer valores de referencia de VVM en función de la edad
para la población sana brasileña
 Participaron 100 individuos sanos, no fumadores (50 hombres y 50
mujeres), de entre 20 y 80 años de edad
REGRESIÓN CON VARIABLES

CATEGÓRICAS
35 36
18
MVV en función de la edad Regresión con variables categóricas
37 38
 Cuando se desea ajustar modelos de regresión para distintos subgrupos

o con VE cuanti y cualitativas
 Permite:
 Mejor estimación del error del modelo
 Mejor control del error tipo I
 Las v. cualitativas deben ser codificadas para poder ser incluidas en la

regresión (v. auxiliares, indicadoras o dummy)
Mujeres Varones
n 50 50
¿Modelo? bo 144,95 195,56
b1 -0,69 -1,06
R² 0,45 0,75
CMerror 133,83 124,61
GLerror 48 48
37 38
19
Cómo crear variables auxiliares o Modelo de regresión múltiple con dos v. explicatorias,
dummies una continua y otra categórica con dos categorías
39 40
 Si la variable tiene sólo dos categorías se asignan los valores 0 y 1

 Una de las categorías debe ser tomada como referencia
 El valor 0 se asigna a la categoría de referencia
 En nuestro ejemplo, creamos la variable auxiliar varón

0: mujer 1:varón
Sexo Varón Mujer
 β0 es el valor esperado de Y cuando X1 y X2 valen 0
varón 1 0
 β1 es el cambio esperado en Y por cada aumento unitario en X1
mujer 0 1
 β2 es el cambio esperado en β0 cuando X2=1
Redundante!
39 40
20
Modelo de regresión múltiple con dos v. explicatorias, una
continua y otra categórica con dos categorías e interacción
41 42
interacción
 β0 es el valor esperado de Y cuando X1 = 0 para la categoría de referencia

 β1 es el cambio esperado en Y por cada aumento unitario en X1 para la  Ho1: 3= 0 Prueba de paralelismo
categoría de referencia  Ho2: 2= 0 Prueba de igualdad de ordenada al origen
 β2 es el cambio esperado en β0  Ho3: 1= 0
 β3 es el cambio esperado en β1  Ho4: 0= 0
41 42
21
Estimación de los parámetros
del modelo Validación del modelo
43 44
 Predichos vs observados
r =0.8937
43 44
22
Dos regresiones simples vs una
45
múltiple
 Tanto para RLS como para RLM:
 Las estimaciones de los parámetros son las mismas!

 Pero la RLM:
 Permite comparar las parámetros de ambas regresiones
 Mejor estimación del error del modelo
RLS RLS
Mujeres Varones RLM
n 50 50 100
R² 0,45 0,75 0,80
CMerror 133,83 124,61 129,22
GLerror 48 48 96
Schabenberger, 2002
45 46
23
Algunos comentarios
47 48
 Si existen más de dos categorías se deben generar tantas v. dummy como

categorías menos 1 (todas las dummy tomaran el valor 0 para la categoría
de referencia)
 Por ejemplo, si hubiese tres categorías de nivel de actividad física:
 Baja (referencia)
D1 D2
 Moderada
moderada alta
 Alta
baja 0 0
moderada 1 0
alta 0 1
 No es correcto asignar valores crecientes (por ejemplo 1, 2 y 3) ya que la
escala de la variable es ordinal y se la convierte en cuantitativa, asignándole
una métrica que no posee
 Al igual que en anova pueden realizarse contrastes
47 48
24

Correlacion RLS

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Correlacion RLS

Cargado por

Copyright:

Formatos disponibles

Diseños y Modelos

Adriana Pérez Héctor Olguín Salinas María Llames

RESPUESTA OBSERVADA= MODELO

 r estima al coeficiente de correlación de Pearson poblacional 

 Ho:  = 0 (no existe asociación lineal entre las variables

Pero, ¿es estadísticamente significativa la asociación?

 Atenti con los outliers

Procedimiento  Es una técnica que permite estudiar cómo una variable

VR parámetros VE  El componente determinístico i=1…n

 La función anterior no es observable directamente, sino que es

Gráficos de dispersión de residuos vs

Ho: 1 = 0  la variación de Y no se explica linealmente por la variación de X

H1: 1  0  la variación de Y sí se explica linealmente por la variación de X

Si la distribución de Y/X es normal, 𝛽 1 sigue una distribución normal, con

Es equivalente a construir el IC para β1 y

Se demuestra que 𝛽 1 sigue una distribución aproximadamente normal

Una vez estimados los parámetros del modelo, se calculan las

¿Cuál será la concentración de cadmio en hojas de pastos sometidos a las

 Existen relaciones que pueden ser modeladas por funciones

 Causalidad sólo en el contexto de experimentos

 La ventilación voluntaria máxima (VVM) es el máximo volumen que

REGRESIÓN CON VARIABLES

 Cuando se desea ajustar modelos de regresión para distintos subgrupos

 Mejor control del error tipo I

 Las v. cualitativas deben ser codificadas para poder ser incluidas en la

 Si la variable tiene sólo dos categorías se asignan los valores 0 y 1

 En nuestro ejemplo, creamos la variable auxiliar varón

 β0 es el valor esperado de Y cuando X1 = 0 para la categoría de referencia

 Las estimaciones de los parámetros son las mismas!

 Mejor estimación del error del modelo

 Si existen más de dos categorías se deben generar tantas v. dummy como

También podría gustarte