Clase Modelos Lineales Chamela 2023

Modelos lineales
Marisela Martínez Ruiz

Un modelo lineal expresa en forma cuantitativa las
relaciones entre un conjunto de variables
¿Cómo se relaciona la cantidad de
visitas de los padres al nido con el
peso del pollo?
Yi = b0 + b1 X1 + ⍷i
Variable Error
dependiente Intercepto Pendiente Variable
Peso (g)
independiente
*Magnitud y direccción del efecto
No. Visitas
Resultado de la regresión:
Supuestos:
*Cambio proporcional
• Linealidad
*Bondad de ajuste
• Normalidad
• Homocedasticidad
• Independencia de los errores
Supuestos:
1. Linealidad: La relación entre “y” y “x” es lineal
• Gráfico de dispersión
• Relación no lineal muestra alguna configuración observable.
Negativa: si x
incrementa, y
disminuye
Positiva: si x incrementa, y
incrementa
TRANSFORMACIÓN
No hay relación Relación no-lineal

Verificando linealidad
1
Lineal
No lineal
Opción: Test de correlación

Supuestos:
2. Normalidad: los residuos se distribuyen de forma
normal
• Evaluación gráfica (Qqplot)
• Opción: Prueba de normalidad (Shapiro test)
Anova: test Kolmogorov-Smirnov

Supuestos:
3. Homocedasticidad: La varianza de los residuos es
homogénea
Pronóstico diferente
para los distintos
valores de y
Inspección gráfica:
estandarizados
Residuos
Valores pronósticos
Opción: Test de Breusch Pagan; Anova: test de Levene
Supuesto:
4. Residuos independientes
Los residuos deben ser independientes entre sí, no hay
correlación entre ellos.
Residuos no independientes
Opción: test de Durbin Watson, H0= residuos independientes

requisito:
Identificar valores influyentes (outliers)
Observaciones marcadamente diferentes del conjunto de datos
outliers
Observar dispersión de los datos
Medidas de influencia:
Distancia de Cook > = 1 indica que ese caso es un valor influyente
Supuestos para regresión lineal
Modelar el valor esperado de Y como una función lineal de un predictor(es) X
SUPUESTOS
1. Linealidad
2. Normalidad
3. Homocedasticidad
4. Independencia de los errores
Requisitos:
• Valores influyentes
• Multicolinealidad: Estadístico VIF (factor de inflación de varianza)

< = 5 indica colinealidad
¿Y sí no se cumplen los supuestos?
*Transformación de variables: re-expresar los datos
*Útiles para hacer datos interpretables, aunque se cumplan los

supuestos
*Interpretación de la variable transformada no es directa
• Transformación logarítmica y = log(y)

• Raíz cuadrada y = raíz(y)
• Inversa y = 1/y
• Cuadrado y = y2
¿Y sí no funcionan?
Modelos lineales generalizados (GLM)
Modelos lineales (regresión) útiles para modelar respuestas continuas, pero
están limitados si:
• Y tiene un rango restringido: ej: es binaria o es un conteo, común en ecología
• Otros tipos de distribuciones
GLM:
• Extienden el modelo lineal general para manejar datos de otro tipo
• Alternativa a transformaciones de Y ante la falta de linealidad y de

homocedasticidad de la varianza
• Asume que Y sigue alguna distribución de la familia exponencial
Buscar relación NO LINEAL entre predictores que afectan la distribución de Y

mediante una COMBINACIÓN LINEAL de variables predictoras
Generalized Linear Model
Trabaja con aquella distribución de probabilidad y una función para el cambio
en la respuesta media de Y que mejor acomoda los datos
GLM permite especificar, separadamente:
1) La distribución de los datos ( i.e. la relación media-varianza)

Función de varianza
2) Las relaciones de linealidad entre la respuesta media de Y y los predictores
Función link o enlace
Además:
*No forzan transformaciones de X y Y a escalas no naturales difíciles de interpretar

LM vs GLM
Valores ajustados
Relación Linealidad en
de escala del
identidad predictor lineal,
no en valores
ajustados
Componente aleatorio:
*LM se distribuye de manera normal
*GLM no necesariamente distribución normal, usa alguna distribución de la familia exponencial
Modelos de dispersión exponencial
Incluye las distribuciones:
• Normal • Gamma
• Normal inversa • Binomial
• Exponencial • Poisson
• Weibull • Binomial negativa
La familia de distribuciones exponencial permite que GLMs sean ajustados a

datos binarios, proporciones, recuentos, datos continuos positivos y datos
continuos con ceros exactos
Links para GLM de familia exponencial
Un GLM está especificado por tres componentes:
1.Aleatoria.
2.Sistemática.
3.De enlace.
E(Y|X) =μ = g -1(Xβ)
Componente Componente Componente

aleatoria de enlace sistemática
Distribución de Describe como el

probabilidad de la valor esperado Específica una
variable dependiente esta relacionado funcion lineal
(normal, poisson, con el predictor de las variables
binomial…) lineal explicativas
GLM útiles cuando:
Y = Binomial: se cumple o no cierta condición resultado de un conjunto de variables
predictoras numéricas o categóricas
Probabilidad de ocurrencia de x
especie en volumen de hojarasca
Y = Poisson: número de ocasiones que ha ocurrido un evento en un tiempo o espacio

determinado
Abundancia de x especie por la

media de exposición al sol
Y = Exponencial: observamosel tiempo transcurrido hasta que ocurre un evento
de interés como resultado de variables predictoras numéricas o categóricas
Número de organismos registrados

en unidad de tiempo
Y= Gamma: Numérico que sólo puede tomar valores positivos de forma

asimétrica, concentrada en un conjunto de valores y su frecuencia disminuye
cuando aumenta el valor de la respuesta (Gamma)
Número de organismos registrados

en relación al nivel de
contaminación
En resumen…
• Observar distribución de datos
• Verificar los supuestos antes de interpretar resultados
• Decidir la mejor aproximación para mi conjunto de datos
• Asegurar homocedasticidad y normalidad
• Un modelo lineal puede no ser lo ideal
• Más simple es mejor

Clase Modelos Lineales Chamela 2023

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase Modelos Lineales Chamela 2023

Cargado por

Copyright:

Formatos disponibles

Modelos lineales

Marisela Martínez Ruiz

*Magnitud y direccción del efecto

1. Linealidad: La relación entre “y” y “x” es lineal

No hay relación Relación no-lineal

Opción: Test de correlación

Anova: test Kolmogorov-Smirnov

Opción: test de Durbin Watson, H0= residuos independientes

Identificar valores influyentes (outliers)

Observaciones marcadamente diferentes del conjunto de datos

Observar dispersión de los datos

• Multicolinealidad: Estadístico VIF (factor de inflación de varianza)

*Útiles para hacer datos interpretables, aunque se cumplan los

*Interpretación de la variable transformada no es directa

• Transformación logarítmica y = log(y)

• Alternativa a transformaciones de Y ante la falta de linealidad y de

• Asume que Y sigue alguna distribución de la familia exponencial

Buscar relación NO LINEAL entre predictores que afectan la distribución de Y

GLM permite especificar, separadamente:

1) La distribución de los datos ( i.e. la relación media-varianza)

*No forzan transformaciones de X y Y a escalas no naturales difíciles de interpretar

Incluye las distribuciones:

La familia de distribuciones exponencial permite que GLMs sean ajustados a

Componente Componente Componente

Distribución de Describe como el

Y = Poisson: número de ocasiones que ha ocurrido un evento en un tiempo o espacio

Abundancia de x especie por la

Número de organismos registrados

Y= Gamma: Numérico que sólo puede tomar valores positivos de forma

Número de organismos registrados

• Observar distribución de datos

• Verificar los supuestos antes de interpretar resultados

• Decidir la mejor aproximación para mi conjunto de datos

• Asegurar homocedasticidad y normalidad

• Un modelo lineal puede no ser lo ideal

• Más simple es mejor

También podría gustarte