Está en la página 1de 19

Modelos lineales

Marisela Martínez Ruiz


Un modelo lineal expresa en forma cuantitativa las
relaciones entre un conjunto de variables
¿Cómo se relaciona la cantidad de
visitas de los padres al nido con el
peso del pollo?
Yi = b0 + b1 X1 + ⍷i
Variable Error
dependiente Intercepto Pendiente Variable
Peso (g)

independiente

*Magnitud y direccción del efecto

No. Visitas
Resultado de la regresión:
Supuestos:
*Cambio proporcional
• Linealidad
*Bondad de ajuste
• Normalidad
• Homocedasticidad
• Independencia de los errores
Supuestos:

1. Linealidad: La relación entre “y” y “x” es lineal

• Gráfico de dispersión
• Relación no lineal muestra alguna configuración observable.

Negativa: si x
incrementa, y
disminuye
Positiva: si x incrementa, y
incrementa

TRANSFORMACIÓN

No hay relación Relación no-lineal


Verificando linealidad
1

Lineal

No lineal

Opción: Test de correlación


Supuestos:
2. Normalidad: los residuos se distribuyen de forma
normal
• Evaluación gráfica (Qqplot)
• Opción: Prueba de normalidad (Shapiro test)

Anova: test Kolmogorov-Smirnov


Supuestos:
3. Homocedasticidad: La varianza de los residuos es
homogénea

Pronóstico diferente
para los distintos
valores de y

Inspección gráfica:
estandarizados
Residuos

Valores pronósticos
Opción: Test de Breusch Pagan; Anova: test de Levene
Supuesto:
4. Residuos independientes
Los residuos deben ser independientes entre sí, no hay
correlación entre ellos.

Residuos no independientes

Opción: test de Durbin Watson, H0= residuos independientes


requisito:

Identificar valores influyentes (outliers)

Observaciones marcadamente diferentes del conjunto de datos

outliers

Observar dispersión de los datos

Medidas de influencia:
Distancia de Cook > = 1 indica que ese caso es un valor influyente
Supuestos para regresión lineal
Modelar el valor esperado de Y como una función lineal de un predictor(es) X

SUPUESTOS
1. Linealidad
2. Normalidad
3. Homocedasticidad
4. Independencia de los errores

Requisitos:

• Valores influyentes

• Multicolinealidad: Estadístico VIF (factor de inflación de varianza)


< = 5 indica colinealidad
¿Y sí no se cumplen los supuestos?
*Transformación de variables: re-expresar los datos

*Útiles para hacer datos interpretables, aunque se cumplan los


supuestos

*Interpretación de la variable transformada no es directa

• Transformación logarítmica y = log(y)


• Raíz cuadrada y = raíz(y)
• Inversa y = 1/y
• Cuadrado y = y2

¿Y sí no funcionan?
Modelos lineales generalizados (GLM)
Modelos lineales (regresión) útiles para modelar respuestas continuas, pero
están limitados si:
• Y tiene un rango restringido: ej: es binaria o es un conteo, común en ecología
• Otros tipos de distribuciones

GLM:
• Extienden el modelo lineal general para manejar datos de otro tipo

• Alternativa a transformaciones de Y ante la falta de linealidad y de


homocedasticidad de la varianza

• Asume que Y sigue alguna distribución de la familia exponencial

Buscar relación NO LINEAL entre predictores que afectan la distribución de Y


mediante una COMBINACIÓN LINEAL de variables predictoras
Generalized Linear Model
Trabaja con aquella distribución de probabilidad y una función para el cambio
en la respuesta media de Y que mejor acomoda los datos

GLM permite especificar, separadamente:

1) La distribución de los datos ( i.e. la relación media-varianza)


Función de varianza
2) Las relaciones de linealidad entre la respuesta media de Y y los predictores
Función link o enlace

Además:

*No forzan transformaciones de X y Y a escalas no naturales difíciles de interpretar


LM vs GLM

Valores ajustados

Relación Linealidad en
de escala del
identidad predictor lineal,
no en valores
ajustados

Componente aleatorio:
*LM se distribuye de manera normal
*GLM no necesariamente distribución normal, usa alguna distribución de la familia exponencial
Modelos de dispersión exponencial

Incluye las distribuciones:

• Normal • Gamma
• Normal inversa • Binomial
• Exponencial • Poisson
• Weibull • Binomial negativa

La familia de distribuciones exponencial permite que GLMs sean ajustados a


datos binarios, proporciones, recuentos, datos continuos positivos y datos
continuos con ceros exactos
Links para GLM de familia exponencial
Un GLM está especificado por tres componentes:
1.Aleatoria.
2.Sistemática.
3.De enlace.
E(Y|X) =μ = g -1(Xβ)

Componente Componente Componente


aleatoria de enlace sistemática

Distribución de Describe como el


probabilidad de la valor esperado Específica una
variable dependiente esta relacionado funcion lineal
(normal, poisson, con el predictor de las variables
binomial…) lineal explicativas
GLM útiles cuando:
Y = Binomial: se cumple o no cierta condición resultado de un conjunto de variables
predictoras numéricas o categóricas

Probabilidad de ocurrencia de x
especie en volumen de hojarasca

Y = Poisson: número de ocasiones que ha ocurrido un evento en un tiempo o espacio


determinado

Abundancia de x especie por la


media de exposición al sol
Y = Exponencial: observamosel tiempo transcurrido hasta que ocurre un evento
de interés como resultado de variables predictoras numéricas o categóricas

Número de organismos registrados


en unidad de tiempo

Y= Gamma: Numérico que sólo puede tomar valores positivos de forma


asimétrica, concentrada en un conjunto de valores y su frecuencia disminuye
cuando aumenta el valor de la respuesta (Gamma)

Número de organismos registrados


en relación al nivel de
contaminación
En resumen…

• Observar distribución de datos

• Verificar los supuestos antes de interpretar resultados

• Decidir la mejor aproximación para mi conjunto de datos

• Asegurar homocedasticidad y normalidad

• Un modelo lineal puede no ser lo ideal

• Más simple es mejor

También podría gustarte