Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Características
De Modelos De
Regresión
FRANCISCO GÓMEZ
En el contenido del apunte se explicitan las tres características que debería tener un buen modelo de
regresión. La significación del modelo indica que, por lo menos, una variable de las que contiene el
modelo propuesto es importante (idealmente todas). Luego, se define el coeficiente de determinación
que clasifica a los modelos de acuerdo con su capacidad de predecir valores futuros.
Finalmente se explicita la matriz de correlación que contiene la información del nivel de asociación que
tienen las variables. Entonces, el objetivo de este material es conocer las características de un buen
Modelo de Regresión.
Desarrollo
i ) H 0 : β1 = β 2 = ... = β p = 0
ii ) H A : ∃β i ≠ 0
ii ) α : nivel designificación
CMregresión
iv) Fobs = ≈ F ( p, n − ( p + 1))
CMresiduos
v) Si Fobs > F1−α ( p, n − ( p + 1)) se rechaza H 0
Si se rechaza la hipótesis nula entonces el modelo es significativo. La tabla ANOVA tiene la siguiente
estructura (Figura1).
Regresión p n 2 n 2
CMregre
⎛∧ ⎞ ⎛∧ ⎞
∑ ⎜ yi − y⎟ ∑ ⎜ yi − y⎟ / p CMresid
i =1 ⎝ ⎠ i =1 ⎝ ⎠
Residuos n-(p+1) n 2 n ∧
2
⎛∧ ⎞ ⎛ ⎞
∑ ⎜⎝ y − y ⎟⎠ / (n − ( p + 1))
∑ ⎜ y i − yi ⎟ i =1
i
i =1 ⎝ ⎠
Total n-1 n 2 n 2
⎛∧
∑ (y
i =1
i −y ) ∑
i =1 ⎝
⎞
⎜ y i − y ⎟ / (n − 1)
⎠
p n − ( p + 1)
2
Criterio de Comparación: mientras más cerca de 1 se encuentra el valor R , mejor predicción tendrá el
modelo.
La matriz de correlación fuera de la diagonal contiene los coeficientes de correlación lineal de Pearson y
su estructura es:
⎡1 r12 . . r1 p ⎤
⎢r 1 r23 . r2 p ⎥⎥
⎢ 21
⎢ . . . . r3 p ⎥
⎢ ⎥
⎢ . . . . . ⎥
R = ⎣rp1 rp 2 . . 1 ⎥⎦
⎢
Variables Dummy:
En el lado derecho del modelo se pueden incluir variables nominales. En tal caso, importa la
interpretación del coeficiente. Por ejemplo, consideremos el modelo:
y (a 0 , a1 , a 2 , a3 , x1 , x 2 , NSE ) = a 0 + a1 x1 + a 2 x 2 + a3 NSE + ξ
Suponga que la variable nivel socioeconómico NSE tiene tres niveles: bajo, mediano y alto. Si se considera
nivel socioeconómico bajo como el nivel de referencia. Se introducen en el modelo dos variables nuevas
Aplicando esperanza a ambos lados y considerando NSE bajo como referencia, se tiene:
E (y / x1 = a, x 2 = b, t M = 1, t A = 1) = a 0 + a1 a + a 2 b + a3 + a 4
E (y / x1 = a, x 2 = b, t M = 1, t A = 0) = a 0 + a1 a + a 2 b + a3
las otras variables se mantienen constantes. Por ejemplo, valores de las variables x1 = a y x 2 = b y la
Conclusión
La significación del Modelo se determina con una dócima respecto de los parámetros del modelo.
Particularmente se busca que, para el Modelo propuesto, la hipótesis nula sea rechazada, de tal forma que
el modelo sea significativo. Un valor del coeficiente de determinación cercano a 1 indica que tiene un alto
nivel de predicción.
De debe hacer notar que, mientras más variables tenga un modelo, mayor será este indicador. Pero,
usualmente, el costo a pagar cuando hay muchos predictores, es que la hipótesis nula es verdadera.
El cálculo de la matriz de correlación de las variables predictoras contiene la información en las entradas
fuera de la diagonal. Es adecuado que estas fueran cercanas a cero, lo que indicaría que la información
que entregan las variables predictoras no se superpone.
Bibliografía