Características de Modelos de Regresión

Apunte 5
Características
De Modelos De
Regresión
FRANCISCO GÓMEZ
INDUSTRIA VIRTUAL 2020 1

Introducción
En el contenido del apunte se explicitan las tres características que debería tener un buen modelo de
regresión. La significación del modelo indica que, por lo menos, una variable de las que contiene el
modelo propuesto es importante (idealmente todas). Luego, se define el coeficiente de determinación
que clasifica a los modelos de acuerdo con su capacidad de predecir valores futuros.
Finalmente se explicita la matriz de correlación que contiene la información del nivel de asociación que
tienen las variables. Entonces, el objetivo de este material es conocer las características de un buen
Modelo de Regresión.
Desarrollo
a) Significación del modelo

Se dócima si las variables que se incluyen en el modelo son importantes o no desde un punto de vista
estadístico. Para ello, se usa la técnica conocida como análisis de varianza (ANOVA):
i ) H 0 : β1 = β 2 = ... = β p = 0
ii ) H A : ∃β i ≠ 0
ii ) α : nivel designificación
CMregresión
iv) Fobs = ≈ F ( p, n − ( p + 1))
CMresiduos
v) Si Fobs > F1−α ( p, n − ( p + 1)) se rechaza H 0
Si se rechaza la hipótesis nula entonces el modelo es significativo. La tabla ANOVA tiene la siguiente
estructura (Figura1).

Figura 1: Tabla ANOVA
Fuente g.l suma de Cuadrados medios Fobs Fcrit ( p, n − p − 1)

cuadrados(SC
) (CM)
Regresión p n 2 n 2
CMregre
⎛∧ ⎞ ⎛∧ ⎞
∑ ⎜ yi − y⎟ ∑ ⎜ yi − y⎟ / p CMresid
i =1 ⎝ ⎠ i =1 ⎝ ⎠
Residuos n-(p+1) n 2 n ∧
2
⎛∧ ⎞ ⎛ ⎞
∑ ⎜⎝ y − y ⎟⎠ / (n − ( p + 1))
∑ ⎜ y i − yi ⎟ i =1
i
i =1 ⎝ ⎠
Total n-1 n 2 n 2
⎛∧
∑ (y
i =1
i −y ) ∑
i =1 ⎝
⎞
⎜ y i − y ⎟ / (n − 1)
⎠
Fuente: Elaboración propia

n 2 n 2
⎛∧
∑ (y )
⎞
∑ ⎜ yi − y ⎟ i −y
⎝ ⎠
Nota : CMregresión = i =1 CMresiduos = i =1
p n − ( p + 1)
b) Calidad predictora del ajuste
Se mide con un índice conocido como coeficiente de determinación.

SCregresión
R2 =
SCtotales
n 2 n
⎛∧ ⎞ 2
Nota : SCregresión = ∑ ⎜ y i − y ⎟ SCtotales = ∑ yi − y ( )
i =1 ⎝ ⎠ i =1
2
Criterio de Comparación: mientras más cerca de 1 se encuentra el valor R , mejor predicción tendrá el
modelo.
c) Nivel de depuración de la información de las variables predictoras

xi
Se calcula la matriz de correlación de las p variables predictoras . Si la correlación entre variables
xi y x j
es alta, indica que la información que contienen estas variables no está depurada. Lo ideal es que
las variables predictoras tengan una matriz de correlación muy cercana a la identidad.
La matriz de correlación fuera de la diagonal contiene los coeficientes de correlación lineal de Pearson y
su estructura es:
⎡1 r12 . . r1 p ⎤
⎢r 1 r23 . r2 p ⎥⎥
⎢ 21
⎢ . . . . r3 p ⎥
⎢ ⎥
⎢ . . . . . ⎥
R = ⎣rp1 rp 2 . . 1 ⎥⎦
⎢
Variables Dummy:
En el lado derecho del modelo se pueden incluir variables nominales. En tal caso, importa la
interpretación del coeficiente. Por ejemplo, consideremos el modelo:
y (a 0 , a1 , a 2 , a3 , x1 , x 2 , NSE ) = a 0 + a1 x1 + a 2 x 2 + a3 NSE + ξ
Suponga que la variable nivel socioeconómico NSE tiene tres niveles: bajo, mediano y alto. Si se considera
nivel socioeconómico bajo como el nivel de referencia. Se introducen en el modelo dos variables nuevas
rotuladas con ceros y unos. Las denotaremos por t M y t A .

y (a 0 , a1 , a 2 , a3 , a 4 , x1 , x 2 , t M , t A ) = a 0 + a1 x1 + a 2 x 2 + a3 t M + a 4 t A + ξ
Luego el modelo queda: Donde:
t M = Nivel socioeconómico mediano
t A = Nivel socioeconómico alto
Aplicando esperanza a ambos lados y considerando NSE bajo como referencia, se tiene:
E (y / x1 = a, x 2 = b, t M = 1, t A = 1) = a 0 + a1 a + a 2 b + a3 + a 4
E (y / x1 = a, x 2 = b, t M = 1, t A = 0) = a 0 + a1 a + a 2 b + a3

Restando, se tiene el valor del coeficiente:
E (y / x1 = a, x 2 = b, t M = 1, t A = 1)− E (y / x1 = a, x 2 = b, t M = 1, t A = 0 ) = a 4
Interpretación del coeficiente
El valor que toma el coeficiente a 4 , corresponde a la diferencia de medias entre condición

socioeconómica alta respecto de la condición socioeconómica baja (que es el nivel de referencia) cuando
las otras variables se mantienen constantes. Por ejemplo, valores de las variables x1 = a y x 2 = b y la
condición socioeconómica t M = 1 (también puede ser cero).

a3
El coeficiente tiene una interpretación similar.
Observación: el número de variables Dummy que se deben incorporar en el modelo es (k-1) si los
niveles de la variable nominal es k.
Conclusión
La significación del Modelo se determina con una dócima respecto de los parámetros del modelo.
Particularmente se busca que, para el Modelo propuesto, la hipótesis nula sea rechazada, de tal forma que
el modelo sea significativo. Un valor del coeficiente de determinación cercano a 1 indica que tiene un alto
nivel de predicción.
De debe hacer notar que, mientras más variables tenga un modelo, mayor será este indicador. Pero,
usualmente, el costo a pagar cuando hay muchos predictores, es que la hipótesis nula es verdadera.
El cálculo de la matriz de correlación de las variables predictoras contiene la información en las entradas
fuera de la diagonal. Es adecuado que estas fueran cercanas a cero, lo que indicaría que la información
que entregan las variables predictoras no se superpone.

Es muy improbable que un Modelo de regresión tenga éstas tres condiciones en un nivel óptimo.
Finalmente, se expone la forma de interpretar los coeficientes de un modelo, cuando una o más variables
predictoras son nominales, incorporando el concepto de variables Dummy.
Bibliografía
Cuadras, C. M. (2019). Nuevos Métodos de Análisis Multivariante. CMC

Características de Modelos de Regresión

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Características de Modelos de Regresión

Cargado por

Copyright:

Formatos disponibles

Apunte 5

INDUSTRIA VIRTUAL 2020 1

a) Significación del modelo

INDUSTRIA VIRTUAL 2020 3

Fuente g.l suma de Cuadrados medios Fobs Fcrit ( p, n − p − 1)

Fuente: Elaboración propia

b) Calidad predictora del ajuste

Se mide con un índice conocido como coeficiente de determinación.

c) Nivel de depuración de la información de las variables predictoras

INDUSTRIA VIRTUAL 2020 4

rotuladas con ceros y unos. Las denotaremos por t M y t A .

t A = Nivel socioeconómico alto

INDUSTRIA VIRTUAL 2020 5

Interpretación del coeficiente

El valor que toma el coeficiente a 4 , corresponde a la diferencia de medias entre condición

condición socioeconómica t M = 1 (también puede ser cero).

INDUSTRIA VIRTUAL 2020 6

Cuadras, C. M. (2019). Nuevos Métodos de Análisis Multivariante. CMC

INDUSTRIA VIRTUAL 2020 7

También podría gustarte