Está en la página 1de 7

Apunte 5

Características
De Modelos De
Regresión

FRANCISCO GÓMEZ

INDUSTRIA VIRTUAL 2020 1


INDUSTRIA VIRTUAL 2020 2
Introducción

En el contenido del apunte se explicitan las tres características que debería tener un buen modelo de
regresión. La significación del modelo indica que, por lo menos, una variable de las que contiene el
modelo propuesto es importante (idealmente todas). Luego, se define el coeficiente de determinación
que clasifica a los modelos de acuerdo con su capacidad de predecir valores futuros.

Finalmente se explicita la matriz de correlación que contiene la información del nivel de asociación que
tienen las variables. Entonces, el objetivo de este material es conocer las características de un buen
Modelo de Regresión.

Desarrollo

a) Significación del modelo


Se dócima si las variables que se incluyen en el modelo son importantes o no desde un punto de vista
estadístico. Para ello, se usa la técnica conocida como análisis de varianza (ANOVA):

i ) H 0 : β1 = β 2 = ... = β p = 0
ii ) H A : ∃β i ≠ 0
ii ) α : nivel designificación
CMregresión
iv) Fobs = ≈ F ( p, n − ( p + 1))
CMresiduos
v) Si Fobs > F1−α ( p, n − ( p + 1)) se rechaza H 0

Si se rechaza la hipótesis nula entonces el modelo es significativo. La tabla ANOVA tiene la siguiente
estructura (Figura1).

INDUSTRIA VIRTUAL 2020 3


Figura 1: Tabla ANOVA

Fuente g.l suma de Cuadrados medios Fobs Fcrit ( p, n − p − 1)


cuadrados(SC
) (CM)

Regresión p n 2 n 2
CMregre
⎛∧ ⎞ ⎛∧ ⎞
∑ ⎜ yi − y⎟ ∑ ⎜ yi − y⎟ / p CMresid
i =1 ⎝ ⎠ i =1 ⎝ ⎠
Residuos n-(p+1) n 2 n ∧
2
⎛∧ ⎞ ⎛ ⎞
∑ ⎜⎝ y − y ⎟⎠ / (n − ( p + 1))
∑ ⎜ y i − yi ⎟ i =1
i

i =1 ⎝ ⎠

Total n-1 n 2 n 2
⎛∧
∑ (y
i =1
i −y ) ∑
i =1 ⎝

⎜ y i − y ⎟ / (n − 1)

Fuente: Elaboración propia


n 2 n 2
⎛∧
∑ (y )

∑ ⎜ yi − y ⎟ i −y
⎝ ⎠
Nota : CMregresión = i =1 CMresiduos = i =1

p n − ( p + 1)

b) Calidad predictora del ajuste

Se mide con un índice conocido como coeficiente de determinación.


SCregresión
R2 =
SCtotales
n 2 n
⎛∧ ⎞ 2
Nota : SCregresión = ∑ ⎜ y i − y ⎟ SCtotales = ∑ yi − y ( )
i =1 ⎝ ⎠ i =1

2
Criterio de Comparación: mientras más cerca de 1 se encuentra el valor R , mejor predicción tendrá el
modelo.

c) Nivel de depuración de la información de las variables predictoras

INDUSTRIA VIRTUAL 2020 4


xi
Se calcula la matriz de correlación de las p variables predictoras . Si la correlación entre variables
xi y x j
es alta, indica que la información que contienen estas variables no está depurada. Lo ideal es que
las variables predictoras tengan una matriz de correlación muy cercana a la identidad.

La matriz de correlación fuera de la diagonal contiene los coeficientes de correlación lineal de Pearson y
su estructura es:

⎡1 r12 . . r1 p ⎤
⎢r 1 r23 . r2 p ⎥⎥
⎢ 21
⎢ . . . . r3 p ⎥
⎢ ⎥
⎢ . . . . . ⎥
R = ⎣rp1 rp 2 . . 1 ⎥⎦

Variables Dummy:

En el lado derecho del modelo se pueden incluir variables nominales. En tal caso, importa la
interpretación del coeficiente. Por ejemplo, consideremos el modelo:
y (a 0 , a1 , a 2 , a3 , x1 , x 2 , NSE ) = a 0 + a1 x1 + a 2 x 2 + a3 NSE + ξ

Suponga que la variable nivel socioeconómico NSE tiene tres niveles: bajo, mediano y alto. Si se considera
nivel socioeconómico bajo como el nivel de referencia. Se introducen en el modelo dos variables nuevas

rotuladas con ceros y unos. Las denotaremos por t M y t A .


y (a 0 , a1 , a 2 , a3 , a 4 , x1 , x 2 , t M , t A ) = a 0 + a1 x1 + a 2 x 2 + a3 t M + a 4 t A + ξ
Luego el modelo queda: Donde:
t M = Nivel socioeconómico mediano

t A = Nivel socioeconómico alto

Aplicando esperanza a ambos lados y considerando NSE bajo como referencia, se tiene:
E (y / x1 = a, x 2 = b, t M = 1, t A = 1) = a 0 + a1 a + a 2 b + a3 + a 4

E (y / x1 = a, x 2 = b, t M = 1, t A = 0) = a 0 + a1 a + a 2 b + a3

INDUSTRIA VIRTUAL 2020 5


Restando, se tiene el valor del coeficiente:
E (y / x1 = a, x 2 = b, t M = 1, t A = 1)− E (y / x1 = a, x 2 = b, t M = 1, t A = 0 ) = a 4

Interpretación del coeficiente

El valor que toma el coeficiente a 4 , corresponde a la diferencia de medias entre condición


socioeconómica alta respecto de la condición socioeconómica baja (que es el nivel de referencia) cuando

las otras variables se mantienen constantes. Por ejemplo, valores de las variables x1 = a y x 2 = b y la

condición socioeconómica t M = 1 (también puede ser cero).


a3
El coeficiente tiene una interpretación similar.
Observación: el número de variables Dummy que se deben incorporar en el modelo es (k-1) si los
niveles de la variable nominal es k.

Conclusión

La significación del Modelo se determina con una dócima respecto de los parámetros del modelo.
Particularmente se busca que, para el Modelo propuesto, la hipótesis nula sea rechazada, de tal forma que
el modelo sea significativo. Un valor del coeficiente de determinación cercano a 1 indica que tiene un alto
nivel de predicción.

De debe hacer notar que, mientras más variables tenga un modelo, mayor será este indicador. Pero,
usualmente, el costo a pagar cuando hay muchos predictores, es que la hipótesis nula es verdadera.

El cálculo de la matriz de correlación de las variables predictoras contiene la información en las entradas
fuera de la diagonal. Es adecuado que estas fueran cercanas a cero, lo que indicaría que la información
que entregan las variables predictoras no se superpone.

INDUSTRIA VIRTUAL 2020 6


Es muy improbable que un Modelo de regresión tenga éstas tres condiciones en un nivel óptimo.
Finalmente, se expone la forma de interpretar los coeficientes de un modelo, cuando una o más variables
predictoras son nominales, incorporando el concepto de variables Dummy.

Bibliografía

Cuadras, C. M. (2019). Nuevos Métodos de Análisis Multivariante. CMC

INDUSTRIA VIRTUAL 2020 7

También podría gustarte