Está en la página 1de 15

APUNTE ACADÉMICO

CORRELACIÓN Y BONDAD DEL


AJUSTE EN LA REGRESIÓN
LINEAL

CLASE 7: CORRELACIÓN Y BONDAD DEL AJUSTE EN LA


REGRESIÓN LINEAL

UNIDAD 2: EL MODELO DE REGRESIÓN LINEAL SIMPLE

ASIGNATURA: AEA4257 ECONOMETRÍA

FACULTAD DE INGENIERÍA Y NEGOCIOS


Introducción

En la clase anterior, hemos estudiado cómo utilizar el método de mínimos


cuadrados ordinarios para estimar un modelo de regresión lineal simple. Sin
embargo, naturalmente nos emerge ahora la pregunta sobre cuán “bueno” es este
modelo que acabamos de obtener, esto es, cuan bueno es para predecir y proyectar
el comportamiento de los datos. Necesitamos generar una medida que nos permita
conocer el desempeño del modelo (lo que se conoce como “bondad de ajuste”) y
que nos permita también comparar modelos diferentes y determinar cuál de ellos
explica mejor los datos. Para esto, examinemos primero un ejemplo concreto
obtenido de la publicación “Proyecciones de la econometría sobre la empresa: un
modelo de previsión sobre indicadores financieros” (Nevado, D. & López, V., 2000).
En esta, los autores abordan la consideración de un indicador de bondad de ajuste
en regresiones lineales.

A continuación, se muestra una ecuación del estudio, indicando coeficiente de


determinación corregido se cifra en torno al 93%.

Respecto de la explicación de las compras de Mercaderías (CM) periodo 1982 –


1997:

La relación estimada contiene las compras de mercadería del periodo anterior


(𝐶𝑀𝑡−1 ), las ventas totales del periodo en curso (𝑉𝑇𝑡 ) y una variable ficticia o
indicadora (toma valor 1 si es antes del periodo 1994 y 0 después de 1994) (F96)
debida al proceso de fusión:

𝐶𝑀𝑡 = 0.68𝐶𝑀𝑡−1 + 0.103𝑉𝑇𝑡 + 3051.02𝐹96 − 1094.42

(9.50) (4.83) (2.33) (−1.42)


El objetivo del artículo es la consideración de la herramienta econométrica dentro
del campo de la contabilidad, para ello, se plantea un modelo de previsión que sirve
como instrumento de predicción y de decisión para el gestor empresarial, ya que
sólo debe definir la política económico financiera que va a mantener en el futuro
para resolver los interrogantes de la cifra de negocios.

Estos son los temas que desarrollaremos en el apunte académico, considerando los
criterios necesarios para una regresión lineal.

La selección de un modelo de regresión lineal múltiple, implica comparar


indicadores de la conducta en diferentes aspectos, de las estimaciones logradas
con los datos muestrales. A continuación, revisaremos algunos.
Precisión o errores estándar de las estimaciones de mínimos
cuadrados

La primera medida que nos permite saber que tan confiable sean los parámetros
estimados de nuestro modelo, con el objetivo de explicar los datos, es el error
estándar de los estimadores. Este mide los desvíos respecto al valor promedio y
contribuye a la generación del test estadístico para probar significancia parcial, es
decir, cual variable independiente contribuye de forma significativa en la explicación
de la variable dependiente.

Las estimaciones de parámetros betas mediante MCO utilizan datos muestrales que
se modifican de una muestra a otra, por lo que se exige confiabilidad en los
estimadores del modelo de regresión lineal obtenido, es decir, medir el error
estándar de los coeficientes 𝛽̂0 y 𝛽̂1 obtenido de la siguiente forma: (Gujarati &
Porter, 2010)
𝜎
𝑒𝑒(𝛽̂1 ) =
√∑ 𝑥𝑖2

∑ 𝑋𝑖2
𝑒𝑒(𝛽̂0 ) = √ 𝜎
𝑛 ∑ 𝑥𝑖2

Donde,

∑ 𝑥𝑖2 = ∑(𝑋𝑖 − 𝑋̅)2

∑ 𝑢̂𝑖2
𝜎̂ = √
𝑛−2

𝜎̂ : Se conoce como el estimador del error o desviación estándar del modelo.

Ejemplo: Utilizaremos el ejemplo de la clase 6 con un pequeño conjunto de 5


familias. Los datos observados corresponden al gasto mensual de alimentación
mensual en pesos (Y), explicados por el número de hijos de cada familia (X).
Tabla: Datos registrados de los gastos en alimento de las familias ($/mes) para diferentes números
de hijos.

i 𝑿𝒊 𝒀𝒊 𝑿𝒊 𝟐 𝒀𝒊 𝟐 𝑿𝒊 ∗ 𝒀 𝒊 ̂𝒊
𝒀 ̂𝒊
𝒖 ̂𝒊𝟐
𝒖 ̂𝒊 𝟐
𝒙

1 1 350.000 1 390.000 - 1.600.000.000 4


122.500.000.000 350.000
40.000

2 2 500.000 4 250.000.000.000 1.000.000 430.000 70.000 4.900.000.000 1

3 3 400.000 9 470.000 - 4.900.000.000 0


160.000.000.000 1.200.000
70.000

4 4 600.000 16 360.000.000.000 2.400.000 510.000 90.000 8.100.000.000 1

5 5 500.000 25 550.000 - 2.500.000.000 4


250.000.000.000 2.500.000
50.000

Σ 15 2.350.000 55 1.142.500.000.000 7.450.000 2.350.000 0 22.000.000.000 10

El modelo de regresión lineal estimado quedó expresado como:

𝑌̂𝑖 = 350.000 + 40.000𝑋𝑖

Veamos las predicciones que hace nuestro modelo para la posición 𝑖 = 3 (tercera
fila de datos o tercera familia). Puesto la tercera familia tiene tres hijos, tenemos que
𝑋3 = 3 e 𝑌3 = 400.000, nuestro modelo predice un gasto mensual de:

𝑌̂3 = 350000 + 40000 ∗ 3 = 470.000

Sin embargo, al consultar la tabla, tenemos que el gasto en alimentación de la tercer


a familia fue en realidad de 𝑌3 =400.000. El error de la estimación es entonces:

𝑢̂3 = 𝑌3 − 𝑌̂3 = 400.000 − 470.000 = −70.000

Elevándolo al cuadrado, obtenemos:

𝑢̂3 2 = (−70.000)2 = 4.900.000.000

Por otra parte, el promedio de niños por familia para la muestra es:

𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 + 𝑋5 1+2+3+4+5
𝑋̅ = = =3
5 5
Por tanto, tenemos que:

𝑥̂3 2 = (𝑋3 − 𝑋̅) = (3 − 3)2 = 0

Continuando el mismo procedimiento, podemos obtener:

𝑢̂1 = (350.000 − 390.000) = −40.000, 𝑢̂2 = (500.000 − 430.000) = 70.000

𝑥̂1 = (1 − 3)2 = 4 , 𝑥̂2 = (2 − 3)2 = 1

Luego, estimaremos los errores estándar de los coeficientes mediante la sumatoria


de los desvíos de la variable independiente respecto su promedio (última columna
de la tabla):

∑ 𝑥̂𝑖2 = ∑(𝑋𝑖 − 𝑋̅)2 = 4 + 1 + 0 + 1 + 4 = 10

Ahora, en la estimación de la desviación estándar del modelo, utilizamos la


sumatoria de los residuos al cuadrado:

∑ 𝑢̂𝑖2 22.000.000.000
𝜎̂ = √ =√ = √7.333.333.333 = 85.634,88
𝑛−2 5−2

Finalmente, con el desarrollo matemático de las líneas superiores respecto a la


desviación del modelo y de la variable independiente, logramos determinar los
errores estándar de cada parámetro estimado:

𝜎 85.634,88
𝑒𝑒(𝛽̂1 ) = = = 27.080,13
√10
√∑ 𝑥𝑖2

∑ 𝑋𝑖2 55
𝑒𝑒(𝛽̂0 ) = √ 2 𝜎=√ ∗ 85.634,88 = 89.814,62
𝑛 ∑ 𝑥𝑖 5 ∗ 10

Si realizamos el comparativo con la salida de una regresión lograda con el “Análisis


de datos” del Excel1:

1
En el video de la clase anterior puede encontrar como se obtienen estos datos.
Resumen

Estadísticas de la regresión

Coeficiente de correlación
múltiple 0,648885685

Coeficiente de determinación R^2 0,421052632

R^2 ajustado 0,228070175 = 𝜎̂


Error típico 85634,88386

Observaciones 5

ANÁLISIS DE
VARIANZA

Grados
de Suma de Promedio de los Valor crítico
libertad cuadrados cuadrados F de F

Regresión 1 16000000000 16000000000 2,1818 0,236153677

Residuos 3 22000000000 7333333333

Total 4 38000000000

Error típico Estadístico Superior


Coeficientes t Probabilidad Inferior 95% 95%

Intercepción 350000 89814,6239 3,8969 0,02998 64169,78 635830,21

Variable X 1 40000 27080,12802 1,4771 0,23615 -46181,05 126181,053

𝑒𝑒(𝛽̂0 ) y 𝑒𝑒(𝛽̂1 )
Coeficiente de correlación en el modelo lineal simple

El coeficiente de correlación es una medida que ya hemos visto anteriormente, pero


que volveremos a tratar, dada su importancia en el análisis. El coeficiente mide la
fortaleza de la dependencia lineal entre las variables dependiente e independiente,
pero además mide la “dirección” entre ellas.

Llamaremos r al coeficiente de correlación lineal:

𝑛 ∑ 𝑋𝑖 𝑌𝑖 − ∑ 𝑋𝑖 ∑ 𝑌𝑖
𝑟=
√𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 ∗ √𝑛 ∑ 𝑌𝑖2 − (∑ 𝑌𝑖 )2

Ejemplo: Considerando el ejemplo de las 5 familias.

X: número de hijos de cada familia.

Y: gasto mensual de alimentación mensual en pesos.

El cálculo del coeficiente de correlación queda de la siguiente forma:

5 ∗ 7.450.000 − 15 ∗ 2.350.000 2.000.000


𝑟= = = 0,6489
√5 ∗ 55 − (15)2 ∗ √5 ∗ 1.142.500.000.000 − (2.350.000)2 7.07 ∗ 435.889,89

En el esquema para interpretar la correlación lineal, nos ubicamos en el rango de la


fuerte dependencia lineal entre el número de hijos por familia y el gasto en
alimentación, donde a mayor número de integrantes se espera un mayor gasto en
consumo por alimentos mensuales.

Fuerte dependencia lineal entre n° de


hijos y el gasto en alimentos. Ambas
variables van en la misma dirección.

-1 -0,5 0 0,5 0,6489 1


Realizando un paralelo con la salida del “Análisis de datos” de Excel, en una
Regresión, el coeficiente de correlación queda comprobado:

Resumen
=r
Estadísticas de la regresión

Coeficiente de correlación múltiple 0,648885685

Coeficiente de determinación R^2 0,421052632

R^2 ajustado 0,228070175

Error típico 85634,88386

Observaciones 5
Coeficiente de determinación o Bondad del ajuste del modelo

Continuando con los indicadores para el análisis de regresión, debemos mencionar


la existencia del coeficiente de determinación, también conocido como indicador de
la bondad del ajuste de un modelo de regresión lineal al conjunto de datos
muestrales.

Este coeficiente (𝑟 2 ) varía entre 0 y 1, pero por facilidad en la interpretación lo


transformamos a porcentaje. Este porcentaje indica la variabilidad de la variable
respuesta, atribuible a los cambios en la variable explicativa. A mayor porcentaje
del coeficiente de determinación “mejor” es el ajuste de la línea de regresión a los
datos muestrales con la que se construyó.

Para calcular el 𝑟 2 seguimos el procedimiento de Gujarati & Porter, (2010). Primero,


expresamos la variable respuesta como la suma de la predicción del modelo y el
error de predicción:

𝑌𝑖 = 𝑌̂𝑖 + 𝑢̂𝑖

Restando 𝑌̅ a ambos lados de la ecuación, expresamos las variables en forma de


desvíos respecto del promedio,

(𝑌𝑖 − 𝑌̅) = (𝑌̂𝑖 − 𝑌̅̂ ) + 𝑢̂𝑖

𝑦𝑖 = 𝑦̂𝑖 + 𝑢̂𝑖

Al elevar al cuadrado ambos lados de la igualdad y sumar sobre la muestra:

0
∑ 𝑦𝑖 2 = ∑(𝑦̂𝑖 + 𝑢̂𝑖 )2

∑ 𝑦𝑖 2 = ∑ 𝑦̂𝑖 2 + ∑ 𝑢̂𝑖 2 + 2 ∑ 𝑦̂𝑖 𝑢̂𝑖

∑ 𝑦𝑖 2 = ∑ 𝑦̂𝑖 2 + ∑ 𝑢̂𝑖 2

2
∑ 𝑦𝑖 2 = 𝛽̂1 ∑ 𝑥𝑖 2 + ∑ 𝑢̂𝑖 2
Sumas de cuadrados:

Hay diferentes sumatorias de diferencias al cuadrado que indican desvíos. Cada


una tiene una denominación en particular y apoyan en la determinación de la
bondad del ajuste y en la significancia de un modelo de regresión (lo veremos en
clases posteriores):

Suma de cuadrados total: 𝑆𝐶𝑇 = ∑ 𝑦𝑖 2 = ∑(𝑌𝑖 − 𝑌̅)2

2 2
Suma de cuadrados explicada: 𝑆𝐶𝐸 = ∑ 𝑦̂𝑖 2 = ∑(𝑌̂𝑖 − 𝑌̅) = 𝛽̂1 ∑ 𝑥𝑖 2

2
Suma de cuadrados residual: 𝑆𝐶𝑅 = ∑ 𝑢̂𝑖 2 = ∑(𝑌̂𝑖 − 𝑌𝑖 )

Se tiene, además, 𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅

Luego, tenemos que la construcción del coeficiente de determinación se logra del


siguiente ejercicio:

𝑆𝐶𝑇 𝑆𝐶𝐸 𝑆𝐶𝑅


= +
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇
2 2
∑(𝑌̂𝑖 − 𝑌̅) ∑(𝑌̂𝑖 − 𝑌𝑖 )
1= +
∑(𝑌𝑖 − 𝑌̅)2 ∑(𝑌𝑖 − 𝑌̅)2

Se define 𝑟 2 de la siguiente manera:


2
2
∑(𝑌̂𝑖 − 𝑌̅) 𝑆𝐶𝐸 𝑆𝐶𝑅
𝑟 = = = 1 −
∑(𝑌𝑖 − 𝑌̅)2 𝑆𝐶𝑇 𝑆𝐶𝑇

También se puede calcular:


2
𝑆𝐶𝐸 2 ∑ 𝑥𝑖
2
𝑟 = ̂
= 𝛽1 ( )
𝑆𝐶𝑇 ∑ 𝑦𝑖 2

Finalmente, también podemos asociar el coeficiente de determinación con el


coeficiente de correlación de la siguiente forma:

𝑟 = ±√𝑟 2
Ejemplo: Una vez más, considerando el ejemplo de las 5 familias. Donde,

X: número de hijos de cada familia.

Y: gasto mensual de alimentación mensual en pesos.

Construimos las columnas necesarias para el cálculo de las sumas de cuadrados


según definición:

1 1 350.000 390.000 14.400.000.000 6.400.000.000 1.600.000.000

2 2 500.000 430.000 900.000.000 1.600.000.000 4.900.000.000

3 3 400.000 470.000 4.900.000.000 0 4.900.000.000

4 4 600.000 510.000 16.900.000.000 1.600.000.000 8.100.000.000

5 5 500.000 550.000 900.000.000 6.400.000.000 2.500.000.000

Suma 15 2.350.000 2.350.000 38.000.000.000 16.000.000.000 22.000.000.000

Promedio 3 470.000

Quedan así determinadas las sumas de cuadrados:

𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2 = 38.000.000.000

2
𝑆𝐶𝐸 = ∑(𝑌̂𝑖 − 𝑌̅) = 16.000.000.000

2
𝑆𝐶𝑅 = ∑(𝑌̂𝑖 − 𝑌𝑖 ) = 22.000.000.000

Luego, el coeficiente de determinación o bondad de ajuste:


𝑆𝐶𝐸 16.000.000.000
𝑟2 = = = 0,42
𝑆𝐶𝑇 38.000.000.000

También podemos comprobarlo mediante el coeficiente de correlación lineal:

𝑟 2 = (0.6489)2 = 0,42

El mismo coeficiente de determinación, lo podemos observar mediante el “Análisis


de datos” de Excel en el resumen de la regresión lineal:

Resumen

Estadísticas de la regresión
= r2
Coeficiente de correlación múltiple 0,648885685

Coeficiente de determinación R^2 0,421052632

R^2 ajustado 0,228070175

Error típico 85634,88386

Observaciones 5

Se interpreta como, el 42% de las variaciones en el gasto mensual de alimentación


mensual, queda explicado por los diferentes números de hijos en cada familia.
Conclusiones

Hemos mostrado como podemos lograr indicadores que nos permitan conocer
“cuán” bueno es un modelo para explicar los datos. Estos indicadores nos permiten
también comparar el desempeño de diferentes modelos y seleccionar el “mejor
modelo” de ellos en caso de tener alternativas.

Los primeros indicadores que mostramos fueron los errores estándar de los
coeficientes logrados a través de muestras, permiten identificar la confiabilidad de
las variables explicativas.

Mostramos en segundo lugar que en un modelo de regresión existen tres “desvíos”,


llamados “sumas de cuadrados” y aportan en la determinación del cálculo de la
bondad del ajuste de los modelos de regresión, y que nos permiten también hacer
medición de la significancia de un modelo, tema que se tratará en mayor
profundidad en clases posteriores.

La bondad del ajuste mide el porcentaje de variación de la variable explicada


mediante los cambios de la variable explicativa. Determina que tan cercano al 100%
es el ajuste de los datos a la recta de regresión estimada.

Retomando el ejemplo planteado en la introducción, donde se desea explicar las


compras en mercadería del año en curso relacionándola con las compras de
mercadería del periodo anterior (𝐶𝑀𝑡−1 ), las ventas totales del periodo en curso (𝑉𝑇𝑡 )
y una variable indicadora (con valor 1 si es antes del periodo 1994 y 0 después de
1994) (F96) debida al proceso de fusión. Con las herramientas vistas en la clase,
podemos concluir que los autores plantean un modelo con alta bondad de ajuste de
los datos para predecir el abastecimiento de las compras de mercadería. La
“bondad de ajuste” menciona que las variaciones en las compras de mercadería del
año en curso, quedan explicadas mediante las compras del año anterior, las ventas
totales y la fusión, en un 93%. Hay un alto ajuste, que además se apoya en la
significancia de las variables consideradas por medio de los errores estándar de los
parámetros y el test t-student. Por lo tanto, hablamos de un “buen” modelo en la
estimación de las compras de mercadería.
Bibliografía

▪ Gujarati, D. N., & Porter, D. C. (2010). Econometría (5a.ed.--.). México.


McGraw Hill.

▪ Nevado Peña, D., & López Ruiz, V. R. (2000). Proyecciones de la


econometría sobre la empresa: un modelo de previsión sobre indicadores
financieros. Encuentros multidisciplinares. Microsoft Word - Domingo Nevado
- Víctor López.doc (uam.es)

También podría gustarte