4.1.

4.1.
- REGRESIÓN LINEAL
A la hora de analizar la relación entre las diferentes variables nos puede interesar
conocer la forma concreta en qué se relacionan y medir su grado de asociación. Para
ello empleamos las técnicas estadísticas de la regresión y correlación.
La regresión tiene por objeto la determinación de aquella estructura de dependencia
que mejor explique el comportamiento de la variable Y (variable dependiente o
explicada) a través de todo el conjunto de variables X, independientes o explicativas,
con las que se supone que está relacionada.
Sean X e Y dos variables cuya distribución conjunta de frecuencias es (x i, yj; nij).
Llamaremos regresión de Y sobre X a la función que explica la variable Y para cada
valor de X. La regresión de X sobre Y explicará el comportamiento de X para cada valor
de Y.
Para la determinación de estas funciones se pueden seguir dos criterios diferentes que
reciben el nombre de regresión I y regresión II.
Regresión I
- Regresión I de Y sobre X. Supuesta una nube de puntos, si nos preguntáramos
qué valor deberíamos asignar a Y para X=x 1, diríamos que la media de las Y cuya
X sea x1, es decir, la media de Y condicionada a que X tome el valor x 1.
Siguiendo este criterio para x2, tomaríamos la media de Y condicionada a que
X=x2, y así sucesivamente. La regresión I de Y sobre X estaría formada por los
puntos: (x1, ̅/x1) (x2, ̅/x2) ….. (xh, ̅/xh). Estos puntos se unen por una línea
para indicar que son puntos que pertenecen a una misma regresión.
- Regresión I de X sobre Y. El razonamiento es análogo al anterior. Las abscisas de
los puntos unidos entre sí representan las medias condicionadas. La regresión I
de X sobre Y está formada por los puntos: ( ̅ /y1, y1) ( ̅ /y2, y2) …..( ̅ /yk, yk) que
se unen por una línea quebrada para indicar que son puntos que pertenecen a
una misma regresión.
Regresión II
Aquí el criterio seguido para determinar las funciones de regresión es el mínimo
cuadrático, es decir, se toma como valor de una variable, para uno dado de la otra, el
deducido de la función ajustada por mínimos cuadrados.
- Regresión II de Y sobre X. A través de la información suministrada, cuya
representación gráfica es la nube de puntos, se selecciona el tipo de función y
posteriormente se ajusta la mejor de esa familia de funciones seleccionada,
haciendo mínimos los residuos al cuadrado, es decir, minimizando ∑ ∑
. La función así obtenida se toma como función de regresión de Y sobre
X.
- Regresión II de X sobre Y. Se minimiza ∑ ∑ en donde
representa el correspondiente valor teórico de X para un y j cualquiera.
La diferencia entre la regresión I y II es que en la primera no seleccionamos a priori
ningún tipo de curva, mientras que en la segunda esta elección es el primer paso a dar
antes de pasar al propio ajuste.
Nos interesa analizar las relaciones de dependencia causal (cuando una variable, X,
influye en otra Y, pero no se da lo contrario al mismo tiempo), donde el
comportamiento de una variable dependiente vendrá determinado por una o más
variables independientes. Una vez establecida la relación causal o modelo teórico,
tenemos que determinar el tipo de función matemática que liga las variables exógenas
con la endógena. A esta operación se le denomina especificación del modelo.
Generalmente, se suelen elegir funciones lineales, porque son más fáciles de manejar y
se ajustan frecuentemente a la realidad (de forma aproximada) yi = a+bxi donde Yi
representa el gasto en carne de la familia i y X i la renta disponible de la familia i.
El objeto de la regresión es la determinación numérica de los parámetros del modelo
(a y b) a partir de un conjunto de observaciones sobre las variables del modelo (Y y X).
Pero en el mundo real estas relaciones causales no son exactas, es decir, en nuestro
ejemplo el gasto en carne no va a venir explicado solamente por la renta, existen otros
muchos factores que van a influir en mayor o menor grado (precio de la carne, nº de
miembros de la familia, etc.).
El modelo vendrá mejor explicado si incluimos estos factores pero el número de éstos
puede ser prácticamente infinito, no es posible lograr una función que nos explique
completamente el fenómeno.
Para solventar este problema consideraremos la relación: y i = a + bxi + ei donde ei
representará el conjunto de variables distintas de la renta que influyen sobre la
variable endógena. Es decir, ei sería el error que cometemos al especificar el modelo,
error que consideramos no sistemático y que, al venir causado por la ausencia de
muchas variables de menor importancia y efectos dispares, tendrá un comportamiento
prácticamente aleatorio.
La aplicación más importante que tiene la técnica estadística de la regresión es la
predicción.
Denominaremos regresión lineal simple aquélla en que la función a estimar es lineal y
en la que interviene una sola variable exógena. Cuando en la relación interviene más
de una variable explicativa, entonces la regresión se denomina múltiple.
Supongamos que queremos estimar el valor de los parámetros a y b para los siguientes
datos:
Gasto mensual yi Renta mensual xi
200 1.000
400 1.500
800 2.000
1.200 2.500
900 3.000
Queremos estimar los parámetros a y b, o dicho de otro modo, ajustar una recta a las
observaciones anteriores.
Para cada valor de la renta xi podemos considerar dos valores del gasto en carne:
- Yi, gasto realmente observado.
- Ê ̂ ̂ gasto estimado
Si la renta explicara completamente el gasto en carne, entonces el gasto estimado y
observado coincidirían.
̂ ̂ ̂ ̂ ̂ una vez que hemos estimado el modelo.
̂ ̂ ̂ ̂ esta diferencia nos indicará el error cometido en el ajuste
para cada i. La denominamos residuo.
es la diferencia entre yi y (a + bxi), siendo esta última la recta verdadera, pero
desconocida, que tratamos de estimar a partir de unas observaciones.
̂ es un residuo y representa la diferencia entre el valor observado y i y el
correspondiente valor sobre la recta estimada ̂ ̂ para un xi dado.
Es decir, los parámetros a y b son fijos y desconocidos, ya que vienen determinados a
partir de un conjunto infinito de pares de valores (x i, yi), mientras que ̂ ̂ son las
estimaciones que calculamos con un conjunto finito de observaciones sobre X e Y
(obtendremos diferentes valores de ̂ y ̂ según los distintos conjuntos finitos de
valores de xi e yi que tomemos).
Nosotros pretendemos elegir aquélla recta estimada que arroje unos errores de ajuste
o residuos ( ̂ ) más pequeños.
Vamos a ver cómo se obtiene la estimación de los parámetros a y b por mínimos
cuadrados:
̂ ̂ ̂
∑ ̂ ∑ ̂ ̂
Tenemos que buscar los valores ̂ y ̂ que hagan mínima la expresión. Para ello,
calculamos las derivadas parciales con respecto a ̂ y ̂ e igualamos a cero, obteniendo
así las ecuaciones normales de la recta:
∑ ̂ ̂∑
∑ ̂∑ ̂∑
A partir de estas dos ecuaciones podemos obtener las estimaciones de los parámetros
a y b en la regresión lineal de Y sobre X. A los valores estimados ̂ y ̂ se les conoce
como coeficientes de regresión.
̂ representa el término independiente. No tiene un claro significado económico.
̂
̂ representa la pendiente de la recta de regresión de Y sobre X. Mide la
variación de ̂ debida a la variación de una unidad de X.
Propiedades de las estimaciones por mínimos cuadrados:

1.- La suma de los residuos es cero ∑ ̂ .
2.- La recta ajustada pasa por el punto ( ̅ , ̅) que se denomina centro de gravedad.
3.- La suma de los productos de los valores correspondientes del residuo y de la
variable exógena es cero ∑ ̂ .
4.- La suma de los productos de los valores correspondientes del residuo y de ̂ es
cero ∑ ̂ ̂ .
Nota: Las demostraciones las podéis consultar en el tema 4 del material auxiliar que
está colgado en el campus virtual.
Cálculo de los coeficientes de regresión

Teniendo en cuenta las expresiones:
̂ ̂
̂ ̂ ̂
restando la media ̅ ̂ ̅ ̂ (̂ ̂ ̂ ̂ ̅) ̂
̂ ̅ ̂
de donde ̂ ̅ ̂ ̅
aplicando el criterio de mínimos cuadrados ∑ ̂ sustituimos el residuo por su
expresión anterior y calculamos la derivada parcial de S con respecto a ̂ e igualamos a
cero, obteniendo la siguiente expresión ∑ ̅ ̅ ̂∑ ̅ con
∑ ̅ ̅
lo que despejando ̂ es decir ̂
∑ ̅̅̅
La estimación de a, será, por lo tanto,

̂ ̅ ̂ ̅
A través de estas dos expresiones de ̂ y de ̂ obtenemos los coeficientes de
regresión de la recta de regresión de Y sobre X.
Una vez realizado el ajuste nos interesa saber en qué medida las variaciones de la
variable endógena quedan explicadas mediante el modelo estimado. Consideremos la
relación,
̅ ̂ ̅ ̂
sumando para N y elevando ambos miembros al cuadrado,
∑ ̅ ∑ ̂ ̅ ∑ ̂ ∑ ̂ ̅ ̂
el último sumando se anula ya que es igual a ∑ ̂ ̅ ̂ y por las

propiedades 1ª y 4ª del ajuste por mínimos cuadrados vemos que este término se
anula.
Nos quedaría entonces:
̂
Donde:
es la varianza de la variable Y observada.
es la varianza de la variable Y ajustada o varianza de Y explicada por la regresión.
̂ es la varianza residual o varianza de la variable Y que queda sin explicar una vez
efectuada la regresión.
La raíz cuadrada de la varianza residual recibe el nombre de error estándar del ajuste,
ya que se obtiene de las desviaciones a la línea de regresión. El error estándar da un
promedio de los errores o residuos; por tanto, lo que mide es el tamaño medio de
dichos residuos y viene expresado en la misma unidad de medida que la variable
dependiente. Presenta el inconveniente de que no se pueden realizar comparaciones
cuando se trabaja con distintas variables dependientes.
̂
Denominaremos coeficiente de determinación
Los límites de variación del coeficiente de determinación son 0 ≤ R2 ≤ 1. Cuando la

línea ajustada pasa por todos los puntos observados, todos los residuos serán nulos, y,
por lo tanto, la varianza residual será igual a cero y el coeficiente de determinación
valdrá 1, que será el valor máximo que pueda tomar. Si la varianza explicada por la
regresión es nula, el coeficiente de determinación tomará el valor 0.
Cuando la regresión es lineal simple de Y sobre X, la varianza explicada por la regresión
toma el siguiente valor, ̂ y por lo tanto es decir, el
coeficiente de determinación es igual al cociente de la covarianza al cuadrado y el

producto de las varianzas marginales de X y de Y.
El coeficiente de determinación de la regresión lineal simple de Y sobre X coincide con
el de la regresión de X sobre Y (sólo en el caso de la regresión lineal simple).
Realizaríamos los mismos desarrollos teóricos para obtener la regresión de X sobre Y.
(consultar material auxiliar en el campus virtual)
Se puede observar también que R 2 es igual al producto de las dos pendientes de las
rectas de regresión de Y sobre X y de X sobre Y.

4.1. - Regresión

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

4.1. - Regresión

Cargado por

Copyright:

Formatos disponibles

Propiedades de las estimaciones por mínimos cuadrados:

Cálculo de los coeficientes de regresión

La estimación de a, será, por lo tanto,

el último sumando se anula ya que es igual a ∑ ̂ ̅ ̂ y por las

Los límites de variación del coeficiente de determinación son 0 ≤ R2 ≤ 1. Cuando la

toma el siguiente valor, ̂ y por lo tanto es decir, el

coeficiente de determinación es igual al cociente de la covarianza al cuadrado y el

También podría gustarte