Documentos de Académico
Documentos de Profesional
Documentos de Cultura
- REGRESIÓN LINEAL
A la hora de analizar la relación entre las diferentes variables nos puede interesar
conocer la forma concreta en qué se relacionan y medir su grado de asociación. Para
ello empleamos las técnicas estadísticas de la regresión y correlación.
La regresión tiene por objeto la determinación de aquella estructura de dependencia
que mejor explique el comportamiento de la variable Y (variable dependiente o
explicada) a través de todo el conjunto de variables X, independientes o explicativas,
con las que se supone que está relacionada.
Sean X e Y dos variables cuya distribución conjunta de frecuencias es (x i, yj; nij).
Llamaremos regresión de Y sobre X a la función que explica la variable Y para cada
valor de X. La regresión de X sobre Y explicará el comportamiento de X para cada valor
de Y.
Para la determinación de estas funciones se pueden seguir dos criterios diferentes que
reciben el nombre de regresión I y regresión II.
Regresión I
- Regresión I de Y sobre X. Supuesta una nube de puntos, si nos preguntáramos
qué valor deberíamos asignar a Y para X=x 1, diríamos que la media de las Y cuya
X sea x1, es decir, la media de Y condicionada a que X tome el valor x 1.
Siguiendo este criterio para x2, tomaríamos la media de Y condicionada a que
X=x2, y así sucesivamente. La regresión I de Y sobre X estaría formada por los
puntos: (x1, ̅/x1) (x2, ̅/x2) ….. (xh, ̅/xh). Estos puntos se unen por una línea
para indicar que son puntos que pertenecen a una misma regresión.
- Regresión I de X sobre Y. El razonamiento es análogo al anterior. Las abscisas de
los puntos unidos entre sí representan las medias condicionadas. La regresión I
de X sobre Y está formada por los puntos: ( ̅ /y1, y1) ( ̅ /y2, y2) …..( ̅ /yk, yk) que
se unen por una línea quebrada para indicar que son puntos que pertenecen a
una misma regresión.
Regresión II
Aquí el criterio seguido para determinar las funciones de regresión es el mínimo
cuadrático, es decir, se toma como valor de una variable, para uno dado de la otra, el
deducido de la función ajustada por mínimos cuadrados.
- Regresión II de Y sobre X. A través de la información suministrada, cuya
representación gráfica es la nube de puntos, se selecciona el tipo de función y
posteriormente se ajusta la mejor de esa familia de funciones seleccionada,
haciendo mínimos los residuos al cuadrado, es decir, minimizando ∑ ∑
. La función así obtenida se toma como función de regresión de Y sobre
X.
- Regresión II de X sobre Y. Se minimiza ∑ ∑ en donde
representa el correspondiente valor teórico de X para un y j cualquiera.
La diferencia entre la regresión I y II es que en la primera no seleccionamos a priori
ningún tipo de curva, mientras que en la segunda esta elección es el primer paso a dar
antes de pasar al propio ajuste.
Nos interesa analizar las relaciones de dependencia causal (cuando una variable, X,
influye en otra Y, pero no se da lo contrario al mismo tiempo), donde el
comportamiento de una variable dependiente vendrá determinado por una o más
variables independientes. Una vez establecida la relación causal o modelo teórico,
tenemos que determinar el tipo de función matemática que liga las variables exógenas
con la endógena. A esta operación se le denomina especificación del modelo.
Generalmente, se suelen elegir funciones lineales, porque son más fáciles de manejar y
se ajustan frecuentemente a la realidad (de forma aproximada) yi = a+bxi donde Yi
representa el gasto en carne de la familia i y X i la renta disponible de la familia i.
El objeto de la regresión es la determinación numérica de los parámetros del modelo
(a y b) a partir de un conjunto de observaciones sobre las variables del modelo (Y y X).
Pero en el mundo real estas relaciones causales no son exactas, es decir, en nuestro
ejemplo el gasto en carne no va a venir explicado solamente por la renta, existen otros
muchos factores que van a influir en mayor o menor grado (precio de la carne, nº de
miembros de la familia, etc.).
El modelo vendrá mejor explicado si incluimos estos factores pero el número de éstos
puede ser prácticamente infinito, no es posible lograr una función que nos explique
completamente el fenómeno.
Para solventar este problema consideraremos la relación: y i = a + bxi + ei donde ei
representará el conjunto de variables distintas de la renta que influyen sobre la
variable endógena. Es decir, ei sería el error que cometemos al especificar el modelo,
error que consideramos no sistemático y que, al venir causado por la ausencia de
muchas variables de menor importancia y efectos dispares, tendrá un comportamiento
prácticamente aleatorio.
La aplicación más importante que tiene la técnica estadística de la regresión es la
predicción.
Denominaremos regresión lineal simple aquélla en que la función a estimar es lineal y
en la que interviene una sola variable exógena. Cuando en la relación interviene más
de una variable explicativa, entonces la regresión se denomina múltiple.
Supongamos que queremos estimar el valor de los parámetros a y b para los siguientes
datos:
Gasto mensual yi Renta mensual xi
200 1.000
400 1.500
800 2.000
1.200 2.500
900 3.000
Queremos estimar los parámetros a y b, o dicho de otro modo, ajustar una recta a las
observaciones anteriores.
Para cada valor de la renta xi podemos considerar dos valores del gasto en carne:
- Yi, gasto realmente observado.
- Ê ̂ ̂ gasto estimado
Si la renta explicara completamente el gasto en carne, entonces el gasto estimado y
observado coincidirían.
̂ ̂ ̂ ̂ ̂ una vez que hemos estimado el modelo.
̂ ̂ ̂ ̂ esta diferencia nos indicará el error cometido en el ajuste
para cada i. La denominamos residuo.
es la diferencia entre yi y (a + bxi), siendo esta última la recta verdadera, pero
desconocida, que tratamos de estimar a partir de unas observaciones.
̂ es un residuo y representa la diferencia entre el valor observado y i y el
correspondiente valor sobre la recta estimada ̂ ̂ para un xi dado.
Es decir, los parámetros a y b son fijos y desconocidos, ya que vienen determinados a
partir de un conjunto infinito de pares de valores (x i, yi), mientras que ̂ ̂ son las
estimaciones que calculamos con un conjunto finito de observaciones sobre X e Y
(obtendremos diferentes valores de ̂ y ̂ según los distintos conjuntos finitos de
valores de xi e yi que tomemos).
Nosotros pretendemos elegir aquélla recta estimada que arroje unos errores de ajuste
o residuos ( ̂ ) más pequeños.
Vamos a ver cómo se obtiene la estimación de los parámetros a y b por mínimos
cuadrados:
̂ ̂ ̂
∑ ̂ ∑ ̂ ̂
Tenemos que buscar los valores ̂ y ̂ que hagan mínima la expresión. Para ello,
calculamos las derivadas parciales con respecto a ̂ y ̂ e igualamos a cero, obteniendo
así las ecuaciones normales de la recta:
∑ ̂ ̂∑
∑ ̂∑ ̂∑
A partir de estas dos ecuaciones podemos obtener las estimaciones de los parámetros
a y b en la regresión lineal de Y sobre X. A los valores estimados ̂ y ̂ se les conoce
como coeficientes de regresión.
̂ representa el término independiente. No tiene un claro significado económico.
̂
̂ representa la pendiente de la recta de regresión de Y sobre X. Mide la
variación de ̂ debida a la variación de una unidad de X.
Nota: Las demostraciones las podéis consultar en el tema 4 del material auxiliar que
está colgado en el campus virtual.
̂ ̂ ̂
restando la media ̅ ̂ ̅ ̂ (̂ ̂ ̂ ̂ ̅) ̂
̂ ̅ ̂
de donde ̂ ̅ ̂ ̅
aplicando el criterio de mínimos cuadrados ∑ ̂ sustituimos el residuo por su
expresión anterior y calculamos la derivada parcial de S con respecto a ̂ e igualamos a
cero, obteniendo la siguiente expresión ∑ ̅ ̅ ̂∑ ̅ con
∑ ̅ ̅
lo que despejando ̂ es decir ̂
∑ ̅̅̅
∑ ̅ ∑ ̂ ̅ ∑ ̂ ∑ ̂ ̅ ̂