Está en la página 1de 8

Regresión lineal

Metodología de
Análisis de Datos
Cuantitativos

1
Regresión lineal
Un modelo aplicable para analizar la relación entre dos variables es el
modelo de regresión. La utilización del modelo de regresión lineal está muy
difundida en las Ciencias Sociales, en particular, porque permite describir
una serie muy amplia de fenómenos (comportamiento de los individuos,
reacciones de los consumidores, decisiones económicas, entre otros).
El análisis de regresión lineal tiene como finalidad explorar y cuantificar la
relación entre variables, una llamada dependiente (Y) y una o más variables
independientes. En el caso de utilizar una sola variable independiente o
explicativa, estamos frente a una regresión lineal simple, en tanto si las
variables explicativas o independientes son dos o más, el análisis se
denomina regresión lineal múltiple.
Cabe señalar que una de las aplicaciones más destacadas del modelo es la
de realizar predicciones y pronósticos acerca de la variable dependiente,
teniendo en cuenta valores de las variables explicativas o independientes.
En el caso de este modelo, deben considerarse además de las técnicas de
estimación, una serie de pruebas de diagnóstico (análisis de residuos,
análisis de influencia, etc.) cuyo cumplimiento es necesario para obtener
estimaciones adecuadas.

El diagrama de dispersión
Un gráfico que nos permite visualizar de manera sencilla la posible existencia
de una relación entre las variables de interés, es el diagrama de dispersión.
Este gráfico consiste en la colección de puntos en un diagrama de ejes
cartesianos, donde los valores de la variable dependiente se representan en
las ordenadas y los de la variable independiente en las abcsisas. Cada punto
del gráfico se indica con las coordenadas del mismo representado como par
ordenado (x, y). El conjunto de puntos surgidos de graficar todos los datos
disponibles recibe el nombre de nube de puntos.
Lo que el diagrama de dispersión da la posibilidad de observar, es la forma
de la relación, en términos no estrictos (en el sentido que siempre
necesitaremos los test y estimaciones estadísticas), pero es un buen punto
de partida, por ejemplo, para preliminarmente analizar si la línea recta será
una aproximación aceptable de la relación o no.
En el ejemplo de Diagrama de dispersión, la variable Y (dependiente) indica
el salario horario inicial (expresado en moneda corriente) de un ocupado en
el mercado laboral, la variable X (independiente) representa los años de
experiencia previa que esa persona exhibía en su curriculum. Para describir
la relación aparente entre estas variables, podríamos indicar que si bien en
nuestra muestra hay pocos casos con baja experiencia relativa, a medida que
más experiencia laboral previa tenía un ocupado, su salario inicial resulta

2
más elevado. Con la intención de ser más específicos y sintéticos al mismo
tiempo, el modelo de regresión lineal intenta asociar la relación entre estas
variables a través de una línea recta que generalice esta vinculación,
despreciando las oscilaciones específicas de cada caso particular respecto de
la línea recta que indicaría la estructura de la relación entre experiencia y
salario inicial.

Figura 1: Diagrama de dispersión

Fuente: Elaboración propia

Los siguientes datos fueron tomados de un estudio sobre las diferentes


sucursales de una marca de supermercados de la ciudad:

3
Tabla 1

Sucursal Superficie del local Ventas diarias (en


en m2 miles de $)
1 300 425
2 350 435
3 450 550
4 500 600
5 700 860
6 760 770
7 770 980
8 900 1100
9 1200 1240
10 1400 1500
11 2000 2400
12 2050 2200
13 2100 2080

La relación puede sintetizarse de manera que represente una línea recta de


la siguiente manera:

Los coeficientes α y β son los que definen la recta. El coeficiente α representa


la ordenada al origen, es decir, el punto en que la recta corta al eje vertical.
El coeficiente β es la pendiente de la recta, el cual indica el cambio
experimentado en la variable Y cuando se produce cierto incremento en la
variable X. En el ejemplo, β representa el cambio en el salario inicial ante el
cambio en un año de experiencia laboral al ingreso. En el caso de α, está
indicando el salario promedio de una persona sin experiencia laboral al
ingreso (cuando X=0).
En el siguiente gráfico se representa una recta que podría describir de
manera general y simplificada la relación analizada.

4
Figura 2: Recta de regresión

Fuente: elaboración propia.

Método para obtener estimaciones de α y β


No hemos mencionado aún cómo determinar los valores que nos permitan
trazar una recta, es decir, estimaciones de α y β en base a los datos de la
muestra disponible.
En la ecuación:

α y β son constantes. La relación especificada entre X e Y es exacta, sin


embargo, como hemos observado en el diagrama de dispersión, tal relación
podría tener algunos desvíos o perturbaciones que denominaremos término
de error. Por lo tanto, debemos reescribir la relación como el valor esperado
de Y que depende de valores de X:

5
Interpretación de los valores de β
Si la pendiente β que corresponde a la recta de regresión es positiva, la
relación entre las variables es tal que cuando el valor de X aumenta, también
lo hace el de Y.
Si la pendiente β es menor que cero, entonces, la relación es negativa, es
decir, a medida que aumenta el valor de X, el valor de Y es menor.
Si β = 0, entonces no hay una relación lineal entre X e Y de manera que
podamos indicar cómo cambia Y conociendo el cambio en X.

Figura 3: valores de β y forma de la relación

Fuente: elaboración propia

Supuestos del modelo de regresión lineal


1) Linealidad: Debe verificarse que la forma de la ecuación que describa la
relación entre X e Y sea lineal.
2) Normalidad: Las distribuciones de los valores de Y para valor de X deben
ser normales.
3) Homocedasticidad La variabilidad de los valores de la variable
dependiente Y es igual para cualquier valor de la variable X. La violación
de este supuesto es más frecuente cuando se trabaja con obsrvaciones
correspondientes a datos de corte transversal.

6
4) Independencia de errores: Los residuos o errores (las diferencias entre
los valores pronosticados y los observados realmente), deben ser
independientes entre sí. La violación de este supuesto es más frecuente
cuando se trabaja con datos correspondientes a series de tiempo.

Bondad de ajuste
Para poder afirmar que el resultado de la regresión es adecuado,
necesitamos contar con algún indicador del grado en que la recta ajusta
acertadamente a la nube de puntos. En particular estamos pensando en un
indicador del grado de fidelidad con que la recta obtenida por el método de
mínimos cuadrados describe la relación existente entre los datos.
La medida de aplicación más generalizada corresponde al coeficiente de
determinación o R2. Este indicador corresponde al cuadrado del coeficiente
de correlación. Es una medida estandarizada que asume valores entre 0 y 1:

 0 cuando las variables son independientes.


 1 si la relación captada por la recta es perfecta.

El R2 nos permite medir cuánto podemos explicar los valores de la variable


dependiente basándonos en el conocimiento de otras variables y de su
relación. Mide más precisamente, la relación entre la variabilidad de la
variable dependiente explicada por el modelo (lo cual incluye la variable
independiente y la forma lineal de su relación con la dependiente), respecto
de la variabilidad total de la variable dependiente.
Para el ejemplo presentado, el valor del R2 alcanza 0,83, lo cual significa que
el 83% de la variabilidad del salario inicial al momento de ingreso es
explicada de manera lineal, por los años de experiencia previos al ingreso.

7
Referencias
Aaron y Aaron (2001). Capítulos 14 y 16.

Blalock, H. (1978). Introducción A La Investigación Social. Capítulos XV, XVII, XVIII y


XIX.

También podría gustarte