Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Metodología de
Análisis de Datos
Cuantitativos
1
Regresión lineal
Un modelo aplicable para analizar la relación entre dos variables es el
modelo de regresión. La utilización del modelo de regresión lineal está muy
difundida en las Ciencias Sociales, en particular, porque permite describir
una serie muy amplia de fenómenos (comportamiento de los individuos,
reacciones de los consumidores, decisiones económicas, entre otros).
El análisis de regresión lineal tiene como finalidad explorar y cuantificar la
relación entre variables, una llamada dependiente (Y) y una o más variables
independientes. En el caso de utilizar una sola variable independiente o
explicativa, estamos frente a una regresión lineal simple, en tanto si las
variables explicativas o independientes son dos o más, el análisis se
denomina regresión lineal múltiple.
Cabe señalar que una de las aplicaciones más destacadas del modelo es la
de realizar predicciones y pronósticos acerca de la variable dependiente,
teniendo en cuenta valores de las variables explicativas o independientes.
En el caso de este modelo, deben considerarse además de las técnicas de
estimación, una serie de pruebas de diagnóstico (análisis de residuos,
análisis de influencia, etc.) cuyo cumplimiento es necesario para obtener
estimaciones adecuadas.
El diagrama de dispersión
Un gráfico que nos permite visualizar de manera sencilla la posible existencia
de una relación entre las variables de interés, es el diagrama de dispersión.
Este gráfico consiste en la colección de puntos en un diagrama de ejes
cartesianos, donde los valores de la variable dependiente se representan en
las ordenadas y los de la variable independiente en las abcsisas. Cada punto
del gráfico se indica con las coordenadas del mismo representado como par
ordenado (x, y). El conjunto de puntos surgidos de graficar todos los datos
disponibles recibe el nombre de nube de puntos.
Lo que el diagrama de dispersión da la posibilidad de observar, es la forma
de la relación, en términos no estrictos (en el sentido que siempre
necesitaremos los test y estimaciones estadísticas), pero es un buen punto
de partida, por ejemplo, para preliminarmente analizar si la línea recta será
una aproximación aceptable de la relación o no.
En el ejemplo de Diagrama de dispersión, la variable Y (dependiente) indica
el salario horario inicial (expresado en moneda corriente) de un ocupado en
el mercado laboral, la variable X (independiente) representa los años de
experiencia previa que esa persona exhibía en su curriculum. Para describir
la relación aparente entre estas variables, podríamos indicar que si bien en
nuestra muestra hay pocos casos con baja experiencia relativa, a medida que
más experiencia laboral previa tenía un ocupado, su salario inicial resulta
2
más elevado. Con la intención de ser más específicos y sintéticos al mismo
tiempo, el modelo de regresión lineal intenta asociar la relación entre estas
variables a través de una línea recta que generalice esta vinculación,
despreciando las oscilaciones específicas de cada caso particular respecto de
la línea recta que indicaría la estructura de la relación entre experiencia y
salario inicial.
3
Tabla 1
4
Figura 2: Recta de regresión
5
Interpretación de los valores de β
Si la pendiente β que corresponde a la recta de regresión es positiva, la
relación entre las variables es tal que cuando el valor de X aumenta, también
lo hace el de Y.
Si la pendiente β es menor que cero, entonces, la relación es negativa, es
decir, a medida que aumenta el valor de X, el valor de Y es menor.
Si β = 0, entonces no hay una relación lineal entre X e Y de manera que
podamos indicar cómo cambia Y conociendo el cambio en X.
6
4) Independencia de errores: Los residuos o errores (las diferencias entre
los valores pronosticados y los observados realmente), deben ser
independientes entre sí. La violación de este supuesto es más frecuente
cuando se trabaja con datos correspondientes a series de tiempo.
Bondad de ajuste
Para poder afirmar que el resultado de la regresión es adecuado,
necesitamos contar con algún indicador del grado en que la recta ajusta
acertadamente a la nube de puntos. En particular estamos pensando en un
indicador del grado de fidelidad con que la recta obtenida por el método de
mínimos cuadrados describe la relación existente entre los datos.
La medida de aplicación más generalizada corresponde al coeficiente de
determinación o R2. Este indicador corresponde al cuadrado del coeficiente
de correlación. Es una medida estandarizada que asume valores entre 0 y 1:
7
Referencias
Aaron y Aaron (2001). Capítulos 14 y 16.