Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En esta clase haremos un recorrido por los diferentes conceptos asociados con la regresión lineal:
comenzaremos por entender la r de Pearson, luego el modelo de regresión lineal, la interpretación
del R cuadrado y R cuadrado ajustado, además de los coeficientes α, β y la recta de regresión.
El estadístico que mide ese grado de asociación lineal es el coeficiente r. El coeficiente r no tiene
unidades. Su valor oscila entre +1 y -1. Un valor de +1 implica una relación lineal ascendente
perfecta: a cada magnitud de aumento de una de las variables corresponde la misma magnitud de
aumento en la otra. Un valor de -1 implica una relación lineal descendente perfecta: a cada
magnitud de aumento de una de las variables corresponde la misma magnitud de descenso en la
otra.
Ejemplo 1 - Correlación
Consideremos los resultados de un estudio que relaciona el aumento del gasto público nacional
en recursos para la educación secundaria (becas, infraestructura, mobiliario, recursos
tecnológicos) y el aumento en el porcentaje de votos de jóvenes de 16 y 17 años en las
provincias argentinas. Se obtienen los siguientes pares de valores para 5 provincias (x,y): (0.5,5),
(1, 8), (1.5,12), (2,13), (2.5,16).
1
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
Valores de +1 ó -1 son lógicamente inhallables. Valores cercanos a estos extremos implican alto
grado de asociación lineal. A medida que los valores de r se acercan a 0, el grado de asociación
lineal entre las variables estudiadas es menor. Un coeficiente r de 0 implica ausencia absoluta de
asociación lineal.
Como toda determinación estadística, a cada valor de r en cada situación corresponde un valor de
p, que expresa la probabilidad de que el valor de r sea debido al azar. Es decir que no solo importa
el valor de r, sino también el valor de p. Solo se acepta un valor de r como verdadero si su valor de p
es < 0.05. Como es sabido, el valor de p está influido por el tamaño de la muestra. Muestras
pequeñas pueden presentar valores de r elevados (cercanos a +1 ó -1) pero con valor de p no
significativo. De igual modo, valores de r de poca relevancia pueden tener significación estadística
si la muestra es numerosa.
2
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
Más allá de esta aclaración, los valores de r dan solo una valoración de si existe una asociación
lineal, pero no una idea acabada de cuánto influye la variación en los valores de una de las
variables en los valores de la otra. Para ello es necesario recurrir a R2, que surge justamente de
elevar al cuadrado el valor de r. R2 es la expresión del cambio que la variación de una variable
genera en la otra. Por ejemplo, un valor de r de 0.5 implica un R2 de 0.25. Esto significa que solo el
25% de la variación de los valores de una variable se debe a la variación de la otra.
De allí que solo un valor de r de 1, por lo tanto con un R2 de 1, implica que toda la variación en una
de las variables se explica por los cambios en la otra. Considerar R2 más que r ayuda a poner las
cosas en perspectiva. Veremos esto en mayor detalle en los próximos apartados.
Es imprescindible mirar los gráficos de dispersión y no quedarnos solamente con leer el valor de r.
Que r no sea significativo no implica que no haya asociación entre las variables estudiadas. Implica
que no hay asociación lineal. Una asociación no lineal (curva en J o en U) puede estar presente, con
un gráfico que la demuestre y un valor de r sin significación estadística (a).
En determinadas situaciones el valor de r puede ser significativo, pero en realidad el gráfico nos
demuestra que las bases del hallazgo no son correctas. Se puede obtener un valor de r significativo
escasos valores fuera de rango pueden también traccionar de la línea de correlación y simular una
relación lineal (b); o al colocar conjuntamente 2 subgrupos en cada uno de los cuales no hay
asociación lineal, pero que puestos en un mismo análisis generan un r significativo (c).
3
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
Ejercicio 1 - Correlación
a) Responder si las siguientes afirmaciones son verdaderas o falsas, argumentando por qué:
c) Asociar los resultados de las correlaciones con los gráficos del punto b.
11.2 Regresión
Un modelo de regresión es un modelo matemático que busca determinar si existe una relación
causal entre una variable dependiente (Y) con respecto a otras variables llamadas explicativas,
predictoras o independientes (X). Las principales aplicaciones de este elemento estadístico son la
predicción o previsión de hechos a partir de datos ya determinados, teniendo en cuenta el grado
de influencia de las diferentes variables en los mismos a raíz de la experiencia que aporta esta
información. Una crítica común a este tipo de modelo de predicción matemática es que suele
confundir correlación con causalidad.
4
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
Los datos para un análisis de regresión lineal deben cumplir con las siguientes condiciones:
Ahora, tomando una muestra de la población, podemos graficar la relación entre ambas variables
de la siguiente manera:
5
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
El valor de β surge tras realizar un procedimiento estadístico llamado regresión lineal. Un test
estadístico permite definir si el valor de β es estadísticamente significativo, es decir si se aleja
significativamente de 0. Si así no fuera, entonces entenderíamos que la variación en X no impone
un cambio claro en el valor de Y, porque si β vale 0, β X=0 y entonces Y= α. En cambio, si el valor de
β es significativamente diferente de 0, entendemos que hay un relación lineal entre X e Y, y que por
lo tanto los cambios en X condicionan en parte los cambios en Y.
A partir de los casos del ejemplo 1 sobre aumento del gasto y aumento de votos, se obtiene el
siguiente gráfico de dispersión:
La relación entre ambas variables aparentemente es lineal. Parece razonable proponer que
Yi = β0 + β1 * Xi + ei
yi = 5.5 + 3.5 * xi
yi = 0.5 + 7.0 * xi
6
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
¿Cómo decidir qué recta se ajusta mejor a los datos? Consideraremos los residuos, una medida
de cuán lejos está cada dato de la recta propuesta. Calcularemos entonces:
En este ejemplo, vemos que la segunda recta se ajusta mejor que la primera, porque 8.5 es
menor que 10.9.
Debemos encontrar un método que permita encontrar la mejor recta sin que tengamos que
probar todas las rectas posibles. La mejor recta será aquella que minimice la suma de las
distancias al cuadrado de los puntos a la recta, es decir deberíamos encontrar ^β o y ^β1 tales
que
Este método se llama Método de Mínimos Cuadrados Ordinarios (OLS por su sigla en inglés). En
7
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
el caso general en que tenemos n pares de observaciones (Xi , Yi), ^β o y ^β1 son las soluciones
del sistema de ecuaciones normales
Y se obtiene
Podemos concluir que 2.7 (la constante u ordenada al origen) es el porcentaje de aumento de
votos de jóvenes de 16 y 17 años si el aumento en el gasto es 0. También, que por cada punto
porcentual de aumento en el gasto público se espera un cambio de 5.4 puntos porcentuales de
aumento en la cantidad de votos (pendiente). Y, por último, que si la pendiente es 0 (es decir que
no hay variables regresoras, predictoras o independientes), la media de los datos es el estimador
de mínimos cuadrados.
8
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
La pendiente, así calculada, depende de las unidades de medida de las variables. Por eso es
necesario considerar una medida estandarizada,
Recordemos que hemos descripto tres ecuaciones de regresión para el mismo problema, y solo
conocemos los valores de una de ellas.
9
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
Lo que obtuvimos con la última ecuación es una estimación de la verdadera recta poblacional.
- Por cada punto que aumenta el porcentaje de la población con acceso al agua, la
expectativa de vida aumenta _______________ años.
d) Calcular el porcentaje de la población con acceso a agua potable asociado con una
expectativa de vida de 67 años.
10
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
En el numerador se encuentra la expresión del cálculo de la varianza, pero con dos diferencias:
- la Y lleva un circunflejo, señalando que esa Y es la estimación de un modelo sobre lo que
según las variables explicativas vale Y. No es el valor de Y sino una estimación de Y.
- faltaría dividir entre N (número de observaciones). Sin embargo, dado que la fórmula del
denominador también la llevaría, eliminamos los denominadores (parte de abajo) de ambas
fórmulas para simplificar la expresión.
En el denominador nos encontramos con la fórmula de cálculo de la varianza, sin la división por N.
En este caso Y es el valor real de la variable dependiente.
El problema del coeficiente de determinación (R2), y razón por el cual surge el coeficiente de
determinación ajustado, radica en que no penaliza la inclusión de variables explicativas no
significativas. Es decir, si al modelo se añaden cinco variables explicativas que guardan poca
relación con el fenómeno que mide la variable dependiente, el R cuadrado aumentará. Es por ello
que muchos expertos económetras, estadísticos y matemáticos se oponen al uso del R cuadrado
como medida representativa de la bondad del ajuste real.
El coeficiente de determinación ajustado (R2 ajustado) es la medida que define el porcentaje
explicado por la varianza de la regresión en relación con la varianza de la variable explicada. Es
decir, lo mismo que el R cuadrado, pero con una diferencia. Esa diferencia se encuentra en que el
coeficiente de determinación ajustado penaliza la inclusión de variables.
Recordando que k es el número de variables explicativas, deducimos que éste no puede ser cero. Si
11
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
fuese cero, no existiría modelo. Como mínimo tendremos que explicar una variable en función de
otra variable. Dado que k debe ser como mínimo 1, el R cuadrado ajustado y el R cuadrado normal
no pueden tener el mismo valor. Es más, el R cuadrado ajustado será siempre inferior al R cuadrado
normal.
3) Una medida resumen de los errores que se cometen al utilizar cada regla. Se trata de la
suma total de los cuadrados (STC) para la regla 1 y de la suma de los residuos al cuadrado
12
Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
Pero hay que tener cuidado, porque cuantas menos observaciones tengamos, mayor va a ser R2,
sin que esto signifique necesariamente que nuestra recta es un buen estimador del valor
poblacional. Por ejemplo, si tuviéramos solo dos observaciones, la recta que obtendríamos uniría
los dos puntos y la suma de los mínimos cuadrados daría un ajuste perfecto, con R2 = 1.
Ejercicio 3 - R2 y R2 ajustado
b) Identificar el r del ejercicio 2 (ayuda: recordar que señala cuánto aumenta Y cuando
aumenta X) y calcular el R2 correspondiente.
13