Módulo 4 - Clase 11 - Correlación y Regresión Lineal

Introducción al Paquete Estadístico SPSS
Módulo 4 - Clase 11 - Correlación y Regresión Lineal
En esta clase haremos un recorrido por los diferentes conceptos asociados con la regresión lineal:
comenzaremos por entender la r de Pearson, luego el modelo de regresión lineal, la interpretación
del R cuadrado y R cuadrado ajustado, además de los coeficientes α, β y la recta de regresión.
11.1 Correlación (r de Pearson)

Lo que se busca determinar en un análisis de correlación es el grado de asociación lineal entre dos
variables cuantitativas (de escala). Es decir, si al aumentar los valores de una de ellas hay un
aumento o descenso proporcional de la otra. Es fácil inferir que de existir una relación lineal se
podrá predecir aproximadamente el valor de una de las variables ante una variación de la otra.
La correlación (r de Pearson) se diferencia de la covarianza en que su valor es independiente de la
escala de medida de las variables. La expresión matemática es la siguiente:
En esta fórmula, Cov (x;y) es la covarianza entre el valor x e y, y σ la desviación estándar de x e y. El

cálculo de la correlación a partir de una muestra se realiza de la siguiente manera:
El estadístico que mide ese grado de asociación lineal es el coeficiente r. El coeficiente r no tiene
unidades. Su valor oscila entre +1 y -1. Un valor de +1 implica una relación lineal ascendente
perfecta: a cada magnitud de aumento de una de las variables corresponde la misma magnitud de
aumento en la otra. Un valor de -1 implica una relación lineal descendente perfecta: a cada
magnitud de aumento de una de las variables corresponde la misma magnitud de descenso en la
otra.
Ejemplo 1 - Correlación
Consideremos los resultados de un estudio que relaciona el aumento del gasto público nacional
en recursos para la educación secundaria (becas, infraestructura, mobiliario, recursos
tecnológicos) y el aumento en el porcentaje de votos de jóvenes de 16 y 17 años en las
provincias argentinas. Se obtienen los siguientes pares de valores para 5 provincias (x,y): (0.5,5),
(1, 8), (1.5,12), (2,13), (2.5,16).
1
Procedemos a realizar el cálculo:

1) Primer término del numerador 5 (2,5 + 8 + 18 + 26 + 40) = 472,5
2) Segundo término del numerador (0,5 + 1 + 1,5 + 2 + 2,5 )(5 + 8 + 12 + 13 + 16) = 7,5 . 54 =
405
3) Resta 472,5 - 405 = 67,5
4) Primer término de la primera raíz del denominador 5 (0,25 + 1 + 2,25 + 4 + 6,25) = 68,75
5) Segundo término de la primera raíz del denominador 7,52 = 56,25
6) Resta 12,5
7) Raíz 3,54
8) Primer término de la segunda raíz del denominador 5 (25 + 64 + 144 + 169 + 256) =
3290
9) Segundo término de la segunda raíz del denominador 542 =2916
10) Resta 374
11) Raíz 19,34
12) Denominador 3,54 . 19,34 = 68,46
13) Numerador / Denominador 67,5/68,46 = 0,988
El cálculo da como resultado un grado de correlación de signo positivo (+) y fuerte (cercano a 1).
Esto significa que a mayor gasto público en educación secundaria, mayor porcentaje de aumento
de votos en jóvenes de 16 y 17 años.
Valores de +1 ó -1 son lógicamente inhallables. Valores cercanos a estos extremos implican alto
grado de asociación lineal. A medida que los valores de r se acercan a 0, el grado de asociación
lineal entre las variables estudiadas es menor. Un coeficiente r de 0 implica ausencia absoluta de
asociación lineal.
Como toda determinación estadística, a cada valor de r en cada situación corresponde un valor de
p, que expresa la probabilidad de que el valor de r sea debido al azar. Es decir que no solo importa
el valor de r, sino también el valor de p. Solo se acepta un valor de r como verdadero si su valor de p
es < 0.05. Como es sabido, el valor de p está influido por el tamaño de la muestra. Muestras
pequeñas pueden presentar valores de r elevados (cercanos a +1 ó -1) pero con valor de p no
significativo. De igual modo, valores de r de poca relevancia pueden tener significación estadística
si la muestra es numerosa.
2
Más allá de esta aclaración, los valores de r dan solo una valoración de si existe una asociación
lineal, pero no una idea acabada de cuánto influye la variación en los valores de una de las
variables en los valores de la otra. Para ello es necesario recurrir a R2, que surge justamente de
elevar al cuadrado el valor de r. R2 es la expresión del cambio que la variación de una variable
genera en la otra. Por ejemplo, un valor de r de 0.5 implica un R2 de 0.25. Esto significa que solo el
25% de la variación de los valores de una variable se debe a la variación de la otra.
De allí que solo un valor de r de 1, por lo tanto con un R2 de 1, implica que toda la variación en una
de las variables se explica por los cambios en la otra. Considerar R2 más que r ayuda a poner las
cosas en perspectiva. Veremos esto en mayor detalle en los próximos apartados.
Es imprescindible mirar los gráficos de dispersión y no quedarnos solamente con leer el valor de r.
Que r no sea significativo no implica que no haya asociación entre las variables estudiadas. Implica
que no hay asociación lineal. Una asociación no lineal (curva en J o en U) puede estar presente, con
un gráfico que la demuestre y un valor de r sin significación estadística (a).
En determinadas situaciones el valor de r puede ser significativo, pero en realidad el gráfico nos
demuestra que las bases del hallazgo no son correctas. Se puede obtener un valor de r significativo
escasos valores fuera de rango pueden también traccionar de la línea de correlación y simular una
relación lineal (b); o al colocar conjuntamente 2 subgrupos en cada uno de los cuales no hay
asociación lineal, pero que puestos en un mismo análisis generan un r significativo (c).
Los hallazgos de un estudio de correlación se aplican solamente al rango de valores estudiados. No

se pueden extrapolar las conclusiones a valores de las variables por fuera de ese rango. Una
relación lineal en el rango estudiado puede no mantenerse por fuera del mismo.
En resumen, al estudiar correlación debemos tener en cuenta el valor de r, el correspondiente
3
valor de p, considerar el valor de R2 y estudiar cuidadosamente el gráfico de la relación.
Ejercicio 1 - Correlación
a) Responder si las siguientes afirmaciones son verdaderas o falsas, argumentando por qué:
I. Es posible calcular el valor de r de Pearson para el monto de ingresos mensuales y el

nivel de estudios finalizados.
II. Si el valor de una variable se mantiene estable a medida que el valor de la otra disminuye,
la correlación es negativa.
III. Cuanto más grande sea la muestra, menor será el valor de p.
IV. Un valor de r superior a 0,6 implica una correlación fuerte, independientemente del
valor de p.
V. El valor de R2 siempre es inferior al valor de r en términos absolutos.
b) Interpretar los siguientes gráficos de dispersión señalando si hay o no una correlación

lineal, cuál es su signo y cuán fuerte o débil es.
c) Asociar los resultados de las correlaciones con los gráficos del punto b.
r = 0,15 r = 0,85 r = -0,5
11.2 Regresión
Un modelo de regresión es un modelo matemático que busca determinar si existe una relación
causal entre una variable dependiente (Y) con respecto a otras variables llamadas explicativas,
predictoras o independientes (X). Las principales aplicaciones de este elemento estadístico son la
predicción o previsión de hechos a partir de datos ya determinados, teniendo en cuenta el grado
de influencia de las diferentes variables en los mismos a raíz de la experiencia que aporta esta
información. Una crítica común a este tipo de modelo de predicción matemática es que suele
confundir correlación con causalidad.
4
Los datos para un análisis de regresión lineal deben cumplir con las siguientes condiciones:
- Las variables dependientes e independientes deben ser cuantitativas.

- Las variables categóricas, como la religión, estudios principales o el lugar de residencia, han
de recodificarse como variables binarias (dummy) o como otros tipos de variables de
contraste.
Los supuestos que deben cumplirse son los siguientes:
- Para cada valor de la variable independiente, la distribución de la variable dependiente
debe ser normal (normalidad).
- La varianza de distribución de la variable dependiente debe ser constante para todos los
valores de la variable independiente (homocedasticidad).
- La relación entre la variable dependiente y cada variable independiente debe ser lineal y
todas las observaciones deben ser independientes.
El modelo de regresión simple tiene la siguiente forma: Y= α + β X + e. Aquí, Y es el valor de la
variable continua dependiente (o de respuesta), X es el valor de la variable independiente (o
predictora), α es el valor de Y cuando X vale 0 (constante u ordenada al origen), β es cuánto varía Y
por cada cambio de valor de una unidad en X (pendiente) y e es el error que corresponde al
componente aleatorio. Recordemos que, a diferencia de un un modelo determinístico, un modelo
estadístico permite la incorporación de un componente aleatorio en la relación. En consecuencia,
las predicciones obtenidas a través de modelos estadísticos tendrán asociado un error de
predicción.
Ahora, tomando una muestra de la población, podemos graficar la relación entre ambas variables
de la siguiente manera:
La recta de regresión es una aproximación de la verdadera relación entre X e Y, en la que se pueden

obtener α y β para predecir los valores de Y en función de X, teniendo en cuenta que habrá una
variabilidad no explicada por el modelo.
5
El valor de β surge tras realizar un procedimiento estadístico llamado regresión lineal. Un test
estadístico permite definir si el valor de β es estadísticamente significativo, es decir si se aleja
significativamente de 0. Si así no fuera, entonces entenderíamos que la variación en X no impone
un cambio claro en el valor de Y, porque si β vale 0, β X=0 y entonces Y= α. En cambio, si el valor de
β es significativamente diferente de 0, entendemos que hay un relación lineal entre X e Y, y que por
lo tanto los cambios en X condicionan en parte los cambios en Y.
Ejemplo 2 - Regresión lineal simple
A partir de los casos del ejemplo 1 sobre aumento del gasto y aumento de votos, se obtiene el
siguiente gráfico de dispersión:
La relación entre ambas variables aparentemente es lineal. Parece razonable proponer que
AUMVOTO = β0 + β1 * AUMGASTO + error
Yi = β0 + β1 * Xi + ei
Podríamos intentar una recta “a ojo”:
yi = 5.5 + 3.5 * xi
yi = 0.5 + 7.0 * xi
6
¿Cómo decidir qué recta se ajusta mejor a los datos? Consideraremos los residuos, una medida
de cuán lejos está cada dato de la recta propuesta. Calcularemos entonces:
En este ejemplo, vemos que la segunda recta se ajusta mejor que la primera, porque 8.5 es
menor que 10.9.
Debemos encontrar un método que permita encontrar la mejor recta sin que tengamos que
probar todas las rectas posibles. La mejor recta será aquella que minimice la suma de las
distancias al cuadrado de los puntos a la recta, es decir deberíamos encontrar ^β o y ^β1 tales
que
para cualquier elección de b0 y b1 que hagamos.
Este método se llama Método de Mínimos Cuadrados Ordinarios (OLS por su sigla en inglés). En
7
el caso general en que tenemos n pares de observaciones (Xi , Yi), ^β o y ^β1 son las soluciones
del sistema de ecuaciones normales
Y se obtiene
Para el ejemplo, el cálculo es el siguiente:
La recta ajustada es entonces
Podemos concluir que 2.7 (la constante u ordenada al origen) es el porcentaje de aumento de
votos de jóvenes de 16 y 17 años si el aumento en el gasto es 0. También, que por cada punto
porcentual de aumento en el gasto público se espera un cambio de 5.4 puntos porcentuales de
aumento en la cantidad de votos (pendiente). Y, por último, que si la pendiente es 0 (es decir que
no hay variables regresoras, predictoras o independientes), la media de los datos es el estimador
de mínimos cuadrados.
Aquí se puede ver el gráfico de la recta y el cálculo de residuos:
8
La pendiente, así calculada, depende de las unidades de medida de las variables. Por eso es
necesario considerar una medida estandarizada,
donde sx y sy son las desviaciones estándares de las X y de las Y respectivamente, y r es el valor de

la correlación de Pearson que vimos anteriormente. Es decir que la r de Pearson es la pendiente
estandarizada. Si las desviaciones son iguales, la pendiente y la pendiente estandarizadas son
iguales entre sí e iguales a r.
Esta relación directa entre el coeficiente de correlación de Pearson y la pendiente de la recta de

regresión sólo es válida en el contexto de regresión simple (una variable regresora) no vale para el
caso de regresión múltiple (más de una variable regresora).
Recordemos que hemos descripto tres ecuaciones de regresión para el mismo problema, y solo
conocemos los valores de una de ellas.
Ecuación Notación Valor
Recta de regresión Desconocido

poblacional
Modelo de regresión lineal Desconocido (error aleatorio)
9
Recta de regresión estimada Conocido (método de

mínimos cuadrados
ordinarios)
Lo que obtuvimos con la última ecuación es una estimación de la verdadera recta poblacional.
Ejercicio 2 - Regresión lineal simple
a) Definir α, β, X e Y con los siguientes datos:

- Variable dependiente: expectativa de vida medida en años
- Variable regresora/independiente: porcentaje de la población con acceso a agua
potable
- constante/ordenada al origen: 6,67
- Pendiente: 0,71
b) Completar las siguiente expresiones:
- Si no se considera el porcentaje de la población con acceso a agua potable (o, si se

considera que este porcentaje es igual a ___________________), la expectativa de vida
predicha por el modelo es ___________________.
- Por cada punto que aumenta el porcentaje de la población con acceso al agua, la
expectativa de vida aumenta _______________ años.
c) Calcular la expectativa de vida esperada cuando el porcentaje de la población con acceso

a agua potable es 85%, con los datos del punto anterior.
d) Calcular el porcentaje de la población con acceso a agua potable asociado con una
expectativa de vida de 67 años.
11.3 Coeficiente de determinación (R2) y coeficiente de determinación ajustado

El coeficiente de determinación se define como la proporción de la varianza total de la variable
explicada por la regresión. El coeficiente de determinación, también llamado R cuadrado, refleja la
bondad del ajuste de un modelo a la variable que pretende explicar. Cuanto más cerca de 1 se sitúe
su valor, mayor será el ajuste del modelo a la variable que estamos intentando explicar. De forma
inversa, cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto, menos fiable será.
La expresión aritmética para el cálculo de R2 es la siguiente:
10
En el numerador se encuentra la expresión del cálculo de la varianza, pero con dos diferencias:
- la Y lleva un circunflejo, señalando que esa Y es la estimación de un modelo sobre lo que
según las variables explicativas vale Y. No es el valor de Y sino una estimación de Y.
- faltaría dividir entre N (número de observaciones). Sin embargo, dado que la fórmula del
denominador también la llevaría, eliminamos los denominadores (parte de abajo) de ambas
fórmulas para simplificar la expresión.
En el denominador nos encontramos con la fórmula de cálculo de la varianza, sin la división por N.
En este caso Y es el valor real de la variable dependiente.
El problema del coeficiente de determinación (R2), y razón por el cual surge el coeficiente de
determinación ajustado, radica en que no penaliza la inclusión de variables explicativas no
significativas. Es decir, si al modelo se añaden cinco variables explicativas que guardan poca
relación con el fenómeno que mide la variable dependiente, el R cuadrado aumentará. Es por ello
que muchos expertos económetras, estadísticos y matemáticos se oponen al uso del R cuadrado
como medida representativa de la bondad del ajuste real.
El coeficiente de determinación ajustado (R2 ajustado) es la medida que define el porcentaje
explicado por la varianza de la regresión en relación con la varianza de la variable explicada. Es
decir, lo mismo que el R cuadrado, pero con una diferencia. Esa diferencia se encuentra en que el
coeficiente de determinación ajustado penaliza la inclusión de variables.
Cómo hemos dicho anteriormente el coeficiente de determinación de un modelo aumenta aunque

las variables que incluyamos no sean relevantes. Ya que esto supone un problema, para intentar
solventarlo el R cuadrado ajustado se calcula de la siguiente manera:
Aquí, N es el tamaño de la muestra y k el número de variables explicativas. A valores más altos de k,

más alejado estará el R cuadrado ajustado del R cuadrado normal. Inversamente, a valores más
bajos de k, más cerca estará de 1 la fracción central y, por tanto, más parecidos serán el R cuadrado
ajustado y el R cuadrado normal.
Recordando que k es el número de variables explicativas, deducimos que éste no puede ser cero. Si
11
fuese cero, no existiría modelo. Como mínimo tendremos que explicar una variable en función de
otra variable. Dado que k debe ser como mínimo 1, el R cuadrado ajustado y el R cuadrado normal
no pueden tener el mismo valor. Es más, el R cuadrado ajustado será siempre inferior al R cuadrado
normal.
Lo que se trata de hacer al construir el coeficiente de determinación es obtener una medida de

cuán bien predictor de Y es X. Si se puede predecir mejor el valor de Y al utilizar la recta que
cuando no se conoce X, entonces las variables están asociadas.
Vemos que tenemos dos fuentes de variabilidad de nuestra variable dependiente:
1) Variabilidad explicada por la variable regresora/independiente. Por ejemplo, cuando los

resultados de un estudio varían porque las diferentes ratas recibieron diferentes dosis de
la droga.
2) Variabilidad residual (no explicada por la variable regresora). En este caso, aunque cada
individuo hubiera recibido el mismo estímulo, las respuestas no habrían sido las mismas,
por diferentes razones.
Por lo tanto,
1) Una medida de variabilidad total de la variable Y, cuando no tenemos en cuenta la variable
regresora, es la suma de las desviaciones de la media de Y al cuadrado. Es la suma total de
los cuadrados (STC o TSS)
2) Una medida de la variabilidad no explicada por la variable regresora es la suma de los

residuos al cuadrado (SCE o RSS)
3) Una medida de cuánto contribuye la variable X a explicar la variabilidad de Y es la suma de

los cuadrados de la regresión (SCR o RegSS)
STC = SCE + SCR
Para construir R2 se utilizan los siguientes cálculos:

1) Una regla para predecir Y cuando no existe X. Como vimos anteriormente, es
2) Una regla para predecir Y cuando conocemos X. Esta es la ecuación
3) Una medida resumen de los errores que se cometen al utilizar cada regla. Se trata de la
suma total de los cuadrados (STC) para la regla 1 y de la suma de los residuos al cuadrado
12
(SCE) para la regla 2.
4) Una medida de cuánto se reduce el error al usar la regla más sofisticada:
(STC - SCE) / STC = SCR / STC = R2
Ejemplo 3 - Coeficiente de determinación
En el ejemplo, R2 = 72.9/74.8 = 0.975. Entonces, el 97.5% de la variabilidad de la variable

dependiente (aumento porcentual de votos) es explicada por una variación en el gasto. El gasto
es un excelente predictor del voto. Esto es lo mismo que elevar el r del ejemplo 1 al cuadrado.
Pero hay que tener cuidado, porque cuantas menos observaciones tengamos, mayor va a ser R2,
sin que esto signifique necesariamente que nuestra recta es un buen estimador del valor
poblacional. Por ejemplo, si tuviéramos solo dos observaciones, la recta que obtendríamos uniría
los dos puntos y la suma de los mínimos cuadrados daría un ajuste perfecto, con R2 = 1.
Ejercicio 3 - R2 y R2 ajustado
a) Calcular el R2 correspondiente a cada r del ejercicio 1.
b) Identificar el r del ejercicio 2 (ayuda: recordar que señala cuánto aumenta Y cuando
aumenta X) y calcular el R2 correspondiente.
c) Calcular el R2 ajustado a partir de lo obtenido en el punto anterior.
d) ¿Cuánto explica la variable regresora del ejercicio 2 la variabilidad de la variable

dependiente?
13

Módulo 4 - Clase 11 - Correlación y Regresión Lineal

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Módulo 4 - Clase 11 - Correlación y Regresión Lineal

Cargado por

Copyright:

Formatos disponibles

Introducción al Paquete Estadístico SPSS

Módulo 4 - Clase 11 - Correlación y Regresión Lineal

11.1 Correlación (r de Pearson)

En esta fórmula, Cov (x;y) es la covarianza entre el valor x e y, y σ la desviación estándar de x e y. El

Procedemos a realizar el cálculo:

Los hallazgos de un estudio de correlación se aplican solamente al rango de valores estudiados. No

En resumen, al estudiar correlación debemos tener en cuenta el valor de r, el correspondiente

valor de p, considerar el valor de R2 y estudiar cuidadosamente el gráfico de la relación.

I. Es posible calcular el valor de r de Pearson para el monto de ingresos mensuales y el

b) Interpretar los siguientes gráficos de dispersión señalando si hay o no una correlación

r = 0,15 r = 0,85 r = -0,5

- Las variables dependientes e independientes deben ser cuantitativas.

La recta de regresión es una aproximación de la verdadera relación entre X e Y, en la que se pueden

Ejemplo 2 - Regresión lineal simple

AUMVOTO = β0 + β1 * AUMGASTO + error

Podríamos intentar una recta “a ojo”:

para cualquier elección de b0 y b1 que hagamos.

Para el ejemplo, el cálculo es el siguiente:

La recta ajustada es entonces

Aquí se puede ver el gráfico de la recta y el cálculo de residuos:

donde sx y sy son las desviaciones estándares de las X y de las Y respectivamente, y r es el valor de

Esta relación directa entre el coeficiente de correlación de Pearson y la pendiente de la recta de

Ecuación Notación Valor

Recta de regresión Desconocido

Modelo de regresión lineal Desconocido (error aleatorio)

Recta de regresión estimada Conocido (método de

Ejercicio 2 - Regresión lineal simple

a) Definir α, β, X e Y con los siguientes datos:

b) Completar las siguiente expresiones:

- Si no se considera el porcentaje de la población con acceso a agua potable (o, si se

c) Calcular la expectativa de vida esperada cuando el porcentaje de la población con acceso

11.3 Coeficiente de determinación (R2) y coeficiente de determinación ajustado

Cómo hemos dicho anteriormente el coeficiente de determinación de un modelo aumenta aunque

Aquí, N es el tamaño de la muestra y k el número de variables explicativas. A valores más altos de k,

Lo que se trata de hacer al construir el coeficiente de determinación es obtener una medida de

Vemos que tenemos dos fuentes de variabilidad de nuestra variable dependiente:

1) Variabilidad explicada por la variable regresora/independiente. Por ejemplo, cuando los

2) Una medida de la variabilidad no explicada por la variable regresora es la suma de los

3) Una medida de cuánto contribuye la variable X a explicar la variabilidad de Y es la suma de

STC = SCE + SCR

Para construir R2 se utilizan los siguientes cálculos:

2) Una regla para predecir Y cuando conocemos X. Esta es la ecuación

(SCE) para la regla 2.

4) Una medida de cuánto se reduce el error al usar la regla más sofisticada:

(STC - SCE) / STC = SCR / STC = R2

Ejemplo 3 - Coeficiente de determinación

En el ejemplo, R2 = 72.9/74.8 = 0.975. Entonces, el 97.5% de la variabilidad de la variable

a) Calcular el R2 correspondiente a cada r del ejercicio 1.

c) Calcular el R2 ajustado a partir de lo obtenido en el punto anterior.

d) ¿Cuánto explica la variable regresora del ejercicio 2 la variabilidad de la variable

También podría gustarte