Está en la página 1de 27

UNIDAD 2: REGRESIÓN

LINEAL Y
CORRELACIÓN
Profesora: María del Carmen Lapo
Maza

UNIVERSIDAD CATÓLICA
DE SANTIAGO DE GUAYAQUIL
Análisis de correlación
Introducción
• La correlación indica la fuerza de la RELACIÓN o ASOCIACIÓN entre
dos variables.
• El análisis de correlación es la herramienta estadística que podemos
usar para describir el grado en el que una variable está linealmente
relacionada con otra.
• Estudiaremos la correlación con variables cuantitativas continuas.
• Cuando se estudia la relación entre dos variables cuantitativas, es
usual comenzar con un diagrama de dispersión. Este procedimiento
proporciona una representación visual de la relación entre las
variables.
• El siguiente paso suele ser calcular el coeficiente de correlación, que
brinda una medida cuantitativa de la fuerza de la relación entre dos
variables.
Análisis de correlación
• Dentro de la estadística paramétrica, el
coeficiente de correlación que
usaremos es el COEFICIENTE DE
CORRELACIÓN LINEAL DE
PEARSON.
• Este coeficiente fue desarrollado por el
matemático Karl Pearson y publicado
en 1844.
Tipos de correlación
Correlación perfecta Correlación positiva Correlación positiva No correlación
positiva fuerte débil

Correlación negativa Correlación negativa Correlación negativa


débil fuerte perfecta
Coeficiente de correlación
• El coeficiente de correlación, creado por Karl Pearson alrededor de 1900, describe la
fuerza de la relación entre dos conjuntos de variables cuantitativas continuas.
• Se designa con la letra r, y con frecuencia se le conoce como r de Pearson o
coeficiente de correlación producto-momento.
• Puede adoptar valores entre -1.00 a +1.00
• Un coeficiente de correlación de 1.00 o bien de -1.00 indica una correlación perfecta.
Coeficiente de correlación
• Si no hay ninguna relación entre los dos conjuntos de variables, la r de Pearson es cero.
• Un coeficiente de correlación r cercano a 0 (sea 0.08) indica que la relación lineal es muy
débil.
• Los coeficientes de +0.91 y -0.91 tienen una fuerza igual; los dos indican una correlación
muy fuerte entre las dos variables. Pero +0.91 es una relación positiva, y -0.91 negativa.
• Por lo tanto, la fuerza de la correlación no depende de la dirección (ya sea - o bien +).
Cálculo del Coeficiente de correlación muestral r
• La fórmula del coeficiente de correlación r está dada por:

• En Excel podemos usar:


• La función =COEF.DE.CORREL(
• Análisis de datos – matriz de correlaciones
Cálculo de la significancia del coeficiente de
correlación muestral r
• Para saber si el coeficiente es significativo, es decir si la relación entre las
dos variables es significativa. El coeficiente r se somete a la siguiente prueba
de hipótesis:
H0: r = 0
H1: r ≠ 0
• El estadístico a usar será el estadístico t y se calcula con la siguiente fórmula:

• El cual tiene una distribución t-student con n-2 grados de libertad.


Características del coeficiente de correlación
1. El coeficiente de correlación de la muestra se identifica con la letra
minúscula r.
2. Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables
en escala de intervalo o en escala de razón.
3. Varía de -1 hasta +1, inclusive. Signos negativos indican una relación
inversa y signos positivos indica una relación directa.
4. Un valor cercano a 0 indica que hay poca asociación entre las variables.
5. Un valor cercano a 1 indica una asociación directa o positiva entre las
variables.
6. Un valor cercano a 1 indica una asociación inversa o negativa entre las
variables
Precauciones del análisis de correlación
• Si hay una relación fuerte (sea 0.91) entre dos
variables, es factible suponer que un aumento o una
disminución en una variable causa un cambio en la
otra.
• Sin embargo, debemos tener claro que la correlación
no nos indica qué variable causa un cambio en la
otra.
• De hecho, existen una serie de razones por las que
nuestros datos podrán dar como resultado un
coeficiente de correlación alto. Dos razones
comunes son:
• Las dos variables están asociadas gracias a una tercera
variable.
• O, simplemente por coincidencia!! A esto denominamos
correlaciones espurias! Observemos algunos ejemplos.
Análisis de Regresión
Análisis de regresión
• Se elabora una ecuación para expresar la relación lineal entre dos variables.
Además, se desea estimar el valor de la variable dependiente Y con base en
un valor seleccionado de la variable independiente X.
• Sin embargo, una vez más debemos tener precauciones al momento de
establecer la variable dependiente e independiente. Debemos pensar si en
realidad una variable causa la otra!.
Usos de análisis de regresión
• Efectivamente!, el análisis de regresión puede servir para determinar CAUSALIDAD, sin
embargo, al análisis de regresión los expertos han incorporado muchas otras técnicas para
asegurar dicha causalidad.
• PREDICCIÓN, el análisis de regresión es una de las técnicas más utilizadas para predecir.
• Muchos logaritmos en internet de publicidad utilizan el método de regresión para predecir
nuestros gustos y necesidades.
• Si mi búsqueda en Google fue distintas marcas de café para preparar, es muy probable que
requiera una máquina para prepararlo.

Y = Necesidad de máquina para preparar café


X = Búsquedas sobre marcas de café.
Modelo de regresión lineal
• Un modelo de regresión lineal parte de la ecuación:

Estimadores
Coeficientes de regresión Error: variables no
observadas
𝑌෠ = 𝑎 + 𝑏𝑋 + 𝑒

Variable continuas de las cuales


tenemos una serie de datos
Y es la variable dependiente o
explicada.
X es la variable independiente, regresor
o explicativa
Notaciones
X es cualquier valor de la variable
independiente que se seleccione.
𝑌෠ = 𝑎 + 𝑏𝑋 + 𝑒
b es la pendiente de la recta, o el cambio promedio
en Y prima por cada cambio de una unidad (ya sea
aumento o reducción) de la variable independiente
X.

a es la intersección de Y. Es el valor
estimado de Y cuando X=0.

Y prima, Y sobrero o Y estimada Pendiente


es el valor de la estimación de la a
variable Y para un valor X b
seleccionado.
Modelo de regresión
• Un modelo de regresión lineal parte de la ecuación:

𝑌෠ = 𝑎 + 𝑏𝑋 + 𝑒
• Intuitivamente, este modelo nos permite considerar la media de la variable dependiente Y
como una función de otra variable X. Es decir, el promedio de la variable Y dependerá de lo
que pase con la variable X.
Un supuesto esencial del Modelo de regresión
lineal
𝑌෠ = 𝑎 + 𝑏𝑋 + 𝑒
En la regresión lineal hacemos un supuesto esencial
sobre el término de error e.
Recordemos la Distribución Normal!! Dicha
distribución es esencial para la aplicación de la
regresión lineal.
En particular, requerimos que el error e se encuentra
distribuido normalmente y dichos errores deben ser
independientes entre sí.
Este supuesto se resume como: Errores idéntica e independientemente
2
𝑒 ~𝑖. 𝑖. 𝑑 𝑁(0, 𝜎 ) distribuidos normalmente con media cero y la
misma varianza
Estimación de coeficientes de regresión
• Existe muchas formas de estimar la ecuación lineal!

𝑌෠ = 𝑎 + 𝑏𝑋 + 𝑒
• Sin embargo, el método más usado es el denominado MÍNIMOS CUADRADOS
ORDINARIOS
Método de Mínimos Cuadrados Ordinarios OLS
Determina una ecuación de regresión al minimizar la suma de los cuadrados
de las distancias verticales entre los valores reales de Y y los valores
pronosticados de Y.

𝑌෠ = 𝑎 + 𝑏𝑋 + 𝑒
El error es igual a Distancia
e = Y-a-bX vertical
Por tanto, OLS requiere
minimizar
2
𝑚𝑖𝑛 ෍ 𝑌෠ − 𝑎 − 𝑏𝑋
𝑖
Por qué Mínimos Cuadrados Ordinarios OLS
• Bajo los supuestos de regresión lineal el método OLS provee los
estimadores:
• Más eficientes (mínima varianza)
• Insesgados
• Consistentes
• Su estimación es relativamente fácil e intuitiva. A continuación se presentará
alguna notación para la comprensión de la estimación. Sin embargo, no
pensemos que OLS es difícil al ver su notación! Al final veremos que es
bastante fácil!
Estimación de coeficientes de regresión
2
• Encontrar la solución a 𝑚𝑖𝑛 σ𝑖 𝑌෠ − 𝑎 − 𝑏𝑋 requiere el uso de cálculo diferencial. Las
fórmulas resultantes para los estimadores a y b son:
Bondad de ajuste de la línea de regresión
• Habiendo calculado la línea de regresión,
ahora nos preguntamos si proporciona un
buen ajuste para los datos, es decir,
¿tienden las observaciones a situarse
cerca o lejos de la línea de regresión
estimada?

• La bondad del ajuste se calcula


comparando dos líneas: la línea de
regresión y la "línea media" (es decir, una
línea horizontal dibujada en el valor medio
de Y).
Bondad de ajuste de la línea de regresión
Un buen modelo debería explicar
una gran parte de la distancia entre
los valores de 𝑌 y 𝑌ത es decir (𝑌𝑖 − 𝑌)

ത tiene dos
La distancia (𝑌𝑖 − 𝑌)
componentes:
• La parte explicada por la línea de
regresión (𝑌෠ − 𝑌)

• Y el término de error 𝑒𝑖 = 𝑌𝑖 − 𝑌ത

Es decir:
Bondad de ajuste de la línea de regresión
• Intuitivamente, un modelo de buen ajuste debe tener un alto % de su varianza
(variación en las observaciones) explicado por su línea de regresión (𝑌෠ − 𝑌)
ത , por lo
que dicho valor debe ser más grande que el término de error 𝑒𝑖 = 𝑌𝑖 − 𝑌ത .

• Por lo tanto, una medida de bondad de ajuste es:

• Dicha expresión debe ser generalizada para todas las observaciones. Sin embargo, al
realizar los cálculos con dicha expresión obtendremos valores NEGATIVOS! Los
cuales restarían a valores positivos y se obtendrían un valor de 0.
Bondad de ajuste de la línea de regresión
• Para solucionar dicho problema, elevamos al cuadrado las expresiones anteriores y
obtenemos:

Suma total de los cuadrados (TSS)

Suma de los cuadrados de la regresión (RSS)

Suma de los cuadrados de los errores (ESS)

• Por lo tanto una medida de la bondad de ajuste es el R cuadrado o también llamado


coeficiente de determinación
Bondad de ajuste de la línea de regresión
• El coeficiente de determinación 𝑅2 cuanta variación de la variable 𝑌 es
explicada por sus regresoras 𝑋. Por lo tanto, 𝑅2 puede tomar valores
entre 0 y 1.

También podría gustarte