Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LINEAL Y
CORRELACIÓN
Profesora: María del Carmen Lapo
Maza
UNIVERSIDAD CATÓLICA
DE SANTIAGO DE GUAYAQUIL
Análisis de correlación
Introducción
• La correlación indica la fuerza de la RELACIÓN o ASOCIACIÓN entre
dos variables.
• El análisis de correlación es la herramienta estadística que podemos
usar para describir el grado en el que una variable está linealmente
relacionada con otra.
• Estudiaremos la correlación con variables cuantitativas continuas.
• Cuando se estudia la relación entre dos variables cuantitativas, es
usual comenzar con un diagrama de dispersión. Este procedimiento
proporciona una representación visual de la relación entre las
variables.
• El siguiente paso suele ser calcular el coeficiente de correlación, que
brinda una medida cuantitativa de la fuerza de la relación entre dos
variables.
Análisis de correlación
• Dentro de la estadística paramétrica, el
coeficiente de correlación que
usaremos es el COEFICIENTE DE
CORRELACIÓN LINEAL DE
PEARSON.
• Este coeficiente fue desarrollado por el
matemático Karl Pearson y publicado
en 1844.
Tipos de correlación
Correlación perfecta Correlación positiva Correlación positiva No correlación
positiva fuerte débil
Estimadores
Coeficientes de regresión Error: variables no
observadas
𝑌 = 𝑎 + 𝑏𝑋 + 𝑒
a es la intersección de Y. Es el valor
estimado de Y cuando X=0.
𝑌 = 𝑎 + 𝑏𝑋 + 𝑒
• Intuitivamente, este modelo nos permite considerar la media de la variable dependiente Y
como una función de otra variable X. Es decir, el promedio de la variable Y dependerá de lo
que pase con la variable X.
Un supuesto esencial del Modelo de regresión
lineal
𝑌 = 𝑎 + 𝑏𝑋 + 𝑒
En la regresión lineal hacemos un supuesto esencial
sobre el término de error e.
Recordemos la Distribución Normal!! Dicha
distribución es esencial para la aplicación de la
regresión lineal.
En particular, requerimos que el error e se encuentra
distribuido normalmente y dichos errores deben ser
independientes entre sí.
Este supuesto se resume como: Errores idéntica e independientemente
2
𝑒 ~𝑖. 𝑖. 𝑑 𝑁(0, 𝜎 ) distribuidos normalmente con media cero y la
misma varianza
Estimación de coeficientes de regresión
• Existe muchas formas de estimar la ecuación lineal!
𝑌 = 𝑎 + 𝑏𝑋 + 𝑒
• Sin embargo, el método más usado es el denominado MÍNIMOS CUADRADOS
ORDINARIOS
Método de Mínimos Cuadrados Ordinarios OLS
Determina una ecuación de regresión al minimizar la suma de los cuadrados
de las distancias verticales entre los valores reales de Y y los valores
pronosticados de Y.
𝑌 = 𝑎 + 𝑏𝑋 + 𝑒
El error es igual a Distancia
e = Y-a-bX vertical
Por tanto, OLS requiere
minimizar
2
𝑚𝑖𝑛 𝑌 − 𝑎 − 𝑏𝑋
𝑖
Por qué Mínimos Cuadrados Ordinarios OLS
• Bajo los supuestos de regresión lineal el método OLS provee los
estimadores:
• Más eficientes (mínima varianza)
• Insesgados
• Consistentes
• Su estimación es relativamente fácil e intuitiva. A continuación se presentará
alguna notación para la comprensión de la estimación. Sin embargo, no
pensemos que OLS es difícil al ver su notación! Al final veremos que es
bastante fácil!
Estimación de coeficientes de regresión
2
• Encontrar la solución a 𝑚𝑖𝑛 σ𝑖 𝑌 − 𝑎 − 𝑏𝑋 requiere el uso de cálculo diferencial. Las
fórmulas resultantes para los estimadores a y b son:
Bondad de ajuste de la línea de regresión
• Habiendo calculado la línea de regresión,
ahora nos preguntamos si proporciona un
buen ajuste para los datos, es decir,
¿tienden las observaciones a situarse
cerca o lejos de la línea de regresión
estimada?
ത tiene dos
La distancia (𝑌𝑖 − 𝑌)
componentes:
• La parte explicada por la línea de
regresión (𝑌 − 𝑌)
ത
• Y el término de error 𝑒𝑖 = 𝑌𝑖 − 𝑌ത
Es decir:
Bondad de ajuste de la línea de regresión
• Intuitivamente, un modelo de buen ajuste debe tener un alto % de su varianza
(variación en las observaciones) explicado por su línea de regresión (𝑌 − 𝑌)
ത , por lo
que dicho valor debe ser más grande que el término de error 𝑒𝑖 = 𝑌𝑖 − 𝑌ത .
• Dicha expresión debe ser generalizada para todas las observaciones. Sin embargo, al
realizar los cálculos con dicha expresión obtendremos valores NEGATIVOS! Los
cuales restarían a valores positivos y se obtendrían un valor de 0.
Bondad de ajuste de la línea de regresión
• Para solucionar dicho problema, elevamos al cuadrado las expresiones anteriores y
obtenemos: