Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión y correlación
ANÁLISIS DE CORRELACIÓN → Grupo de técnicas para medir la asociación entre dos variables
1. El coeficiente de correlación de la muestra
se identifica con la letra minúscula r y de la
población con la letra griega ρ
2. r muestra la dirección y fuerza de la relación
lineal (recta) entre dos variables en escala de
intervalo o en escala de razón
(NO causa → efecto).
• R² varía de 0 a 1.0. 2
σ(𝑦 − 𝑦)
𝑅2 =1−
ത 2
σ(𝑦 − 𝑦)
• R² es el cuadrado del coeficiente de
correlación r.
• Relación entre r, R² y 𝑠𝑦−𝑥 → tabla ANOVA
En el mismo ejercicio de Haverty’s Furniture Company, la cantidad de ventas es la variable
dependiente, y el gasto en publicidad es la variable independiente.
a) Determine el error estándar de estimación.
b) Determine el coeficiente de determinación.
c) Interprete el coeficiente de determinación.
Inferencia de la regresión lineal
• La inferencia respecto de la regresión lineal
se basa en las siguientes suposiciones.
o Para un valor dado de X, los valores de
Y están normalmente distribuidos
respecto de la recta de regresión.
o La desviación estándar de cada una de
las distribuciones normales es la misma
para todos los valores de X, y se estima
mediante el error estándar de
estimación.
o Las desviaciones de la recta de
regresión son independientes, sin un
patrón debido al tamaño o la dirección.
Intervalos de confianza
• Las medias de las distribuciones muestrales son iguales a los valores de los parámetros
que se estimarán.
Inferencias en la regresión lineal múltiple
• Se utiliza una prueba global para investigar si es posible que todas las variables
independientes tengan coeficientes de regresión cero.
• todos los coeficientes de regresión son cero
• al menos un coeficiente de regresión no es cero
• El estadístico de prueba es la distribución F con k (el número de variables
independientes) grados de libertad en el numerador, y n - (k + 1), grados de libertad
en el denominador, donde n es el tamaño muestral, α=5%.
• La fórmula para calcular el valor del estadístico de prueba de la prueba global es:
Inferencias en la regresión lineal múltiple
• La prueba de las variables individuales determina cuáles de ellas tienen coeficientes
de regresión distintos de cero.
• En general, las variables con coeficientes de regresión cero se omiten del análisis.
• El estadístico de prueba es la distribución t con n – (k + 1) grados de libertad,
α=5%.
• La fórmula para calcular el valor del estadístico de prueba de la prueba individual
es:
Evaluación de las suposiciones de la regresión múltiple
A. Relación lineal entre la variable dependiente y el conjunto de variables independientes.
1. Diagrama de dispersión→ residuos en el eje vertical y los valores ajustados en el eje
horizontal.
2. Si las gráficas parecen aleatorias, se concluye que la relación es lineal.
Evaluación de las suposiciones de la regresión múltiple
B. La variación es la misma tanto para valores grandes como pequeños de 𝒀
1. Homoscedasticidad → variación constante respecto de la recta de regresión
2. Diagrama de dispersión→ residuos en el eje vertical y los valores ajustados en el eje
horizontal.
3. Si las gráficas parecen aleatorias, los residuos cumplen con el requisito de
homoscedasticidad.
C. Los residuos siguen la distribución de probabilidad normal.
1. Histograma de los residuos para ver si siguen una distribución normal.
2. La media de la distribución de los residuos es 0.
3. Gráfica de probabilidad normal de los residuos
D. Las variables independientes no están correlacionadas (Multicolinealidad).
1. Una matriz de correlación muestra todas las correlaciones posibles entre variables
independientes. Son señales de que hay un problema si las correlaciones son mayores
que 0.70 o bien menores que -0.70.
2. Entre las señales de variables independientes correlacionadas se encuentran los casos
cuando una variable de predicción se determina insignificante, cuando se presenta una
inversión obvia de signos en una o más de las variables independientes, o bien cuando,
al eliminar una variable de la solución, se produce un gran cambio en los coeficientes de
regresión.
3. El factor de inflación de la varianza se emplea para identificar variables
independientes correlacionadas. VIF > 10 →la variable independiente se debe eliminar
del análisis
E. Cada residuo es independiente de otros residuos.
1. La autocorrelación ocurre cuando se correlacionan residuos sucesivos.
2. Cuando existe autocorrelación, el valor del error estándar está sesgado y genera
resultados deficientes en las pruebas de hipótesis, sin que importen los coeficientes
de regresión.
Variables independientes cualitativas
A. Una variable independiente ficticia o cualitativa → variable dicotómica.
1. Se asigna un valor de 1 a uno de los resultados y 0 al otro.
2. Se utiliza el valor de t para determinar si la variable ficticia debe permanecer
en la ecuación.
Modelo de regresión con interacción
B. Una interacción se produce cuando una variable independiente (como X2) afecta la
relación con otra variable independiente (X1) y la variable dependiente (Y).
1. Es posible tener una interacción de tres vías entre las variables independientes.
2. Es posible que exista interacción donde una de las variables independientes esté en
escala nominal.
Regresión por pasos
C. La regresión por pasos es un proceso paso por paso para encontrar la ecuación de
regresión.
1. Sólo las variables independientes con coeficientes de regresión distintos de cero
entran en la ecuación.
2. Se agregan variables independientes una a la vez a la ecuación de regresión.