Está en la página 1de 39

Estadística Inferencial

Regresión y correlación

Ing. Patricia Cazorla


Contenido
• Relación entre dos variables
• Coeficiente de correlación
• Análisis de regresión
• Inferencia de la regresión lineal
• Transformación de datos
Relación entre dos variables
• Un diagrama de dispersión es una herramienta
gráfica para representar la relación entre dos
variables.
• La variable dependiente se representa a escala
en el eje Y, y es la variable que se debe estimar.
• La variable independiente se representa a escala
en el eje X, y es la variable que se emplea como
estimador.

ANÁLISIS DE CORRELACIÓN → Grupo de técnicas para medir la asociación entre dos variables
1. El coeficiente de correlación de la muestra
se identifica con la letra minúscula r y de la
población con la letra griega ρ
2. r muestra la dirección y fuerza de la relación
lineal (recta) entre dos variables en escala de
intervalo o en escala de razón
(NO causa → efecto).

3. r varía de -1 hasta 1, inclusive.


4. r cercano a 0 indica que hay poca asociación
entre las variables.
5. r cercano a 1 indica una asociación directa o
positiva entre las variables.
6. r cercano a -1 indica una asociación inversa
o negativa entre las variables.
• r se determina mediante la siguiente ecuación:
Haverty’s Furniture es un negocio familiar que vende a clientes minoristas en el área de Chicago desde
hace muchos años. Tanto en radio como en televisión e internet, la compañía destaca sus precios bajos y
fáciles términos de crédito. El propietario desea analizar la relación entre las ventas y la suma de dinero
que gastó en publicidad. A continuación se presenta la información de las ventas y de los gastos
publicitarios durante los últimos cuatro meses.
a) El propietario desea pronosticar las ventas
con base en los gastos publicitarios. ¿Cuál es la
variable dependiente? ¿Cuál es la variable
independiente?
b) Trace un diagrama de dispersión.
c) Determine el coeficiente de correlación.
d) Interprete la fuerza del coeficiente de
correlación.
Prueba de hipótesis
• H0: ρ = 0 (no hay asociación entre las variables, r se debe a la casualidad)
• H1: ρ ǂ 0

• P es la probabilidad de determinar un valor del estadístico de prueba más


extremo que el calculado, cuando H0 es verdadera.
Una muestra de 25 campañas para la alcaldía de ciudades de tamaño medio con poblaciones entre
50 000 y 250 000 habitantes demostró que la correlación entre el porcentaje de los votos recibidos
y la cantidad gastada en la campaña por cada candidato fue 0.43. A un nivel de significancia de 0.05,
¿hay una asociación positiva entre las variables?
Análisis de regresión
• Se elabora una ecuación para expresar la relación lineal entre dos variables
• La variable que se estima es la variable dependiente (Y)
• La variable con la cual se hace la estimación es la variable independiente (X)
1. La relación entre las variables debe ser lineal
2. Las dos variables, independiente y dependiente, deben estar a escala
de intervalo o de razón
3. Con el criterio de mínimos cuadrados se determina la ecuación de
regresión
Principio de los mínimos cuadrados
“Determina una ecuación de regresión al
minimizar la suma de los cuadrados de
las distancias verticales entre los valores
reales de Y y los valores estimados de Y”

La ecuación general de la recta es


෡ = a + bX
𝒀
Se minimiza la suma de residuales al
cuadrado
• Condiciones para la aplicación del principio de mínimos cuadrados:
• Los datos deben mostrar una tendencia lineal (scatter-plot)
• La distribución de los “residuos” debe ser casi normal
• La variación de los puntos alrededor de la recta de regresión debe ser casi
constante
Recta de regresión
La ecuación general de la recta es
෡ = a + bX
𝒀
•𝒀෡ es el valor estimado de Y para un valor seleccionado de X
• a es la constante o intersección (X=0)
• b es la pendiente de la recta ajustada
• El signo de b y el signo de r, siempre son iguales
• b se calcula con la siguiente ecuación
Análisis de la recta de regresión
1. Significancia de la pendiente H0: β = 0
H1: β ǂ 0
• β→ la pendiente de la recta de regresión de la población
• Si no se rechaza H0 → no hay relación entre las dos variables
• Si se rechaza H0 → hay relación significativa entre las dos variables
• t es el estadístico de prueba con n - 2 grados de libertad.
En el ejercicio anterior, el propietario de Haverty’s Furniture estudió la relación entre las ventas y la
cantidad que gastó en publicidad durante un mes. La cantidad de ventas es la variable dependiente, y
el gasto en publicidad es la variable independiente. La ecuación de regresión en ese estudio fue 𝒀 ෡=
1.5 + 2.2 X. para una muestra de cinco meses. Realice una prueba de hipótesis para demostrar que
existe una relación positiva entre la publicidad y las ventas. En el software estadístico, el error
estándar del coeficiente de regresión es 0.42. Utilice el nivel de significancia 0.05.
2. Capacidad predictora de la ecuación de regresión

• El error estándar de estimación ( ) mide la variación alrededor de la


recta de regresión
• Está en las mismas unidades que la variable dependiente
• Se basa en las desviaciones al cuadrado de la recta de regresión
• Los valores pequeños indican que los puntos se concentran estrechamente
en la recta de regresión
3. Coeficiente de determinación R²

• R² explica la fuerza de n ajuste lineal

• R² es la fracción de la variación de una


variable dependiente que se explica por la
variación de la variable independiente.

• R² varía de 0 a 1.0. ෢2
σ(𝑦 − 𝑦)
𝑅2 =1−
ത 2
σ(𝑦 − 𝑦)
• R² es el cuadrado del coeficiente de
correlación r.
• Relación entre r, R² y 𝑠𝑦−𝑥 → tabla ANOVA
En el mismo ejercicio de Haverty’s Furniture Company, la cantidad de ventas es la variable
dependiente, y el gasto en publicidad es la variable independiente.
a) Determine el error estándar de estimación.
b) Determine el coeficiente de determinación.
c) Interprete el coeficiente de determinación.
Inferencia de la regresión lineal
• La inferencia respecto de la regresión lineal
se basa en las siguientes suposiciones.
o Para un valor dado de X, los valores de
Y están normalmente distribuidos
respecto de la recta de regresión.
o La desviación estándar de cada una de
las distribuciones normales es la misma
para todos los valores de X, y se estima
mediante el error estándar de
estimación.
o Las desviaciones de la recta de
regresión son independientes, sin un
patrón debido al tamaño o la dirección.
Intervalos de confianza

• Se utiliza cuando la ecuación de regresión se emplea para predecir el valor


medio de Y para una X dada.
• Para cada valor seleccionado de la variable independiente (X), la variable
dependiente (Y) es una variable aleatoria que está distribuida normalmente
con una media (𝒀෡)
Intervalos de predicción
El valor individual de Y (n=1) se estima para un valor dado de X.

• La diferencia entre las fórmulas del intervalo de confianza y el de predicción es el


1 debajo del radical.
• El intervalo de predicción será más amplio que el nivel de confianza.
• Los intervalos de confianza y de predicción se basan en el nivel de confianza, el
tamaño del error estándar de estimación, el tamaño de la muestra y el valor de la
variable independiente.
Transformación de datos
• Un valor de r puede indicar que no hay una relación lineal, pero puede ser que
haya una relación de alguna otra forma, no lineal o curvilínea

• Y o X → logaritmo, recíproco, cuadrado o raíz cuadrada


• Y= 𝑎𝑏 𝑋 → log Y= log a + X log b
Regresión múltiple
෡ = a + b1X1 + b2X2 + . . . bkXk
𝒀

• a es la intersección con el eje Y cuando todas las X


son cero
• bj se refiere a los coeficientes de regresión de la
muestra
• Xj al valor de las diversas variables independientes
• Se emplea el criterio de mínimos cuadrados para
desarrollar la ecuación de regresión
• Es necesario un paquete de software estadístico para
realizar los cálculos
• Salsberry Realty vende casas en la costa este de Estados Unidos. Una de las
preguntas más frecuentes de los compradores potenciales es: si compramos esta
casa, ¿cuánto gastaremos en calefacción durante el invierno? Al departamento
de investigación de Salsberry se le pidió desarrollar algunas directrices respecto
de los costos de calefacción de casas unifamiliares. Se considera que tres
variables se relacionan con dichos costos: 1) la temperatura externa diaria
media, 2) el número de pulgadas de aislamiento en el ático y 3) los años de uso
del calentador.
• Para el estudio, el departamento de investigación de Salsberry seleccionó una
muestra aleatoria de 20 casas de venta reciente. Determinó el costo de
calefacción de cada casa en enero pasado, así como la temperatura externa en
enero en la región, el número de pulgadas de aislamiento del ático y los años de
uso del calentador. La información muestral se reporta en la tabla 14-1.
Evaluación de una regression múltiple
• Una tabla ANOVA resume el análisis de regresión múltiple.
• Reporta la cantidad total de la variación de la variable independiente y divide esta variación entre
las que se explican mediante el grupo de variables independientes y las que no.
• gl reporta los grados de libertad asociados con las variables independientes, el error de la
variación y la variación total.
• Hay dos medidas de la eficacia de la ecuación de regresión.
1. El error estándar de estimación múltiple es similar a la desviación estándar.
• Se mide en las mismas unidades que la variable dependiente.
• Se basa en desviaciones cuadráticas de la ecuación de regresión.
• Varía de 0 a más infinito.
• Se calcula a partir de la siguiente ecuación.
2. El coeficiente de determinación múltiple reporta el porcentaje de la variación de la
variable dependiente que explica el conjunto de variables independientes.
• Puede variar de 0 a 1.
• También se basa en desviaciones cuadráticas de la ecuación de regresión.
• Se determina mediante la siguiente ecuación.

• Cuando el número de variables independientes es grande, se ajusta el coeficiente de


determinación de los grados de libertad como sigue.
Inferencias en la regresión lineal múltiple

• Bajo ciertas suposiciones, los valores calculados de a y bj (estadísticos muestrales) son


estimadores puntuales de los parámetros poblacionales correspondientes α y βj.

• La distribución muestral de estos estimadores puntuales sigue la distribución de


probabilidad normal.

• Las medias de las distribuciones muestrales son iguales a los valores de los parámetros
que se estimarán.
Inferencias en la regresión lineal múltiple
• Se utiliza una prueba global para investigar si es posible que todas las variables
independientes tengan coeficientes de regresión cero.
• todos los coeficientes de regresión son cero
• al menos un coeficiente de regresión no es cero
• El estadístico de prueba es la distribución F con k (el número de variables
independientes) grados de libertad en el numerador, y n - (k + 1), grados de libertad
en el denominador, donde n es el tamaño muestral, α=5%.
• La fórmula para calcular el valor del estadístico de prueba de la prueba global es:
Inferencias en la regresión lineal múltiple
• La prueba de las variables individuales determina cuáles de ellas tienen coeficientes
de regresión distintos de cero.

• En general, las variables con coeficientes de regresión cero se omiten del análisis.
• El estadístico de prueba es la distribución t con n – (k + 1) grados de libertad,
α=5%.
• La fórmula para calcular el valor del estadístico de prueba de la prueba individual
es:
Evaluación de las suposiciones de la regresión múltiple
A. Relación lineal entre la variable dependiente y el conjunto de variables independientes.
1. Diagrama de dispersión→ residuos en el eje vertical y los valores ajustados en el eje
horizontal.
2. Si las gráficas parecen aleatorias, se concluye que la relación es lineal.
Evaluación de las suposiciones de la regresión múltiple
B. La variación es la misma tanto para valores grandes como pequeños de 𝒀 ෡
1. Homoscedasticidad → variación constante respecto de la recta de regresión
2. Diagrama de dispersión→ residuos en el eje vertical y los valores ajustados en el eje
horizontal.
3. Si las gráficas parecen aleatorias, los residuos cumplen con el requisito de
homoscedasticidad.
C. Los residuos siguen la distribución de probabilidad normal.
1. Histograma de los residuos para ver si siguen una distribución normal.
2. La media de la distribución de los residuos es 0.
3. Gráfica de probabilidad normal de los residuos
D. Las variables independientes no están correlacionadas (Multicolinealidad).
1. Una matriz de correlación muestra todas las correlaciones posibles entre variables
independientes. Son señales de que hay un problema si las correlaciones son mayores
que 0.70 o bien menores que -0.70.
2. Entre las señales de variables independientes correlacionadas se encuentran los casos
cuando una variable de predicción se determina insignificante, cuando se presenta una
inversión obvia de signos en una o más de las variables independientes, o bien cuando,
al eliminar una variable de la solución, se produce un gran cambio en los coeficientes de
regresión.
3. El factor de inflación de la varianza se emplea para identificar variables
independientes correlacionadas. VIF > 10 →la variable independiente se debe eliminar
del análisis
E. Cada residuo es independiente de otros residuos.
1. La autocorrelación ocurre cuando se correlacionan residuos sucesivos.
2. Cuando existe autocorrelación, el valor del error estándar está sesgado y genera
resultados deficientes en las pruebas de hipótesis, sin que importen los coeficientes
de regresión.
Variables independientes cualitativas
A. Una variable independiente ficticia o cualitativa → variable dicotómica.
1. Se asigna un valor de 1 a uno de los resultados y 0 al otro.
2. Se utiliza el valor de t para determinar si la variable ficticia debe permanecer
en la ecuación.
Modelo de regresión con interacción
B. Una interacción se produce cuando una variable independiente (como X2) afecta la
relación con otra variable independiente (X1) y la variable dependiente (Y).

1. Es posible tener una interacción de tres vías entre las variables independientes.
2. Es posible que exista interacción donde una de las variables independientes esté en
escala nominal.
Regresión por pasos

C. La regresión por pasos es un proceso paso por paso para encontrar la ecuación de
regresión.
1. Sólo las variables independientes con coeficientes de regresión distintos de cero
entran en la ecuación.
2. Se agregan variables independientes una a la vez a la ecuación de regresión.

También podría gustarte