Está en la página 1de 30

REGRESIÓN LINEAL

Regresión Lineal
Ejemplo

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersión.

n la
t a co
en
aum
e so
e l p
qu e
r e ce
Pa ra
altu
Recta de Regresión Ajustada
Residuos en Regresión Lineal
Método de Mínimos Cuadrados
• Cómo estimamos a y b? Con el método de mínimos
cuadrados
Estimación de a y b

𝑛 𝑛

  𝑛 ∑
𝑖=1
𝑥 𝑖 ∑ 𝑦𝑖
𝑖=1
∑ 𝑥𝑖 𝑦 𝑖 −
𝑛
𝑖=1
𝑏= 𝑛 2


𝑛
2
𝑥 −
(∑ )
𝑖= 1
𝑥𝑖
𝑖
𝑖=1 𝑛
Problema Ejemplo:
• Los datos de la siguiente tabla representan las estaturas (X,
cm) y los pesos (Y, kg) de una muestra de 12 hombres
adultos. Para cada estatura fijada previamente se observó el
peso de una persona seleccionada de entre el grupo con
dicha estatura, resultando:

X 152 155 152 155 157 152 157 165 162 178 183 178

Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82

• Con estos datos vamos a plantear una ecuación de regresión


simple que nos permita pronosticar los pesos conociendo las
tallas. Utilizaremos a = 0.05, y contrastaremos nuestra
hipótesis con la prueba F.
Desarrollo del Problema:
 Representación matemática y gráfica de los datos:
Interpretación:
 La ecuación de regresión estimada es: Ŷ = -75.446+0.8676X
 Coeficiente de correlación: R= 0.9379
 Coeficiente de determinación: R²=0.8796
 El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio,
por cada centímetro de aumento en la estatura de los hombres adultos.
 El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría como
el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.
 Utilizando la ecuación de regresión para estimar o predecir valores de la variable
Y: Para una talla de 180 se obtiene un peso de 80.7 kg.

¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?
 Sustituyendo el valor de interés en la ecuación: Ŷ = -75.446+0.8676X
 Se obtiene: Ŷ = -75.446+0.8676(160) = 63.37 kg
Conclusión:
• La ecuación de Regresión Lineal estimada para las variables
estatura y peso muestran, de acuerdo a la prueba F, relación.
• Esta relación se ha estimado en un R = 93.7, que indica una fuerte
relación positiva.
• Además si consideramos el coeficiente de determinación R² = 87.9
podemos indicar que el 87.9% de las variaciones que ocurren en el
peso se explicarían por las variaciones en la variable estatura.
Sumas de Cuadrado

 
β1   0 + 1X1 +ε

  o=
Relación entre SST, SSR y SSE

b = β1

SSR: Suma cuadrática de la regresión


Coeficiente de Determinación

Coeficiente de correlación Múltiple:


Análisis de Varianza para la Regresión
•  Ho:
• Ha:
• Teorema:

• Este estimador sigue una distribución chi-cuadrado con n-2 grados de


libertad
Análisis de Varianza para la Regresión

• n es el número de muestras de datos en la regresión.


• SSR también sigue una distribución chi-cuadrado con 1 grado
de libertad
• SSR/s^2 sigue una distribución F con 1 grado de libertad en el
numerador y n-2 grados de libertad en el denominador
Análisis de Varianza para la Regresión
•  Calcular

• Si rechazar Ho

• Conclusión?
Coef. de correlación lineal de Pearson
• El coeficiente de correlación lineal de Pearson
de dos variables, r, nos indica si los puntos
tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales
y verticales).

• Tiene el mismo signo que Sxy por tanto de su


signo obtenemos el que la posible relación sea
directa o inversa.

• r es útil para determinar si hay relación lineal


entre dos variables, pero no servirá para otro
tipo de relaciones (cuadrática, logarítmica,...)
Propiedades de r
• Es adimensional
• Sólo toma valores entre [-1,1]
• Las variables son incorreladas  r=0
• Relación lineal perfecta entre dos variables  r=+1 o r=-1
• Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
• Siempre que no existan observaciones anómalas.
Relación
inversa Relación
perfecta directa
Variables
incorreladas casi
perfecta

-1 0 +1
Correlación

Conocido también como R o coeficiente de Pearson.


Cómo reconocer relación directa e inversa.
330

280 Incorrelación
230

180

130

80

30
140 150 160 170 180 190 200

Para valores de X por encima de la media •Para los valores de X mayores


tenemos valores de Y por encima y por que la media le corresponden
debajo en proporciones similares. valores de Y mayores también.
Incorrelación.
•Para los valores de X menores
que la media le corresponden
valores de Y menores también.

•Esto se llama relación directa o


creciente entre X e Y.

Para los valores de X mayores que la


media le corresponden valores de Y
menores. Esto es relación inversa o
decreciente.
Interpretación de Coeficientes de regresión
Es una medida de la relación lineal entre R
las variables X e Y.
El coeficiente de determinación mide la
proporción de variabilidad total de la
variable dependiente respecto a su media,
que es explicada por el modelo de R Cuadrado
regresión. Es usual expresar esta medida
en tanto por ciento, multiplicándola por
cien.
El coeficiente de determinación corregido en un
modelo de regresión lineal mide el porcentaje de
variación de la variable dependiente (al igual
R Cuadrado Ajustado
que el coeficiente de determinación) pero
teniendo en cuenta el número de variables
incluidas en el modelo.
Supuestos de los Residuales
Verificación de Supuestos: Prueba de Normalidad
Verificación de Supuestos: Prueba de
Independencia
Verificación de Supuestos: Prueba de
Independencia
• Para muestras grandes:
Verificación de Supuestos: Prueba de
Independencia
Verificación de Supuestos: Prueba de
Independencia
Verificación de Supuestos: Prueba de
Homocedasticidad
• Preguntas…?

• Gracias.

También podría gustarte