Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal FINAL
Regresion Lineal FINAL
Estadística
Regresión lineal
Universidad Javeriana
Objetivo
Determinar niveles de asociación entre variables dependientes e independientes
Variable Independiente
Categórica Escalar
Análisis
Prueba de
Categórica discriminante.
independencia
Regresión logística
Variable Diferencia de
Dependiente medias.
ANOVA. Regresiones
Escalar
Experimentos lineales
unifactoriales y
multifactoriales
Regresión Lineal
Objetivo: Estudiar el comportamiento de una variable aleatoria a través de una variable aleatoria . La
metodología supone que entre las variables y existe una relación lineal.
Motivación
Los modelos de Regresión Lineal tienen, entre otros, dos importantes propósitos:
• Exploratorio: identificar a partir de un conjunto de variables cuáles son las que mejor explican linealmente a
una VA de interés .
• Predictivo: a partir de un modelo lineal, predecir el comportamiento de una VA con base en el
comportamiento de un conjunto de variables
Regresión Lineal
Representación del modelo
30
25
20
15
10
0
0 2 4 6 8 10
Regresión Lineal
La ecuación del modelo está dada por:
;
o, en términos de las observaciones:i, para .
Supuestos:
y son parámetros del modelo con valor desconocido que deben ser estimados con base en los datos.
Coeficiente de correlación lineal
𝑆 𝑥𝑦
∑ [( 𝑥 𝑖 − 𝑥
´ ) ( 𝑦𝑖 − ´
𝑦)]
𝑖=1
𝑟= =
𝑆𝑥 𝑆 𝑛 𝑛
𝑦
√ ∑ ( 𝑥𝑖 −
𝑖= 1
´
2
𝑥) ∗∑ ( 𝑦𝑖 − ´
𝑖= 1
𝑦)
2
𝑟 2=𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖 ó 𝑛
Coeficiente de correlación lineal. Ejemplo
Para la relación entre peso y altura de los siguientes datos tomados de cuatro personas, halle el
coeficiente de correlación y el coeficiente de determinación. Determine si hay relación lineal entre las
variables
𝑆 𝑥𝑦 122,05 122,05
𝑟= = = =0,892
𝑆 𝑥 𝑆 𝑦 √ 2 40,75 ∗ 77,79 136,85
𝑟 2= 0,8922=0,795
Estimación por mínimos cuadrados
Se trata de estimar los parámetros y , con base en los valores de la muestra.
(modelo estimado)
𝑦 𝑖
25
êi
20
^𝑦 𝑖
15
10
0
0 2 4 6 8 10
Mínimos cuadrados
Partiendo de la suma de los cuadrados del error
Y derivando con respecto a cada uno de los parámetros a estimar Bo y B1, se llega a dos ecuaciones:
Ecuaciones Normales
Mínimos cuadrados
Primera ecuación:
Dividiendo en n y despejando:
ˆ0 y x ˆ1
ˆ1
SXY
(x x) ( y y)
i i
SXX (x x)
i
2
Mínimos cuadrados – Estimadores. Ejemplo
Para los datos del ejemplo anterior, encuentre la recta de regresión estimada.
= 𝑆 𝑥𝑦 = 122,05 =0,507
^
𝛽 1
𝑆 𝑥𝑥 240,75
^
0= ´𝑦 − ´𝑥 ^𝛽1 =66,95 −169,25 ( 0,507 ) =− 18,853
𝛽
Varianza residual
La
diferencia entre el valor observado y el estimado (de la recta generada por el modelo estimado) se conoce
como residual.
Dado lo anterior, se puede calcular la estimación de la varianza (varianza residual o cuadrado medio del error –
CME-)
( yi y ) ( yˆ i y )
i 1
2
i 1
2
i i
( y
i 1
ˆ
y ) 2
( yi y ) ( yˆ i y )
i 1
2
i 1
2
i i
( y
i 1
ˆ
y ) 2
Hipótesis de interés:
Equivalente a:
Prueba asociada:
SCR
F (1, n 2)
SCE / n 2
Tabla ANOVA de la regresión
Coeficiente de determinación
Como el p-value > significancia (0,05) entonces se concluye que el modelo NO es globalmente significativo
Intervalos de confianza e hipótesis estadísticas
donde corresponde al valor de una VA con distribución con grados de libertad, que acumula una probabilidad
de , correspondiente al nivel de confianza del intervalo.
Intervalos de confianza e hipótesis estadísticas
Prueba de hipótesis sobre la pendiente
EP:
Intervalos de confianza e hipótesis estadísticas
Para el ejemplo de trabajo (altura vs peso)
Para el coeficiente B1: p-value > significancia (0,05) entonces se concluye que el coeficiente NO es significativo
Salidas de datos
Salidas de datos - Ejemplo
Salidas de datos - Ejemplo
SCR =
SCE =
SCT =
=n-1
SCR
F
SCE n 2
Los siguientes datos se refieren a la demanda de un producto tipo commodity (en miles de unid.) y su precio
(en centavos de dólar) en cinco mercados diferentes:
El administrador de un concesionario desea evaluar si existe algún tipo de relación lineal entre la experiencia
(en años) de sus vendedores y la cantidad de automóviles que venden en un intervalo de tiempo
determinado. Los datos para 5 vendedores se presenta a continuación:
Experiencia (años) 3 6 8 12 15
Carros vendidos 9 16 23 27 34
3 ŷ
2
0
4 6 8 10 12 14 16 18 20 22
-1
-2
-3
-4
33
Durbin-Watson
Prueba
de autocorrelación entre los residuos de la regresión, es decir, si tienen dependencia en el orden (tiempo) en el que fueron
obtenidos.
Si hay autocorrelación los errores son de la forma:
Prueba de hipótesis:
EP:
Comparable con tablas Durbin Watson que contienen límites inferiores ( y superiores ( para diferentes valores de significancia, de tamaño
de muestra (n) y de variables de predicción de modelo (k).
Criterio de rechazo:
Si
Si
Si 34
Durbin-Watson
35
Ejemplo
Se desea saber si existe asociación entre los valores de los índices Semana Valor S&P Valor Dow Jones
Dow Jones (respuesta) y S&P 500 (predicción) para los resultados al 1 91,62 276,61
final de 15 semanas consecutivas. 2 89,69 271,26
3 89,89 272,47
4 88,58 268,35
5 89,62 271,44
6 90,08 272,35
7 87,96 263,86
8 88,49 265,07
9 87,45 262,15
Resultados de la regresión 10 88,1 263,5
11 88,88 265,38
12 90,2 269,41
13 90,05 268,82
14 89,36 267,01
15 89,21 266,94
36
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow
1 91,62 276,61 276,4234
2 89,69 271,26 269,7337
3 89,89 272,47 270,4270
4 88,58 268,35 265,8863
5 89,62 271,44 269,4911
… … … …
15 89,21 266,94 268,0700
37
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866
2 89,69 271,26 269,7337 1,5263
2 89,69 271,26 269,7337 1,5263
3 89,89 272,47 270,4270 2,0430
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637
… … … … …
5 89,62 271,44 269,4911 1,9489
15 89,21 266,94 268,0700 -1,1300
… … … … …
15 89,21 266,94 268,0700 -1,1300
38
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866
2 89,69 271,26 269,7337 1,5263 1,3396
2 89,69 271,26 269,7337 1,5263 1,3396
3 89,89 272,47 270,4270 2,0430 0,5168
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206
… … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148
15 89,21 266,94 268,0700 -1,1300 0,4499
… … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499
39
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow (
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
40
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow (
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
7,4745
𝑑 = =0,21981
34,00449
41
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow (
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
7,4745
𝑑 = =0,21981
34,00449
42
Modelo de regresión lineal múltiple
Objetivo: estudiar el comportamiento de una variable aleatoria a través de un conjunto de variables
aleatorias . El modelo supone que entre cada una de las variables y la variable existe una relación de
tipo lineal.
¿De dónde se parte?
De una muestra aleatoria (n observaciones seleccionadas al azar)
Aplicación
Los modelos de Regresión Lineal Múltiple tienen, entre otros, dos importantes propósitos:
• Exploratorio: identificar a partir de un conjunto de variables cuáles son las que mejor explican
linealmente a una VA de interés .
• Predictivo: a partir de un modelo lineal, predecir el comportamiento de una VA con base en el
43
comportamiento de un conjunto de variables
Modelo de regresión lineal múltiple
Caso 1
salario de los ejecutivos de determinada compañía.
promedio general acumulado obtenido en los estudios de pregrado.
número de años de experiencia que el ejecutivo tiene en la compañía.
Caso 2
utilidades obtenidas en las sucursales de una cadena de restaurantes.
área total de la tienda.
número de empleados.
población total en un radio de 3 km.
ingreso promedio en el vecindario.
número de restaurantes, en un radio de 1 km, que compiten directamente
44
Modelo de regresión lineal múltiple
Representación
matricial de los datos.
es un vector de n elementos y es una matriz de dimensión . La matriz contiene en cada una de sus columnas
los datos asociados a cada una de las variables; de manera particular, la primera columna está compuesta por
unos, y está asociada al intercepto de la regresión.
𝑌=¿ 𝑋 =¿
nx1 nxk
45
Modelo de regresión lineal múltiple
nx1
¿ nxk kx1 nx1
, , y son parámetros del modelo con valor desconocido que deben ser estimados con
base en los datos.
46
Modelo de regresión lineal múltiple
Supuestos:
1. son variables controladas.
E¿
nx1
3. para
Cov [ e ]=¿
nxn
4. Supuesto fuerte:
47
Modelo de regresión lineal múltiple
Consecuencia
de los supuestos:
y son parámetros del modelo con valor desconocido que deben ser estimados con
base en los datos.
48
Modelo de regresión lineal múltiple
Se trata de estimar los parámetros con base en los valores de la muestra.
Supongamos que tenemos los estimadores entonces:
(modelo estimado)
49
Modelo de regresión lineal múltiple
Los parámetros estimados 0, 1, …, q son aquellos que minimizan la suma de cuadrados de los errores, SCE.
=
Está dado por:
k x 1 (k x k) (k x n) (n x 1)
50
Modelo de regresión lineal múltiple
Como
resultado de las propiedades del modelo, se obtiene que los estimadores
j son centrados y son combinaciones lineales de los :
E ( ˆ j ) j , i.e., los estimadores ˆ0 , ˆ1 , ..., ˆq son centrados
• Estimación de S
SCE
S
2
2
unestimador
es n k 1 centrado del parámetro
SCE
2
(n k 1)
2
51
Modelo de regresión lineal múltiple
Ecuación
de ANOVA para el MRLM
n n n
(y
i 1
i y ) ( yˆ i y )
2
i 1
2
(y
i 1
i yˆ i ) 2
Prueba asociada:
Bajo el supuesto de que es verdadera
SCR / k
F (k , n k 1)
SCE / n k 1
52
Modelo de regresión lineal múltiple
Hipótesis
de interés para cada :
Prueba asociada:
Bajo el supuesto de que Ho es verdadera
0.4
ˆ j
0.35
0.3
t( n k 1) 0.25
j
ˆ ˆ 0.2
0.15
0.1
0.05
0
-4.0-3.6-3.3-2.9-2.5-2.1-1.8-1.4-1.0-0.6-0.3 0.1 0.5 0.9 1.2 1.6 2.0 2.4 2.7 3.1 3.5 3.9
53
Modelo de regresión lineal múltiple
Coeficiente de determinación
54
Salidas de datos - Ejemplo
Los siguientes datos corresponden a la ganancia (en millones de dólares) de una compañía para los últimos seis
años, en función del número de vendedores activos y del precio del producto para ese año:
A partir de lo anterior se presentan los resultados de la regresión tomando la nota como la variable dependiente y el
número de horas estudiadas y promedio general como variables independendientes:
Salidas de datos – Ejemplo (solución)
Multicolinealidad: correlación entre variables predictoras (independientes). El hecho de que dos o más variables
presenten correlación implica que el modelo puede tornarse redundante.
Para analizar la interacción entre variables se construye una matriz de correlación entre todas las variables
(incluida la dependiente) para determinar cuales tienen un alto nivel de correlación (multicolinealidad).
*en caso de haber multicolinealidad entre variables, se recomienda eliminar la que menos tiene
correlación con la variable de respuesta
59
Ejemplo
Para los ejemplos anteriores (ganancia en función de número de vendedores y precio de producto y nota
obtenida en el examen final de una asignatura en función del número de horas estudiadas y el promedio
general del estudiante), las matrices de correlación son las siguientes:
Con base en la anterior información haga un análisis de multicolinealidad de las variables y establezca si es
pertinente eliminar alguna de las variables independientes de cada uno de los modelos
Ejemplo
La producción de un producto químico en función de la temperatura y la presión del reactor, arrojó los
siguientes resultados para un lote muestreado:
Producción Presión Temperatura
21 50 100
23 50 200
26 50 300
22 80 100
23 80 200
28 80 250
Complete las tablas de coeficientes y ANOVA del modelo y haga un análisis de multicolinealidad entre las
variables.
61
Ejemplo
62