Regresion Lineal FINAL

Inferencia
Estadística
Regresión lineal
Universidad Javeriana
Objetivo
Determinar niveles de asociación entre variables dependientes e independientes
Variable Independiente
Categórica Escalar
Análisis
Prueba de
Categórica discriminante.
independencia
Regresión logística
Variable Diferencia de
Dependiente medias.
ANOVA. Regresiones
Escalar
Experimentos lineales
unifactoriales y
multifactoriales
Regresión Lineal

Objetivo: Estudiar el comportamiento de una variable aleatoria a través de una variable aleatoria . La
metodología supone que entre las variables y existe una relación lineal.
¿De dónde se parte?

De una muestra aleatoria (n observaciones seleccionadas al azar)
Motivación
Los modelos de Regresión Lineal tienen, entre otros, dos importantes propósitos:
• Exploratorio: identificar a partir de un conjunto de variables cuáles son las que mejor explican linealmente a
una VA de interés .
• Predictivo: a partir de un modelo lineal, predecir el comportamiento de una VA con base en el
comportamiento de un conjunto de variables
Regresión Lineal
Representación del modelo
30
25
20
15
10
0
0 2 4 6 8 10
Regresión Lineal
La ecuación del modelo está dada por:
;
o, en términos de las observaciones:i, para .
Supuestos:
1. es una variable controlada.

2.
3. para
4. Supuesto fuerte:
Consecuencia de los supuestos:
y son parámetros del modelo con valor desconocido que deben ser estimados con base en los datos.
Coeficiente de correlación lineal
𝑆 𝑥𝑦
∑ [( 𝑥 𝑖 − 𝑥
´ ) ( 𝑦𝑖 − ´
𝑦)]
𝑖=1
𝑟= =
𝑆𝑥 𝑆 𝑛 𝑛
𝑦
√ ∑ ( 𝑥𝑖 −
𝑖= 1
´
2
𝑥) ∗∑ ( 𝑦𝑖 − ´
𝑖= 1
𝑦)
2
Si r (+): pendiente (+)

Si r (-): pendiente (-)
Si el valor de |r| >= 0,8 la relación lineal entre x y y es “fuerte”.

Si 0,5 <= |r| < 0,8 la relación líneal entre x y y es “débil”.
Si |r| < 0,5 se dice que no hay relación lineal entre x y y.
𝑟 2=𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖 ó 𝑛
Coeficiente de correlación lineal. Ejemplo
Para la relación entre peso y altura de los siguientes datos tomados de cuatro personas, halle el
coeficiente de correlación y el coeficiente de determinación. Determine si hay relación lineal entre las
variables
X: Altura (cm) 178 169 157 173

Y: Peso (kg) 69,8 70,2 59,4 68,4
𝑆 𝑥𝑦 122,05 122,05
𝑟= = = =0,892
𝑆 𝑥 𝑆 𝑦 √ 2 40,75 ∗ 77,79 136,85
𝑟 2= 0,8922=0,795
Estimación por mínimos cuadrados
Se trata de estimar los parámetros y , con base en los valores de la muestra.
Supongamos que tenemos los estimadores y , entonces:
(modelo estimado)
Se define el error de la estimación para la observación i por:
La suma de los cuadrados de los errores está dada por

Regresión Lineal
30
𝑦 𝑖
25
êi
20
^𝑦 𝑖
15

10
0
0 2 4 6 8 10
Mínimos cuadrados
Partiendo de la suma de los cuadrados del error
Y derivando con respecto a cada uno de los parámetros a estimar Bo y B1, se llega a dos ecuaciones:
Igualando a 0 y reordenando términos, se tiene:
Ecuaciones Normales
Mínimos cuadrados
Primera ecuación:
Dividiendo en n y despejando:
Despejando en la segunda ecuación:

Mínimos cuadrados - Estimadores
ˆ0  y  x ˆ1
ˆ1 
SXY

 (x  x) ( y  y)
i i
SXX  (x  x)
i
2
Mínimos cuadrados – Estimadores. Ejemplo
Para los datos del ejemplo anterior, encuentre la recta de regresión estimada.
X: Altura (cm) 178 169 157 173

Y: Peso (kg) 69,8 70,2 59,4 68,4
= 𝑆 𝑥𝑦 = 122,05 =0,507
^
𝛽 1
𝑆 𝑥𝑥 240,75
^
0= ´𝑦 − ´𝑥 ^𝛽1 =66,95 −169,25 ( 0,507 ) =− 18,853
𝛽
^ 𝒚 =− 𝟏𝟖 ,𝟖𝟓𝟑+ 𝟎 ,𝟓𝟎𝟕 𝒙

Mínimos cuadrados – Estimadores. Ejemplo
A partir de la recta de regresión anterior, evalúe cuanto pesará una persona que mida 170 cm y cuanto
una que mida 185 cm.
^ 𝒚 =− 𝟏𝟖 ,𝟖𝟓𝟑+ 𝟎 ,𝟓𝟎𝟕 𝒙

Varianza residual
La
diferencia entre el valor observado y el estimado (de la recta generada por el modelo estimado) se conoce
como residual.
Dado lo anterior, se puede calcular la estimación de la varianza (varianza residual o cuadrado medio del error –
CME-)
Ej: a partir de los datos anteriores, calcule los residuales y el CME

• X: Altura (cm) 178 169 157 173
• Y: Peso (kg) 69,8 70,2 59,4 68,4
• Peso (estimado) 71,4 66,8 60,7 68,9
• Residuales -1,6 3,4 -1,3 -0,5 8,03
ANOVA de la regresión
Ecuación de ANOVA para el MRLS
n n n
 ( yi  y )   ( yˆ i  y ) 
i 1
2
i 1
2
 i i
( y
i 1
 ˆ
y ) 2
SCT  SCR  SCE

 n  1 1  n  2
ANOVA de la regresión
Ecuación
de ANOVA para el MRLS
n n n
 ( yi  y )   ( yˆ i  y ) 
i 1
2
i 1
2
 i i
( y
i 1
 ˆ
y ) 2
SCT  SCR  SCE

 n  1 1  n  2
Hipótesis de interés:
Equivalente a:
Prueba asociada:
SCR
 F (1, n  2)
SCE / n  2
Tabla ANOVA de la regresión
Coeficiente de determinación
Se interpretará el coeficiente de determinación como la cantidad de la variable dependiente que es explicada

por la(s) variable(s) independientes.
Tabla ANOVA de la regresión
Para el ejemplo de la altura vs los pesos de las 4 personas analizadas, se tiene:
Como el p-value > significancia (0,05) entonces se concluye que el modelo NO es globalmente significativo
Intervalos de confianza e hipótesis estadísticas
Error estándar (típico)

de cada coeficiente

Intervalo de confianza para
El intervalo de confianza, IC, de confiabilidad para el parámetro , está dado por:
donde corresponde al valor de una VA con distribución con grados de libertad, que acumula una probabilidad
de , correspondiente al nivel de confianza del intervalo.
Prueba de hipótesis sobre la pendiente
EP:
Para el ejemplo de trabajo (altura vs peso)
Para el coeficiente B1: p-value > significancia (0,05) entonces se concluye que el coeficiente NO es significativo
Salidas de datos
Salidas de datos - Ejemplo
SCR =
SCE =
SCT =
=n-1
SCR
F
SCE  n  2
î  t 20, 0.975  

* desv î
 
desv ̂ i î
∗  ̂i 
t

R 2  SCR
SCT
  0.747  
desv î ^
𝛽 𝑖 ± 𝑡 𝑛− 2 ,1 −𝛼 /2desv
Los siguientes datos se refieren a la demanda de un producto tipo commodity (en miles de unid.) y su precio
(en centavos de dólar) en cinco mercados diferentes:
A partir de lo anterior, de solución a la tabla de datos propuesta a continuación

Salidas de datos – Ejemplo (solución)
P-value < significancia
Modelo globalmente significativo
Para ambos casos: p-value < significancia

Coeficientes significativos
El administrador de un concesionario desea evaluar si existe algún tipo de relación lineal entre la experiencia
(en años) de sus vendedores y la cantidad de automóviles que venden en un intervalo de tiempo
determinado. Los datos para 5 vendedores se presenta a continuación:
Experiencia (años) 3 6 8 12 15
Carros vendidos 9 16 23 27 34
A partir de lo anterior, de solución a la tabla de datos propuesta a continuación

Interpretación de parámetros y verificación de
supuestos
Gráfica de la variable ŷi contra los residuos ê
3 ŷ
2
0
4 6 8 10 12 14 16 18 20 22
-1
-2
-3
-4
Se distribuyen de manera uniforme alrededor de 0, sin tendencias. No se observa no linealidad o varianza

desigual.
33
Durbin-Watson
Prueba
de autocorrelación entre los residuos de la regresión, es decir, si tienen dependencia en el orden (tiempo) en el que fueron
obtenidos.
Si hay autocorrelación los errores son de la forma:
Prueba de hipótesis:
EP:
Comparable con tablas Durbin Watson que contienen límites inferiores ( y superiores ( para diferentes valores de significancia, de tamaño
de muestra (n) y de variables de predicción de modelo (k).
Criterio de rechazo:
Si
Si
Si 34
Durbin-Watson
35
Ejemplo
Se desea saber si existe asociación entre los valores de los índices Semana Valor S&P Valor Dow Jones
Dow Jones (respuesta) y S&P 500 (predicción) para los resultados al 1 91,62 276,61
final de 15 semanas consecutivas. 2 89,69 271,26
3 89,89 272,47
4 88,58 268,35
5 89,62 271,44
6 90,08 272,35
7 87,96 263,86
8 88,49 265,07
9 87,45 262,15
Resultados de la regresión 10 88,1 263,5
11 88,88 265,38
12 90,2 269,41
13 90,05 268,82
14 89,36 267,01
15 89,21 266,94
36
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow
1 91,62 276,61 276,4234
2 89,69 271,26 269,7337
3 89,89 272,47 270,4270
4 88,58 268,35 265,8863
5 89,62 271,44 269,4911
… … … …
15 89,21 266,94 268,0700
37
Ejemplo
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866
2 89,69 271,26 269,7337 1,5263
2 89,69 271,26 269,7337 1,5263
3 89,89 272,47 270,4270 2,0430
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637
… … … … …
5 89,62 271,44 269,4911 1,9489
15 89,21 266,94 268,0700 -1,1300
… … … … …
15 89,21 266,94 268,0700 -1,1300
38
Ejemplo
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866
2 89,69 271,26 269,7337 1,5263 1,3396
2 89,69 271,26 269,7337 1,5263 1,3396
3 89,89 272,47 270,4270 2,0430 0,5168
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206
… … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148
15 89,21 266,94 268,0700 -1,1300 0,4499
… … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499
39
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow (
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
40
Ejemplo
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
7,4745
𝑑 = =0,21981
34,00449
41
Ejemplo
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
7,4745
𝑑 = =0,21981
34,00449
En la tabla (para α= 1 %): 𝑑

𝐿(0,99 ;15 ; 1) =0,81
y existe evidencia de correlación
42
Modelo de regresión lineal múltiple
Objetivo: estudiar el comportamiento de una variable aleatoria a través de un conjunto de variables
aleatorias . El modelo supone que entre cada una de las variables y la variable existe una relación de
tipo lineal.
¿De dónde se parte?
De una muestra aleatoria (n observaciones seleccionadas al azar)
Aplicación
Los modelos de Regresión Lineal Múltiple tienen, entre otros, dos importantes propósitos:
• Exploratorio: identificar a partir de un conjunto de variables cuáles son las que mejor explican
linealmente a una VA de interés .
• Predictivo: a partir de un modelo lineal, predecir el comportamiento de una VA con base en el
43
comportamiento de un conjunto de variables
Caso 1
salario de los ejecutivos de determinada compañía.
promedio general acumulado obtenido en los estudios de pregrado.
número de años de experiencia que el ejecutivo tiene en la compañía.
Caso 2
utilidades obtenidas en las sucursales de una cadena de restaurantes.
área total de la tienda.
número de empleados.
población total en un radio de 3 km.
ingreso promedio en el vecindario.
número de restaurantes, en un radio de 1 km, que compiten directamente
44
Representación
matricial de los datos.
es un vector de n elementos y es una matriz de dimensión . La matriz contiene en cada una de sus columnas
los datos asociados a cada una de las variables; de manera particular, la primera columna está compuesta por
unos, y está asociada al intercepto de la regresión.
𝑌=¿ 𝑋 =¿

nx1 nxk
45
La ecuación del modelo está dada por:

; o en términos de las observaciones,
, para .
La ecuación en su forma matricial está dada por:

Vector de parámetros
del modelo
Vector de errores

nx1
¿ nxk kx1 nx1
, , y son parámetros del modelo con valor desconocido que deben ser estimados con
base en los datos.
46
Supuestos:

1. son variables controladas.
E¿

nx1
3. para
Cov [ e ]=¿

nxn
4. Supuesto fuerte:
47
Consecuencia
de los supuestos:
y son parámetros del modelo con valor desconocido que deben ser estimados con
base en los datos.
48
Se trata de estimar los parámetros con base en los valores de la muestra.
Supongamos que tenemos los estimadores entonces:
(modelo estimado)
yˆ i  ˆ0  ˆ1 xi1  ˆ2 xi 2  ...  ˆq xiq
Se define el error de la estimación para la observación i por:
eî  yi  yˆ i  yi  ( ˆ0  ˆ1 xi1  ˆ2 xi 2  ...  ˆq xiq )
La suma de los cuadrados de los errores está dada por:

n
SCE   eî2
i 1
49
Los parámetros estimados 0, 1, …, q son aquellos que minimizan la suma de cuadrados de los errores, SCE.
La solución del vector de parámetros
=
Está dado por:
k x 1 (k x k) (k x n) (n x 1)
50
Como
resultado de las propiedades del modelo, se obtiene que los estimadores
j son centrados y son combinaciones lineales de los :
E ( ˆ j )   j , i.e., los estimadores ˆ0 , ˆ1 , ..., ˆq son centrados
• La varianza de cada ̂ jes mínima, entre los estimadores centrados.
• Estimación de S
SCE
S 
2
2
unestimador
es n k  1 centrado del parámetro
Además, si se asumen lo supuestos fuertes del modelo de RLM, entonces:
SCE
  2
(n  k  1)
 2
51
Ecuación
de ANOVA para el MRLM
n n n
(y
i 1
i  y )   ( yˆ i  y ) 
2
i 1
2
(y
i 1
i  yˆ i ) 2
SCT  SCR  SCE

 n  1 k ( n  k  1)
Hipótesis de interés del modelo:
Prueba asociada:
Bajo el supuesto de que es verdadera
SCR / k
 F (k , n  k  1)
SCE / n  k  1
52
Hipótesis
de interés para cada :
Prueba asociada:
Bajo el supuesto de que Ho es verdadera
0.4
ˆ j
0.35
0.3
 t( n  k 1) 0.25
 j
ˆ ˆ 0.2
0.15
0.1
0.05
0
-4.0-3.6-3.3-2.9-2.5-2.1-1.8-1.4-1.0-0.6-0.3 0.1 0.5 0.9 1.2 1.6 2.0 2.4 2.7 3.1 3.5 3.9
53
Coeficiente de determinación
Intervalo de confianza para

El intervalo de confianza, IC, de confiabilidad 100 (1-α)% para el parámetro , está
dado por:
donde corresponde al valor de una VA con distribución t con n-k-1 grados de

libertad, que acumula una probabilidad de , correspondiente al nivel de
confianza del intervalo.
54
Los siguientes datos corresponden a la ganancia (en millones de dólares) de una compañía para los últimos seis
años, en función del número de vendedores activos y del precio del producto para ese año:
Año Ganancias (mill. USD) Vendedores Precio del producto (USD)

1 1,2 24 0,95
2 1,5 25 0,93
3 2,0 25 0,92
4 3,5 28 0,90
5 4,1 27 0,87
6 5,6 29 0,86
A partir de lo anterior se presentan los resultados de la regresión:

A partir de dicha información:

* Interprete el R^2
* Explique con palabras el significado de los coeficientes
* Prediga la ganancia de la empresa para un año en el que cuente con 26 vendedores y el producto tenga un costo de 0,89
* Establezca la significancia del modelo de manera global y de los coeficientes de manera individual.
* Explique el significado de los intervalos de confianza presentados en la tabla
Los datos mostrados a continuación representan la nota obtenida un examen de final de semestre para siete
estudiantes. También se reporta el número de horas estudiadas en las últimas dos semanas y el promedio general de
la materia
Nota Horas estudiadas Promedio general
2 10 4,25
2,5 20 4,90
4 35 4,75
3,5 30 4,00
5 45 4,80
3 25 4,50
A partir de lo anterior se presentan los resultados de la regresión tomando la nota como la variable dependiente y el
número de horas estudiadas y promedio general como variables independendientes:
A partir de dicha información:

* Interprete el R^2
* Explique con palabras el significado de los coeficientes
* Prediga la nota obtenida por un estudiante que estudie 18 horas y cuyo promedio general sea de 4,3
* Establezca la significancia del modelo de manera global y de los coeficientes de manera individual.
* Explique el significado de los intervalos de confianza presentados en la tabla
Interacciones y multicolinealidad
Aportes de las variables del modelo:
- Aporte individual si no existiera ninguna otra variables
- Aporte de cada variable en presencia de las demás (interacción).
Multicolinealidad: correlación entre variables predictoras (independientes). El hecho de que dos o más variables
presenten correlación implica que el modelo puede tornarse redundante.
Para analizar la interacción entre variables se construye una matriz de correlación entre todas las variables
(incluida la dependiente) para determinar cuales tienen un alto nivel de correlación (multicolinealidad).
*en caso de haber multicolinealidad entre variables, se recomienda eliminar la que menos tiene
correlación con la variable de respuesta
59
Ejemplo
Para los ejemplos anteriores (ganancia en función de número de vendedores y precio de producto y nota
obtenida en el examen final de una asignatura en función del número de horas estudiadas y el promedio
general del estudiante), las matrices de correlación son las siguientes:
Con base en la anterior información haga un análisis de multicolinealidad de las variables y establezca si es
pertinente eliminar alguna de las variables independientes de cada uno de los modelos
Ejemplo
La producción de un producto químico en función de la temperatura y la presión del reactor, arrojó los
siguientes resultados para un lote muestreado:
Producción Presión Temperatura
21 50 100
23 50 200
26 50 300
22 80 100
23 80 200
28 80 250
Al ejecutar la regresión y elaborar la matriz de correlación, la salida de datos arrojó lo siguiente

(siguiente).
Complete las tablas de coeficientes y ANOVA del modelo y haga un análisis de multicolinealidad entre las
variables.
61
Ejemplo
62

Regresion Lineal FINAL

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal FINAL

Cargado por

Copyright:

Formatos disponibles

Inferencia

¿De dónde se parte?

1. es una variable controlada.

Consecuencia de los supuestos:

Si r (+): pendiente (+)

Si el valor de |r| >= 0,8 la relación lineal entre x y y es “fuerte”.

X: Altura (cm) 178 169 157 173

Supongamos que tenemos los estimadores y , entonces:

Se define el error de la estimación para la observación i por:

La suma de los cuadrados de los errores está dada por

Igualando a 0 y reordenando términos, se tiene:

Despejando en la segunda ecuación:

X: Altura (cm) 178 169 157 173

^ 𝒚 =− 𝟏𝟖 ,𝟖𝟓𝟑+ 𝟎 ,𝟓𝟎𝟕 𝒙

^ 𝒚 =− 𝟏𝟖 ,𝟖𝟓𝟑+ 𝟎 ,𝟓𝟎𝟕 𝒙

Ej: a partir de los datos anteriores, calcule los residuales y el CME

SCT  SCR  SCE

SCT  SCR  SCE

Se interpretará el coeficiente de determinación como la cantidad de la variable dependiente que es explicada

Error estándar (típico)

El intervalo de confianza, IC, de confiabilidad para el parámetro , está dado por:

ˆi  t 20, 0.975  

A partir de lo anterior, de solución a la tabla de datos propuesta a continuación

P-value < significancia

Modelo globalmente significativo

Para ambos casos: p-value < significancia

A partir de lo anterior, de solución a la tabla de datos propuesta a continuación

Se distribuyen de manera uniforme alrededor de 0, sin tendencias. No se observa no linealidad o varianza

En la tabla (para α= 1 %): 𝑑

y existe evidencia de correlación

La ecuación del modelo está dada por:

La ecuación en su forma matricial está dada por:

yˆ i  ˆ0  ˆ1 xi1  ˆ2 xi 2  ...  ˆq xiq

Se define el error de la estimación para la observación i por:

eˆi  yi  yˆ i  yi  ( ˆ0  ˆ1 xi1  ˆ2 xi 2  ...  ˆq xiq )

La suma de los cuadrados de los errores está dada por:

La solución del vector de parámetros

• La varianza de cada ̂ jes mínima, entre los estimadores centrados.

Además, si se asumen lo supuestos fuertes del modelo de RLM, entonces:

SCT  SCR  SCE

Hipótesis de interés del modelo:

Intervalo de confianza para

donde corresponde al valor de una VA con distribución t con n-k-1 grados de

Año Ganancias (mill. USD) Vendedores Precio del producto (USD)

A partir de lo anterior se presentan los resultados de la regresión:

A partir de dicha información:

A partir de dicha información:

Al ejecutar la regresión y elaborar la matriz de correlación, la salida de datos arrojó lo siguiente

También podría gustarte