U3 Análisis de Regresión Múltiple

LIC.
ADMINISTRACIÓN FINANCIERA
MÉTODOS ESTADÍSTICOS
UNIDAD 3: ANÁLISIS DE
REGRESIÓN MÚLTIPLE
MC María del Carmen Montoya Landeros

Departamento de Estadística
ECUACIÓN DE LA RECTA
AJUSTADA
Regresión Lineal Múltiple
2
ANÁLISIS DE REGRESIÓN MÚLTIPLE
• El modelo general de regresión múltiple con k variables

independientes está dado por:
• El método de mínimos cuadrados se usa para estimar los

coeficientes de la ecuación.
3
ANÁLISIS DE REGRESIÓN MÚLTIPLE
• Para dos variables independientes, la ecuación general de

regresión múltiple es:
X1 y X2 son las variables independientes.

• a es el intercepto en Y
• b1 es el cambio en Y por cada unidad de X1 manteniendo
constante a X2, es llamado el coeficiente de regresión parcial.
• b2 es el cambio en Y por cada unidad de X2 manteniendo
constante a X1, es llamado el coeficiente de regresión parcial.
4
• PLANO DE REGRESIÓN PARA DOS
VARIABLES LINEALES INDEPENDIENTES
5
EJEMPLO
• Bienes y Raíces López vende casas a lo largo de la costa de los

Estados Unidos. Una de las preguntas más frecuentes de los posibles
compradores es:
• Si compramos esta casa ¿Cuánto se espera pagar para mantener la
calefacción durante el invierno?
• El departamento de investigación de Bienes y Raíces López ha
investigado con respecto a ello para tener algunas pautas de los costos
para una familia.
6
EJEMPLO
• Se pensó en tres variables para relacionarlos con los costos

de calefacción,
• X1 el promedio diario de temperatura exterior
• X2 el número de pulgadas de aislamiento en el ático
• X3 la edad de años del calefactor
• Para ello, seleccionó una muestra aleatoria de 20 vendedores
de casa y determinó los costos de calefacción de cada una de
ellas.
7
EJEMPLO DE REGRESIÓN LINEAL MÚLTIPLE
8
EJEMPLO DEL MODELO DE REGRESIÓN LINEAL
9
ECUACIÓN DEL MODELO DE REGRESIÓN
• INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN
• El coeficiente de regresión parcial para la temperatura media exterior es

4.583. El coeficiente es negativo y muestra una relación inversa entre los
costos de calefacción y la temperatura. Cuando la temperatura exterior se
incrementa, el costo de calefacción decrece. PERO…El valor numérico
del coeficiente de regresión proporciona más información. Si se
incrementa la temperatura media exterior un grado Farenheit y se
mantienen las otras dos variables constantes, (aislamiento del ático y
edad del calefactor) se estima que los costos de calefacción decrecen
$4.583 mensualmente. 10
POR EJEMPLO
• Si la media de la temperatura en Boston es de 25 °F y es de

26 °F en Philadelphia, siendo las otras dos variables
independientes constantes (es decir estaríamos comparando
casas con el mismo aislamiento del ático y la misma edad del
calefactor), esperamos que los costos de calefacción de las
casas deberían ser de $4.583 menos en Philadelphia.
• El aislamiento del ático también muestra una relación

inversa, a mayor aislamiento en el ático decrece el costo de
calefacción en la casa. El signo negativo para este
coeficiente es lógico.
11
EJEMPLO
• Por cada pulgada adicional de aislamiento, esperamos que el

costo de calefacción decline a $14.83 por mes, manteniendo
constante la temperatura exterior y la edad del calefactor.
• La edad del calefactor muestra una relación directa. Con un

viejo calefactor el costo de calefacción de la casa se
incrementa. Específicamente, por cada año de edad del
calefactor, se esperaría que el costo de calefacción se
incremente $6.101 por mes considerando que estamos
comparando casas con temperatura exterior y nivel de
aislamiento constante.
12
A P L I CA N D O E L MO D E L O D E E S T I MA C I Ó N
• ¿Cuál es la estimación del costo de calefacción de una casa si

el promedio de la temperatura exterior es de 30° F, si se tiene
5 pulgadas de aislamiento en el ático y la edad del calefactor
es de 10 años?
13
ERROR ESTÁNDAR
MÚLTIPLE
14
ESTIMACIÓN DEL ERROR ESTÁNDAR MÚLTIPLE
• La estimación del error estándar múltiple es una medida de

la efectividad de la ecuación de regresión
• Se mide en las mismas unidades de la variable dependiente
• Se dificulta determinar cuando un valor es grande y cuando
un valor es pequeño
• La formula es:
15
ANÁLISIS DE VARIANZA
• La tabla del análisis de varianza reporta la variación

en la variable dependiente. La variación es
particionada en dos componentes.
• La variabilidad explicada atribuible a las variables
independientes
• La variabilidad aleatoria o no explicada por las
variables independientes.
16
ANOVA
Prueba Global
17
PRUEBA GLOBAL: PRUEBA DE REGRESIÓN
MÚLTIPLE
• La prueba global es usada para investigar si

cualquiera de las variables independientes tiene
coeficientes significativos.
• Las hipótesis son: H :     ...    0
0 1 2 k
H1 : Not all  s equal 0
La hipótesis nula indica que todos los coeficientes de regresión son cero y la
hipótesis alternativa indica que al menos una variable independiente tiene la
habilidad de explicar la variabilidad en la variable dependiente.
18
PRUEBA GLOBAL: PRUEBA DE REGRESIÓN
MÚLTIPLE
• El estadístico de prueba
𝐶𝑀𝑅
𝐹=
𝐶𝑀𝐸
• Donde F tiene k (número de variables independientes) y

n-(k+1) grados de libertad, y n es el tamaño de la muestra.
19
ANOVA
Fuente de
variación SS g.l. CM F
Regresión SSR k
Error SSE n-(k+1)
Total SST n-1
20
TABLA ANOVA
21
EVALUACIÓN INDIVIDUAL
DE LOS COEFICIENTES DE
REGRESIÓN
Pruebas para los coeficientes parciales
22
EVALUACIÓN INDIVIDUAL DE LOS
COEFICIENTES DE REGRESIÓN
• Esta prueba es usada para determinar cuáles

variables independientes tienen coeficientes de
regresión diferentes de cero
• Las variables que tienen coeficientes de regresión
de cero usualmente no son consideradas en el
análisis
• La prueba estadística es la distribución t con n-
(k+1) grados de libertad
23
EVALUACIÓN INDIVIDUAL DE LOS
COEFICIENTES DE REGRESIÓN
• La prueba de hipótesis es la que sigue:
• H0: βi = 0
• H1: βi ≠ 0
• El estadístico de prueba es:
24
R E S U LTA D O S D E T PA R A L A S P E N D I E N T E
25
NUEVO MODELO DE REGRESIÓN SIN LA
VARIABLE EDAD DEL CALEFACTOR
26
NUEVO MODELO DE REGRESIÓN SIN LA
VARIABLE EDAD DEL CALEFACTOR
27
COEFICIENTE DE
DETERMINACIÓN
28
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE (R 2 )
• Porcentaje de variación de la variable

dependiente Y, explicada por el conjunto de
variables independientes, X1, X2,…,Xk
29
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE (R 2 )
1. Su rango es de cero a uno.

2. No puede tomar valores negativos. Cualquier número elevado a la
segunda potencia no puede ser negativo.
3. Es fácil interpretar. Porque su valor se encuentra entre cero y uno es
fácil interpretar, comparar y entender
Coeficiente de determinación múltiple
30
AJUSTE DEL COEFICIENTE DE DETERMINACIÓN
• Si se aumenta el número de variables independientes en una

ecuación de regresión múltiple, se tiene el efecto de que el
coeficiente de determinación se hace más grande.
• Si el número de variables, k, y el tamaño de muestra, n, son

iguales, el coeficiente de determinación es uno. En la
práctica, esta situación es inusual y podría ser cuestionable
éticamente.
31
AJUSTE DEL COEFICIENTE DE
DETERMINACIÓN
• Para balancear el efecto que el número de

variables independientes tiene sobre el
coeficiente de determinación múltiple, el
paquete de software usa el coeficiente de
determinación múltiple ajustado.
32
COEFICIENTE DE DETERMINACIÓN AJUSTADO
33
MULTICOLINEALIDAD
34
MULTICOLINEALIDAD
• La multicolinealidad existe cuando las variables

independientes están correlacionadas.
• Las variables independientes correlacionadas dificultan
hacer inferencias acerca de los coeficientes individuales de
regresión (pendientes) y su efecto individual sobre la
variable dependiente.
• En la práctica, es casi imposible seleccionar variables que
carezcan por completo de alguna relación; sin embargo, la
comprensión general del punto de multicolinealidad es
importante. 35
¿QUÉ PASA SI HAY
MULTICOLINEALIDAD?
• La multicolinealidad severa es problemática, porque

puede incrementar la varianza de los coeficientes de
regresión, haciéndolos inestables. Las siguientes son
algunas de las consecuencias de los coeficientes
inestables:
• Los coeficientes pueden parecer insignificantes incluso cuando
exista una relación significativa entre el predictor y la respuesta.
• Los coeficientes de los predictores muy correlacionados variarán
ampliamente de una muestra a otra.
• La eliminación de cualquier término muy correlacionado del
modelo afectará considerablemente los coeficientes estimados de
los demás términos muy correlacionados. Los coeficientes de los
términos muy correlacionados incluso pueden tener el signo
equivocado. 36
CASOS QUE PUDIÉRAMOS
OBSERVAR…
37
¿CÓMO IDENTIFICAR SI
EXISTE MULTICOLINEALIDAD?
• Se pueden explorar las correlaciones entre cada

variable explicativa
• Se puede hacer uso del Factor de la Inflación de la
Varianza
38
MATRIZ DE CORRELACIÓN
• Una matriz de correlación es usada para mostrar todas las

posibles correlaciones simples entre variables
• La matriz es usada también para localizar correlaciones
entre variables independientes
• Muestra con que fuerza se relaciona linealmente cada
variable independiente con la variable dependiente
Si la correlación entre dos variables independientes se

encuentra entre -0.70 y 0.70 es probable que no haya
problema al emplear las dos variables independientes 39
MATRIZ DE CORRELACIÓN
Las correlaciones entre las variables independientes están en el rango de

-0.70 y 0.70, por lo que podríamos considerar que pueden conservarse
las tres variables en el modelo 40
FACTORES DE INFLACIÓN DE
LA VARIANZA (VIF)
• Los VIF miden qué tanto aumenta la varianza

de un coeficiente de regresión estimado
aumenta si los predictores están
correlacionados.
• Cuando un VIF es > 5, el coeficiente de
regresión para ese término no se estima
adecuadamente.
41
FACTOR DE INFLACIÓN DE VARIANZA
1
𝑉𝐼𝐹 = 2
1− 𝑅 𝑗
• El término R2J se refiere al coeficiente de determinación, donde la
variable independiente es usada como una variable dependiente y las
demás variables independientes como variables independientes
Un VIF mayor que 5 es considerada insatisfactoria, indica que

la variable independiente debe ser removida para el análisis
42
EJEMPLO DE MULTICOLINEALIDAD
• En el ejemplo anterior ¿Encuentre e interprete el factor de

inflación de varianza para cada variable independiente?
43
VIF
coeff std err t stat p-value lower upper vif
Intercept 427.193803 59.60142931 7.16750937 2.2376E-06 300.844417 553.543189
Mean
Outside
Temperatu
re (°F) -4.58266263 0.772319353 -5.93363692 2.1004E-05 -6.21990652 -2.94541874 1.3182237
Attic
Insulation
(inches) -14.8308627 4.754412281 -3.11938928 0.00660596 -24.9097665 -4.7519589 1.01097187
Age of
Furnace
(years) 6.10103206 4.012120166 1.52065038 0.14786248 -2.40428274 14.6063469 1.30953419
El VIF es 1.32 es menor que 5. Por lo que se indica que la variable independiente
temperatura no está correlacionada con las otras variables independientes.
Lo mismo sucede con los VIF de las otras variables independientes,

44
por lo que no es necesario quitarlas del modelo
SELECCIÓN DE VARIABLES
Definir un subconjunto de regresores que debe

usarse en el modelo
45
SELECCIÓN DE LA “MEJOR
ECUACIÓN DE REGRESIÓN”
• Regularmente se cuenta con un grupo

de “regresores candidatos” que
incluyen todos los factores que
influyen en la variable respuesta y se
debe determinar un subconjunto
adecuado de regresores para usarse en
el modelo.
46
PROBLEMA DE SELECCIÓN DE VARIABLES
• La construcción de un modelo de regresión que incluya

solo un subconjunto de las variables independientes
implica dos objetivos contrapuestos:
1) Se desea que el modelo incluya tantos regresores como
sea posible, para que el contenido de la información en
ellos pueda influir en el valor predicho de y;
2) Se desea que el modelo incluya los menos regresores que
sea posible, porque la varianza de la predicción aumenta
a medida que aumenta la cantidad de regresores
Hay varios algoritmos que se
El proceso de encontrar un modelo que sea un pueden usar para seleccionar las
término medio entre los dos objetivos se llama variables, nosotros revisaremos
selección de la “mejor” ecuación de regresión el método Stepwise
47
STEPWISE (REGRESIÓN POR PASOS)
• Método paso por paso para determinar la ecuación de

regresión que se inicia con una sola variable y agrega o
elimina variables independientes una por una. En la
ecuación solo se incluyen las variables independientes
con coeficientes de regresión distintos de cero.
Lo que habíamos hecho anteriormente era como considerar todas las variables a la
vez. Por ejemplo, en el caso del costo de calefacción observábamos de forma global
(F) si al menos una de las tres variables independientes aportaba a la explicación de Y
pero contemplando que estaban las tres variables “a la vez” contempladas en la
modelación.
48
STEPWISE (REGRESIÓN POR PASOS)
• En este método se desarrolla una secuencia de ecuaciones.

• La primera de ellas solo contiene una variable
independiente, aquella variable independiente que explica
la mayoría de la variación de la variable dependiente.
• Luego, el algoritmo analiza las restantes variables
independientes y selecciona la que explicará el porcentaje
mayor de la variación en Y aún no explicada.
• Este proceso continúa hasta incluir en la ecuación de
regresión todas las variables independientes con
coeficientes significativos.
49
OTROS MÉTODOS DE
SELECCIÓN DE VARIABLES
• Método de selección hacia adelante

(forward)
• Método de selección hacia atrás
(backward)
• Método del mejor del subconjunto
50
SUPUESTOS DEL MODELO
Análisis de residuos
51
EVALUACIÓN DE LOS SUPUESTOS DE REGRESIÓN
• Existe una relación lineal. Esto es, hay una línea recta en la
relación entre la variable dependiente y el conjunto de variables
independientes. (Linealidad).
• La variación en los residuales es el mismo valor para las
estimaciones de y (o de las X’s) (Homocedasticidad).
• Los residuales siguen una distribución de probabilidad
Normal. (Normalidad).
• Los residuales son independientes. Significa que las
observaciones sucesivas de la variable dependiente no están
correlacionadas. Este supuesto es a menudo violado cuando el
tiempo está involucrado con la muestra de las observaciones. 52
(Independencia).
ANÁLISIS DE RESIDUALES
• Para verificar el supuesto de linealidad haremos uso de los gráficos de los

residuales contra los valores predichos de Y (o contra las diferentes X’s); así como
las gráficas de Y contra cada una de las X’s. Se seguirán los mismos criterios vistos
en la unidad anterior.
• Para verificar el supuesto de homocedasticidad haremos uso del gráfico de los

residuales contra los valores predichos de y, y se seguirán los mismos criterios
vistos en la unidad anterior.
• Para verificar el supuesto de normalidad haremos uso del gráfico de probabilidad

normal, y se seguirán los mismos criterios vistos en la unidad anterior.
• Para verificar el supuesto de independencia, se utilizaría el gráfico de residuales en

función del orden en que fueron tomados los datos. 53
L INE AL IDAD
100
Mean Outside Temperature
80 (°F) Gráfico de los residuales
Residuales
60
40 100
20 80
0 60
-20 0 50 100 150 200 250 300 350 400 40
Residuos
-40
20
0
-60
-20 0 10 20 30 40 50 60 70
-80
-40
-100
-60
-80
Valores predichos -100
Mean Outside Temperature (°F)
Attic Insulation (inches) Gráfico de Age of Furnace (years) Gráfico

los residuales de los residuales
100 100
60 60
Residuos
Residuos
20 20
-20 0 2 4 6 8 10 12 14 -20 0 2 4 6 8 10 12 14 16
-60 -60
-100 -100
Attic Insulation (inches) Age of Furnace (years)
54
SUPUESTO DE
HOMOCEDASTICIDAD
100
80
60
40
Residuales
20
0
0 50 100 150 200 250 300 350 400
-20
-40
-60
-80
-100
Valores predichos
También se pueden hacer las gráficas de residuales contra cada

variable X para observar su comportamiento
55
SUPUESTO DE NORMALIDAD
Gráfico de probabilidad normal

450
400
350
300
Heating Cost ($)
250
200
150
100
50
0
0 20 40 60 80 100 120
Muestra percentil
56
ANÁLISIS DE INFLUENCIA
57
GRÁFICAMENTE CÓMO
IDENTIFICAR PUNTOS
ATÍPICOS
• Las gráficas: Y vs X, residuales en función de y la gráfica de

probabilidad normal son útiles para identificar puntos
atípicos.
Cómo identificar puntos atípicos

• Para identificar observaciones poco comunes, examine las medidas de
diagnóstico Distancias de Cook y DFFITS
DISTANCIA DE COOK
• La distancia de Cook (D) mide el efecto que tiene

una observación sobre el conjunto de coeficientes
en un modelo lineal.
• Las observaciones con una D grande pueden ser
consideradas influyentes.
Un criterio comúnmente utilizado para
considerar a una distancia de Cook grande como
si es mayor que “1”
DFFITS
• DFFITS mide el efecto que tiene cada observación sobre los valores
ajustados en un modelo lineal.
• DFFITS representa aproximadamente el número de desviaciones
estándar que el valor ajustado cambia cuando cada observación se
elimina del conjunto de datos y el modelo se reajusta.
• Las observaciones que tienen un valor DFFITS grande pueden podrían
ser influyentes.
Un criterio comúnmente utilizado para un valor DFFITS
grande es si el valor absoluto de DFFITS es mayor que
lo siguiente:
p=número de términos del modelo

U3 Análisis de Regresión Múltiple

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

U3 Análisis de Regresión Múltiple

Cargado por

Copyright:

Formatos disponibles

LIC.

MC María del Carmen Montoya Landeros

Regresión Lineal Múltiple

• El modelo general de regresión múltiple con k variables

• El método de mínimos cuadrados se usa para estimar los

• Para dos variables independientes, la ecuación general de

X1 y X2 son las variables independientes.

• Bienes y Raíces López vende casas a lo largo de la costa de los

• Se pensó en tres variables para relacionarlos con los costos

• INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN

• El coeficiente de regresión parcial para la temperatura media exterior es

• Si la media de la temperatura en Boston es de 25 °F y es de

• El aislamiento del ático también muestra una relación

• Por cada pulgada adicional de aislamiento, esperamos que el

• La edad del calefactor muestra una relación directa. Con un

• ¿Cuál es la estimación del costo de calefacción de una casa si

• La estimación del error estándar múltiple es una medida de

• La tabla del análisis de varianza reporta la variación

• La prueba global es usada para investigar si

H1 : Not all  s equal 0

• Donde F tiene k (número de variables independientes) y

Error SSE n-(k+1)

Total SST n-1

Pruebas para los coeficientes parciales

• Esta prueba es usada para determinar cuáles

• Porcentaje de variación de la variable

1. Su rango es de cero a uno.

Coeficiente de determinación múltiple

• Si se aumenta el número de variables independientes en una

• Si el número de variables, k, y el tamaño de muestra, n, son

• Para balancear el efecto que el número de

• La multicolinealidad existe cuando las variables

• La multicolinealidad severa es problemática, porque

• Se pueden explorar las correlaciones entre cada

• Una matriz de correlación es usada para mostrar todas las

Si la correlación entre dos variables independientes se

Las correlaciones entre las variables independientes están en el rango de

• Los VIF miden qué tanto aumenta la varianza

Un VIF mayor que 5 es considerada insatisfactoria, indica que

• En el ejemplo anterior ¿Encuentre e interprete el factor de

Lo mismo sucede con los VIF de las otras variables independientes,

Definir un subconjunto de regresores que debe

• Regularmente se cuenta con un grupo

• La construcción de un modelo de regresión que incluya

• Método paso por paso para determinar la ecuación de

• En este método se desarrolla una secuencia de ecuaciones.

• Método de selección hacia adelante

• Para verificar el supuesto de linealidad haremos uso de los gráficos de los

• Para verificar el supuesto de homocedasticidad haremos uso del gráfico de los

• Para verificar el supuesto de normalidad haremos uso del gráfico de probabilidad

• Para verificar el supuesto de independencia, se utilizaría el gráfico de residuales en

Attic Insulation (inches) Gráfico de Age of Furnace (years) Gráfico

También se pueden hacer las gráficas de residuales contra cada

Gráfico de probabilidad normal

• Las gráficas: Y vs X, residuales en función de y la gráfica de

Cómo identificar puntos atípicos

• La distancia de Cook (D) mide el efecto que tiene

p=número de términos del modelo

También podría gustarte