Está en la página 1de 60

LIC.

ADMINISTRACIÓN FINANCIERA

MÉTODOS ESTADÍSTICOS

UNIDAD 3: ANÁLISIS DE
REGRESIÓN MÚLTIPLE

MC María del Carmen Montoya Landeros


Departamento de Estadística
ECUACIÓN DE LA RECTA
AJUSTADA

Regresión Lineal Múltiple

2
ANÁLISIS DE REGRESIÓN MÚLTIPLE

• El modelo general de regresión múltiple con k variables


independientes está dado por:

• El método de mínimos cuadrados se usa para estimar los


coeficientes de la ecuación.
3
ANÁLISIS DE REGRESIÓN MÚLTIPLE

• Para dos variables independientes, la ecuación general de


regresión múltiple es:

X1 y X2 son las variables independientes.


• a es el intercepto en Y
• b1 es el cambio en Y por cada unidad de X1 manteniendo
constante a X2, es llamado el coeficiente de regresión parcial.
• b2 es el cambio en Y por cada unidad de X2 manteniendo
constante a X1, es llamado el coeficiente de regresión parcial.
4
• PLANO DE REGRESIÓN PARA DOS
VARIABLES LINEALES INDEPENDIENTES

5
EJEMPLO

• Bienes y Raíces López vende casas a lo largo de la costa de los


Estados Unidos. Una de las preguntas más frecuentes de los posibles
compradores es:
• Si compramos esta casa ¿Cuánto se espera pagar para mantener la
calefacción durante el invierno?
• El departamento de investigación de Bienes y Raíces López ha
investigado con respecto a ello para tener algunas pautas de los costos
para una familia.

6
EJEMPLO

• Se pensó en tres variables para relacionarlos con los costos


de calefacción,
• X1 el promedio diario de temperatura exterior
• X2 el número de pulgadas de aislamiento en el ático
• X3 la edad de años del calefactor
• Para ello, seleccionó una muestra aleatoria de 20 vendedores
de casa y determinó los costos de calefacción de cada una de
ellas.

7
EJEMPLO DE REGRESIÓN LINEAL MÚLTIPLE

8
EJEMPLO DEL MODELO DE REGRESIÓN LINEAL

9
ECUACIÓN DEL MODELO DE REGRESIÓN

• INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN

• El coeficiente de regresión parcial para la temperatura media exterior es


4.583. El coeficiente es negativo y muestra una relación inversa entre los
costos de calefacción y la temperatura. Cuando la temperatura exterior se
incrementa, el costo de calefacción decrece. PERO…El valor numérico
del coeficiente de regresión proporciona más información. Si se
incrementa la temperatura media exterior un grado Farenheit y se
mantienen las otras dos variables constantes, (aislamiento del ático y
edad del calefactor) se estima que los costos de calefacción decrecen
$4.583 mensualmente. 10
POR EJEMPLO

• Si la media de la temperatura en Boston es de 25 °F y es de


26 °F en Philadelphia, siendo las otras dos variables
independientes constantes (es decir estaríamos comparando
casas con el mismo aislamiento del ático y la misma edad del
calefactor), esperamos que los costos de calefacción de las
casas deberían ser de $4.583 menos en Philadelphia.

• El aislamiento del ático también muestra una relación


inversa, a mayor aislamiento en el ático decrece el costo de
calefacción en la casa. El signo negativo para este
coeficiente es lógico.
11
EJEMPLO

• Por cada pulgada adicional de aislamiento, esperamos que el


costo de calefacción decline a $14.83 por mes, manteniendo
constante la temperatura exterior y la edad del calefactor.

• La edad del calefactor muestra una relación directa. Con un


viejo calefactor el costo de calefacción de la casa se
incrementa. Específicamente, por cada año de edad del
calefactor, se esperaría que el costo de calefacción se
incremente $6.101 por mes considerando que estamos
comparando casas con temperatura exterior y nivel de
aislamiento constante.
12
A P L I CA N D O E L MO D E L O D E E S T I MA C I Ó N

• ¿Cuál es la estimación del costo de calefacción de una casa si


el promedio de la temperatura exterior es de 30° F, si se tiene
5 pulgadas de aislamiento en el ático y la edad del calefactor
es de 10 años?

13
ERROR ESTÁNDAR
MÚLTIPLE

14
ESTIMACIÓN DEL ERROR ESTÁNDAR MÚLTIPLE

• La estimación del error estándar múltiple es una medida de


la efectividad de la ecuación de regresión
• Se mide en las mismas unidades de la variable dependiente
• Se dificulta determinar cuando un valor es grande y cuando
un valor es pequeño
• La formula es:

15
ANÁLISIS DE VARIANZA

• La tabla del análisis de varianza reporta la variación


en la variable dependiente. La variación es
particionada en dos componentes.
• La variabilidad explicada atribuible a las variables
independientes
• La variabilidad aleatoria o no explicada por las
variables independientes.

16
ANOVA

Prueba Global

17
PRUEBA GLOBAL: PRUEBA DE REGRESIÓN
MÚLTIPLE

• La prueba global es usada para investigar si


cualquiera de las variables independientes tiene
coeficientes significativos.
• Las hipótesis son: H :     ...    0
0 1 2 k

H1 : Not all  s equal 0

La hipótesis nula indica que todos los coeficientes de regresión son cero y la
hipótesis alternativa indica que al menos una variable independiente tiene la
habilidad de explicar la variabilidad en la variable dependiente.
18
PRUEBA GLOBAL: PRUEBA DE REGRESIÓN
MÚLTIPLE

• El estadístico de prueba

𝐶𝑀𝑅
𝐹=
𝐶𝑀𝐸

• Donde F tiene k (número de variables independientes) y


n-(k+1) grados de libertad, y n es el tamaño de la muestra.
19
ANOVA

Fuente de
variación SS g.l. CM F

Regresión SSR k

Error SSE n-(k+1)

Total SST n-1

20
TABLA ANOVA

21
EVALUACIÓN INDIVIDUAL
DE LOS COEFICIENTES DE
REGRESIÓN

Pruebas para los coeficientes parciales

22
EVALUACIÓN INDIVIDUAL DE LOS
COEFICIENTES DE REGRESIÓN

• Esta prueba es usada para determinar cuáles


variables independientes tienen coeficientes de
regresión diferentes de cero
• Las variables que tienen coeficientes de regresión
de cero usualmente no son consideradas en el
análisis
• La prueba estadística es la distribución t con n-
(k+1) grados de libertad
23
EVALUACIÓN INDIVIDUAL DE LOS
COEFICIENTES DE REGRESIÓN
• La prueba de hipótesis es la que sigue:
• H0: βi = 0
• H1: βi ≠ 0
• El estadístico de prueba es:

24
R E S U LTA D O S D E T PA R A L A S P E N D I E N T E

25
NUEVO MODELO DE REGRESIÓN SIN LA
VARIABLE EDAD DEL CALEFACTOR

26
NUEVO MODELO DE REGRESIÓN SIN LA
VARIABLE EDAD DEL CALEFACTOR

27
COEFICIENTE DE
DETERMINACIÓN

28
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE (R 2 )

• Porcentaje de variación de la variable


dependiente Y, explicada por el conjunto de
variables independientes, X1, X2,…,Xk

29
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE (R 2 )

1. Su rango es de cero a uno.


2. No puede tomar valores negativos. Cualquier número elevado a la
segunda potencia no puede ser negativo.
3. Es fácil interpretar. Porque su valor se encuentra entre cero y uno es
fácil interpretar, comparar y entender

Coeficiente de determinación múltiple

30
AJUSTE DEL COEFICIENTE DE DETERMINACIÓN

• Si se aumenta el número de variables independientes en una


ecuación de regresión múltiple, se tiene el efecto de que el
coeficiente de determinación se hace más grande.

• Si el número de variables, k, y el tamaño de muestra, n, son


iguales, el coeficiente de determinación es uno. En la
práctica, esta situación es inusual y podría ser cuestionable
éticamente.
31
AJUSTE DEL COEFICIENTE DE
DETERMINACIÓN

• Para balancear el efecto que el número de


variables independientes tiene sobre el
coeficiente de determinación múltiple, el
paquete de software usa el coeficiente de
determinación múltiple ajustado.

32
COEFICIENTE DE DETERMINACIÓN AJUSTADO

33
MULTICOLINEALIDAD

34
MULTICOLINEALIDAD

• La multicolinealidad existe cuando las variables


independientes están correlacionadas.
• Las variables independientes correlacionadas dificultan
hacer inferencias acerca de los coeficientes individuales de
regresión (pendientes) y su efecto individual sobre la
variable dependiente.
• En la práctica, es casi imposible seleccionar variables que
carezcan por completo de alguna relación; sin embargo, la
comprensión general del punto de multicolinealidad es
importante. 35
¿QUÉ PASA SI HAY
MULTICOLINEALIDAD?

• La multicolinealidad severa es problemática, porque


puede incrementar la varianza de los coeficientes de
regresión, haciéndolos inestables. Las siguientes son
algunas de las consecuencias de los coeficientes
inestables:
• Los coeficientes pueden parecer insignificantes incluso cuando
exista una relación significativa entre el predictor y la respuesta.
• Los coeficientes de los predictores muy correlacionados variarán
ampliamente de una muestra a otra.
• La eliminación de cualquier término muy correlacionado del
modelo afectará considerablemente los coeficientes estimados de
los demás términos muy correlacionados. Los coeficientes de los
términos muy correlacionados incluso pueden tener el signo
equivocado. 36
CASOS QUE PUDIÉRAMOS
OBSERVAR…

37
¿CÓMO IDENTIFICAR SI
EXISTE MULTICOLINEALIDAD?

• Se pueden explorar las correlaciones entre cada


variable explicativa
• Se puede hacer uso del Factor de la Inflación de la
Varianza

38
MATRIZ DE CORRELACIÓN

• Una matriz de correlación es usada para mostrar todas las


posibles correlaciones simples entre variables
• La matriz es usada también para localizar correlaciones
entre variables independientes
• Muestra con que fuerza se relaciona linealmente cada
variable independiente con la variable dependiente

Si la correlación entre dos variables independientes se


encuentra entre -0.70 y 0.70 es probable que no haya
problema al emplear las dos variables independientes 39
MATRIZ DE CORRELACIÓN

Las correlaciones entre las variables independientes están en el rango de


-0.70 y 0.70, por lo que podríamos considerar que pueden conservarse
las tres variables en el modelo 40
FACTORES DE INFLACIÓN DE
LA VARIANZA (VIF)

• Los VIF miden qué tanto aumenta la varianza


de un coeficiente de regresión estimado
aumenta si los predictores están
correlacionados.
• Cuando un VIF es > 5, el coeficiente de
regresión para ese término no se estima
adecuadamente.

41
FACTOR DE INFLACIÓN DE VARIANZA

1
𝑉𝐼𝐹 = 2
1− 𝑅 𝑗
• El término R2J se refiere al coeficiente de determinación, donde la
variable independiente es usada como una variable dependiente y las
demás variables independientes como variables independientes

Un VIF mayor que 5 es considerada insatisfactoria, indica que


la variable independiente debe ser removida para el análisis
42
EJEMPLO DE MULTICOLINEALIDAD

• En el ejemplo anterior ¿Encuentre e interprete el factor de


inflación de varianza para cada variable independiente?

43
VIF
coeff std err t stat p-value lower upper vif
Intercept 427.193803 59.60142931 7.16750937 2.2376E-06 300.844417 553.543189
Mean
Outside
Temperatu
re (°F) -4.58266263 0.772319353 -5.93363692 2.1004E-05 -6.21990652 -2.94541874 1.3182237
Attic
Insulation
(inches) -14.8308627 4.754412281 -3.11938928 0.00660596 -24.9097665 -4.7519589 1.01097187
Age of
Furnace
(years) 6.10103206 4.012120166 1.52065038 0.14786248 -2.40428274 14.6063469 1.30953419

El VIF es 1.32 es menor que 5. Por lo que se indica que la variable independiente
temperatura no está correlacionada con las otras variables independientes.

Lo mismo sucede con los VIF de las otras variables independientes,


44
por lo que no es necesario quitarlas del modelo
SELECCIÓN DE VARIABLES

Definir un subconjunto de regresores que debe


usarse en el modelo

45
SELECCIÓN DE LA “MEJOR
ECUACIÓN DE REGRESIÓN”

• Regularmente se cuenta con un grupo


de “regresores candidatos” que
incluyen todos los factores que
influyen en la variable respuesta y se
debe determinar un subconjunto
adecuado de regresores para usarse en
el modelo.

46
PROBLEMA DE SELECCIÓN DE VARIABLES

• La construcción de un modelo de regresión que incluya


solo un subconjunto de las variables independientes
implica dos objetivos contrapuestos:
1) Se desea que el modelo incluya tantos regresores como
sea posible, para que el contenido de la información en
ellos pueda influir en el valor predicho de y;
2) Se desea que el modelo incluya los menos regresores que
sea posible, porque la varianza de la predicción aumenta
a medida que aumenta la cantidad de regresores
Hay varios algoritmos que se
El proceso de encontrar un modelo que sea un pueden usar para seleccionar las
término medio entre los dos objetivos se llama variables, nosotros revisaremos
selección de la “mejor” ecuación de regresión el método Stepwise
47
STEPWISE (REGRESIÓN POR PASOS)

• Método paso por paso para determinar la ecuación de


regresión que se inicia con una sola variable y agrega o
elimina variables independientes una por una. En la
ecuación solo se incluyen las variables independientes
con coeficientes de regresión distintos de cero.

Lo que habíamos hecho anteriormente era como considerar todas las variables a la
vez. Por ejemplo, en el caso del costo de calefacción observábamos de forma global
(F) si al menos una de las tres variables independientes aportaba a la explicación de Y
pero contemplando que estaban las tres variables “a la vez” contempladas en la
modelación.

48
STEPWISE (REGRESIÓN POR PASOS)

• En este método se desarrolla una secuencia de ecuaciones.


• La primera de ellas solo contiene una variable
independiente, aquella variable independiente que explica
la mayoría de la variación de la variable dependiente.
• Luego, el algoritmo analiza las restantes variables
independientes y selecciona la que explicará el porcentaje
mayor de la variación en Y aún no explicada.
• Este proceso continúa hasta incluir en la ecuación de
regresión todas las variables independientes con
coeficientes significativos.
49
OTROS MÉTODOS DE
SELECCIÓN DE VARIABLES

• Método de selección hacia adelante


(forward)
• Método de selección hacia atrás
(backward)
• Método del mejor del subconjunto

50
SUPUESTOS DEL MODELO

Análisis de residuos

51
EVALUACIÓN DE LOS SUPUESTOS DE REGRESIÓN

• Existe una relación lineal. Esto es, hay una línea recta en la
relación entre la variable dependiente y el conjunto de variables
independientes. (Linealidad).
• La variación en los residuales es el mismo valor para las
estimaciones de y (o de las X’s) (Homocedasticidad).
• Los residuales siguen una distribución de probabilidad
Normal. (Normalidad).
• Los residuales son independientes. Significa que las
observaciones sucesivas de la variable dependiente no están
correlacionadas. Este supuesto es a menudo violado cuando el
tiempo está involucrado con la muestra de las observaciones. 52

(Independencia).
ANÁLISIS DE RESIDUALES

• Para verificar el supuesto de linealidad haremos uso de los gráficos de los


residuales contra los valores predichos de Y (o contra las diferentes X’s); así como
las gráficas de Y contra cada una de las X’s. Se seguirán los mismos criterios vistos
en la unidad anterior.

• Para verificar el supuesto de homocedasticidad haremos uso del gráfico de los


residuales contra los valores predichos de y, y se seguirán los mismos criterios
vistos en la unidad anterior.

• Para verificar el supuesto de normalidad haremos uso del gráfico de probabilidad


normal, y se seguirán los mismos criterios vistos en la unidad anterior.

• Para verificar el supuesto de independencia, se utilizaría el gráfico de residuales en


función del orden en que fueron tomados los datos. 53
L INE AL IDAD

100
Mean Outside Temperature
80 (°F) Gráfico de los residuales
Residuales

60
40 100
20 80
0 60
-20 0 50 100 150 200 250 300 350 400 40

Residuos
-40
20
0
-60
-20 0 10 20 30 40 50 60 70
-80
-40
-100
-60
-80
Valores predichos -100
Mean Outside Temperature (°F)

Attic Insulation (inches) Gráfico de Age of Furnace (years) Gráfico


los residuales de los residuales
100 100

60 60
Residuos

Residuos
20 20

-20 0 2 4 6 8 10 12 14 -20 0 2 4 6 8 10 12 14 16
-60 -60

-100 -100
Attic Insulation (inches) Age of Furnace (years)
54
SUPUESTO DE
HOMOCEDASTICIDAD

100

80

60

40
Residuales

20

0
0 50 100 150 200 250 300 350 400
-20

-40

-60

-80

-100

Valores predichos

También se pueden hacer las gráficas de residuales contra cada


variable X para observar su comportamiento
55
SUPUESTO DE NORMALIDAD

Gráfico de probabilidad normal


450

400

350

300
Heating Cost ($)

250

200

150

100

50

0
0 20 40 60 80 100 120

Muestra percentil

56
ANÁLISIS DE INFLUENCIA

57
GRÁFICAMENTE CÓMO
IDENTIFICAR PUNTOS
ATÍPICOS

• Las gráficas: Y vs X, residuales en función de y la gráfica de


probabilidad normal son útiles para identificar puntos
atípicos.

Cómo identificar puntos atípicos


• Para identificar observaciones poco comunes, examine las medidas de
diagnóstico Distancias de Cook y DFFITS
DISTANCIA DE COOK

• La distancia de Cook (D) mide el efecto que tiene


una observación sobre el conjunto de coeficientes
en un modelo lineal.
• Las observaciones con una D grande pueden ser
consideradas influyentes.
Un criterio comúnmente utilizado para
considerar a una distancia de Cook grande como
si es mayor que “1”
DFFITS

• DFFITS mide el efecto que tiene cada observación sobre los valores
ajustados en un modelo lineal.
• DFFITS representa aproximadamente el número de desviaciones
estándar que el valor ajustado cambia cuando cada observación se
elimina del conjunto de datos y el modelo se reajusta.
• Las observaciones que tienen un valor DFFITS grande pueden podrían
ser influyentes.
Un criterio comúnmente utilizado para un valor DFFITS
grande es si el valor absoluto de DFFITS es mayor que
lo siguiente:

p=número de términos del modelo

También podría gustarte