Está en la página 1de 27

We make

it happen

Master en Dirección de Márketing y Gestión


Comercial
Curso 2023-2024

Investigación de mercados, gestión de la información y toma


de decisiones

Dra. Sara Fontdecaba

eae.es
Índice
01. Modelos de previsión.
01.01. Modelos de regresión lineal simple (MRLS)
01.02. Modelos de regresión lineal múltiple (MRLM)

2
01. Modelos de Previsión:
Regresión Lineal Simple

eae.es
3
Recta de Regresión

220
𝒚
200
ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
180 𝐑𝐞𝐬𝐢𝐝𝐮𝐨: 𝒆𝒊
Weight (in pounds)

160
𝒃𝟏
140
𝟏
120
𝒃𝟎
100

60 62 64 66 68 70 72 74 76
x
Height (in inches)

𝒚 = 𝒃𝟎 + 𝒃𝟏 𝒙

Y: variable respuesta (la que queremos predecir)


X: variable explicativa (la que utilizamos para predecir)

4
Posibles criterios de
ajuste
Minimizar la Minimizar la
Minimizar la suma de los suma de los
suma, de los residuos cuadrados
residuos en valor absoluto de los residuos
10 10 10
9 9 9
8 8 8
-1
7 +2 7 7 +2
+3
6 -6 6 6
5 +4 5 5
y

y
4 4 4
-1
3 3 3
2 2 2
1 1 1
0 0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
x x x

Este es el criterio que usaremos


“Criterio de mínimos cuadrados”

5
Hipótesis del
modelo

Linealidad
Los datos deben ser razonablemente rectos:

Si no, la recta de regresión no representa la estructura de los datos.

6
Hipótesis del
modelo

Variancia constante
La dispersión de los datos debe ser constante

Datos homocedásticos Datos heterocedásticos

7
Hipótesis del
modelo

Normalidad
Se asume que 𝒚𝒊 ȁ𝒙𝒊 ~ 𝑵 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 ; 𝝈
𝒚
𝒙 𝒊 , 𝒚𝒊
𝒆𝒊 ●
● 𝜺𝒊

● ●
● ●

● ●
𝑬 𝒚 𝒙 = 𝜷𝟎 + 𝜷𝟏 𝒙
● ●
ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚

𝑥𝑖 𝒙
8
Hipótesis del
modelo

Independencia

Los datos deben ser independientes.

 Una observación no debe dar información sobre las demás.

 Habitualmente, se sabe por el tipo de datos si son adecuados o no


para el análisis.

 En general, las series temporales no cumplen la hipótesis de


independencia.

9
Hipótesis del
modelo

 Cuando sólo tienes una variable explicativa, las hipótesis de linealidad y


de varianza constante típicamente se pueden comprobar haciendo el
diagrama bivariante entre y / x .

 Cuando tengamos más de una variable explicativa, con estos gráficos


no será suficiente para validar el modelo lineal.

 Las hipótesis de normalidad y de independencia son más difíciles de


validar, y no se puede hacer a "simple vista". Lo estudiaremos más
adelante.

 Aunque de entrada a menudo algunas de estas hipótesis no se


cumplan, las podemos hacer cumplir transformando adecuadamente la
y y/o la x.
10
Calidad del ajuste:
Coeficiente de
determinación
𝐒𝐮𝐦𝐚 𝐝𝐞 𝐜𝐮𝐚𝐝𝐫𝐚𝐝𝐨𝐬 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚 𝐩𝐨𝐫 𝐥𝐚 𝐫𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧
𝑹𝟐 =
𝐒𝐮𝐦𝐚 𝐝𝐞 𝐜𝐮𝐚𝐝𝐫𝐚𝐝𝐨𝐬 𝐭𝐨𝐭𝐚𝐥
𝟐
𝟐
𝑺𝑸 𝑬 𝑺𝑸 𝑻 − 𝑺𝑸 𝑹 𝑺𝑸 𝑹 𝒔𝑹 𝒏−𝟐
𝑹 = = =𝟏− =𝟏− 𝟐
𝑺𝑸𝑻 𝑺𝑸𝑻 𝑺𝑸𝑻 𝒔𝒚 𝒏 − 𝟏

𝟎 ≤ 𝑹𝟐 ≤ 𝟏
𝑹𝟐 = 𝒓𝟐𝑿𝒀
R2: Es el porcentaje de la
variabilidad de y explicada
por el modelo

…y 1-R2 donde queda


recogido?

11
Resultados con
Excel

SUMMARY
OUTPUT

Regression Statistics
Multiple R 0,122553683
R Square 0,015019405
Adjusted R Square -0,005501024
Standard Error 14,14854409
Observations 50

ANOVA
Significance
df SS MS F F
Regression 1 146,517 146,517 0,73192452 0,3965105
Residual 48 9608,7 200,181
Total 49 9755,22

12
Resultados con
Excel

Estadístico de Prueba P-Valor


𝒃𝟎 𝒔𝒃𝟎

Coefficien Standard Lower Upper


ts Error t Stat P-value 95,0% 95,0%
Intercept 79,23 14,832 5,341 2,49E-06 49,4111 109,0557

X -1,366 1,5978 -0,855 0,3965 -4,5796 1,845651

𝒃𝟏 𝒔𝒃𝟏

13
Resultados con
Excel

 Para saber si 𝜷𝒊 puede ser igual a 𝟎 , lo más importante no es saber


si 𝒃𝒊 es grande o pequeño sino si lo es ȁ𝒕𝒊ȁ = ȁ𝒃𝒊/𝒔𝒃𝒊 ȁ

 Lo que cuenta es el número de desviaciones tipo que separa 𝒃𝒊 de 0 .

Dar 𝒃𝒊 sin dar 𝒔𝒃𝒊 no sirve de nada

14
Validación del
modelo: Análisis de
residuos
 Verificar las 4 hipótesis del modelo
Para asegurar que la inferencia sobre los
parámetros se correcta
𝑌𝑖
𝑒𝑖
 Sugerir mejoras del modelo
𝑌෠𝑖
Residuos no aleatorios = > las hipótesis de
modelo no se cumplen. También puede ser
que se pueda sacar más información de los
datos

𝑋𝑖  Detectar observacions atípicas


Por estar mal explicadas por el modelo o
bien por ser mucho más influyentes que la
mayoría de observaciones sobre el modelo
ajustado.
15
Validación del
modelo: Análisis de
residuos
Ante todo (siempre!):
Análisi exploratoria Fitted Line Plot
Y = 14,24 + 4,023 X
de los datos
35 S 0,528825
R-Sq 99,3%
R-Sq(adj) 99,3%
30

25
Y

20 ¿El ajuste es muy


bueno....pero....es
el mejor posible?
15

0 1 2 3 4 5
X
16
Validación del
modelo: Análisis de
residuos Fitted Line Plot
Y = 14,24 + 4,023 X
35
35 S 0,528825
R-Sq 99,3%
30
R-Sq(adj) 99,3%
30 Y Fi
25 = tted

Y
14 Li
,2 ne
4
+ Pl o
4,
25 20 02 t
Y

3
X
15
20

S
0
Residual Plots for Y
R-
15 R- S q
Sq
1 (a 0,
dj 52
0 1 2 3 4 5 ) 8
99 825
X 2 99 ,3%
ity Plot Versus Fits X
,3
%
3

4
1,0
5

0,5
Residual

0,0

-0,5
Ajusta mejor un
Tenemos que ver -1,0 modelo
patrón 1,0
0,5 aleatorio 15 20 25 30 35 cuadrático
Fitted Value
17
Mejora del modelo:
Transformaciones
La
Histogram of X^2
transformación
puede ser de la 𝒙,
350

300

250
de la 𝒚 o de les
Frequency

200

150

100
dos. Si se ve, una
50

𝒙 parábola, probar
de introducir X2
0
9 18 27 36 45 54 63
X^2

Histogram of X
Histogram of e^x
350
1200

1000
300

800

𝐥𝐧(𝒙) 250
Frequency

Frequency
600
200

400
150
200
100
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
e^x 50

0
1,8 2,7 3,6 4,5 5,4 6,3 7,2 8,1
Histogram of 1/X
X
600

500

400
Frequency

300

200

𝟏ൗ
𝒙
100

0
0,12 0,18 0,24 0,30 0,36 0,42 0,48 0,54
1/X

18
01. Modelos de Previsión:
Regresión Lineal Múltiple

eae.es
19
Regresión Lineal
Múltiple

 Cualquier modelo que tenga más de una variable explicativa (Xi) ya es


considerado un modelo de Regresión Lineal Múltiple (RLM).
 Si consideramos las p variables explicativas X1, X2, X3, …, Xp , para poder

realizar el ajuste del modelo, se tiene que cumplir n >> p donde n es el

número de observaciones de la muestra.

 Prácticamente toda la teoría de RLS, se puede aplicar a la RLM

A lo largo de este tema estudiaremos las diferencias que hay en el ajuste y la


interpretación del modelo

20
Regresión Lineal
Múltiple

 Partiendo de p variables explicativas, no significa que todas ellas sean útiles


para explicar la variable respuesta y, y por lo tanto, que todas ellas formen
parte del modelo final.
 Cuando tenemos posibles variables explicativas (X’s) las cosas se
complican:

 Hay muchos modelos posibles y no es facil escoger el modelo que más


nos conviene CRITERIOS DE SELECCIÓN

 Se debe tener en cuenta, las posibles relaciones entre las X’s al


interpretar los modelos ajustados LOS COEFICIENTES DEL
MODELO NO SON INDEPENDIENTES. MULTICOLINEALIDAD
21
El valor de R2-adj

 En la RLS existía el coeficiente de determinación R2 como medida de


calidad del ajuste. En la RLM, se va a convertir en R2 -ajustado (R2adj).
El significado es el mismo: Porcentaje de variabilidad de la respuesta
explicado por el conjunto de variables X’s incluidas en el modelo.

22
El valor de R2 vs
R2-adj

 El valor de R2 siempre crece cuando le añadimos variables


explicativas al modelo independientemente que estas expliquen o no
la variable respuesta. Aparte, no sirve para comparar modelos con

distinto número de variables explicativas

 El valor de R2adj sólo crece cuando las variables explicativas, tienen

una información relevante. En caso contrario, penaliza su valor. 

23
Multicolinealidad

El grado de colinealidad es el grado de dependencia lineal entre las variables


explicativas del modelo

Tener mucha colinealidad es un problema por que:

1. Dificulta la interpretación del modelo a partir del modelo ajustado


2. Aumenta la variancia de predicción
3. Es probable que a veces Excel no pueda hacer los cálculos de los
coeficientes y nos de error. Será necesario eliminar alguna variable del
modelo

24
Multicolinealidad

Cuantificaremos la Multicolinealidad con el índice VIF (Variance Inflation


Factor)

Cada variable regresora tiene asociado un valor VIF:

VIF para x1:


1 < VIF < ∞

R2 del modelo que explica x1 en función


del resto de variables explicativas

25
Multicolinealidad

VIF para x1: 1/1- 0,999915 = 30.327

26
Multicolinealidad

27

También podría gustarte