Modulo 3 - Investigacion de Mercados

We make
it happen
Master en Dirección de Márketing y Gestión

Comercial
Curso 2023-2024
Investigación de mercados, gestión de la información y toma

de decisiones
Dra. Sara Fontdecaba
eae.es
Índice
01. Modelos de previsión.
01.01. Modelos de regresión lineal simple (MRLS)
01.02. Modelos de regresión lineal múltiple (MRLM)
2
01. Modelos de Previsión:
Regresión Lineal Simple
eae.es
3
Recta de Regresión
220
𝒚
200
ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
180 𝐑𝐞𝐬𝐢𝐝𝐮𝐨: 𝒆𝒊
Weight (in pounds)
160
𝒃𝟏
140
𝟏
120
𝒃𝟎
100
60 62 64 66 68 70 72 74 76
x
Height (in inches)
𝒚 = 𝒃𝟎 + 𝒃𝟏 𝒙
Y: variable respuesta (la que queremos predecir)

X: variable explicativa (la que utilizamos para predecir)
4
Posibles criterios de
ajuste
Minimizar la Minimizar la
Minimizar la suma de los suma de los
suma, de los residuos cuadrados
residuos en valor absoluto de los residuos
10 10 10
9 9 9
8 8 8
-1
7 +2 7 7 +2
+3
6 -6 6 6
5 +4 5 5
y
y
4 4 4
-1
3 3 3
2 2 2
1 1 1
0 0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
x x x
Este es el criterio que usaremos

“Criterio de mínimos cuadrados”
5
Hipótesis del
modelo
Linealidad
Los datos deben ser razonablemente rectos:
Si no, la recta de regresión no representa la estructura de los datos.
6
Hipótesis del
modelo
Variancia constante
La dispersión de los datos debe ser constante
Datos homocedásticos Datos heterocedásticos
7
Hipótesis del
modelo
Normalidad
Se asume que 𝒚𝒊 ȁ𝒙𝒊 ~ 𝑵 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 ; 𝝈
𝒚
𝒙 𝒊 , 𝒚𝒊
𝒆𝒊 ●
● 𝜺𝒊
● ●
● ●
●
● ●
𝑬 𝒚 𝒙 = 𝜷𝟎 + 𝜷𝟏 𝒙
● ●
ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
𝑥𝑖 𝒙
8
Hipótesis del
modelo
Independencia
Los datos deben ser independientes.
 Una observación no debe dar información sobre las demás.
 Habitualmente, se sabe por el tipo de datos si son adecuados o no

para el análisis.
 En general, las series temporales no cumplen la hipótesis de

independencia.
9
Hipótesis del
modelo
 Cuando sólo tienes una variable explicativa, las hipótesis de linealidad y

de varianza constante típicamente se pueden comprobar haciendo el
diagrama bivariante entre y / x .
 Cuando tengamos más de una variable explicativa, con estos gráficos

no será suficiente para validar el modelo lineal.
 Las hipótesis de normalidad y de independencia son más difíciles de

validar, y no se puede hacer a "simple vista". Lo estudiaremos más
adelante.
 Aunque de entrada a menudo algunas de estas hipótesis no se

cumplan, las podemos hacer cumplir transformando adecuadamente la
y y/o la x.
10
Calidad del ajuste:
Coeficiente de
determinación
𝐒𝐮𝐦𝐚 𝐝𝐞 𝐜𝐮𝐚𝐝𝐫𝐚𝐝𝐨𝐬 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚 𝐩𝐨𝐫 𝐥𝐚 𝐫𝐞𝐠𝐫𝐞𝐬𝐬𝐢𝐨𝐧
𝑹𝟐 =
𝐒𝐮𝐦𝐚 𝐝𝐞 𝐜𝐮𝐚𝐝𝐫𝐚𝐝𝐨𝐬 𝐭𝐨𝐭𝐚𝐥
𝟐
𝟐
𝑺𝑸 𝑬 𝑺𝑸 𝑻 − 𝑺𝑸 𝑹 𝑺𝑸 𝑹 𝒔𝑹 𝒏−𝟐
𝑹 = = =𝟏− =𝟏− 𝟐
𝑺𝑸𝑻 𝑺𝑸𝑻 𝑺𝑸𝑻 𝒔𝒚 𝒏 − 𝟏
𝟎 ≤ 𝑹𝟐 ≤ 𝟏
𝑹𝟐 = 𝒓𝟐𝑿𝒀
R2: Es el porcentaje de la
variabilidad de y explicada
por el modelo
…y 1-R2 donde queda

recogido?
11
Resultados con
Excel
SUMMARY
OUTPUT
Regression Statistics
Multiple R 0,122553683
R Square 0,015019405
Adjusted R Square -0,005501024
Standard Error 14,14854409
Observations 50
ANOVA
Significance
df SS MS F F
Regression 1 146,517 146,517 0,73192452 0,3965105
Residual 48 9608,7 200,181
Total 49 9755,22
12
Resultados con
Excel
Estadístico de Prueba P-Valor

𝒃𝟎 𝒔𝒃𝟎
Coefficien Standard Lower Upper

ts Error t Stat P-value 95,0% 95,0%
Intercept 79,23 14,832 5,341 2,49E-06 49,4111 109,0557
X -1,366 1,5978 -0,855 0,3965 -4,5796 1,845651
𝒃𝟏 𝒔𝒃𝟏
13
Resultados con
Excel
 Para saber si 𝜷𝒊 puede ser igual a 𝟎 , lo más importante no es saber

si 𝒃𝒊 es grande o pequeño sino si lo es ȁ𝒕𝒊ȁ = ȁ𝒃𝒊/𝒔𝒃𝒊 ȁ
 Lo que cuenta es el número de desviaciones tipo que separa 𝒃𝒊 de 0 .
Dar 𝒃𝒊 sin dar 𝒔𝒃𝒊 no sirve de nada
14
Validación del
modelo: Análisis de
residuos
 Verificar las 4 hipótesis del modelo
Para asegurar que la inferencia sobre los
parámetros se correcta
𝑌𝑖
𝑒𝑖
 Sugerir mejoras del modelo
𝑌෠𝑖
Residuos no aleatorios = > las hipótesis de
modelo no se cumplen. También puede ser
que se pueda sacar más información de los
datos
𝑋𝑖  Detectar observacions atípicas

Por estar mal explicadas por el modelo o
bien por ser mucho más influyentes que la
mayoría de observaciones sobre el modelo
ajustado.
15
Validación del
residuos
Ante todo (siempre!):
Análisi exploratoria Fitted Line Plot
Y = 14,24 + 4,023 X
de los datos
35 S 0,528825
R-Sq 99,3%
R-Sq(adj) 99,3%
30
25
Y
20 ¿El ajuste es muy

bueno....pero....es
el mejor posible?
15
0 1 2 3 4 5
X
16
Validación del
residuos Fitted Line Plot
Y = 14,24 + 4,023 X
35
35 S 0,528825
R-Sq 99,3%
30
R-Sq(adj) 99,3%
30 Y Fi
25 = tted
Y
14 Li
,2 ne
4
+ Pl o
4,
25 20 02 t
Y
3
X
15
20
S
0
Residual Plots for Y
R-
15 R- S q
Sq
1 (a 0,
dj 52
0 1 2 3 4 5 ) 8
99 825
X 2 99 ,3%
ity Plot Versus Fits X
,3
%
3
4
1,0
5
0,5
Residual
0,0
-0,5
Ajusta mejor un
Tenemos que ver -1,0 modelo
patrón 1,0
0,5 aleatorio 15 20 25 30 35 cuadrático
Fitted Value
17
Mejora del modelo:
Transformaciones
La
Histogram of X^2
transformación
puede ser de la 𝒙,
350
300
250
de la 𝒚 o de les
Frequency
200
150
100
dos. Si se ve, una
50
𝒙 parábola, probar
de introducir X2
0
9 18 27 36 45 54 63
X^2
Histogram of X
Histogram of e^x
350
1200
1000
300
800
𝐥𝐧(𝒙) 250
Frequency
Frequency
600
200
400
150
200
100
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000
e^x 50
0
1,8 2,7 3,6 4,5 5,4 6,3 7,2 8,1
Histogram of 1/X
X
600
500
400
Frequency
300
200
𝟏ൗ
𝒙
100
0
0,12 0,18 0,24 0,30 0,36 0,42 0,48 0,54
1/X
18
01. Modelos de Previsión:
Regresión Lineal Múltiple
eae.es
19
Regresión Lineal
Múltiple
 Cualquier modelo que tenga más de una variable explicativa (Xi) ya es

considerado un modelo de Regresión Lineal Múltiple (RLM).
 Si consideramos las p variables explicativas X1, X2, X3, …, Xp , para poder
realizar el ajuste del modelo, se tiene que cumplir n >> p donde n es el
número de observaciones de la muestra.
 Prácticamente toda la teoría de RLS, se puede aplicar a la RLM
A lo largo de este tema estudiaremos las diferencias que hay en el ajuste y la

interpretación del modelo
20
Regresión Lineal
Múltiple
 Partiendo de p variables explicativas, no significa que todas ellas sean útiles

para explicar la variable respuesta y, y por lo tanto, que todas ellas formen
parte del modelo final.
 Cuando tenemos posibles variables explicativas (X’s) las cosas se
complican:
 Hay muchos modelos posibles y no es facil escoger el modelo que más

nos conviene CRITERIOS DE SELECCIÓN
 Se debe tener en cuenta, las posibles relaciones entre las X’s al

interpretar los modelos ajustados LOS COEFICIENTES DEL
MODELO NO SON INDEPENDIENTES. MULTICOLINEALIDAD
21
El valor de R2-adj
 En la RLS existía el coeficiente de determinación R2 como medida de

calidad del ajuste. En la RLM, se va a convertir en R2 -ajustado (R2adj).
El significado es el mismo: Porcentaje de variabilidad de la respuesta
explicado por el conjunto de variables X’s incluidas en el modelo.
22
El valor de R2 vs
R2-adj
 El valor de R2 siempre crece cuando le añadimos variables

explicativas al modelo independientemente que estas expliquen o no
la variable respuesta. Aparte, no sirve para comparar modelos con
distinto número de variables explicativas
 El valor de R2adj sólo crece cuando las variables explicativas, tienen
una información relevante. En caso contrario, penaliza su valor. 
23
Multicolinealidad
El grado de colinealidad es el grado de dependencia lineal entre las variables

explicativas del modelo
Tener mucha colinealidad es un problema por que:
1. Dificulta la interpretación del modelo a partir del modelo ajustado

2. Aumenta la variancia de predicción
3. Es probable que a veces Excel no pueda hacer los cálculos de los
coeficientes y nos de error. Será necesario eliminar alguna variable del
modelo
24
Multicolinealidad
Cuantificaremos la Multicolinealidad con el índice VIF (Variance Inflation

Factor)
Cada variable regresora tiene asociado un valor VIF:
VIF para x1:

1 < VIF < ∞
R2 del modelo que explica x1 en función

del resto de variables explicativas
25
Multicolinealidad
VIF para x1: 1/1- 0,999915 = 30.327
26
Multicolinealidad
27

Modulo 3 - Investigacion de Mercados

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modulo 3 - Investigacion de Mercados

Cargado por

Copyright:

Formatos disponibles

We make

Master en Dirección de Márketing y Gestión

Investigación de mercados, gestión de la información y toma

Dra. Sara Fontdecaba

Y: variable respuesta (la que queremos predecir)

Este es el criterio que usaremos

Si no, la recta de regresión no representa la estructura de los datos.

Datos homocedásticos Datos heterocedásticos

Los datos deben ser independientes.

 Una observación no debe dar información sobre las demás.

 Habitualmente, se sabe por el tipo de datos si son adecuados o no

 En general, las series temporales no cumplen la hipótesis de

 Cuando sólo tienes una variable explicativa, las hipótesis de linealidad y

 Cuando tengamos más de una variable explicativa, con estos gráficos

 Las hipótesis de normalidad y de independencia son más difíciles de

 Aunque de entrada a menudo algunas de estas hipótesis no se

…y 1-R2 donde queda

Estadístico de Prueba P-Valor

Coefficien Standard Lower Upper

X -1,366 1,5978 -0,855 0,3965 -4,5796 1,845651

 Para saber si 𝜷𝒊 puede ser igual a 𝟎 , lo más importante no es saber

 Lo que cuenta es el número de desviaciones tipo que separa 𝒃𝒊 de 0 .

Dar 𝒃𝒊 sin dar 𝒔𝒃𝒊 no sirve de nada

𝑋𝑖  Detectar observacions atípicas

20 ¿El ajuste es muy

 Cualquier modelo que tenga más de una variable explicativa (Xi) ya es

realizar el ajuste del modelo, se tiene que cumplir n >> p donde n es el

número de observaciones de la muestra.

 Prácticamente toda la teoría de RLS, se puede aplicar a la RLM

A lo largo de este tema estudiaremos las diferencias que hay en el ajuste y la

 Partiendo de p variables explicativas, no significa que todas ellas sean útiles

 Hay muchos modelos posibles y no es facil escoger el modelo que más

 Se debe tener en cuenta, las posibles relaciones entre las X’s al

 En la RLS existía el coeficiente de determinación R2 como medida de

 El valor de R2 siempre crece cuando le añadimos variables

distinto número de variables explicativas

 El valor de R2adj sólo crece cuando las variables explicativas, tienen

una información relevante. En caso contrario, penaliza su valor. 

El grado de colinealidad es el grado de dependencia lineal entre las variables

Tener mucha colinealidad es un problema por que:

1. Dificulta la interpretación del modelo a partir del modelo ajustado

Cuantificaremos la Multicolinealidad con el índice VIF (Variance Inflation

Cada variable regresora tiene asociado un valor VIF:

VIF para x1:

R2 del modelo que explica x1 en función

VIF para x1: 1/1- 0,999915 = 30.327

También podría gustarte