Está en la página 1de 59

Pronósticos y Regresiones

Ing. Antonio Albán


Regresiones
Regresiones
Regresiones

 Es una técnica estadística que se puede utilizar


para desarrollar una ecuación matemática que
muestre como se relacionan las variables.

 La variable a predecir se llama variable


dependiente, las variables o variable que se
usan para predecir las llamaremos variables
independientes.
Regresiones

Ecuación matemática:

Número
aleatorio

Y   0  1 X 1   2 X 2 ...   n X n  

simple

Múltiple
Regresiones

Veamos una aplicación concreta:

Evaluemos la relación que


existe entre las horas de
estudio y la nota que obtiene
productos de una evaluación.

Nota
• Variable dependiente: Nota
en la evaluación

• Variable independiente:
Horas de estudio.

Horas de Estudio
Regresiones

Horas de Nota 20
Estudio (X) (Y)
16
4 8
12

Nota
5 10
8
6 12
4
7 14
0
8 16 1 2 3 4 5 6 7 8 9 10
9 18 Horas de Estudio
10 20
Y = 2X
R2 = 1
Coeficiente de Determinación 0 <> 1
Más alto mejor es la capacidad predictiva de X sobre Y
Regresiones

Horas de Nota
Estudio (X) (Y)

4 7
5 8.5
6 10
7 11.5
8 13
9 14.5
10 16
11 17.5
12 19 Y = 1.5X + 1
R2 = 1
Regresiones
Horas de Estudio Nota
(X) (Y)
12 12
9 10
10 11
14 11
2 9
7 11
16 15
11 11
15 16
8 8
4 9
18 17
12 13
9 9
10 14
Y = 0.654X + 5.081
2 6
17 20
0 4 R2 = 0.8126
8 11
20 18
Supuesto del Modelo de Regresión Lineal

1. Linealidad R²

2. Independencia

3. Homocedasticidad Residuos

4. Normalidad

5. No- Colinealidad X₁ ̴ X₂
Regresiones

Armand´s Pizza Parlors


y = Ventas trimestrales x = Población estudiantil
Restaurante
(miles de $) (en miles)
1 58 2
2 105 6
3 88 8
4 118 8
5 117 12
6 137 16
7 157 20
8 169 20
9 149 22
10 202 26
Regresiones
Regresiones

Método de estimación por mínimos cuadrados

Ŷ = b₀ + b₁ X

Donde:

Ŷ = valor estimado de la variable dependiente (ventas trimestrales)

b₀ = Intercepto de la ecuación de regresión estimada.

b₁ = pendiente de la ecuación de regresión estimada

X = valor de la variable independiente (población estudiantil)


Regresiones

Usaremos los datos muestrales y las ecuaciones


siguientes para calcular el intercepto b₀ y la pendiente b₁
Regresiones

Restaurante yᵢ xᵢ xᵢyᵢ xᵢ²

1 58 2 116 4
2 105 6 630 36
3 88 8 704 64
4 118 8 944 64
5 117 12 1,404 144
6 137 16 2,192 256
7 157 20 3,140 400
8 169 20 3,380 400
9 149 22 3,278 484
10 202 26 5,252 676
1,300 140 21,040 2,528
Regresiones

21,400 - (140)(1300)/10
b₁ = 2,528 -(140)²/10
= 5

b₀ = 130 - 5 (14) = 60

Ŷ = 60 + 5 X
Regresiones

Restaurante xᵢ y = 60 + 5x

1 7 95
2 9 105
3 12 120
4 15 135
5 18 150
6 19 155
7 21 165
8 25 185
9 30 210
10 32 220
CASO: Distribuidor de Autos

Un distribuidor de autos usados


desea evaluar los factores que
cree influyen en su demanda:
• Variable dependiente:
Ventas de autos (unidades /
mes)
• Variables independientes:
– Precio promedio (Miles $)
– Publicidad (Miles $).
1. Linealidad
Especificación del Modelo

• La variable dependiente es la
suma de un conjunto de
elementos:
Modelo de regresión múltiple poblacional:
• El origen de la recta.
Ventas = β0 + β1(Precio) + β2(Publicidad) + ε
• Una combinación lineal
de variables
independientes o
predictoras. Modelo de regresión múltiple muestral:
• Los residuos. Ventasj = b0 + b1(Precioj) + b2(Publicidadj) +
errorj
• El incumplimiento del supuesto
de linealidad = error de
especificación.
Modelo de regresión múltiple lineal
• El coeficiente de correlación, r o
R , es una medida de asociación Ventas = b0 + b1(Precio) + b2(Publicidad)
entre las variables aleatorias X y
Y, cuyo valor varía entre -1 y +1.
Los datos de 15 meses son recolectados….
Formulación del Modelo

Venta Precio Publicidad


Mes (UND) (Miles $) (Miles $)
1 350 5.50 3.3
2 460 7.50 3.3
3 350 8.00 3.0
4 430 8.00 4.5
5 350 6.80 3.0
Modelo de Regresión Múltiple:
6 380 7.50 4.0
7 430 4.50 3.0
8 470 6.40 3.7
9 450 7.00 3.5
Ventas = b0 - b1 (Precio) + b2 (Publicidad)
10 490 5.00 4.0
11 340 7.20 3.5
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5
15 300 7.00 2.7
Interpretación de los Coeficientes

Ventas = b0 - b1 (Precio) + b2 (Publicidad)

Pendientes (bi)
 Estiman el cambio en el valor promedio de “y” como bi unidades por cada
unidad de incremento en “xi” manteniendo las otras variables constantes.
 Ejemplo: Si b1 = -10, entonces se espera que las ventas promedio (y) se
reduzcan en 10 autos por mes por cada $1000 en que se incremente el precio
(x1), manteniendo constante la variable publicidad (x2).

Intercepto (b0)
 Estima el valor promedio de “y” cuando todas las variables “xi” son iguales
a cero.
Matriz de Correlación

Ventas Precio Publicidad

Ventas 1
Precio -0.44327 1
Publicidad 0.55632 0.03044 1

• Ventas vs. Precio : r = -0.44327


 Hay una relación lineal negativa entre las ventas y el precio

• Ventas vs. Publicidad : r = 0.55632


 Hay una relación lineal positiva entre las ventas y la publicidad

• Las correlaciones entre la variable dependiente y las variables independientes


pueden obtenerse usando Excel:
 Datos / Análisis de datos / Coeficiente de correlation
Estimación de la Ecuación

• Excel:
– Datos / Análisis de datos / Regresión
Estimación de la Ecuación
Estimación de la Ecuación

Ventas  306.526 - 24.975(Precio)  74.131(Pub licidad)


Estimación de la Ecuación

Ventas  306.526 - 24.975(Precio)  74.131(Pub licidad)


Donde:
Ventas (número de autos al mes)
Precio (Miles $)
Publicidad (Miles $)

b1 = -24.975: Las ventas caerán en


promedio 24.975 autos por mes por cada
$1000 de aumento en el precio,
manteniendo constante la publicidad.

b2 = 74.131: Las ventas crecerán en


promedio 74.131 autos por mes por
cada $1000 adicionales en publicidad,
manteniendo constante el precio.
Usando el Modelo para Hacer Predicciones

Predecir las ventas de un mes en la cual: el precio es $5.5 y la publicidad


es $3.5.

Ventas  306.526 - 24.975(Precio)  74.131(Pub licidad)


 306.526 - 24.975 (5.50)  74.131 (3.5)
 428.62

La venta sería 429 autos


Coeficiente de Determinación Múltiple R2

• Muestra la proporción de la variación total en “y” que es


explicada por todas las variables (juntas) “x” consideradas en el
modelo.

SSR Suma de cuadrados de regresión


R 
2

SST Suma total de cuadrados
Coeficiente de Determinación Múltiple R2

SSR 29460.0
R2    0.52148
SST 56493.3

El 52.1% de la variación en las ventas es


explicada por la variación en los precios
y la publicidad
R2 Ajustado

• Muestra la proporción explicada de la variación en “y” por las variables “xi”


tomando en cuenta la relación entre el tamaño de muestra y el número de
variables independientes.

 n 1 
R  1  (1  R )
2 2

 n  k 1 
A

(Donde n = Tamaño muestral, k = Número de variables independientes)

• Penaliza el uso excesivo de variables independientes no importantes


• Es más pequeña que el R2
• Útil en la comparación entre modelos
R2 Ajustado

R 2A  0.44172

El 44.2% de la variación en las ventas es explicada por


la variación en los precios y la publicidad, tomando en
cuenta la relación entre el tamaño de muestra y el
número de variables independientes
DIAGNÓSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)

• Muestra si hay una relación lineal entre todas las variables x


(consideradas en forma conjunta) e y
• Usa el estadístico de prueba F
• Hipótesis:

o H0: β1 = β2 = … = βk = 0 (No hay relación


lineal)
o HA: Al menos un βi ≠ 0 (Existe relación
lineal entre (y) y al menos
un xi)
DIAGNÓSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)

• Estadístico de prueba:

SSR
k MSR
F 
SSE MSE
n  k 1

Donde: Los grados de libertad de F son:


glnumerador = k
gldenominador = (n – k – 1)
15-36
15-37

DIAGNÓSTICO DEL MODELO: PRUEBA F


(SIGNIFICANCIA GENERAL)

MSR 14730.0
F   6.5386
MSE 2252.8
Con 2 y 12 grados de libertad Valor P para la
prueba
DIAGNÓSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)

H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero

 = 0.05 Valor crítico:


glnumerador= 2 F0.05 = 3.885
gldenominador = 12
 = 0.05

0 No rechazar H0 Rechazar H0 F

Estadístico de prueba: MSR


F  6.5386
MSE
Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0

Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión


explica parte de la variación en la venta de autos
(al menos una de las pendientes de regresión no es cero)
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

• Usar la prueba t para evaluar la significancia de cada pendiente


• Muestra si hay una relación lineal entre la variable xi e y
• Hipótesis:
– H0: βi = 0 (No hay relación lineal)
– HA: βi ≠ 0 (Existe relación lineal entre xi e y)
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

H0: βi = 0 (No hay relación lineal)


HA: βi ≠ 0 (Existe relación lineal entre xi e y)

Estadístico de prueba:

bi  0 (gl = n – k – 1)
t
sb i
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

El estadístico de prueba t para el Precio es -2.306


(valor p = 0.0398)

El estadístico de prueba t para la Publicidad es


2.855 (valor p = 0.0145)
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

H0: βi = 0; HA: βi  0

/2=0.025 /2=0.025
g.l. = 15-2-1 = 12
 = 0.05
t/2 = 2.1788 Rechazar H0 No rechazar H0 Rechazar H0
-tα/2 0 tα/2
-2.1788 2.1788
Excel (Resultado):
Coeficientes Error típico Estadístico t Valor p
Precio -24.97509 10.83213 -2.30565 0.03979
Publicidad 74.13096 25.96732 2.85478 0.01449
Decisión: Para cada variable se rechaza H0
Conclusión: Hay evidencia suficiente para concluir que cada variable in-
dividual (Precio y Publicidad) afecta a la venta de autos, dada
la presencia de la otra para  =0.05
15-43

INTERVALOS DE CONFIANZA PARA LAS


PENDIENTES

El intervalo de confianza para la pendiente poblacional β1 (efecto sobre las


ventas de pie respecto a cambios en el precio):

b i  t  / 2 sbi Donde t tiene


(n – k – 1) g.l.

Ejemplo: La venta de autos mensual se reducirán entre 1.37 a 48.58 autos


por cada incremento de $1000 en el precio.
Desviación Estándar del Modelo de Regresión

• La estimación de la desviación estándar del modelo de regresión está


dada por:

SSE
s   MSE
n  k 1

¿Este valor es grande o pequeño?


Para evaluarlo se debe comparar con el promedio de y.
DESVIACIÓN ESTÁNDAR DEL MODELO DE
REGRESIÓN

La desviación estándar del modelo


de regresión es 47.46
DESVIACIÓN ESTÁNDAR DEL MODELO DE
REGRESIÓN

• La desviación estándar del modelo de regresión es 47.46


• Un rango de predicción para las ventas de autos en un mes se
puede aproximar por
• Considerandoque
2(47.46)  94.2
el promedio muestral de autos por mes es 399,
un error de ±94.2 autos es problablemente grande para ser
aceptado. El distribuidor podría querer buscar variables adicionales
que puedan explicar más de la variación en las ventas.
2. Independencia (Residuos)
INDEPENDENCIA (RESIDUOS)

Los residuos son INDEPENDIENTES entre sí, es decir, los residuos


constituyen una variable aleatoria.
El estadístico Durbin-Watson oscila entre 0 y 4, y toma el valor 2
cuando los residuos son independientes.
Los valores menores que 2 indican autocorrelación positiva y los
mayores que 2 autocorrelación negativa.
Podemos asumir independencia entre los residuos cuando DW toma
valores entre 1,5 y 2,5.
INDEPENDENCIA (RESIDUOS)
3. Homocedasticidad (Residuos)
HOMOCEDASTICIDAD (RESIDUOS)

La variación de los residuos debe ser uniforme en todo el rango


de valores pronosticados.
El tamaño de los residuos es independiente del tamaño de los
pronósticos, de donde se desprende que el diagrama de dispersión no
debe mostrar ninguna pauta de asociación entre los PRONÓSTICOS Y
LOS RESIDUOS.
HOMOCEDASTICIDAD (RESIDUOS)

Se espera una nube de puntos entre el pronóstico y los residuos.

Residuos

Ventas Estimadas
Obtenido con Statpro (Complemento de Excel)
4. Normalidad (Residuos)
NORMALIDAD (RESIDUOS)

Para cada valor de la variable independiente (o combinación de valores


de las variables independientes), los residuos se DISTRIBUYEN
NORMALMENTE con media cero.
Histograma, Diagrama de probabilidad normal, prueba de hipótesis (Z
de Kolmogorov-Smirnov)
NORMALIDAD (RESIDUOS)

The maximum distance between the


empirical and normal cumulative
distributions is 0.1173. This is less than
0.2195, the maximum allowed with a sample
size of 15. Therefore, the normal hypothesis
cannot be rejected at the 5% level.

Obtenido con Statpro (Complemento de Excel)


5. Multicolinealidad
MULTICOLINEALIDAD

• Multicolinealidad: Es la presencia de correlación entre dos variables


independientes y, por lo tanto, se traslapan.
• Es decir, las dos variables contribuyen con información redundante al
modelo de regresión múltiple.
• Incluir dos variables independientes altamente correlacionadas puede
afectar adversamente los resultados de regresión:
– No proporciona nueva información.
– Puede llevar a coeficientes inestables (error estándar grande y valores t bajos).
– Los signos de los coeficientes podrían no ser coherentes con nuestras expectativas
iniciales y con la matriz de correlación.
MULTICOLINEALIDAD: FACTOR DE
INFLACIÓN DE VARIANZA

VIFj es usado para medir la colinealidad:

1
VIFj 
1  R 2j
R2j es el coeficiente de determinación de la regresión de la j ma
variable independiente contra las restantes k – 1 variables
independientes

Si VIFj ≥ 5, entonces xj está altamente correlacionado


con las otras variables explicativas
MULTICOLINEALIDAD: FACTOR DE
INFLACIÓN DE VARIANZA

Variance inflation factors (VIF) for variables in equation


Precio ($) Publicidad ($100s)
VIF 1.001 1.001
R-Square 0.001 0.001
Average VIF 1.001

Conclusión: No hay evidencia suficiente para concluir que exista


colinealidad o multicolinealidad

Obtenido con Statpro (Complemento de Excel)

También podría gustarte