Regresiones

Pronósticos y Regresiones
Ing. Antonio Albán

Regresiones
Regresiones
Regresiones
 Es una técnica estadística que se puede utilizar

para desarrollar una ecuación matemática que
muestre como se relacionan las variables.
 La variable a predecir se llama variable

dependiente, las variables o variable que se
usan para predecir las llamaremos variables
independientes.
Regresiones
Ecuación matemática:
Número
aleatorio
Y   0  1 X 1   2 X 2 ...   n X n  
simple
Múltiple
Regresiones
Veamos una aplicación concreta:
Evaluemos la relación que

existe entre las horas de
estudio y la nota que obtiene
productos de una evaluación.
Nota
• Variable dependiente: Nota
en la evaluación
• Variable independiente:
Horas de estudio.
Horas de Estudio
Regresiones
Horas de Nota 20
Estudio (X) (Y)
16
4 8
12
Nota
5 10
8
6 12
4
7 14
0
8 16 1 2 3 4 5 6 7 8 9 10
9 18 Horas de Estudio
10 20
Y = 2X
R2 = 1
Coeficiente de Determinación 0 <> 1
Más alto mejor es la capacidad predictiva de X sobre Y
Regresiones
Horas de Nota
Estudio (X) (Y)
4 7
5 8.5
6 10
7 11.5
8 13
9 14.5
10 16
11 17.5
12 19 Y = 1.5X + 1
R2 = 1
Regresiones
Horas de Estudio Nota
(X) (Y)
12 12
9 10
10 11
14 11
2 9
7 11
16 15
11 11
15 16
8 8
4 9
18 17
12 13
9 9
10 14
Y = 0.654X + 5.081
2 6
17 20
0 4 R2 = 0.8126
8 11
20 18
Supuesto del Modelo de Regresión Lineal
1. Linealidad R²
2. Independencia
3. Homocedasticidad Residuos
4. Normalidad
5. No- Colinealidad X₁ ̴ X₂
Regresiones
Armand´s Pizza Parlors

y = Ventas trimestrales x = Población estudiantil
Restaurante
(miles de $) (en miles)
1 58 2
2 105 6
3 88 8
4 118 8
5 117 12
6 137 16
7 157 20
8 169 20
9 149 22
10 202 26
Regresiones
Regresiones
Método de estimación por mínimos cuadrados
Ŷ = b₀ + b₁ X
Donde:
Ŷ = valor estimado de la variable dependiente (ventas trimestrales)
b₀ = Intercepto de la ecuación de regresión estimada.
b₁ = pendiente de la ecuación de regresión estimada
X = valor de la variable independiente (población estudiantil)

Regresiones
Usaremos los datos muestrales y las ecuaciones

siguientes para calcular el intercepto b₀ y la pendiente b₁
Regresiones
Restaurante yᵢ xᵢ xᵢyᵢ xᵢ²
1 58 2 116 4
2 105 6 630 36
3 88 8 704 64
4 118 8 944 64
5 117 12 1,404 144
6 137 16 2,192 256
7 157 20 3,140 400
8 169 20 3,380 400
9 149 22 3,278 484
10 202 26 5,252 676
1,300 140 21,040 2,528
Regresiones
21,400 - (140)(1300)/10
b₁ = 2,528 -(140)²/10
= 5
b₀ = 130 - 5 (14) = 60
Ŷ = 60 + 5 X
Regresiones
Restaurante xᵢ y = 60 + 5x
1 7 95
2 9 105
3 12 120
4 15 135
5 18 150
6 19 155
7 21 165
8 25 185
9 30 210
10 32 220
CASO: Distribuidor de Autos
Un distribuidor de autos usados

desea evaluar los factores que
cree influyen en su demanda:
• Variable dependiente:
Ventas de autos (unidades /
mes)
• Variables independientes:
– Precio promedio (Miles $)
– Publicidad (Miles $).
1. Linealidad
Especificación del Modelo
• La variable dependiente es la
suma de un conjunto de
elementos:
Modelo de regresión múltiple poblacional:
• El origen de la recta.
Ventas = β0 + β1(Precio) + β2(Publicidad) + ε
• Una combinación lineal
de variables
independientes o
predictoras. Modelo de regresión múltiple muestral:
• Los residuos. Ventasj = b0 + b1(Precioj) + b2(Publicidadj) +
errorj
• El incumplimiento del supuesto
de linealidad = error de
especificación.
Modelo de regresión múltiple lineal
• El coeficiente de correlación, r o
R , es una medida de asociación Ventas = b0 + b1(Precio) + b2(Publicidad)
entre las variables aleatorias X y
Y, cuyo valor varía entre -1 y +1.
Los datos de 15 meses son recolectados….
Formulación del Modelo
Venta Precio Publicidad

Mes (UND) (Miles $) (Miles $)
1 350 5.50 3.3
2 460 7.50 3.3
3 350 8.00 3.0
4 430 8.00 4.5
5 350 6.80 3.0
Modelo de Regresión Múltiple:
6 380 7.50 4.0
7 430 4.50 3.0
8 470 6.40 3.7
9 450 7.00 3.5
Ventas = b0 - b1 (Precio) + b2 (Publicidad)
10 490 5.00 4.0
11 340 7.20 3.5
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5
15 300 7.00 2.7
Interpretación de los Coeficientes
Ventas = b0 - b1 (Precio) + b2 (Publicidad)
Pendientes (bi)
 Estiman el cambio en el valor promedio de “y” como bi unidades por cada
unidad de incremento en “xi” manteniendo las otras variables constantes.
 Ejemplo: Si b1 = -10, entonces se espera que las ventas promedio (y) se
reduzcan en 10 autos por mes por cada $1000 en que se incremente el precio
(x1), manteniendo constante la variable publicidad (x2).
Intercepto (b0)
 Estima el valor promedio de “y” cuando todas las variables “xi” son iguales
a cero.
Matriz de Correlación
Ventas Precio Publicidad
Ventas 1
Precio -0.44327 1
Publicidad 0.55632 0.03044 1
• Ventas vs. Precio : r = -0.44327

 Hay una relación lineal negativa entre las ventas y el precio
• Ventas vs. Publicidad : r = 0.55632

 Hay una relación lineal positiva entre las ventas y la publicidad
• Las correlaciones entre la variable dependiente y las variables independientes

pueden obtenerse usando Excel:
 Datos / Análisis de datos / Coeficiente de correlation
Estimación de la Ecuación
• Excel:
– Datos / Análisis de datos / Regresión
Ventas  306.526 - 24.975(Precio)  74.131(Pub licidad)


Donde:
Ventas (número de autos al mes)
Precio (Miles $)
Publicidad (Miles $)
b1 = -24.975: Las ventas caerán en

promedio 24.975 autos por mes por cada
$1000 de aumento en el precio,
manteniendo constante la publicidad.
b2 = 74.131: Las ventas crecerán en

promedio 74.131 autos por mes por
cada $1000 adicionales en publicidad,
manteniendo constante el precio.
Usando el Modelo para Hacer Predicciones
Predecir las ventas de un mes en la cual: el precio es $5.5 y la publicidad

es $3.5.

 306.526 - 24.975 (5.50)  74.131 (3.5)
 428.62
La venta sería 429 autos

Coeficiente de Determinación Múltiple R2
• Muestra la proporción de la variación total en “y” que es

explicada por todas las variables (juntas) “x” consideradas en el
modelo.
SSR Suma de cuadrados de regresión

R 
2

SST Suma total de cuadrados
Coeficiente de Determinación Múltiple R2
SSR 29460.0
R2    0.52148
SST 56493.3
El 52.1% de la variación en las ventas es

explicada por la variación en los precios
y la publicidad
R2 Ajustado
• Muestra la proporción explicada de la variación en “y” por las variables “xi”

tomando en cuenta la relación entre el tamaño de muestra y el número de
variables independientes.
 n 1 
R  1  (1  R )
2 2

 n  k 1 
A
(Donde n = Tamaño muestral, k = Número de variables independientes)
• Penaliza el uso excesivo de variables independientes no importantes

• Es más pequeña que el R2
• Útil en la comparación entre modelos
R2 Ajustado
R 2A  0.44172
El 44.2% de la variación en las ventas es explicada por

la variación en los precios y la publicidad, tomando en
cuenta la relación entre el tamaño de muestra y el
número de variables independientes
DIAGNÓSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)
• Muestra si hay una relación lineal entre todas las variables x

(consideradas en forma conjunta) e y
• Usa el estadístico de prueba F
• Hipótesis:
o H0: β1 = β2 = … = βk = 0 (No hay relación

lineal)
o HA: Al menos un βi ≠ 0 (Existe relación
lineal entre (y) y al menos
un xi)
• Estadístico de prueba:
SSR
k MSR
F 
SSE MSE
n  k 1
Donde: Los grados de libertad de F son:

glnumerador = k
gldenominador = (n – k – 1)
15-36
15-37

MSR 14730.0
F   6.5386
MSE 2252.8
Con 2 y 12 grados de libertad Valor P para la
prueba
H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero
 = 0.05 Valor crítico:

glnumerador= 2 F0.05 = 3.885
gldenominador = 12
 = 0.05
0 No rechazar H0 Rechazar H0 F
Estadístico de prueba: MSR

F  6.5386
MSE
Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0
Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión

explica parte de la variación en la venta de autos
(al menos una de las pendientes de regresión no es cero)
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?
• Usar la prueba t para evaluar la significancia de cada pendiente

• Muestra si hay una relación lineal entre la variable xi e y
• Hipótesis:
– H0: βi = 0 (No hay relación lineal)
– HA: βi ≠ 0 (Existe relación lineal entre xi e y)
SIGNIFICATIVAS?
H0: βi = 0 (No hay relación lineal)

HA: βi ≠ 0 (Existe relación lineal entre xi e y)
Estadístico de prueba:
bi  0 (gl = n – k – 1)
t
sb i
SIGNIFICATIVAS?
El estadístico de prueba t para el Precio es -2.306

(valor p = 0.0398)
El estadístico de prueba t para la Publicidad es

2.855 (valor p = 0.0145)
SIGNIFICATIVAS?
H0: βi = 0; HA: βi  0
/2=0.025 /2=0.025
g.l. = 15-2-1 = 12
 = 0.05
t/2 = 2.1788 Rechazar H0 No rechazar H0 Rechazar H0
-tα/2 0 tα/2
-2.1788 2.1788
Excel (Resultado):
Coeficientes Error típico Estadístico t Valor p
Precio -24.97509 10.83213 -2.30565 0.03979
Publicidad 74.13096 25.96732 2.85478 0.01449
Decisión: Para cada variable se rechaza H0
Conclusión: Hay evidencia suficiente para concluir que cada variable in-
dividual (Precio y Publicidad) afecta a la venta de autos, dada
la presencia de la otra para  =0.05
15-43
INTERVALOS DE CONFIANZA PARA LAS

PENDIENTES
El intervalo de confianza para la pendiente poblacional β1 (efecto sobre las

ventas de pie respecto a cambios en el precio):
b i  t  / 2 sbi Donde t tiene

(n – k – 1) g.l.
Ejemplo: La venta de autos mensual se reducirán entre 1.37 a 48.58 autos

por cada incremento de $1000 en el precio.
Desviación Estándar del Modelo de Regresión
• La estimación de la desviación estándar del modelo de regresión está

dada por:
SSE
s   MSE
n  k 1
¿Este valor es grande o pequeño?

Para evaluarlo se debe comparar con el promedio de y.
DESVIACIÓN ESTÁNDAR DEL MODELO DE
REGRESIÓN
La desviación estándar del modelo

de regresión es 47.46
DESVIACIÓN ESTÁNDAR DEL MODELO DE
REGRESIÓN
• La desviación estándar del modelo de regresión es 47.46

• Un rango de predicción para las ventas de autos en un mes se
puede aproximar por
• Considerandoque
2(47.46)  94.2
el promedio muestral de autos por mes es 399,
un error de ±94.2 autos es problablemente grande para ser
aceptado. El distribuidor podría querer buscar variables adicionales
que puedan explicar más de la variación en las ventas.
2. Independencia (Residuos)
INDEPENDENCIA (RESIDUOS)
Los residuos son INDEPENDIENTES entre sí, es decir, los residuos

constituyen una variable aleatoria.
El estadístico Durbin-Watson oscila entre 0 y 4, y toma el valor 2
cuando los residuos son independientes.
Los valores menores que 2 indican autocorrelación positiva y los
mayores que 2 autocorrelación negativa.
Podemos asumir independencia entre los residuos cuando DW toma
valores entre 1,5 y 2,5.
INDEPENDENCIA (RESIDUOS)
3. Homocedasticidad (Residuos)
HOMOCEDASTICIDAD (RESIDUOS)
La variación de los residuos debe ser uniforme en todo el rango

de valores pronosticados.
El tamaño de los residuos es independiente del tamaño de los
pronósticos, de donde se desprende que el diagrama de dispersión no
debe mostrar ninguna pauta de asociación entre los PRONÓSTICOS Y
LOS RESIDUOS.
HOMOCEDASTICIDAD (RESIDUOS)
Se espera una nube de puntos entre el pronóstico y los residuos.
Residuos
Ventas Estimadas
Obtenido con Statpro (Complemento de Excel)
4. Normalidad (Residuos)
NORMALIDAD (RESIDUOS)
Para cada valor de la variable independiente (o combinación de valores

de las variables independientes), los residuos se DISTRIBUYEN
NORMALMENTE con media cero.
Histograma, Diagrama de probabilidad normal, prueba de hipótesis (Z
de Kolmogorov-Smirnov)
NORMALIDAD (RESIDUOS)
The maximum distance between the

empirical and normal cumulative
distributions is 0.1173. This is less than
0.2195, the maximum allowed with a sample
size of 15. Therefore, the normal hypothesis
cannot be rejected at the 5% level.

5. Multicolinealidad
MULTICOLINEALIDAD
• Multicolinealidad: Es la presencia de correlación entre dos variables

independientes y, por lo tanto, se traslapan.
• Es decir, las dos variables contribuyen con información redundante al
modelo de regresión múltiple.
• Incluir dos variables independientes altamente correlacionadas puede
afectar adversamente los resultados de regresión:
– No proporciona nueva información.
– Puede llevar a coeficientes inestables (error estándar grande y valores t bajos).
– Los signos de los coeficientes podrían no ser coherentes con nuestras expectativas
iniciales y con la matriz de correlación.
MULTICOLINEALIDAD: FACTOR DE
INFLACIÓN DE VARIANZA
VIFj es usado para medir la colinealidad:
1
VIFj 
1  R 2j
R2j es el coeficiente de determinación de la regresión de la j ma
variable independiente contra las restantes k – 1 variables
independientes
Si VIFj ≥ 5, entonces xj está altamente correlacionado

con las otras variables explicativas
MULTICOLINEALIDAD: FACTOR DE
INFLACIÓN DE VARIANZA
Variance inflation factors (VIF) for variables in equation

Precio ($) Publicidad ($100s)
VIF 1.001 1.001
R-Square 0.001 0.001
Average VIF 1.001
Conclusión: No hay evidencia suficiente para concluir que exista

colinealidad o multicolinealidad

Regresiones

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresiones

Cargado por

Copyright:

Formatos disponibles

Pronósticos y Regresiones

Ing. Antonio Albán

 Es una técnica estadística que se puede utilizar

 La variable a predecir se llama variable

Veamos una aplicación concreta:

Evaluemos la relación que

Armand´s Pizza Parlors

Método de estimación por mínimos cuadrados

Ŷ = valor estimado de la variable dependiente (ventas trimestrales)

b₀ = Intercepto de la ecuación de regresión estimada.

b₁ = pendiente de la ecuación de regresión estimada

X = valor de la variable independiente (población estudiantil)

Usaremos los datos muestrales y las ecuaciones

Restaurante yᵢ xᵢ xᵢyᵢ xᵢ²

Un distribuidor de autos usados

Venta Precio Publicidad

Ventas = b0 - b1 (Precio) + b2 (Publicidad)

Ventas Precio Publicidad

• Ventas vs. Precio : r = -0.44327

• Ventas vs. Publicidad : r = 0.55632

• Las correlaciones entre la variable dependiente y las variables independientes

Ventas  306.526 - 24.975(Precio)  74.131(Pub licidad)

Ventas  306.526 - 24.975(Precio)  74.131(Pub licidad)

b1 = -24.975: Las ventas caerán en

b2 = 74.131: Las ventas crecerán en

Predecir las ventas de un mes en la cual: el precio es $5.5 y la publicidad

Ventas  306.526 - 24.975(Precio)  74.131(Pub licidad)

La venta sería 429 autos

• Muestra la proporción de la variación total en “y” que es

SSR Suma de cuadrados de regresión

El 52.1% de la variación en las ventas es

• Muestra la proporción explicada de la variación en “y” por las variables “xi”

(Donde n = Tamaño muestral, k = Número de variables independientes)

• Penaliza el uso excesivo de variables independientes no importantes

El 44.2% de la variación en las ventas es explicada por

• Muestra si hay una relación lineal entre todas las variables x

o H0: β1 = β2 = … = βk = 0 (No hay relación

Donde: Los grados de libertad de F son:

DIAGNÓSTICO DEL MODELO: PRUEBA F

H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero

 = 0.05 Valor crítico:

Estadístico de prueba: MSR

Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión

• Usar la prueba t para evaluar la significancia de cada pendiente

H0: βi = 0 (No hay relación lineal)

El estadístico de prueba t para el Precio es -2.306

El estadístico de prueba t para la Publicidad es

INTERVALOS DE CONFIANZA PARA LAS

El intervalo de confianza para la pendiente poblacional β1 (efecto sobre las

b i  t  / 2 sbi Donde t tiene

Ejemplo: La venta de autos mensual se reducirán entre 1.37 a 48.58 autos

• La estimación de la desviación estándar del modelo de regresión está

¿Este valor es grande o pequeño?

La desviación estándar del modelo

• La desviación estándar del modelo de regresión es 47.46

Los residuos son INDEPENDIENTES entre sí, es decir, los residuos

La variación de los residuos debe ser uniforme en todo el rango

Se espera una nube de puntos entre el pronóstico y los residuos.

Para cada valor de la variable independiente (o combinación de valores

The maximum distance between the

Obtenido con Statpro (Complemento de Excel)

• Multicolinealidad: Es la presencia de correlación entre dos variables

VIFj es usado para medir la colinealidad: