Está en la página 1de 53

PRONÓSTICOS Y

REGRESIONES
ANTONIO ALBÁN
REGRESIONES
REGRESIONES
REGRESIONES
REGRESIONES

 Es una técnica estadística que se puede utilizar


para desarrollar una ecuación matemática que
muestre como se relacionan las variables.

 La variable a predecir se llama variable


dependiente, las variables o variable que se usan
para predecir las llamaremos variables
independientes.
REGRESIONES

Ecuación matemática:

Número
aleatorio

Y   0  1 X 1   2 X 2 ...   n X n  

simple

Múltiple
REGRESIONES

Veamos una aplicación concreta:

Evaluemos la relación que


existe entre las horas de
estudio y la nota que obtiene
producto de una evaluación.

Nota
• Variable dependiente: Nota
en la evaluación

• Variable independiente:
Horas de estudio.

Horas de Estudio
REGRESIONES

Horas de Nota 20
Estudio (X) (Y)
16
4 8
12

N ota
5 10
8
6 12
4
7 14
0
8 16 1 2 3 4 5 6 7 8 9 10
9 18 Horas de Estudio
10 20
Y = 2X
R2 = 1
Coeficiente de Determinación 0 <> 1
Más alto mejor es la capacidad predictiva de X sobre Y
REGRESIONES

Horas de Nota
Estudio (X) (Y)

4 7
5 8.5
6 10
7 11.5
8 13
9 14.5
10 16
11 17.5
12 19 Y = 1.5X + 1
R2 = 1
REGRESIONES
Horas de Estudio Nota
(X) (Y)
12 12
9 10
10 11
14 11
2 9
7 11
16 15
11 11
15 16
8 8
4 9
18 17
12 13
9
10
9
14
Y = 0.654X + 5.081
2 6
17 20
0 4 R2 = 0.8126
8 11
20 18
SUPUESTO DEL MODELO DE REGRESIÓN lINEAL

1. Linealidad R²

2. Independencia

3. Homocedasticidad Residuos

4. Normalidad

5. No- Colinealidad X₁ ̴ X₂
CASO: DISTRIBUIDOR DE AUTOS

Un distribuidor de autos usados


desea evaluar los factores que cree
influyen en su demanda:
• Variable dependiente: Ventas de
autos (unidades / mes)

• Variables independientes:
• Precio promedio (Miles $)
• Publicidad (Miles $).
REGRESIONES

1. Linealidad
ESPECIFICACIÓN DEL MODELO

• La variable dependiente es la
suma de un conjunto de
elementos:
Modelo de regresión múltiple poblacional:
• El origen de la recta.
Ventas = β0 + β1(Precio) + β2(Publicidad) + ε
• Una combinación lineal
de variables
independientes o
predictoras. Modelo de regresión múltiple muestral:
• Los residuos. Ventasj = b0 + b1(Precioj) + b2(Publicidadj) +
errorj
• El incumplimiento del supuesto
de linealidad = error de
especificación.

• El coeficiente de correlación, r o Modelo de regresión múltiple lineal


R , es una medida de asociación Ventas = b0 + b1(Precio) + b2(Publicidad)
entre las variables aleatorias X y
Y, cuyo valor varía entre -1 y +1.
CASO: DISTRIBUIDOR DE AUTOS

Los datos de 15 meses son recolectados….


FORMULACIÓN DEL MODELO

Venta Precio Publicidad


Mes (UND) (Miles $) (Miles $)
1 350 5.50 3.3
2 460 7.50 3.3
3 350 8.00 3.0
4 430 8.00 4.5
5 350 6.80 3.0
Modelo de Regresión Múltiple:
6 380 7.50 4.0
7 430 4.50 3.0
8 470 6.40 3.7
9 450 7.00 3.5 Ventas = b0 - b1 (Precio) + b2 (Publicidad)
10 490 5.00 4.0
11 340 7.20 3.5
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5
15 300 7.00 2.7
INTERPRETACIÓN DE LOS COEFICIENTES

Ventas = b0 - b1 (Precio) + b2 (Publicidad)

Pendientes (bi)
 Estiman el cambio en el valor promedio de “y” como bi unidades por cada unidad de
incremento en “xi” manteniendo las otras variables constantes.
 Ejemplo: Si b1 = -10, entonces se espera que las ventas promedio (y) se reduzcan en
10 autos por mes por cada $1000 en que se incremente el precio (x1), manteniendo
constante la variable publicidad (x2).

Intercepto (b0)
 Estima el valor promedio de “y” cuando todas las variables “xi” son iguales a cero.
MATRIZ DE CORRELACIÓN

  Ventas Precio Publicidad

Ventas 1
Precio -0.44327 1
Publicidad 0.55632 0.03044 1

• Ventas vs. Precio : r = -0.44327


 Hay una relación lineal negativa entre las ventas y el precio

• Ventas vs. Publicidad : r = 0.55632


 Hay una relación lineal positiva entre las ventas y la publicidad

• Las correlaciones entre la variable dependiente y las variables independientes


pueden obtenerse usando Excel:
 Datos / Análisis de datos / Coeficiente de correlation
ESTIMACIÓN DE LA ECUACIÓN

• Excel:
• Datos / Análisis de datos / Regresión
ESTIMACIÓN DE LA ECUACIÓN
ESTIMACIÓN DE LA ECUACIÓN

Ventas  306.526 - 24.975(Pre cio)  74.131(Publicidad)


ESTIMACIÓN DE LA ECUACIÓN

Ventas  306.526 - 24.975(Pre cio)  74.131(Publicidad)


Donde:
Ventas (número de autos al mes)
Precio (Miles $)
Publicidad (Miles $)

b1 = -24.975: Las ventas caerán en promedio


24.975 autos por mes por cada $1000 de
aumento en el precio, manteniendo
constante la publicidad.

b2 = 74.131: Las ventas crecerán en


promedio 74.131 autos por mes por cada
$1000 adicionales en publicidad,
manteniendo constante el precio.
USANDO EL MODELO PARA HACER PREDICCIONES

Predecir las ventas de un mes en el cual: el precio es $5.5 y la publicidad


es $3.5.

Ventas  306.526 - 24.975(Pre cio)  74.131(Publicidad)


 306.526 - 24.975 (5.50)  74.131 (3.5)
 428.62

La venta sería 429 autos


Coeficiente de Determinación Múltiple R2

• Muestra la proporción de la variación total en “y” que es


explicada por todas las variables (juntas) “x” consideradas en el
modelo.

SSR Suma de cuadrados de regresión


R2  
SST Suma total de cuadrados
Coeficiente de Determinación Múltiple R2

SSR 29460.0
R2    0.52148
SST 56493.3

El 52.1% de la variación en las ventas es


explicada por la variación en los precios
y la publicidad
R2 AJUSTADO

• Muestra la proporción explicada de la variación en “y” por las variables “x i ”


tomando en cuenta la relación entre el tamaño de muestra y el número de
variables independientes.

 n 1 
R A2  1  (1  R 2 ) 
 n  k  1 

(Donde n = Tamaño muestral, k = Número de variables independientes)

• Penaliza el uso excesivo de variables independientes no importantes


• Es más pequeña que el R2
• Útil en la comparación entre modelos
R2 AJUSTADO

R 2A  0.44172

El 44.2% de la variación en las ventas es explicada por


la variación en los precios y la publicidad, tomando en
cuenta la relación entre el tamaño de muestra y el
número de variables independientes
DIAGNOSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)

• Muestra si hay una relación lineal entre todas las variables x


(consideradas en forma conjunta) e y
• Usa el estadístico de prueba F
• Hipótesis:
o H0: β1 = β2 = … = βk = 0 (No hay relación lineal)
o HA: Al menos un βi ≠ 0 (Existe relación lineal
entre (y) y al menos un xi)
DIAGNOSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)

• Estadístico de prueba:

SSR
k MSR
F 
SSE MSE
n  k 1
Donde: Los grados de libertad de F son:
glnumerador = k
gldenominador = (n – k – 1)
DIAGNOSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)

MSR 14730.0
F   6.5386
MSE 2252.8
Con 2 y 12 grados de libertad Valor P para
Valor P parala
la prueba
prueba
DIAGNOSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)

H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero

 = 0.05 Valor crítico:


glnumerador= 2 F0.05 = 3.885
gldenominador = 12
 = 0.05

0 No rechazar H0 Rechazar H0 F

Estadístico de prueba: MSR


F  6.5386
MSE
Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0

Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión


explica parte de la variación en la venta de autos
(al menos una de las pendientes de regresión no es cero)
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

• Usar la prueba t para evaluar la significancia de cada pendiente


• Muestra si hay una relación lineal entre la variable xi e y
• Hipótesis:
• H0: βi = 0 (No hay relación lineal)
• HA: βi ≠ 0 (Existe relación lineal entre xi e y)
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

H0: βi = 0 (No hay relación lineal)


HA: βi ≠ 0 (Existe relación lineal entre xi e y)

Estadístico de prueba:

b(igl
= n0
– k – 1)
t
sbi
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

El estadístico de prueba t para el Precio es -2.306


(valor p = 0.0398)

El estadístico de prueba t para la Publicidad es


2.855 (valor p = 0.0145)
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

H0: βi = 0; HA: βi  0

a/2=0.025 a/2=0.025
g.l. = 15-2-1 = 12
a = 0.05
t/2 = 2.1788 Rechazar H0 No rechazar H0 Rechazar H0
-tα/2 0 tα/2
-2.1788 2.1788
2.1788
Excel (Resultado):
  Coeficientes Error típico Estadístico t Valor p
Precio -24.97509 10.83213 -2.30565 0.03979
Publicidad 74.13096 25.96732 2.85478 0.01449
Decisión: Para cada variable se rechaza H0
Conclusión: Hay evidencia suficiente para concluir que cada variable in-
dividual (Precio y Publicidad) afecta a la venta de autos, dada
la presencia de la otra para  =0.05
INTERVALO DE CONFIANZA PARA
LAS PENDIENTES

El intervalo de confianza para la pendiente poblacional β 1 (efecto sobre


las ventas de autos respecto a cambios en el precio):

b i  t  / 2 sbi Donde t tiene


(n – k – 1) g.l.

Ejemplo: La venta de autos mensual se reducirán entre 1.37 a 48.58


autos por cada incremento de $1000 en el precio.
DESVIACIÓN ESTANDAR DEL MODELO
DE REGRESIÓN

• La estimación de la desviación estándar del modelo de regresión está


dada por:

SSE
s   MSE
n  k 1

¿Este valor es grande o pequeño?


Para evaluarlo se debe comparar con el promedio de y.
DESVIACIÓN ESTANDAR DEL MODELO
DE REGRESIÓN

La desviación estándar del modelo


de regresión es 47.46
DESVIACIÓN ESTANDAR DEL MODELO
DE REGRESIÓN

• La desviación estándar del modelo de regresión es 47.46


• Un rango de predicción para las ventas de autos en un mes se
puede aproximar por
• Considerando que el promedio muestral de autos por mes es 399,
un error de ±94.2 autos es problablemente grande para ser
aceptado. El distribuidor podría querer buscar variables
adicionales que puedan explicar más de la variación en las ventas.
REGRESIONES

2. Independencia (Residuos)
INDEPENDENCIA (RESIDUOS)

Los residuos son INDEPENDIENTES entre sí, es decir, los residuos constituyen
una variable aleatoria.
El estadístico Durbin-Watson oscila entre 0 y 4, y toma el valor 2 cuando los
residuos son independientes.
Los valores menores que 2 indican autocorrelación positiva y los mayores que 2
autocorrelación negativa.
Podemos asumir independencia entre los residuos cuando DW toma valores
entre 1,5 y 2,5.
INDEPENDENCIA (RESIDUOS)
REGRESIONES

3. Homocedasticidad (Residuos)
HOMOCEDASTICIDAD (RESIDUOS)

La variación de los residuos debe ser uniforme en todo el rango


de valores pronosticados.
El tamaño de los residuos es independiente del tamaño de los
pronósticos, de donde se desprende que el diagrama de dispersión no
debe mostrar ninguna pauta de asociación entre los PRONÓSTICOS Y
LOS RESIDUOS.
HOMOCEDASTICIDAD (RESIDUOS)

Se espera una nube de puntos entre el pronóstico y los residuos.

Residuos

Ventas Estimadas
REGRESIONES

4. Normalidad (Residuos)
NORMALIDAD (RESIDUOS)

Para cada valor de la variable independiente (o combinación de


valores de las variables independientes), los residuos se DISTRIBUYEN
NORMALMENTE con media cero.
Histograma, Diagrama de probabilidad normal, prueba de hipótesis (Z
de Kolmogorov-Smirnov)
NORMALIDAD (RESIDUOS)

The maximum distance between the empirical


and normal cumulative distributions is 0.1173.
This is less than 0.2195, the maximum
allowed with a sample size of 15. Therefore,
the normal hypothesis cannot be rejected at
the 5% level.

Obtenido con Statpro (Complemento de Excel)


REGRESIONES

5. Multicolinealidad
MULTICOLINEALIDAD

• Multicolinealidad: Es la presencia de correlación entre dos variables


independientes y, por lo tanto, se traslapan.
• Es decir, las dos variables contribuyen con información redundante al
modelo de regresión múltiple.
• Incluir dos variables independientes altamente correlacionadas puede
afectar adversamente los resultados de regresión:
• No proporciona nueva información.
• Puede llevar a coeficientes inestables (error estándar grande y valores t bajos).
• Los signos de los coeficientes podrían no ser coherentes con nuestras expectativas
iniciales y con la matriz de correlación.
MULTICOLINEALIDAD: FACTOR DE INFLACIÓN
DE VARIANZA

VIFj es usado para medir la colinealidad:

1
VIFj 
1  R 2j
R2j es el coeficiente de determinación de la regresión de la j ma
variable independiente contra las restantes k – 1 variables
independientes

Si VIFj ≥ 5, entonces xj está altamente


correlacionado con las otras variables explicativas
MULTICOLINEALIDAD: FACTOR DE INFLACIÓN
DE VARIANZA

Variance inflation factors (VIF) for variables in equation


Precio ($) Publicidad ($100s)
VIF 1.001 1.001
R-Square 0.001 0.001
Average VIF 1.001

Conclusión: No hay evidencia suficiente para concluir que exista


colinealidad o multicolinealidad

Obtenido con Statpro (Complemento de Excel)

También podría gustarte