Está en la página 1de 32

ESTADISTICA APLICADA A LA ECONOMIA Y LOS NEGOCIOS I

ANALISIS DE REGRESIÓN LINEAL SIMPLE

PROFESOR: ING. FERNANDO ROSAS VILLENA


ANALISIS DE REGRESION LINEAL SIMPLE

Es una técnica que permite probar la hipótesis de existencia o no de una relación de


dependencia funcional lineal entre una variable Y (dependiente) y una variable X
(independiente o predictora).

Y = a + bX

µy.xi = 0 + 1 xi (Modelo matemático poblacional)

0 = Coeficiente de intersección
1 = Coeficiente de regresión

  
µy.xi = 0 + 1 xi (Modelo matemático muestral)

0 = Coeficiente de intersección estimado

1 = Coeficiente de regression estimado
yi = µy.xi + i = 0 + 1 xi + i (Modelo de regresion lineal simple)
   
yi = µy.xi = 0 + 1 xi (Ecuacion de regresion lineal simple)

Y . (xi , yi)    
i Yi = µy.xi = 0 + 1 xi
_
. (xi , y)

_ X
(yi – y) = desviación total
 _
(yi – y) = desviación por efecto de la regresión

(yi – yi) = desviación por efecto del residual
SUPUESTOS:

1. La relación funcional entre las variables X e Y se expresa mediante el modelo


regresión: Yi = 0 + 1 Xi + i

2. Los términos aleatorios del error residual i son independientes y tienen una
distribución con media cero y variancia 2

3. Los valores de X son fijados y medidos sin error

4. Para cada valor de X, los valores de Y tienen una distribución normal con:
Media = Y.X = 0 + 1 X
Variancia = 2Y.X

5. Las distribuciones de Y, para los diferentes valores de X = x tienen igual


variancia 2Y.X1 = 2Y.X2 = ... = 2Y.XK = 2

6. Los valores de Y, para valores específicos de X, son obtenidos mediante una


muestra aleatoria
PROPIEDADES:

1.  i = 0
2.  i2 > 0
_ _
3. El punto (x, y) pertenece a la línea de regresión estimada

4. Los estimadores b0 y b1 son insesgados, consistentes, suficientes y eficientes

^
5.  Yi =  Yi

6.  xi i = 0
^
7.  xi yi =  xi yi
^
8.  yi i = 0
Ejemplo 1: Tomado de J. Rubio. “Estadística”

Con la finalidad de estudiar la relación de dependencia funcional


lineal existente entre la utilidad obtenida Y (centenas de miles de
soles) y la inversión efectuada en investigación X (decenas de
miles de soles), para empresas de cierto sector, eligieron al azar 18
empresas. Se sabe que la variable Y tiene distribución normal.

Utilidad (Y) 12.0 7.1 10.4 15.0 9.3 6.0 14.8 8.5 14.1

Inversión (X) 5.0 3.2 4.5 6.0 3.8 0.0 7.1 4.1 6.1

Utilidad (Y) 9.0 16.5 12.3 10.6 13.1 6.8 19.5 11.6 7.1

Inversión (X) 4.0 7.2 5.1 5.6 6.2 2.1 7.8 5.1 3.5
Solución:

Cálculos básicos

n = 18

X = 5.0 + 3.2 + .... + 3.5 = 86.6


 X2 = 5.02 + 3.22 + ... + 3.52 = 479.6
Y = 12.0 + 7.1 + ... + 7.1 = 203.7
 Y2 = 12.02 + 7.12 + ... + 7.12 = 2540.13
 XY = (5.0)(12.0) + (3.2)(7.1) + ... + (3.5)(7.1) = 1091.62

Cálculo de promedios
_ _
X = 86.6 / 18 = 4.8111 Y = 203.7 / 18 = 11.3167
Solución:

Cálculo de la suma de cuadrados y suma de productos

_
SC X =  X2 – n X2 = 479.6 – (18)(4.811111)2 = 62.9577

_
SC Y =  Y2 – n Y2 = 2540.1300 – (18)(11.316667)2 = 234.9250

_ _
SP XY =  XY – n X Y = 1091.62 – (18)(4.811111)(11.316667)

= 111.5967
Solución:

Cálculo del coeficiente de intersección y coeficiente de regresión

^
1 = b1 = SP XY / SC X = 111.596667 / 62.957778 = 1.7725

^ _ _
0 = b0 = Y – b1 X = 11.316667 – (1.772564)(4.811111) = 2.7886

Cálculo de la ecuación de regresión

^ ^ ^ ^
Yi = y.x = 0 + 1 Xi = 2.7886 + 1.7725 Xi
Cálculo de la ecuación de regresión

^ ^ ^ ^
Yi = y.x = 0 + 1 Xi = 2.7886 + 1.7725 X

Coeficiente de Intersecciòn:

2.7886 centenas de miles de soles es el promedio estimado de la


utilidad (Y) cuando la inversión en investigaciòn (X) es igual
cero.

Coeficiente de Regresión:

1.7725 centenas de miles de soles es cambio promedio estimado


de la utilidad (Y) ante un cambio de una decena de miles de soles
en la inversión en investigaciòn (X)
PRONOSTICO
Ejemplo 3:
Ejemplo 3:

Suponga que en un estudio sobre aceite de algodón se ha


observado las variables:

X = temperatura (grados centígrados)


Y = densidad de aceite de algodón (gramos/litro)

Se sabe que la densidad de aceite de algodón tiene distribución


normal.

Encontrándose en una muestra de 10 observaciones los siguientes


resultados:
(Y) 910 915 867 908 902 875 889 894 878 869
(X) 30 25 100 35 40 80 60 50 75 90
Solución:

Cálculos básicos

n = 10

X = 30 + 25 + .... + 90 = 585
 X2 = 302 + 352 + ... + 902 = 40575
Y = 910 + 915 + ... + 869 = 8907
 Y2 = 9102 + 9152 + ... + 8692 = 793609
 XY = (30)(9110) + ... + (90)(869) = 516835

Cálculo de promedios
_ _
X = 58.5 Y = 890.7
Solución:

Suma de cuadrados del total:

SC Total = SC Y = 2844.1000

Suma de cuadrados de la regresión:

SC Reg = b2 1 SC X = b1 SP XY

SC Reg = 2809.3526

Suma de cuadrados del residual:

SC Res = SC Total – SC Reg = 2844.1000 – 2809.3526 = 34.7474


CUADRO DE ANALISIS DE VARIANCIA

FV GL SC CM Fcal

Regresión 1 2809.3526 2809.3526 646.8058

Residual 8 34.7474 4.3434

Total 9 2844.1000
1. Prueba de Hipótesis
Hp : 1 = 0
Ha : 1  0

2. Nivel de Significación
 = 0.05

3. Prueba Estadística
F = CM Reg./ CM Res. = 646.80

4. Regiones Críticas
Ftab = F0.95 (1, 8) = 5.32

5. Conclusiones
Como FCAL = 648.80 > F TAB = 5.32 , entonces, se rechaza Hp, para un nivel de
significación de 0.05, las evidencias muestrales indican que hay una relación de
dependencia funcional lineal entre la densidad de aceite de algodón y la
temperatura
Salida: MINITAB

Resumen del modelo


R-cuadrado R-cuadrado
S R-cuadrado (ajustado) (predecido)
2.08415 98.78% 98.63% 97.62%

Coeficientes
EE del
Término Coeficiente coeficiente Valor T Valor p VIF
Constante 929.60 1.67 558.10 0.000
X -0.6650 0.0261 -25.43 0.000 1.00

Ecuación de regresión

Y = 929.60 - 0.6650 X
COEFICIENTE DE DETERMINACION

Es un indicador que expresa la proporción de la variación total de Y


que si es explicada por la línea de regresión estimada, es decir, por
la variable independiente.

Interpretación:
Del 100 % de variabilidad de Y en qué porcentaje se explica por X.

R2 = Coeficiente de determinación poblacional


r2 = Coeficiente de determinación muestral

R2 ó r2 = Variación explicada / Variación total


R2 ó r2 = SC (Regresión) / SC (Total)

0  R2  1 0  r2  1
COEFICIENTE DE NO DETERMINACION

Es un indicador que expresa la proporción de la variación total de


Y que no es explicada por la línea de regresión estimada.

Interpretación:
Del 100 % de variabilidad de Y en qué porcentaje se explica por
otras variables independientes diferentes a la utilizada en el
modelo.

1 - R2 = Coeficiente de no determinación poblacional

1 - r2 = Coeficiente de no determinación muestral


Interpretación: Problema 2

r2 = SC (Regresión) / SC (Total) = 2809.3526/2844.1000 = 0.9878

Del 100% de la variación total observada en la densidad del aceite


de algodón (Y), es explicada en un 98.78% por la línea de
regresión estimada, es decir, por la temperatura del aceite (X).

1- r2 = SC (Residual) / SC (Total) = 34.7474/2844.1000 = 0.0122

Del 100% de la variación total observada en la densidad del aceite


de algodón (Y) , es explicada en un 1.22% por otras variables
independientes diferentes a la temperatura del aceite (X).
ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

CURSO: ESTADISTICA APLICADA A LA ECONOMIA Y LOS NEGOCIOS I

PROFESOR: ING. FERNANDO ROSAS VILLENA


ANALISIS DE REGRESION LINEAL MULTIPLE
Es una técnica que permite probar si existe una relación de dependencia funcional
lineal entre una variable en estudio Y (variable dependiente) y un grupo de
variables X1, X2, …, Xk (independientes o predictoras)

µy.xi = 0 + 1 x1i + 2 x2i + . . . + K xKi (Ecuación de regresión poblacional)

0 = Coeficiente de intersección
1, 2, … , K = Coeficientes de regresión parcial
x1 , x2 , …, xki = Valores de las variables independientes

     
Yi = µy.xi = 0 + 1 x1i + 2 x2i + . . . + Ki (Ecuación de regresión muestral)

0 = Coeficiente de intersección
  
1 , 2, … , K = Coeficientes de regresión parcial
ENFOQUE MATRICIAL DE LA REGRESION LINEAL MULTIPLE

Y = X + ε

Y1 X11 X12 … X1K


Y2 X21 X22 … X2K
Y3 X31 X32 … X3K
Y= . X= . . .
. . . .
. . . .
Yn Xn1 Xn2 … Xnk

o ε1
1 ε2
= . Ε= .
. .
. .
k εk
Modelo de regresión poblacional
Yi = µy.xi + i = 0 + 1 x1i + 2 x2i + . . . + K xKi + i

Modelo de regresión muestral


      
Yi = µy.xi + i = 0 + 1 x1i + 2 x2i + . . . + K xKi + i

Cada i (i = 1, 2, …, k) es una pendiente que relaciona los cambios de yi con los


cambios en una de las variables x, cuando todos los otros valores de x se mantienen
constantes.

Ejemplos:

¿Puede explicarse una variación en las ventas en un producto en términos de la


variación en los precios y en la fuerza de venta?

¿Las percepciones de los consumidores sobre la calidad del producto son


determinadas por su percepción de los precios, de la imagen de marca y del servicio
post-venta?
OBJETIVOS

• Determinar la estructura o la forma de la relación; es decir, la ecuación


matemática que relaciona las variables explicativas con la variable a
explicar.
• Probar la dependencia funcional lineal de la variable dependiente (Y)
respecto de las variables independientes (X1, X2, …, Xk).
• Determinar la importancia que tienen las variables independientes X1, X2,
…, Xk para explicar a la variable dependiente (Y).

SUPUESTOS

• La relación entre la variable a explicar y las variables explicativas debe ser


de tipo lineal.
• No debe existir correlación entre las variables explicativas (ausencia de
multicolinealidad).
• El término residual debe tener distribución normal con una media igual a 0
y con una variancia constante (homocedasticidad)
EJEMPLO DE APLICACIÓN Nº 1

La municipalidad de Punta Hermosa desea determinar cuáles son


las variables que mejor explican que un individuo desee practicar
“surfing” durante el verano en su jurisdicción. Se entrevistaron a
217 surfistas y se planteó un modelo de regresión lineal múltiple.

Variable dependiente

Y = Número de días que practica surfing durante el verano

Variables independientes

X1 = Edad del surfista


X2 = Años que practica el surf
X3 = Gasto promedio por día durante la práctica del surfing
X4 = Satisfacción con el servicio brindado por el municipio
X5 = Número de personas con las que practica el surfing
EJEMPLO DE APLICACIÓN Nº 2

ENLACE COURIER es una empresa dedicada al transporte de


carga a nivel nacional. Una gran parte de su negocio tiene que ver
con el transporte terrestre. Para poder contar con mejores
programas de trabajo se desea estimar el tiempo diario total que
viajan sus operadores. Los directivos creían que ese tiempo total
de recorrido diario se relacionaba estrechamente con la cantidad
de kilómetros recorridos y la cantidad de entregas.
Tabla de datos
Recorrido Tiempo de recorrido Km. Recorridos Cantidad de
total en horas (Y) diarias entregas diarias
(X1) (X2)
1 9,3 100 4
2 4,8 50 3
3 8,9 100 4
4 6,5 100 2
5 4,2 50 2
6 6,2 80 2
7 7,4 75 3
8 6,0 65 4
9 7,6 90 3
10 6,1 90 2
SALIDA SPSS
Coeficiente de Intersección:

-0.8687 horas es el promedio estimado del tiempo de recorrido


total (Y) cuando la distancia recorrida diaria (X1) y cantidad de
entregas diarias (X2) son iguales a cero.

Coeficiente de Regresión Parcial:

0.0611 horas es cambio promedio estimado del tiempo de


recorrido total (Y) ante un cambio de un kilómetro en distancia
recorrida diaria (X1) manteniendo constante la cantidad de
entregas diarias (X2).

0.9234 horas es cambio promedio estimado del tiempo de


recorrido total (Y) ante un cambio de una entrega diaria (X2)
manteniendo constante la distancia recorrida diaria (X1).
Salida: MINITAB

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.573142 90.38% 87.63% 80.76%

Coeficientes

EE del
Término Coef coef. Valor T Valor p VIF
Constante -0.869 0.952 -0.91 0.392
X1 0.06113 0.00989 6.18 0.000 1.03
X2 0.923 0.221 4.18 0.004 1.03

Ecuación de regresión

Y = -0.869 + 0.06113 X1 + 0.923 X2

También podría gustarte