Está en la página 1de 6

Análisis de regresión lineal simple

Es el estudio de la relación entre una variable aleatoria Y, llamada variable dependiente o respuesta
y otra variable X, llamada variable independiente, explicativa o predictora.
X e Y tienen cuantitativas.
El objetivo principal del análisis de regresión es estimar el valor de la variable dependiente, sabiendo
que el valor de la variable independiente, es conocido.
Y: Tiempo de atención en la caja de un centro comercial
Las variables independientes pueden ser:
X1: Experiencia de la cajera (años) Relación inversa
X2: N° de personas en cola Relación directa Y con X2 relación directa
X3: N° de cajas operativas relación inversa
X4: Cantidad de productos comprados Relación directa
X5: Monto de compra Relación directa
X5: Medio de pago
X6: Tipo de producto

Ejercicio 1
En los siguientes casos, identifique la variable independiente (X) y la variable dependiente (Y):

a. El gerente de ventas de una empresa de fotocopiadoras desea determinar si existe una relación
entre el número de llamadas telefónicas recibidas y la cantidad de copiadoras vendidas.
X: N° de llamadas telefónicas recibidas
Y: Cantidad de copiadoras vendidas
Relación: Directa

b. El dueño de Raid Motors desea estudiar la relación entre la antigüedad de un automóvil y su


precio de venta.
X: Antigüedad del vehículo
Y: Precio del vehículo
La relación entre X e Y es Inversa

c. ¿Cuál es la relación entre la cantidad gastada por semana en alimentos y el tamaño de la familia?
X: Tamaño de la familia
Y: Cantidad gastada por semana
Relación entre X e Y es: directa

Diagrama de dispersión
Es una gráfica en la que cada punto representa un par de valores observados (xi,yi) de las variables
dependientes e independientes. El valor de la variable independiente, X se grafica en el eje
horizontal, mientras que el valor de la variable dependiente, Y en el eje vertical.
El tipo de la relación observada en el diagrama de dispersión puede ser curvilínea (relación no lineal),
puede ser lineal o ninguna de las anteriores.

Relación entre X e Y Relación entre X e Y Relación entre X e Y

El diagrama de dispersión indica si la relación de tipo lineal o no lineal


Modelo

Y = β0 + β 1 X +ϵ Ecuación de regresión lineal simple


β 0 y β 1: Son los parámetros del modelo
A partir de la información de una muestra:
X X1 X2 . . . . . . Xn
Y Y1 Y2 . . . . . . Yn

Y^ = ^β0 + β^ 1 X , Ecuación de regresión lineal simple estimada


^β 0 : Intercepto con el eje de ordenadas
^β 1 : Coeficiente de regresión o pendiente

Validación del modelo


Planteo de las hipótesis:
Ho: B1 = 0
H1: B1 ≠ 0
Nivel de significación: α
Valor crítico de f =
Si valor crítico de f < α, DE: RHo
Conclusión: Con un nivel de significación de α, existe relación lineal entre X e Y
Si Valor crítico de f  α, DE: NRHO
Conclusión: Con un nivel de significación de α, no existe relación lineal entre X e Y

Coeficiente de correlación (R)


El coeficiente de correlación mide el grado de asociación lineal que existe entre dos variables.
El coeficiente de correlación se denota por R y se encuentra dentro del intervalo cerrado de [-1 y 1].
 Si r está cerca de cero entonces indicará que no existe relación lineal significativa entre las
variables.
 Si R está cerca de -1, indicará que existe una relación lineal fuerte e inversa.
 Si R está cerca de 1, indicará que existe una relación lineal fuerte y directa
R pertenece [0.7, 1.0] existe una relación fuerte y directa entres x e y.
R pertenece [-1.0, -0.7] existe una relación fuerte e inversa entres x e y.
Coeficiente de determinación (R2)
Es una medida de la bondad del ajuste para una ecuación de regresión.
 R2 mide el porcentaje de la variabilidad de Y, que es explicada por la variabilidad de X.
 Su rango de valores está entre 0% y 100%.
 Mientras más próximo a 1 sea el coeficiente de determinación, mejor será el ajuste de los datos
al modelo lineal.
Y: Tiempo de atención en caja
X: N° de productos comprados
Relación: Directa
R = 0.85: existe una relación fuerte y directa entres tiempo de atención en caja y el N° de productos
comprados
R2 = 0.852 = 0.722
El 72,2% de la variabilidad del tiempo de atención esta explicado por la variabilidad del N° de
productos comprados.
Y: Tiempo de atención en caja
X: N° de Cajas operativas
Relación: Inversa
R = - 0.95: existe una relación fuerte e inversa entre el tiempo de atención en caja y el N° de cajas
operativas
R2 = (-0.95)2 = 0.9025
El 90.25% de la variabilidad del tiempo de atención esta explicado por la variabilidad del N° de cajas
operativas.

Estimación puntual del valor de Y


Y^ ( X 0)= ^β0 + β^ 1 X 0

Ejercicio 01
El gerente de un banco ha observado que la atención en ventanilla es lenta, preocupado por las
constantes quejas de los clientes del banco. Por tal razón, ha decidido observar las diez últimas
visitas al banco. Se ha registrado el número clientes que encontró haciendo cola y el tiempo que tuvo
que esperar hasta ser atendido, en minutos.
N° de clientes en cola : X 7 8 2 4 4 12 15 10 12 5
Tiempo de espera: Y 10 8 3 4 6 15 18 10 14 5

Solución
a. Identifique la variable independiente y la variable dependiente. Justifique.
Variable independiente(X): N° de clientes en cola
Variable dependiente (Y): Tiempo de espera (minutos)
b. Realice el diagrama de dispersión y observe si hay relación lineal entre las variables.

Diagrama de dispersión de Y VS X
20
18
16
Tiempo de espera

14
12
10
8
6
4
2
0
0 2 4 6 8 10 12 14 16
N° de clientes en cola

Gráficamente se puede observar que existe una relación lineal directa entre el N° de clientes en
cola y el tiempo de espera.
Salidas del Excel:
Estadísticas de la regresión  
Coeficiente de correlación múltiple 0.97259374
Coeficiente de determinación R^2 0.94593858
R^2 ajustado 0.9391809
Error típico 1.24697301
Observaciones 10

Promedio
Grados de Suma de de los Valor
  libertad cuadrados cuadrados F crítico de F
Regresión 1 217.660467 217.660467 139.979826 2.3879E-06
Residuos 8 12.4395335 1.55494168    
Total 9 230.1      

Coeficiente
  s
Intercepción( ^β o ¿ 0.168
N° de clientes en cola : X (( ^β 1 ¿ 1.156

c. Presente el modelo e interpreta el coeficiente de regresión o pendiente


Coeficiente
  s
^
Intercepción( β o ¿ 0.168
N° de clientes en cola : X (( ^β 1 ¿ 1.156

Y^ =0.168+1.156 X Ecuación de regresión lineal estimada.


B1 = 1.156: Si el N° de clientes en cola se incrementa en 1, el tiempo de espera se incrementa en
1.156 minutos.

d. Valide el modelo con un nivel de significación del 5%


Tabla de análisis de varianza
Grados de Suma de Promedio de Valor crítico de
  libertad cuadrados los cuadrados F F
Regresión 1 217.660467 217.660467 139.979826 2.38793E-06
Residuos 8 12.4395335 1.55494168
Total 9 230.1      
Ho: B1 = 0
H1: B1 ≠ 0
Nivel de significación: α = 0.05
Valor crítico de f = 2.388X10-6= 0.000002388 < α = 0.05, DE: RHO
Conclusión: Con un nivel de significación del 5%, existe relación lineal entre el número de clientes
en cola y el tiempo de espera. El modelo es válido.

e. Indique si existe una buena asociación lineal entre las variables


Estadísticas de la regresión
Coeficiente de correlación múltiple (R) 0.97259374
2
Coeficiente de determinación R 0.94593858
R = 0.973: Existe una relación lineal fuerte y directa entre el número de clientes en cola y el
tiempo de espera.
f. ¿Qué porcentaje de la variabilidad del tiempo de espera es explicada por el N° de clientes en
cola?
R2 = 0.946: El 94.6% de la variabilidad del tiempo de espera, es explicado por el número de
clientes en cola
g. Estime el tiempo de espera de un cliente cuando hay 15 clientes en cola
Y^ (15)=0.168+ 1.156 X=0.168+ 1.156 ( 15 )=17.51 minutos

Ejercicio 2
En una empresa aérea se desea establecer un modelo de regresión entre la cantidad de agua
necesaria, en litros, en un vuelo y el número de pasajeros en ese vuelo. Se tiene la siguiente
información.
Cantidad de agua 91 91 93 97 97 99 99 101 101 101 104 105 105 107 107
Cantidad de pasajeros 80 82 82 85 85 86 87 87 90 93 93 95 95 97 98
Solución
a. Indique la variable independiente y la dependiente. Complete los valores en la tabla.
X: Cantidad de pasajeros
Y: Cantidad de aguas (litros)
Salidas del Excel
Estadísticas de la regresión  
Coeficiente de correlación múltiple (R) 0.963250731
2
Coeficiente de determinación R 0.92785197
R^2 ajustado 0.922302122
Error típico 1.485718589
Observaciones 15

Grados de Suma de Promedio de los Valor crítico


  libertad cuadrados cuadrados F de F
Regresión 1 369.037657 369.037657 167.1851 8.4941E-09
Residuos 13 28.6956764 2.20735973    
Total 14 397.733333      

  Coeficientes
Intercepción 21.66582985
Cantidad de pasajeros: X 0.878661088

b. Calcule la ecuación de regresión lineal. Interprete el coeficiente de regresión del modelo.


Y^ =21.666+0.879 X
B1: 0.879: Por cada pasajero adicional en el vuelo, la cantidad de agua necesaria que se requiere
es de 0.879 litros
c. Calcule e interprete el coeficiente de determinación del modelo.
R2 = 0.93: El 93% de la variabilidad de la cantidad de agua requerida en el vuelo, es explicado por
la variabilidad de la cantidad de pasajeros.
d. Calcule e interprete el coeficiente de correlación del modelo.
R = 0.96: Existe una relación lineal fuerte y directa entre la cantidad de pasajeros y la cantidad
de agua requerida en el vuelo.
e. Valide el modelo de regresión lineal. Use un nivel de significación del 5%.
Ho: B1 = 0
H1: B1 ≠ 0
Nivel de significación: α = 0.05
Valor crítico de f = 0.00000000849 < α = 0.05, DE: RHO
Conclusión: Con un nivel de significación del 5%, existe una relación lineal entre la cantidad de
pasajeros y la cantidad de agua requerida en el vuelo. Modelo lineal es válido.
f. Estime la cantidad de agua necesaria para un vuelo con 110 pasajeros
Y^ ( 110 ) =21.666+0.879 ( 110 ) =118.356 litros .

También podría gustarte