Está en la página 1de 18

REGRESION LINEAL

PROBLEMA 1

Un consultor está interesado en el grado de dispersión con que un nuevo índice de

desempeño laboral mide lo que es importante para una corporación. Una forma de

verificarlo es analizar la relación entre el índice de evaluación del trabajo y el salario de

un empleado. Se tomó una muestra de ocho empleados y se recabó información del

salario (en miles de dólares) y el índice de evaluación del trabajo (1 a 10, donde 10 es la

mejor calificación.

Trabajador Índice de evaluación Salario(Y)


del trabajo(IET) (X)
1 9 36
2 7 25
3 8 33
4 4 15
5 7 28
6 5 19
7 5 20
8 6 22

a. Determine el coeficiente de correlación.

b. Coeficiente de determinación e interprete.

c. Coeficiente de no determinación e interprete.

d. Determine la ecuación de regresión lineal e interprete los coeficientes de

regresión.

e. Determine el error estándar de estimación.

f. Realice la inferencia sobre los coeficientes de regresión de población (𝛼= 0.05).

g. Realice la prueba de hipótesis para el coeficiente de correlación (𝛼= 0.05).


h. Estimado del intervalo de confianza de B1.

i. Intervalo de confianza y predicción para X=6.

j. Realice el análisis de influencia.

SOLUCION:

Construimos la siguiente tabla para el desarrollo de las preguntas.

IET(X) Salario(Y) X2 XY Y2
9 36 81 324 1296
7 25 49 175 625
8 33 64 264 1089
4 15 16 60 225
7 28 49 196 784
5 19 25 95 361
5 20 25 100 400
6 22 36 132 484

∑𝑿 ∑𝑌 ∑ 𝑋2 ∑ 𝑋𝑌 ∑ 𝑌2

51 198 345 1346 5264

a. Coeficiente de correlación

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (𝑦)2 ]

8𝑥345 − 51𝑥198
𝑟=
√[8𝑥1346 − 512 ][8𝑥198 − 1982 ]

𝑟 = 0.9853

Interpretación: Existe una correlación muy fuerte y positiva entre el índice de

evaluación de trabajo y el salario.

b. Coeficiente de determinación (r2)

𝑟 2 = 0.98532 = 0.9709
Interpretación: El 97.09% de la variación del salario(y) será explicado por la

variación del índice de evaluación del trabajo(x).

c. Coeficiente de la no determinación

1 − 𝑟 2 = 1 − 0.9709 = 0.0291

Interpretación: El 2.91% de la variación del salario(y) no será explicado por la

variación del índice de evaluación del trabajo(x).

d. Ecuación de regresión

𝑦 = 𝑎 + 𝑏𝑥

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2

8𝑥1346 − 51𝑥198
𝑏=
8𝑥345 − 512

𝑏 = 4.2138

∑𝑦 𝑏∑𝑥
𝑎= −
𝑛 𝑛

198 4.2138𝑥51
𝑎= −
8 8

𝑎 = −2.1130

Gráfica de línea ajustada


y = - 2,113 + 4,214 x
S 1,32861
35 R-cuad. 97,1%
R-cuad.(ajustado) 96,6%

30

25
y

20

15

4 5 6 7 8 9
x

Gráfica de la línea ajustada


Entonces la ecuación de regresión estimada es:

𝑦 = −2.1130 + 4.2138𝑥

Resultados en el Minitab:

Análisis de regresión

Análisis de varianza de la regresión

Interpretación: Por cada unidad de aumento en el índice de evaluación del

trabajo, el salario en promedio de un empleado aumentara en 4.2138 miles de

dólares. Cuando el índice de evaluación obtenido es cero, el salario promedio de

un empleado siempre disminuirá en 2.1130 miles de dólares.

e. Error estándar de estimación

∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑦𝑥 = √
𝑛−2

5264 − (−2.1130)𝑥198 − 4.2138𝑥1346


𝑆𝑦𝑥 = √
8−2

𝑆𝑦𝑥 = 1.3291

Interpretación: Alrededor de la línea de dispersión están dispersos 1.3291.


f. Inferencia sobre los coeficientes de regresión

1) Ho: 𝛽1 = 0 (No hay relación)

Ha: 𝛽1 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑏 − 𝛽1
𝑡=
𝑆𝑏

𝑆𝑦𝑥
𝑆𝑏1 =
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛
1.3291
𝑆𝑏1 =
2
√345 − 51
8

𝑆𝑏1 = 0.2981

4.2138 − 0
𝑡=
0.2981

𝑡 = 14.1355
𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Se concluye que, existe una relación entre los coeficientes de regresión.

g. Prueba de hipótesis para coeficientes de correlación.

1) Ho: 𝜌 = 0 (No hay relación)

Ha: 𝜌 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2

0.9853√8 − 2
𝑡=
√1 − 0.98532

𝑡 = 14.1277

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Interpretación: Existe una correlación entre el índice de evaluación del trabajo y

el salario.

h. Intervalo de confianza de 𝛽1

𝑏 − 𝑡(0.05,10−2) 𝑆𝑏1 ≤ 𝛽1 ≤ 𝑏 + 𝑡(0.05,10−2) 𝑆𝑏1


4.2138 − 2.447𝑥0.2981 ≤ 𝛽1 ≤ 4.2138 + 2.447𝑥0.2981

3.4843 ≤ 𝛽1 ≤ 4.9432

i. Intervalo de confianza y predicción para X=6

𝑦 = −2.1130 + 4.2138𝑥

𝑦(6) = −2.1130 + 4.2138(6)

𝑦 = 23.1698

Intervalo de confianza

1 (𝑥 − 𝑥̅ )
𝐼𝐶 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √ +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (6 − 6.375)2
𝐼𝐶 = 23.1698 ± 2.447𝑥1.3291√ +
8 512
345 − 8

𝐼𝐶: [21.9878,24.3518]

Interpretación: El intervalo de confianza del 95% para el valor del salario para

un índice de evaluación de 6 es de 21.9878 hasta 24.3518

Intervalo de predicción

1 (𝑥 − 𝑥̅ )2
𝐼𝑃 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √1 + +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (6 − 6.375)2
𝐼𝑃 = 23.1698 ± 2.447𝑥1.3291√1 + +
8 512
345 − 8

𝐼𝑃: [19.7094,26.6302]

Interpretación: Un índice de evaluación en el trabajo de 6 hará que los valores de

los salarios estén entre 19.7094,26.6302.


j. Análisis de influencia
X Y RESID-T HI COOK

9 36 0,17893 0,471698 0,017042

7 25 -2,90027 0,144654 0,318205

8 33 1,29188 0,257862 0,260861

4 15 0,23166 0,408805 0,022029

7 28 0,46781 0,144654 0,021276

5 19 0,03426 0,220126 0,000199

5 20 0,87185 0,220126 0,111743

6 22 -0,93517 0,132075 0,067962

1) Elementos de la matriz sombrero hi*

ℎ𝑖∗ > 4/𝑛

ℎ𝑖∗ > 4/8

ℎ𝑖∗ > 0.5

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 ℎ𝑖∗ > 0.5, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

2) Para los residuales de t-student

|𝑡𝑖∗ | > 𝑡(0.1,8−3)

|𝑡𝑖∗ | > 2.015

En la tabla

𝑡2= |−2,90027| > 2.015 → 𝑡2 𝑒𝑠 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜

𝑡4= |0.23166| > 2.015 → 𝑡4 𝑒𝑠 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜


3) Estadístico de la distancia de Cook Di*

𝐷𝑖∗ > 𝐹(0.5,2,8−2)

𝐷𝑖∗ > 0.759

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝐷𝑖∗ > 0.759 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

Conclusión: No existe datos eliminados

PROBLEMA 2

El señor james McWhinney, presidente de la empresa Daniel-James Financial Service,

considera que existe relación entre el número de entrevistas con clientes y el importe en

dólares de las ventas. Para documentar este aserto, recopiló la siguiente información

muestral. La columna muestra el valor de las ventas (en miles de dólares) del mes en

cuestión para cada cliente en la muestra.

Numero de contactos Ventas (Y)


(X)
14 24
12 14
20 28
16 30
46 80
23 30
48 90
50 85
55 120
50 110

a. Determine el coeficiente de correlación.

b. Coeficiente de determinación e interprete.

c. Coeficiente de no determinación e interprete.


d. Determine la ecuación de regresión lineal e interprete los coeficientes de

regresión.

e. Determine el error estándar de estimación.

f. Realice la inferencia sobre los coeficientes de regresión de población (𝛼= 0.05).

g. Realice la prueba de hipótesis para el coeficiente de correlación (𝛼= 0.05).

h. Estimado del intervalo de confianza de B1.

i. Intervalo de confianza y predicción para 40 clientes (X=40).

j. Realice el análisis de influencia.

SOLUCIÓN:

Construimos la siguiente tabla para el desarrollo de las preguntas.

Nro. Ventas X2 XY Y2
Contactos(X) (Y)
14 24 196 336 576
12 14 144 168 196
20 28 400 560 784
16 30 256 480 900
46 80 2116 3680 6400
23 30 529 690 900
48 90 2304 4320 8100
50 85 2500 4250 7225
55 120 3025 6600 14400
50 110 2500 5500 12100

∑𝑿 ∑𝑌 ∑ 𝑋2 ∑ 𝑋𝑌 ∑ 𝑌2

334 611 13970 26584 51581


a. Coeficiente de correlación

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (𝑦)2 ]

10𝑥26584 − 334𝑥611
𝑟=
√[10𝑥13970 − 3342 ][10𝑥51581 − 6112 ]

𝑟 =0.9754

Interpretación: Existe una correlación muy fuerte y positiva entre el número de

contactos(x) y las ventas(y).

b. Coeficiente de determinación (r2)

𝑟 2 = 0.97542 = 0.9514

Interpretación: El 95.14% de la variación del número de ventas será explicado

por la variación del número de contactos.

c. Coeficiente de la no determinación

1 − 𝑟 2 = 1 − 0.9514 = 0.0486

Interpretación: El 4.86% de la variación del número de ventas no será explicado

por la variación del número de contactos.

d. Ecuación de regresión

𝑦 = 𝑎 + 𝑏𝑥

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2

10𝑥26584 − 334𝑥611
𝑏=
10𝑥13970 − 3342

𝑏 = 2.1946

∑𝑦 𝑏∑𝑥
𝑎= −
𝑛 𝑛
611 2.1946𝑥334
𝑎= −
10 10

𝑎 = −12.1996
Entonces la ecuación de regresión estimada es:

𝑦 = −12.1996 + 2.1946𝑥

Resultados en el Minitab:

Gráfica de línea ajustada


y = - 12,20 + 2,195 x

120 S 9,31045
R-cuad. 95,1%
R-cuad.(ajustado) 94,5%
100

80

60
y

40

20

0
10 20 30 40 50 60
x

Gráfica de la línea ajustada

Interpretación: Por cada unidad que se incrementa en el número de cliente el

valor de las ventas incrementará en 2.1946.

Análisis de regresión

Análisis de varianza de la regresión


e. Error estándar de estimación

∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑦𝑥 = √
𝑛−2

51581 − (−12.1996)𝑥611 − 2.1946𝑥26584


𝑆𝑦𝑥 = √
10 − 2

𝑆𝑦𝑥 = 9.3120

Interpretación: Los valores de las ventas están dispersos alrededor de la línea de

regresión en 9.3120.

f. Inferencia sobre los coeficientes de regresión

1) Ho: 𝛽1 = 0 (No hay relación)

Ha: 𝛽1 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑏 − 𝛽1
𝑡=
𝑆𝑏
𝑆𝑦𝑥
𝑆𝑏1 =
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛

9.3120
𝑆𝑏1 =
2
√13970 − 334
10

𝑆𝑏1 = 0.1755

2.1946 − 0
𝑡=
0.1755

𝑡 = 12.5048

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Se concluye que, existe una relación entre el número de clientes y la variable

ventas

g. Prueba de hipótesis para coeficientes de correlación.

1) Ho: 𝜌 = 0 (No hay relación)

Ha: 𝜌 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC
5) Cálculo del estadístico

𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2

0.9754√10 − 2
𝑡=
√1 − 0.97542

𝑡 = 12.5151

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Interpretación: Si existe correlación entre la variable número de contactos y

ventas.

h. Intervalo de confianza de 𝛽1

𝑏 − 𝑡(0.05,10−2) 𝑆𝑏1 ≤ 𝛽1 ≤ 𝑏 + 𝑡(0.05,10−2) 𝑆𝑏1

2.1946 − 2.306𝑥0.1755 ≤ 𝛽1 ≤ 2.1946 + 2.306𝑥0.1755

1.7899 ≤ 𝛽1 ≤ 2.5993

i. Intervalo de confianza y predicción para X=40

𝑦 = −12.1996 + 2.1946𝑥

𝑦(40) = −12.1996 + 2.1946(40)

𝑦 = 75.5844

Intervalo de confianza

1 (𝑥 − 𝑥̅ )
𝐼𝐶 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √ +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (40 − 33.4)2
𝐼𝐶 = 75.5844 ± 2.306𝑥9.3120√ +
10 3342
13970 − 10

𝐼𝐶: [68.2873,82.8815]
Interpretación: En el intervalo de confianza del 95% para una cantidad de 40

contactos la cantidad de ventas se encuentra en el intervalo 68.2873 hasta

82.8815.

Intervalo de predicción

1 (𝑥 − 𝑥̅ )2
𝐼𝑃 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √1 + +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (40 − 33.4)2
𝐼𝑃 = 75.5844 ± 2.306𝑥9.3120√1 + +
10 3342
13970 − 10

𝐼𝑃: [52.9049,98.2639]

Interpretación: Una cantidad de 40 contactos hará que los valores de las ventas

estén entre 52.9049 y 98.2639

j. Análisis de influencia

X Y RES-T HI COOK

14 24 0,64703 0,233727 0,068850

12 14 -0,01576 0,262720 0,000051

20 28 -0,41047 0,163800 0,018416

16 30 0,83910 0,207575 0,095760

46 80 -1,02701 0,156410 0,097117

23 30 -0,95199 0,138431 0,073671

48 90 -0,35072 0,175739 0,014727

50 85 -1,65936 0,197911 0,278630

55 120 1,56642 0,265776 0,375804

50 110 1,64793 0,197911 0,275875


1) Elementos de la matriz sombrero hi*

ℎ𝑖∗ > 4/𝑛

ℎ𝑖∗ > 4/10

ℎ𝑖∗ > 0.4

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 ℎ𝑖∗ > 0.4, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

2) Para los residuales de t-student

|𝑡𝑖∗ | > 𝑡(0.1,10−3)

|𝑡𝑖∗ | > 1.895

En la tabla

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝑡𝑖∗ > 1.895 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

3) Estadístico de la distancia de Cook Di*

𝐷𝑖∗ > 𝐹(0.5,2,10−2)

𝐷𝑖∗ > 0.751

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝐷𝑖∗ > 0.751 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

Conclusión: No existe datos eliminados

También podría gustarte