Está en la página 1de 32

DEPARTAMENTO DE ESTUDIOS

GENERALES
2023 1
ESTADÍSTICA Y PROBABILIDADES

PRÁCTICA SEMANA 10 y SEMANA 11

INTEGRANTES:

 PALOMINO CONDORI JULIA


 SILVESTRE DANIEL
 LASTEROS RIVERA LESLIE
 SIFUENTES RAMÍREZ ZENA
 JESUS MEJIA ALLENDE
 YASHELL ARROYO RIVAS
 TÁMARA CARRERA YULI
DEPARTAMENTO DE ESTUDIOS
GENERALES
2023 1
ESTADÍSTICA Y PROBABILIDADES

PRÁCTICA SEMANA 10 y SEMANA 11


TEMA ESCUELA PROFESIONAL
Correlación Lineal y Regresión Lineal

1. Se tiene en la semana 9, el archivo "data_pacientes.xlsx" con el registro de un grupo de


pacientes clasificados por diferentes variables. Analice la relación existente entre:
- Talla (X) vs Peso (Y)
- Peso (X) vs IMC (Y)

Para cada uno de los casos anteriores:


a) Construya su gráfico de dispersión

Diagrama de dispersión Talla vs Peso


100

90

80
Peso (kg)

70

60

50

40
140 150 160 170 180 190 200
Talla (cm)

Diagrama de dispersión Peso vs IMC


38
36
34
32
30
IMC

28
26
24
22
20
18
40 50 60 70 80 90 100

Peso (kg)
Estadística 2023-1

b) Calcule la covarianza SXY

- Talla (X) vs Peso (Y)

4170.48
sxy= 67

sxy = 62.25 Confirma que la relación es positiva entre las dos variables.
La relación es a mayor talla, mayor peso entre los
pacientes.

- Peso (X) vs IMC (Y)

2198.09
sxy= 67

sxy = 32.81
Confirma que la relación es positiva entre las dos variables.
La relación es a mayor Peso, mayor IMC entre los
pacientes.
c) Calcule el coeficiente de correlación rXY y de acuerdo al resultado que conclusiones daría
sobre la relación entre X e Y.

- Talla (X) vs Peso (Y)

Paso 1: Calcular SXY

sxy = 62.25

Paso 2: Calcular Sx

1742738 − 67 𝑥 25924.22
=
67

86.79

Sx = 9.32
Paso 3: Calcular SY

= 337736.25 − 67 𝑥 4902.80
= 138.04
Sy = 11.75 67
Estadística 2023-1

Paso 4 : Calcular rXY

62.25
rxy= 9.32 𝑥 11.75

rxy = 0.57 Existe una moderada correlación entre ambas variables: Talla y Peso de los pacientes.

- Peso (X) vs IMC

(Y) Paso 1: Calcular SXY

sxy = 32.81

Paso 2: Calcular Sx

337736.25 − 67 𝑥 4902.8
=
67

138.04

Sx = 11.75
Paso 3: Calcular SY

49699.7302 − 67 𝑥 727.38
= 14.41
= 67

Sy = 3.8
Paso 4 : Calcular rXY

32.81
rxy= 11.75 𝑥 3.8

rxy = 0.74 Existe una relativamente alta correlación entre ambas variables: Talla y IMC de los pacientes.

2. Los estadounidenses conscientes de la salud consultan a menudo la información relacionada con los nutrientes que
aparecen en los envases de los alimentos con el fin de evitar los que contengan grandes cantidades de grasa, sodio
o colesterol. La siguiente información se tomó de ocho marcas distintas de queso americano en rebanadas:

Grasas Colesterol
Marca Grasa (g) Sodio (mg) Calorías
Saturadas (g) (mg)
Kraft Deluxe American 7 4.5 20 340 80
Kraft Velveeta Slices 5 3.5 15 300 70
Private Selection 8 5.0 25 520 100
Ralphs Singles 4 2.5 15 340 60
Kraft 2% Milk Singles 3 2.0 10 320 50
Estadística 2023-1

Kraft Singles American 5 3.5 15 290 70


Borden Singles 5 3.0 15 260 60
Lake to Lake American 5 3.5 15 330 70

a) ¿Qué pares de variables espera usted que estén fuertemente relacionadas?


De acuerdo al coeficiente de correlación las variables Grasa y Grasas Saturadas están fuertemente
relacionadas a comparación de las otras variables.

Grasas
Grasa (g)
saturadas (g)
X Y XY 2 2
X Y
7 4.5 31.5 49 20.25
5 3.5 17.5 25 12.25
8 5 40 64 25
4 2.5 10 16 6.25
r𝑥𝑦 = 1.52
3 2 6 9 4 1.58 𝑥 0.98
5 3.5 17.5 25 12.25
5 3 15 25 9 r𝑥𝑦 = 0.98 Correlación muy alta.
5 3.5 17.5 25 12.25
42 27.5 155 238 101.25

b) Trace un diagrama de dispersión para la grasa y la grasa saturada. Describa la relación.

Diagrama de dispersión Grasa (g) vs Grasas saturadas (g)


5

4.5 Es una Relación LINEAL


Grasas saturadas (g)

POSITIVA, es decir a medida


4
que aumentan los Grasas
3.5 también lo hacen las Grasas
3 Saturadas con un coeficiente
de correlación de 0.98
2.5
demostrando una relación
2 fuerte.
3 4 5 6 7
8
Grasa (g)

c) Elabore un diagrama de dispersión para grasas y calorías. Compare el patrón con el observado en el inciso
b).

Diagrama de dispersión Grasa (g) vs Calorias


100

90 Es una Relación LINEAL


POSITIVA, es decir a medida que
80
Calorías

aumentan las Grasas Saturadas


también lo hacen las calorías,
70
aunque no tan fuerte como el
diagrama b, ya que su
60
coeficiente es de 0.96.
50
3 4 5 6 7 8 9
Estadística 2023-1
Grasa (g)
Estadística 2023-1

d) Trace un diagrama de dispersión para la grasa y el sodio, y otro para colesterol y sodio.

Diagrama de dispersión Grasa (g) vs Sodio (mg)


550

500

450
Sodio (mg)

400

350

300

250
3 4 5 6 7 8
Grasa (g)

Diagrama de dispersión colesterol (mg) vs Sodio (mg)


550

500

450
Sodio (mg)

400

350

300

250
10 12 14 16 18 20 22 24 26
Colesterol (mg)

e) Calcule el coeficiente de correlación r para las variables de colesterol y sodio

Colesterol (mg)
Sodio (mg)
X Y XY 2 2
X Y
20 340 6800 400 115600
15 300 4500 225 90000
25 520 13000 625 270400
15 340 5100 225 115600
10 320 3200 100 102400
15 290 4350 225 84100
15 260 3900 225 67600
15 330 4950 225 108900
130 2700 45800 2250 954600
Estadística 2023-1

Paso 1: Calcular SXY

45800 − 8 𝑥 5484.38
=
SXY= 275 7

Paso 2: Calcular Sx
2250 − 8 𝑥 264.06
7
=
S2 X = 19.65
SX = 4.43
Paso 3: Calcular Sy

= 954600 − 8 𝑥 113906.25
7
S2 y= 6192.86

Sy= 78.69
Paso 4: Calcular rxy
275
=
4.43 𝑥 78.69

rxy= 0.79 Se encuentra en el rango de alta correlación.

3. PARA CADA UNA DE LOS SIGUIENTES CASOS RESUELVA LAS SIGUIENTES PREGUNTAS ASOCIADAS
AL CONJUNTO DE DATOS
a. Construya su gráfico de dispersión y determine la relación
b. Calcule la covarianza SXY
c. Calcule la Desviación estándar muestral de X
d. Calcule la Desviación estándar muestral de Y
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de la investigación

Caso A: El gerente de personal de la empresa P&C quiere estudiar la relación entre el ausentismo y la
edad de sus trabajadores. Tomo una muestra aleatoria de 10 trabajadores de la empresa y encontró los
siguientes datos.

Edad_(año) 25 46 58 37 55 32 41 50 23 60
Ausentismo_(días_por_año) 18 12 8 15 10 13 7 9 16 6
Estadística 2023-1

A.1. Use el método de mínimos cuadrados para estimar la ecuación de regresión lineal
que relacione los días de ausentismo de acuerdo a la edad de las personas
A.2. De acuerdo al coeficiente de Determinación (R2) que tan bien ajusta el modelo
la variabilidad de la variable dependiente.
A.3. ¿Cuál es número de días que se espera se ausente una persona al año si tiene 55 años?

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Edad vs Ausentismo


Ausentismo (díasxaño)

Relación LINEAL NEGATIVA


A medida que aumentan la
edad de los trabajadores
disminuye los días de
ausentismo de estos.

20 30 40 50 60 70
Edad (año)

b. Calcule la covarianza SXY

4452 − 10 x 486.78
=
9

SXY= −46.2
c. Calcule la Desviación estándar muestral de X

19833 − 10 x 1823.29
9
=
S2 X= 177.79
SX= 13.33

d. Calcule la Desviación estándar muestral de Y

= 1448 − 10 x 129.96
9
S2y= 16.49
Sy= 4.06
Estadística 2023-1

e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de


la investigación

−46.2
=
13.33 𝑥 4.06

rxy= −𝟎. 𝟖𝟓 Se encuentra en el rango de alta correlación negativa, los que demuestra que los
trabajadores de mayor edad se ausentan menos días que los trabajadores más
jóvenes.

A.1. Use el método de mínimos cuadrados para estimar la ecuación de regresión lineal
que relacione los días de ausentismo de acuerdo a la edad de las personas

Ecuación de regresión lineal


−46.2
=
177.79

= -0.26

= 11.4 - (-0.26 x 42.7)

= 22.50
Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = 22.496 - 0.2599 x
A.2. De acuerdo al coeficiente de Determinación (R2) que tan bien ajusta el modelo
la variabilidad de la variable dependiente.

2
= -0.85
Se puede afirmar que el 72.81% de la variabilidad de ausentismo
es explicado por los datos de la edad. El modelo explica se ajusta
R2 = 0.7281 = 72.81% bastante bien la variabilidad de los datos, existe una fuerte
dependencia lineal negativa entre las dos variables.
A.3. ¿Cuál es número de días que se espera se ausente una persona al año si tiene 55 años?

yˆ = 22.496 - 0.2599 x

= 22.496 – 0.2599 (55) = 8.2 Es decir que una persona con 55 años puede ausentarse 8 días al
año.
Estadística 2023-1

Caso B. Se viene investigando la relación entre la tasa de mortalidad de los niños menores de 5 años
con el avance del porcentaje de vacunados contra la DPT (difteria, tos convulsiva, tétano). Se tiene la
información de 20 países en los que se midieron ambas variables,
X : porcentaje de niños vacunados a la edad de un año en cada país,
Y : es la tasa de mortalidad infantil de niños menores de 5 años en cada país
País Porcentaje vacunado Tasa de mortalidad
Menor a 5 años
Bolivia 77.0 118.0
Brasil 69.0 65.0
Camboya 32.0 184.0
Canadá 85.0 8.0
China 94.0 43.0
República Checa 99.0 12.0
Egipto 89.0 55.0
Etiopía 13.0 208.0
Finlandia 95.0 7.0
Francia 95.0 9.0
Grecia 54.0 9.0
India 89.0 124.0
Italia 95.0 10.0
Japón 87.0 6.0
México 91.0 33.0
Polonia 98.0 16.0
Federación Rusa 73.0 32.0
Senegal 47.0 145.0
Turquía 76.0 87.0
Reino Unido 90.0 9.0

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Porcentaje de niños vacunados vs


Tasa de mortalidad infantil
220
208
Tasa de mortalidad infantil

196
184
172
160
148 Relación LINEAL NEGATIVA
136
124 A medida que aumenta el
112
100 porcentaje de niños
88
76 vacunados disminuye la
64
52
40 tasa de mortalidad infantil.
28
16
4
10 30 50 70 90 110

Porcentaje de niños vacunados

b. Calcule la covarianza SXY

68626 − 20 x 4566.6
=
19
Estadística 2023-1

SXY= −1195.05
c. Calcule la Desviación estándar muestral de X

19833 − 10 x 1823.29
19
=
S2 X= 559.52
SX= 23.65

d. Calcule la Desviación estándar muestral de Y

147118 − 20 𝑥 3481
=
19
S2y= 4078.84
Sy= 63.87
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de
la investigación

−1195.05
=
23.65 𝑥 63.87

rxy= −𝟎. 𝟕𝟗 Se encuentra en el rango de alta correlación negativa, los que


demuestra que a mayor porcentaje de niños vacunados
disminuye la tasa de mortalidad infantil

B.1. Estime el modelo de ecuación de regresión lineal para estimar la tasa de mortalidad en base
al porcentaje de vacunados.

Ecuación de regresión lineal


−1195.05
=
559.52

= -2.1359

= 59 – (-2.1358 x 77.4)

= 224.3
Estadística 2023-1

Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = 224.32 - 2.1359 x
B.2. ¿Cuál es la tasa de mortalidad que se esperaría si se tuviera una población vacunada al

75%? yˆ = 224.32 - 2.1359 x

yˆ = 224.32 - 2.1359 (75%)

yˆ = 64.13% Es decir que una población vacunada al 75% tiene una tasa de
mortandad de 64.13%
B.3. Calcule el coeficiente de determinación R2 y determine que tan bien explica el modelo la
variabilidad del conjunto de datos.

2
= -0.79
Se puede afirmar que el 62.58% de la variabilidad de Tasa de
2
R = 0.6258= 62.58% mortalidad infantil es explicado por los datos del porcentaje de niños
vacunado. El modelo explica se ajusta bastante bien la variabilidad de
los datos, existe una fuerte dependencia lineal negativa entre las dos
variables.

Caso C: El gerente de ventas de una cadena de tiendas obtuvo información de los pedidos por internet (X)
y del número de ventas realizadas por esa modalidad (Y). Como parte de su presentación en la próxima
reunión de vendedores al gerente le gustaría dar información específica sobre la relación entre el
número de pedidos y el número de ventas realizadas.

TENDA 1 2 3 4 5 6 7 8 9 10
NÚMERO PEDIDOS (X) 50 56 60 68 65 50 79 35 42 15
NÚMERO_VENTAS (Y) 45 55 50 65 60 40 75 30 38 12

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Número de Pedidos vs Número de Ventas


80
75
70
65
60
Relación LINEAL POSITIVA
Número de Ventas

55
50 MUY ALTA. A medida que
45 aumenta el número de
40
pedidos también aumenta
35
30 el número de ventas en las
25 tiendas.
20
15
10
5
15 25 35 45 55 65 75 85
Número de Pedidos
Estadística 2023-1

b. Calcule la covarianza SXY

27401 − 10 X 2444
=
9

SXY= 329
c. Calcule la Desviación estándar muestral de X

30040 − 10 X 2704
=
2
9
S X= 333.33
SX= 18.26

d. Calcule la Desviación estándar muestral de Y

25088 − 10 𝑥 2209
=
S2y= 333.11 9
Sy= 18.25
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de
la investigación

329
=
18.26 𝑥 18.25

Se encuentra en el rango de alta correlación positivo, los que


rxy= 𝟎. 𝟗𝟖𝟕 demuestra que, a mayor número de pedidos, el número de
ventas aumentará en las tiendas.

C.1. Estime el modelo de ecuación de regresión lineal del número de ventas dado el número de
pedidos.
Ecuación de regresión lineal
329
=
333.33

= 0.987

= 47 – (0.987 X 52)
Estadística 2023-1

= −4.324
Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = -4.324 + 0.987 x
C.2. ¿Cuántas ventas se pueden esperar si un día determinado se hacen 70 pedidos de acuerdo
al modelo de regresión estimado?
yˆ = -4.324 + 0.987 x

yˆ = -4.324 + 0.987 (70)

yˆ = 65 Es decir, se pueden esperar 65 ventas respecto a los 70 pedidos


realizado de acuerdo al modelo de regresión estimado.

C.3. Calcule el coeficiente de determinación R2 y determine que tan bien explica el modelo
la variabilidad del conjunto de datos.

2
= 0.987

R2 = 0.9748= 97.48% Este modelo explica el 97.48% de la variabilidad de los datos, existe
una muy alta relación entre el número de pedidos y número de ventas.

Caso D: En un estudio para determinar la relación entre edad (X) y presión sanguínea (Y) una muestra
aleatoria de 11 mujeres ha dado los siguientes resultados.

X 54 40 70 35 62 45 55 50 38 60 30
Y 148 123 155 115 150 126 152 144 114 158 112

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Edad vs Presión Sanguínea


170
165
160
155
150
Presión Sanguínea

145 Relación LINEAL POSITIVA


140 MUY ALTA. A medida que
135 aumenta la edad también
130
aumenta la presión
125
120 sanguínea en esta muestra
115 de mujeres.
110
105
100

30 35 40 45 50 55 60 65 70 75

Edad
Estadística 2023-1

b. Calcule la covarianza SXY

75489 − 11 x 6668.45
=
10

SXY= 213.6
c. Calcule la Desviación estándar muestral de X

27979 − 11 x 2401
=
10
S2 X= 156.8
SX= 12.52

d. Calcule la Desviación estándar muestral de Y

207003 − 11 𝑥 18520.74
=
S2y= 327.49 10

Sy= 18.1
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de
la investigación

213.6
=
12.52 𝑥 18.1

Se encuentra en el rango de alta correlación positivo, los que


rxy= 𝟎. 𝟗𝟒𝟑 demuestra que, a mayor edad en las mujeres aumenta la
presión sanguínea.

D.1. Estime el modelo de ecuación de regresión lineal de la presión sanguínea basado en la


edad de las personas
Ecuación de regresión lineal
213.6
=
156.8

= 1.3622

= 136.09- (1.3622 x 49)


= 69.341
Estadística 2023-1

Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = 69.341 + 1.3622 x
D.2. Cuál sería la presión sanguínea esperada en una persona de 55 años.

yˆ = 69.341 + 1.3622 x

yˆ = 69.341 + 1.3622(55)

yˆ = 144.262 Es decir, en una persona de 55 años a presión sanguínea esperada


será de 144.262.
Caso D: Suponga que el gerente de una cadena de servicios de entrega de paquetería desea desarrollar un
modelo para predecir las ventas semanales (en miles de soles) para las tiendas individuales basado en el
número de clientes que realizan las compras. Se seleccionó una muestra aleatoria entre todas las tiendas
de la cadena con los siguientes resultados:

Tienda 1 2 3 4 5 6 7 8 9 10
Clientes (X) 907 926 506 741 789 889 874 510 529 420
Ventas (miles soles) (Y) 11.2 11.05 6.84 9.21 9.42 10.08 9.45 6.73 7.24 6.12
Tienda 11 12 13 14 15 16 17 18 19 20
101
Clientes (X) 679 872 924 607 452 729 794 844 0 621
11.7
Ventas (miles soles) (Y) 7.63 9.43 9.46 7.64 6.92 8.95 9.33 10.23 7 7.41

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Clientes vs Ventas (miles de soles)


11.61
11
10.39
9.78
Ventas

9.17 Relación LINEAL POSITIVA


8.56
MUY ALTA. A medida que
7.95
aumenta el número de
7.34
6.73 lientes también aumenta
las ventas en las
respectivas
6.12
tiendas.
400 500 600 700 800 900 1000 1100

Clientes

b. Calcule la covarianza SXY

134127.9 − 20 𝑥 6438.14
=
19
Estadística 2023-1

SXY= 282.37
c. Calcule la Desviación estándar muestral de X

11306209 − 20 𝑥 534580.32
=
19
S2 X= 32347.5
SX= 179.85
d. Calcule la Desviación estándar muestral de Y

1602.0971 − 20 𝑥 77.54
=
19
S2y= 2.7
Sy= 1.64
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de
la investigación

282.37
=
179.85 𝑥 1.64

Se encuentra en el rango de alta correlación positivo, los que


rxy= 𝟎. 𝟗𝟓𝟒𝟗 demuestra que, a mayor número de clientes, el número de
ventas aumentará en las tiendas.
D.1. Estime el modelo de ecuación de regresión lineal para estimar las ventas, en base a la
cantidad de clientes
Ecuación de regresión lineal
282.37
=
32347.5

= 0.0087

= 8.8055 - (0.0087 x 731.15)


= 2.423
Reemplazando los valores aˆ y bˆ en la ecuación:
yˆ = 2.423+ 0.0087X
D.2 Cuál sería el estimado de ventas en el caso una tienda tenga promedio de 800 clientes
yˆ = 2.423+ 0.0087x
yˆ = 2.423+ 0.0087 (800)
yˆ = 9.383 (miles de Es decir, para un promedio de 800 clientes se estima unas ventas
soles) de 9,383.00 soles.
Estadística 2023-1

Caso E: Se tiene información del coeficiente de inteligencia de un grupo de estudiantes y sus resultados
en su examen parcial:

Coeficiente IQ 140 130 125 120 110 100 95 115 135 100 150
Notas Examen Parcial 18 15 15 14 14 12 12 13 16 11 19

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Coeficiente IQ vs Notas Examen


Parcial
19
18
Notas Examen Parcial

17
Relación LINEAL POSITIVA
16
MUY ALTA. A medida que
15 aumenta el coeficiente
14 intelectual IQ, también
13 aumenta las notas del
12 examen Parcial del grupo
11 de estudiantes
95 105 115 125 135 145 155
Coeficiente IQ

b. Calcule la covarianza SXY

19510 − 11 X 1734.55
=
10

SXY= 43
c. Calcule la Desviación estándar muestral de X

161600 − 11 X 14400
10
=
S2 X= 320
SX= 17.89
d. Calcule la Desviación estándar muestral de Y

2361 − 11 𝑋 208.93
=
10
S2y= 6.27
Sy= 2.5
Estadística 2023-1

e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de


la investigación

43
=
17.89 𝑋 2.5

Se encuentra en el rango de alta correlación positivo, los que


rxy= 𝟎. 𝟗𝟔 demuestra que, a mayor IQ en los estudiantes mayor será el
resultado en sus notas del examen parcial.

E.1. Estime el modelo de ecuación de regresión lineal de la nota del Examen Parcial basado en su IQ.
Ecuación de regresión lineal
43
=
320

= 0.1344

= 14.45 - (0.1344 x 120)


= −1.6705
Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = -1.6705 + 0.1344X
E.2. Cuál sería la nota que alcance un estudiante cuyo IQ es igual 120
yˆ = -1.6705 + 0.1344 x
yˆ = -1.6705 + 0.1344 (120)
yˆ = 14.5 Es decir, para un estudiante cuyo IQ es 120 alcanzaría una nota de
14.5 en su examen Parcial.

E.3. Calcule el coeficiente de determinación R2 y determine que tan bien explica el modelo la
variabilidad del conjunto de datos.

2
= 0.961

R2 = 0.9212= 92.12% Se puede afirmar que el 92.12% de la variabilidad de las notas del
examen Parcial es explicado por los datos del coeficiente IQ. El modelo
explica se ajusta bastante bien la variabilidad de los datos, existe una
muy alta relación entre las dos variables.

Caso F: La calificación de un grupo de estudiantes en el examen parcial (X) y el examen final (Y) fueron las
siguientes:
X y x Y X y x y
12 15 18 20 15 17 13 14
8 10 12 14 12 15 10 13
Estadística 2023-1

10 12 10 12 11 12 12 15
13 14 12 10 12 13 13 14
9 12 14 16 11 12 12 13
14 15 9 11 10 13 16 18
11 16 10 13 14 12 15 17

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Examen parcial vs Examen Final


19
18
17
16 Relación LINEAL POSITIVA
Examen Final

15 MUY ALTA. A medida que


14 aumenta las notas del
13 examen Parcial, también
12
aumenta las notas del
examen Final del grupo de
11
estudiantes.
10
8 9 10 11 12 13 14 15 16 17 18 19
Examen Parcial

b. Calcule la covarianza SXY

4803 − 28 X 167.276
=
27

SXY= 4.42
c. Calcule la Desviación estándar muestral de X

4222 − 28 X 145.72
=
27
S2 X= 5.25
SX= 2.29
d. Calcule la Desviación estándar muestral de Y

5528 − 28 𝑋 192.02
=
27
S2y= 5.61
Sy= 2.37
Estadística 2023-1

e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de


la investigación

4.42
=
2.29 𝑋 2.37

Se encuentra en el rango de alta correlación positivo, los que


rxy= 𝟎. 𝟖𝟏𝟒 demuestra que, a mayor calificación en el Examen parcial, mayor
será el resultado en el examen Final.

F.1. Determinar la ecuación de regresión lineal de Y basado en X


Ecuación de regresión lineal
4.42
=
5.25

= 0.8409

= 13.857 - (0.8409 x 12.07)


= 3.7064
Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = 3.7064+ 0.8409X

F.2. Que nota alcanzaría un estudiante en su examen final si tuvo 13 en su examen parcial.
yˆ = 3.7064+ 0.8409X
yˆ = 3.7064+ 0.8409(13)
yˆ = 14.6 Es decir, para un estudiante que sacó 13 en su examen Parcial, le
alcanzaría una nota de 14.6.

Caso G: Se han observado en un estudio de 10 personas el número de respuestas correctas hechos a un test de
20 preguntas y el tiempo demandado para su resolución

1 2 3 4 5 6 7 8 9 10

Preguntas 2 3 3 6 6 6 7 8 9 11
correctas

Tiempo (min) 4 6 6 8 8 10 10 12 15 19
Estadística 2023-1

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión N de respuestas correctas vs Tiempo


demandado (min)
19
18
17
16
15
14
Relación LINEAL POSITIVA
Tiempo (min)

13 MUY ALTA. A medida que


12
11 aumenta el número de
10
9
respuestas correctas,
8 también aumenta el tiempo
7
6 demandado para su
5
resolución.
4
2 3 4 5 6 7 8 9 10 11

N. de respuestas correctas

b. Calcule la covarianza SXY

710 − 10 𝑥 59.78
=
9

SXY= 12.47
c. Calcule la Desviación estándar muestral de X

445 − 10 𝑥 37.21
=
2
9
S X= 8.1
SX= 2.85
d. Calcule la Desviación estándar muestral de Y

1146 − 10 𝑥 96.04
=
S2y= 20.62 9
Sy= 4.54
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de
la investigación

12.47
=
2.85 𝑥 4.54
Estadística 2023-1

Se encuentra en el rango de alta correlación positivo, los que


rxy= 𝟎. 𝟗𝟔𝟒 demuestra que, a mayor número de respuesta correctas, mayor
será el tiempo demandado para el test de 20 preguntas.

G.1. Defina un modelo de ecuación de regresión lineal para estimar la variable tiempo de
acuerdo al número de respuestas correctas
Ecuación de regresión lineal
12.47
=
8.1

= 1.5391

= 9.8 - (1.5391 x 6.1)


= 0.4115
Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = 1.5391+ 0.4115X

G.2. Qué tiempo demandaría resolver 15 respuestas correctas del test de 20

preguntas. yˆ = 1.5391+ 0.4115X

yˆ = 1.5391+ 0.4115(15)

yˆ = 23.50 Es decir, para un estudiante resolver 15 preguntas correctas le


demandaría 23 minutos con 30 segundos.

Caso H: Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales en miles
de soles (y) y los años de experiencia (x) de trece vendedores.

1 2 3 4 5 6 7 8 9 10 11 12 13
X 1 3 4 4 8 6 10 5 11 13 9 8 10
Y 80 97 92 95 111 103 119 90 117 136 115 102 123

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Años de experiencia


vs Ventas anuales (mil. soles)
140
134 Relación LINEAL POSITIVA
Ventas anuales en miles de soles

128 MUY ALTA. A medida que


122
un vendedor aumenta los
116
110 años de experiencia,
104 también incrementa sus
98
ventas anuales en miles de
92
86
soles.
80
1 2 3 4 5 6 7 8 9 10 11

Años de experiencia
Estadística 2023-1

b. Calcule la covarianza SXY

10401 − 13 𝑥 751.24
=
12

SXY= 52.9
c. Calcule la Desviación estándar muestral de X

802 − 13 𝑥 50.083
=
12
S2 X= 12.58
SX= 3.55
d. Calcule la Desviación estándar muestral de Y

149432 − 13 𝑥 11268.639
=
S2y= 244.97 12
Sy= 15.65
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de
la investigación

52.9
=
3.55 𝑥 15.65

Se encuentra en el rango de alta correlación positivo, los que


rxy= 𝟎. 𝟗𝟓𝟑 demuestra que, a mayores años de experiencia, mayor serán las
ventas anuales de un vendedor.

H.1. Defina un modelo de ecuación de regresión lineal para estimar la variable ventas anuales
de acuerdo a los años de experiencia.
Ecuación de regresión lineal
52.9
=
12.58

= 4.2064

= 106.1538462 - (4.2064 X 7.0769)


= 76.385
Reemplazando los valores aˆ y bˆ en la ecuación:
Estadística 2023-1

yˆ = 76.385+ 4.2064X

H.2. Estime las ventas anuales para un vendedor de 7 años

yˆ = 76.385+ 4.2064X

yˆ = 76.385+ 4.2064(7)

yˆ = 105,830.00 soles Es decir, que un vendedor de 7 años de experiencia puede hacer


una venta anual de 105,830.00 soles.
H.3. Calcule el coeficiente de Determinación R2 e interprete que tan bien explica el modelo
la variabilidad del conjunto de datos

2
= 0.952

R2 = 0.9084= 90.84% Se puede afirmar que el 90.84% de la variabilidad de las ventas


anuales de un vendedor es explicado por los datos de años de
experiencia del mismo vendedor. El modelo explica se ajusta bastante
bien la variabilidad de los datos, existe una muy alta relación entre las
dos variables.
Caso I: El jefe del departamento de aguas de una ciudad desea establecer una relación entre el consumo
mensual domiciliario de agua Y, y el tamaño de integrantes de las familias X, Dados los datos muestrales:

1 2 3 4 5 6 7 8 9 10 11 12
X 2 7 9 4 12 6 9 3 3 2 5 4
Y 430 1200 1300 650 1400 900 1800 640 793 480 550 750

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Tamaño de integrantes de las


1800 familias VS Consumo mensual de agua
1750
1700
1650
1600
1550 y = 117.64x + 260.76
1500
R² = 0.7707
Consumo mensual de agua

1450 Relación LINEAL POSITIVA


1400
1350 ALTA. Es decir, a medida
1300
1250 que aumente los miembros
1200
1150 de una familia, del mismo
1100
1050 modo aumenta en consumo
1000
950 domiciliario de agua de una
900
850 ciudad.
800
750
700
650
600
550
500
450
400

2 3 4 5 6 7 8 9 10 11 12
Tamaño de integrantes de las familias
Estadística 2023-1

b. Calcule la covarianza SXY

72969 − 12 𝑥 4992.625
=
11

SXY= 1187.05
c. Calcule la Desviación estándar muestral de X

474 − 12 𝑥 30.25
=
11
S2 X= 10.09
SX= 3.18
d. Calcule la Desviación estándar muestral de Y

= 11881249 − 12 𝑥 824010.0625
S2y= 181193.48 11
Sy= 425.67
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de
la investigación

1187.05
=
3.18 𝑥 425.67

Se encuentra en el rango de alta correlación positivo, los que


rxy= 𝟎. 𝟖𝟕𝟕 demuestra que, a mayor número de miembros de una familia,
mayor será el consumo domiciliario de agua.

I.1. Calcular el coeficiente de la pendiente y el origen y construya el modelo de ecuación


de regresión lineal para estimar el consumo mensual de agua basado en el tamaño de
las familias

Ecuación de regresión lineal


1187.05
=
10.09

= 117.64 (coeficiente de la pendiente)

= 907.75 - (117.64 x 5.5)


= 260.76
Estadística 2023-1

Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = 𝟐𝟔𝟎. 𝟕𝟔+ 117.64X

I.2 Calcule el coeficiente de determinación R2 y determine que tan bien explica el modelo
la variabilidad del conjunto de datos.

2
= 0.877

R2 = 0.7707= 77.07% Se puede afirmar que el 77% de la variabilidad del consumo


domiciliario de agua tamaño de integrantes de una familia es explicado
por los datos del consumo de agua. El modelo explica se ajusta
bastante bien la variabilidad de los datos, existe una muy alta relación
entre las dos variables.
I.3. Estime el consumo mensual de agua para una familia de 8 integrantes

yˆ = 260.76+ 117.64X

yˆ = 260.76+ 117.64(8)

yˆ = 1201.88 Es decir, que para una familia de 8 integrantes se estima un


consumo de agua de 1202 litros aproximadamente.

Caso J: Un especialista en educación desea evaluar si existe relación entre las horas que dedican
estudiantes a ver televisión a la semana (X) y su rendimiento académico (Y)
X 10 18 8 15 5 5 20 12 25 5 6 19 15 9 12 15 5 20 10 8
Y 14 8 16 10 18 17 8 14 5 18 15 5 8 14 12 7 17 6 16 16

a. Construya su gráfico de dispersión y determine la relación

Diagrama de dispersión Estudiantes ven tv a la semana


VS Rendimiento académico
18
17
16 Relación LINEAL NEGATIVA
15 ALTA, es decir qué medida
Rendimiento académico

14 que aumenta las horas que


13
un estudiante ve televisión
12
11
a la semana disminuye su
10 rendimiento académico.
9
8
7
6
5
5 6 7 8 9 10 11 12 13 14 15 16 17 18
Estudiantes ven tv a la semana
Estadística 2023-1

b. Calcule la covarianza SXY

2453 − 20 𝑥 147.62
=
19

SXY= −26.28
c. Calcule la Desviación estándar muestral de X

3618 − 20 𝑥 146.41
=
19
S2 X= 36.31
SX= 6.03
d. Calcule la Desviación estándar muestral de Y

3378 − 20 𝑥 148.84
=
19
S2y= 21.12
Sy= 4.6
e. Calcule el coeficiente de correlación rXY y que concluiría de acuerdo a los objetivos de
la investigación

−26.28
=
6.03 𝑥 4.6

Se encuentra en el rango de alta correlación negativa, los que


rxy= −𝟎. 𝟗𝟒𝟗 demuestra que, a mayores horas que el estudiante se dedique a
ver televisión a la semana, menor será su rendimiento académico.
J.1. Obtener el modelo de regresión más apropiado.
Ecuación de regresión lineal
−26.28
=
36.31

= -0.724

= 12.2 - (-0.724 X 12.1)


= 20.96
Reemplazando los valores aˆ y bˆ en la ecuación:

yˆ = 𝟐𝟎. 𝟗𝟔 - 0.724X
Estadística 2023-1

J.2. De acuerdo al modelo qué promedio espera que alcance un estudiante que mira televisión
10 horas

yˆ = 20.96 - 0.724X

yˆ = 20.96 - 0.724(10)

yˆ = 13.72 Es decir, que un estudiante que mira 10 horas de TV, espera sacar
un promedio de 13.72, es decir en promedio 14 puntos.

J.3. Calcular e interpretar el coeficiente de determinación

2
= -0.949

R2 = 0.9012= 90.12% Se puede afirmar que el 90% de la variabilidad del rendimiento


académico es explicado por los datos de las horas que un estudiante
ve televisión a la semana. El modelo explica se ajusta bastante bien la
variabilidad de los datos, existe una muy alta relación negativa entre
las dos variables.
F. El valor del coeficiente de correlación lineal entre las variables estatura en centímetros (X) y
peso en kilos (Y) es rXY=0.84. Se sabe que la media aritmética y la desviación típica de la
estatura son
𝑥̅=170 y SX=10 y la media aritmética y la desviación típica del peso son 𝑦̅=68 y SY = 5
respectivamente.
a) Calcular la covarianza de la distribución (SXY)

𝑆XY
0.84=
10 𝑥 5

𝑆XY = 42
b) Determine el modelo de regresión línea del peso en base a la estatura.

Ecuación de regresión lineal


42
=
102
= 0.42

= 68 − 0.42 X 170
= −3.4
Reemplazando los valores aˆ y bˆ en la ecuación, Finalmente modelo de regresión:

yˆ = -3.4 + 0.42x
Estadística 2023-1

c) Calcular el peso de un individuo que mide 175 cm.

yˆ = -3.4 + 0.42x

= -3.4 + 0.42 (175)

= 70.1 Un individuo de 175 cm pesa 70.1 kilos.

d) Determine el coeficiente de determinación R2 e interprete.

2
= -0.84

Se puede afirmar que el 71% de la variabilidad del peso


R2 = 0.7056 = 70.56% es explicado por los datos de la estatura.

También podría gustarte