Está en la página 1de 37

Unidad IV:

Estadística Descriptiva
Bivariada
Estadística Descriptiva Bivariada Unidad IV
III
4.1 DISTRIBUCIÓN DE FRECUENCIAS CONJUNTA, MARGINALES Y
CONDICIONALES.

EJERCICIOS RESUELTOS

1.- Se realizaron dos pruebas referidas a velocidad lectora (variable x) y comprensión


lectora (variable Y), a un grupo de 27 estudiantes que ingresaron a la carrera de Pedagogía
en Matemática de la Universidad Metropolitana de las Ciencias de la Educación.
Obteniéndose los siguientes resultados.
Sabias que...
X Y X Y X Y 𝑛𝑖⦁ Indica las
92 8 91 9 90 8 distribuciones
88 6 93 8 86 7 marginales de las
85 5 89 7 88 7 filas (variable X)
84 6 83 6 87 5 𝑛⦁𝑗 Indica las
89 8 92 7 87 6 distribuciones
83 5 94 10 94 8 marginales de las
85 6 91 8 85 6 columnas
84 5 92 9 86 5 (variable Y)
Fuente: D. F.
86 6 90 7 90 9

a. Exponga en una tabla de distribución de frecuencias conjunta de frecuencias con


amplitud 3 para la variable X y amplitud 2 para la variable Y.
b. Calcule e intérprete las distribuciones marginales de X y de Y.

Solución:

a.

Velocidad lectora
[83 – 86[ [86 – 89[ [89 – 92[ [92 – 95] 𝑛𝑖⦁
Comprensión lectora

[9 – 11] 0 0 2 2 4

[7 – 9[ 0 2 5 4 11

[5 – 7[ 7 5 0 0 12

𝑛⦁𝑗 7 7 7 6 27
Fuente: D. F.

b. La última fila contiene la distribución marginal que es el total de individuos de


la variable comprensión lectora, y la última columna contiene la distribución
marginal que es total de individuos de la variable velocidad lectora.

121
Estadística Descriptiva Bivariada Unidad IV
III
2.- La siguiente tabla de frecuencias absolutas corresponde a una muestra de 200
observaciones de una variable bidimensional.

X \ Y 10 15 20 25 30 35
8 8 10 10 6 0 10
10 12 20 0 14 10 20
12 24 10 10 6 20 10

Calcule:
a. Las distribuciones marginales de X y de Y.
b. La distribución de X condicionada a que Y = 25.
c. La distribución de Y condicionada a que X = 12.

Solución:

a. La distribución marginal de X es:

X 𝑛𝑖.
8 44
10 76
12 80
total 200

La distribución marginal de Y es:

Y 𝑛.𝑗
10 44
15 40
20 20
25 26
30 30
35 40
Fuente: D. F.
Total 200

b. La distribución de X condicionada a que Y = 25 es:

X / Y = 25 𝑛(𝑥/𝑦 = 25)
8 6
10 14
12 6
Fuente: D. F.
Total 26

122
Estadística Descriptiva Bivariada Unidad IV
III
c. La distribución de Y condicionada a que X = 12 es:

Y / X = 12 𝑛(𝑌/𝑋 = 12)
10 24
15 10
20 10
25 6
30 20
35 10
Fuente: D. F.
Total 80

3.- Con los datos del ejercicio anterior calcule las medias y varianzas marginales. ¿Cuál de
las dos variables presenta mayor variación?

Solución:

Las medias marginales son:

(8 ∙ 44 + 10 ∙ 76 + 12 ∙ 80)
𝑥̅ = = 10,36
200

(10 ∙ 44 + 15 ∙ 40 + 20 ∙ 20 + 30 ∙ 30 + 35 ∙ 40)
𝑦̅ = = 21,95
200

Las varianzas marginales:


𝑠𝑥2 = 2,35

𝑠𝑦2 = 86,45

Observando los coeficientes de variación

𝐶𝑉(𝑋) = 0,15

𝐶𝑉(𝑌) = 0,42

Vemos que la variable Y presenta más dispersión que la variable X.

123
Estadística Descriptiva Bivariada Unidad IV
4.- Considere la siguiente tabla de doble entrada que muestra a los trabajadores
III
de la
empresa W distribuidos según sus edades y años de experiencia.

Años de experiencia
X/Y [0-5[ [5-10[ [10-15[ [15-20[ [20-25[ Total
[20-25[ 1
Edades

[25-30[ 2 4
[30-35[ 5 10 15
[35-40[ 1 20 30
[40-45[ 6 5 10 15
Total 123
Fuente: D. F.
a. Interprete los siguientes 𝑛33 , 𝑛4⦁ 𝑦 𝑛⦁3
b. Calcule la edad media y la desviación estándar de los trabajadores con una
experiencia entre 5 y 10 años.
c. El 25 % de los trabajadores con más años de servicios recibirán un bono extra de
$180000 pesos. Si Juan Pérez tiene 14 años de servicio. ¿Tiene derecho el Sr. Pérez
al bono?
Observación: La antigüedad de un trabajador es medida por año cumplido
trabajando.

Solución:

a.

𝑛33 = 15; Significa que 15 trabajadores tienen entre 30 y 35 años de edad y entre 10 y 15
años de experiencia.
𝑛4⦁ = 51 ; Significa que 51 trabajadores tienen entre 35 y 40 años.
𝑛⦁3 =50; Significa que 50 trabajadores tienen entre 10 y 15 años de experiencia.

b.

∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑛𝑖 1462,5
𝜇𝑛.2 = = = 35,67 𝑎ñ𝑜𝑠
𝑁 41
∑𝑛 𝑥 2 ∙ 𝑛𝑖
𝜎𝑛.2 = √𝜎𝑛2.2 = √ 𝑖=1 𝑖 − 𝜇𝑛2.2
𝑁

53056,25
𝜎𝑛2.2 = √ − 1272,3489 = 4,659 𝑎ñ𝑜𝑠
41

124
Estadística Descriptiva Bivariada Unidad IV
c. Buscar el 25% superior es equivalente a buscar el tercer cuartil o percentil 75.
III
3∙𝑁
− 𝑁𝑖−1
𝑄3 = 𝐿𝑖−1 + 4 ∙ 𝐴𝑖
𝑛𝑖

3 ∙ 123
− 48
𝑄3 = 10 + 4 ∙ 5 = 14,425 𝑎ñ𝑜𝑠
50

Puesto que los años de servicio son una variable discreta el resultado debe aproximarse al
entero siguiente para que tenga sentido la respuesta, así que el 25% de trabajadores con
más años de servicio sería de los 15 años de servicio en adelante, por lo tanto el Sr. Pérez
no tendría derecho al bono.

125
Estadística Descriptiva Bivariada Unidad IV
III
EJERCICIOS PROPUESTOS

1.- En un aula con 25 hombres y 14 mujeres se les pregunta quién fuma, resultando la
siguiente tabla:

Fuma No fuma Total


Hombre 12 13 25
Mujer 8 6 14
Total 20 19 39 Fuente: D. F.

a. ¿Qué proporción de estudiantes fuma?


b. ¿Qué proporción de mujeres no fuma?
c. ¿Qué proporción de estudiantes son hombres y fumadores? ¿Qué sucede con el resto
de los alumnos?
d. Determine la distribución marginal de frecuencias relativas del sexo de los alumnos
e. Determine la distribución marginal de frecuencias absolutas del sexo de los alumnos
f. Determine la distribución de frecuencias relativas para la variable genero,
condicionada a que sean alumnos fumadores

2.- Se considera la variable bidimensional (X, Y) cuya distribución de frecuencias se


presenta en la tabla siguiente:

X / Y 15 24 27 30
12 3 4 2 5
15 6 8 4 10
Fuente: D. F.
19 9 12 6 15

a. Estudie si las dos variables son independientes utilizando la distribución conjunta y


las marginales.
b. Grafique la distribución conjunta de las variables. Interprete.

3.- La siguiente tabla muestra la distribución conjunta de frecuencias relativas de la variable


X, que representa el número de tarjetas de crédito que posee una persona, y la variable Y,
que refleja el número de compras semanales pagadas con tarjeta de crédito.

Y = Número de compras por semana


X = Número de tarjetas 0 1 2 3 4
1 0,08 0,13 0,09 0,06 0,03
2 0,03 0,08 0,08 0,09 0,07
Fuente: D. F.
3 0,01 0,03 0,06 0,08 0,08

126
Estadística Descriptiva Bivariada Unidad IV
a.
III
Si se sabe que en el estudio han participado 300 personas, halle la distribución
conjunta de frecuencias absolutas.
b. Halle la distribución marginal de Y ¿cuál es el número medio y la desviación
estándar del número de compras semanales pagadas con tarjeta de crédito?
c. Obtenga la distribución del número de tarjetas de crédito que poseen las
personas de dicho estudio ¿cuál es el número más frecuente de tarjetas de
crédito que posee una de estas personas?
d. Calcule la distribución del número de compras semanales pagadas con tarjetas
de crédito que realizan las personas que poseen tres tarjetas ¿cuál es la media de
esta distribución?

4.- Se han clasificado 100 familias de Santiago, según el número de hijos e hijas, en la
siguiente tabla:

N° de mujeres
X/Y 0 1 2 3 4
N° de hombres

0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1 Fuente: D. F.
4 2 3 2 1 0

a. Halle las medias, varianzas y desviaciones típicas marginales.


b. Determine el número medio de hijas donde en aquellas familias tienen 2 hijos.
c. Determine el número medio de hijos donde en aquellas familias no tienen hijas.
d. Determine el número medio de hijos que tienen aquellas familias que a lo más
tienen 2 hijas.

5.- Para realizar un estudio sobre pacientes entre 14 y 30 años. Para ello tomamos una
muestra de aquellos pacientes que ingresaron al Hospital Traumatológico de Santiago
durante el mes de marzo por fracturas de menisco. Los datos han sido recogidos en la
siguiente tabla:

Y = Edad de pacientes ingresados en el Hospital Traumatológico de Santiago por fractura


de menisco.
X = Número de días que permanecen ingresados dichos pacientes.

Y [14 – 18[ [18 – 22[ [22 – 26[ [26 – 30[


X
[3 – 5[ 0,00 0,01 0,09 0,40
[5 – 7[ 0,08 0,06 0,03 0,01
[7 – 9] 0,30 0,02 0,00 0,00
Fuente: D. F.

127
Estadística Descriptiva Bivariada Unidad IV
III
Obtenga Razonadamente y explique brevemente el por qué y el significado de todos y cada
uno de los resultados de las siguientes preguntas:

a. Distribuciones condicionadas:
𝑋⁄𝑌 < 22
𝑋⁄𝑌 > 26
¿Cuál de las dos distribuciones condicionadas es más homogénea y por qué?

b. ¿Cuál es el porcentaje de pacientes con edad inferior a 26 años y mayores a 18


años?
c. Calcule la media aritmética de la siguiente distribución, sabiendo que se consideró
una muestra de 300 pacientes:
𝑌⁄5 < 𝑋 < 7
d. Analice razonadamente la dependencia entre las variables.
e. En el mes de marzo una persona estuvo ingresada en el Hospital Traumatológico de
Santiago por una rotura de menisco 7 días y afirma tener 18 años. Comente la
posible veracidad y fiabilidad de la afirmación.
6.- Recientemente, el departamento de Investigación y Desarrollo de los laboratorios
farmacéuticos Balleras ha realizado un estudio sobre la influencia de la edad en el consumo
de medicamentos. Para ello, eligió una muestra de 100 individuos, cuyas edades, junto con
las cantidades, en miles pesos, que gastaron en medicinas durante un año, aparecen
recogidas en la siguiente tabla:

Edad (años)
[0 – 15[ [15 – 30[ [30 – 60[ [60 – 100]
Gasto (miles)
[0 – 30[ 5 7 5 3

[30 – 90[ 12 2 15 21

[90 – 180] 3 1 10 16
Fuente: D. F.

a. Obtenga la distribución de frecuencias de la variable gasto en medicinas y calcule el


promedio y mediana del gasto.
b. Halle la distribución de frecuencias de la variable edad y calcule el promedio y
desviación estándar de la edad.
c. ¿Cuál es la distribución de frecuencias de la edad condicionada a un nivel de gasto
comprendido entre 30 y 90 mil pesos?
d. Calcule la distribución de frecuencias del gasto para una edad comprendida entre 60
y 100 años.

128
Estadística Descriptiva Bivariada Unidad IV
III
4.2 MEDIDAS DE ASOCIACIÓN PARA VARIABLES CUANTITATIVAS.

EJERCICIOS RESUELTOS

1.- Se han registrado las siguientes puntuaciones en las pruebas de Música (X) y de
Matemática (Y), obtenidas por una muestra de niños de 10 años de un colegio de la Zona
Austral.

𝑋 𝑌 𝑋∙𝑌
5 6 30
7 8 56
8 7 56
5 6 30
9 10 90
4 5 20
5 5 25
5 7 35
7 6 42
8 9 72
Fuente: D. F.
𝑋̅ = 6,3 𝑌̅ = 6,9 ∑(𝑋 ∙ 𝑌) = 456

Calcule la covarianza. Interprete.

Solución:

(𝑋 ∙ 𝑌) 456
𝑆𝑋𝑌 = ∑ − (𝑋̅ ∙ 𝑌̅) = − (6,3 ∙ 6,9) = 2,13
𝑛 10

Interpretación: las variables puntaje de la prueba de música y puntaje de la prueba de


matemática están asociadas positivamente.

2.- Se tiene una muestra de las puntuaciones de 10 estudiantes en la primera y segunda


prueba del curso de Estadística Descriptiva y Nociones de Probabilidad.

Primera Prueba 60 74 66 34 60 66 57 71 39 57
Segunda Prueba 72 82 75 46 73 74 70 82 60 61 Fuente: D. F.

Calcule el coeficiente de correlación lineal e interprete el resultado.

129
Estadística Descriptiva Bivariada Unidad IV
Solución:
III

Sean:

X: Puntaje de la primera prueba.


Y: Puntaje de la segunda prueba.

∑ 𝑥𝑖 584
𝑥̅ = = = 58,4
𝑛 10
∑(𝑥𝑖 − 𝑥̅ )2 1498,4
𝑠𝑥2 = = = 149,84
𝑛 10
𝑠𝑥 = √𝑠𝑥2 = √149,84 ≈ 12,2409

∑ 𝑦𝑖 695
𝑦̅ = = = 69,5
𝑛 10
2
∑(𝑦𝑖 − 𝑦̅)2 1096,5
𝑠𝑦 = = = 109,65
𝑛 10
𝑠𝑦 = √𝑠𝑦2 = √109,65 ≈ 10,4714
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 1207
𝑠𝑥𝑦 = = = 120,7
𝑛 𝑛

Coeficiente de correlación:

𝑠𝑥𝑦 120,7
𝑟= = ≈ 0,9416
𝑠𝑥 𝑠𝑦 12,2409 ∙ 10,4714

Interpretación: si existe asociación lineal entre las variables porque 𝑟 = 0,9416, lo que
indica que hay una buena correlación lineal entre los puntajes de la primera y segunda
prueba, ya que esto se gráfico en un diagrama de dispersión y con eso se confirma lo
bueno de r.

3.- A un grupo de alumnos se les examina de teoría (X) y práctica (Y) de una asignatura.
La nota global de dicha asignatura (Z) se obtiene de la siguiente forma:

𝑍𝑘 = 𝑋𝑖 + 𝑌𝑗 𝑖=𝑗=𝑘

Compare la Homogeneidad de la distribución de la nota global en los dos casos siguientes:

a. Las variables X e Y están totalmente correlacionadas.


b. Las variables X e Y son totalmente independientes.

130
Estadística Descriptiva Bivariada Unidad IV
Solución:
III

Zk = Xi + Yj i=j=k

∑ Zk nk ∑(Xk + Yk )nk ∑ Xk nk ∑ Yk nk
Z̅ = = = + ̅+Y
=X ̅
N N N N
2 2
̅+Y
∑(Zk − Z̅)2 ∑ ((Xi + Yj ) − (X ̅)) ∙ nij ∑ ((Xi − X ̅) + (Yj − Y̅)) ∙ nij
Sz2 = = = =
N N N
2
̅)2 ∙ ni ∑(Yj − ̅
∑(Xi − X Y) ∙ nj ∑(Xi − ̅X)(Yj − ̅
Y) ∙ nij
= + +2 = Sx2 + SY2 + 2SXY
N N N
SZ
CV(Z) =

√S2x +S2Y +2SXY


a.1 r = +1 ⇒ SXY > 0 ⇒ CV(Z) = ̅ +Y
̅
X
√S2x +S2Y −2SXY
a.2 r = −1 ⇒ SXY < 0 ⇒ CV(Z) = ̅ +Y
̅
X
√S2x +S2Y
b. r = 0 ⇒ SXY = 0 ⇒ CV(Z) = ̅ +Y
̅
X

La variable es más homogénea es aquella que tiene menor coeficiente de variación.


El 𝐶𝑉(𝑍) en el caso a.1 siempre será mayor que el 𝐶𝑉(𝑍) del caso b.
El 𝐶𝑉(𝑍) en el caso a.2 siempre será menor que el 𝐶𝑉(𝑍) del caso b.
Luego la más homogénea será cuando existe correlación perfecta negativa.

4.- La siguiente tabla expone la distribución de frecuencias bidimensional de las variables


X, ingresos en millones de pesos, en concepto de permisos de circulación, e Y, gastos en
mantenimiento de calles, en millones de pesos, de un grupo de municipalidades.

Gasto en mantenimiento de calles en millones

Y [6,5 – 13,5[ [13,5 – 14,5[ [14,5 – 15,5]


Ingreso en millones

X
[5 – 55[ 0,08 0,02 0,06

[55 – 65[ 0,02 0,13 0,04

[65 – 75] 0,12 0,13 0,22 Fuente: D. F.

131
Estadística Descriptiva Bivariada Unidad IV
a. ¿Cuál es el ingreso medio por municipalidad en concepto de permisos
III
de
circulación en las municipalidades cuyos gastos en mantenimiento de calles están
comprendidos entre 13,5 y 14,5 millones de pesos?
b. Obtenga el gasto medio por municipalidad en mantenimientos de calles entre las
municipalidades con ingresos por permisos de circulación entre 65 y 75 millones de
pesos.
c. ¿Cuál de las dos medias es más representativa?

Solución:

a. El ingreso medio es la media de la distribución condicionada (𝑋̅/𝑌 = 𝑦2 ; 𝑓𝑖/2 ),


donde 𝑦2 es la marca de clase del intervalo 13,5 – 14,5.

Los valores de esta distribución de frecuencias son los valores de la variable X, siendo
la frecuencia relativa del valor genérico 𝑥𝑖 , marca de clase del intervalo genérico.

𝑓𝑖2
𝑓𝑖/2 =
𝑓⦁2

De este modo se obtiene la tabla de distribución de frecuencias condicionada:

𝑥𝑖 /𝑌 = 𝑦2 𝑓𝑖/2
0,02
30 = 0,072
0,28
0,13
60 = 0,464
0,28
0,13
70 = 0,464
0,28

Luego calculamos la media de la distribución condicionada con la información de la tabla.

𝑥̅ /(𝑌 = 𝑦2 ) = ∑ 𝑥𝑖 ∙ 𝑓 𝑖 = 62,48 𝑚𝑖𝑙𝑙𝑜𝑛𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠.


2
b. El gasto medio por municipalidad en mantención de calles entre las
municipalidades con ingresos por permisos de circulación entre 65 y 75 millones de
pesos es la media de la distribución condicional (𝑦𝑗 /𝑋 = 𝑥3 ; = 𝑓𝑗/3 ), con 𝑥3 = 70,
marca de clase del intervalo 65-75.

Los valores de esta distribución son 10, 14, 15, marcas de clase de los intervalos en los que
están agrupados los datos de la variable Y, respondiendo a las frecuencias relativas a la
siguiente expresión:

132
Estadística Descriptiva Bivariada Unidad IV
𝑓3𝑗
III
𝑓𝑗/3 =
𝑓3⦁

Al aplicar ésta relación a cada uno de los valores de la variable se obtiene la siguiente
tabla de distribución condicionada.

𝑦𝑗 /𝑋 = 𝑥3 𝑓𝑗/3

0,12
10 = 0,255
0,47

0,13
14 = 0,277
0,47

0,22
15 = 0,468
0,47

La media de la distribución conjunta condicionada es:

𝑦̅/𝑋 = 𝑥3 = ∑ 𝑦𝑗 ∙ 𝑓𝑗 = 13,448 𝑚𝑖𝑙𝑙𝑜𝑛𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠.


3

c. Para estudiar la representatividad se puede utilizar el coeficiente de variación de


cada una.
𝑠𝑋/𝑌=𝑦2
𝐶𝑉(𝑋̅/𝑌 = 𝑦2 ) =
𝑥̅ /(𝑌 = 𝑦2 )

2
𝑠𝑋/𝑌=𝑦2
= ∑ 𝑥𝑖2 ∙ 𝑓𝑖/2 − (𝑥̅ /(𝑌 = 𝑦2 ))2 = 105,05

2
𝑠𝑋/𝑌=𝑦2 = √𝑠𝑋/𝑌=𝑦2
= √105,05 = 10,25 𝑚𝑖𝑙𝑙𝑜𝑛𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠.
Por lo tanto,
10,25
𝐶𝑉(𝑋̅/𝑌 = 𝑦2 ) = = 0,16
62,48

Por otra parte,


𝑠𝑌/𝑋=𝑥3
𝐶𝑉(𝑌̅/𝑋 = 𝑥3 ) =
𝑦̅/(𝑋 = 𝑥3 )
2
𝑠𝑌/𝑋=𝑥 3
= ∑ 𝑦𝑗2 ∙ 𝑓𝑗/3 − (𝑦̅/(𝑋 = 𝑥3 ))2 = 4,24

2
𝑠𝑌/𝑋=𝑥3 = √𝑠𝑌/𝑋=𝑥 3
= √4,24 = 2,06 𝑚𝑖𝑙𝑙𝑜𝑛𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠.

133
Estadística Descriptiva Bivariada Unidad IV
Por lo tanto,
III
2,06
𝐶𝑉(𝑌̅/𝑋 = 𝑥3 ) = = 0,15
13,448

El coeficiente de variación de 𝐶𝑉(𝑌̅/𝑋 = 𝑥3 ) = 0,15 es más pequeño que 𝐶𝑉(𝑋̅/𝑌 =


𝑦2 ) = 0,16, pero la diferencia es muy ínfima entre ambos coeficientes, por ende no
podemos afirmar que una de las medias es más representativa que la otra, en conclusión
ambas medias tienen similar coeficiente de variación.

134
Estadística Descriptiva Bivariada Unidad IV
III
EJERCICIOS PROPUESTOS

1.- Se está estudiando la relación entre el número de años que una persona está afiliada al
sindicato y el nivel de satisfacción con la actuación de dicho sindicato (nivel de
satisfacción de 1 a 10). Para ello se parte de los datos de 6 individuos tomados
aleatoriamente de personas adscritas a partidos políticos, obteniéndose:

Años 8 7 10 3 6 13
Satisfacción 7 5 8 5 9 9 Fuente: D. F.

a. Calcule el coeficiente de correlación lineal. Interprete el resultado obtenido.


b. Prediga el índice de satisfacción de una persona que lleva 11 años militando en el
sindicato. Conociendo que el índice de satisfacción es de 6 predecir los años que
lleva en el sindicato.

2.- Las siguientes son las calificaciones obtenidas por los 25 alumnos de un grupo de
Bachillerato en las asignaturas de Biología y Química:

B 4 5 5 5 6 6 6 5 5 7 7 7 7 7 7 5 4 3 2 2 7 7 6 5 5
Q 3 5 5 6 7 7 7 7 7 7 4 4 5 6 2 2 4 7 6 5 7 7 5 4 4
Fuente: D. F.
a. Obtenga la tabla de frecuencias conjunta.
b. ¿Qué proporción de alumnos obtienen más de un cinco en ambas asignaturas? ¿Qué
proporción de alumnos obtienen más de un cinco en Biología? ¿Qué proporción de
alumnos obtienen más de un cinco en Química?
c. Obtenga la distribución de frecuencias condicionales de la calificación en Biología
de los estudiantes que obtuvieron un 6 en Química ¿Qué proporción de estos
estudiantes obtuvieron la mejor nota en Biología?
d. Obtenga el coeficiente de correlación. Interprete el resultado.

3.- Se calculó el coeficiente de correlación entre las puntuaciones en dos test X e Y en dos
muestras de sujetos pertenecientes a dos países A y B. Para la muestra A se obtuvo un
𝑟𝑋𝑌 = 0,3 mientras que para la muestra B un 𝑟𝑋𝑌 = 0,6

a. ¿Qué se puede decir en términos comparativos acerca de la asociación entre X e Y


en ambos países?

135
Estadística Descriptiva Bivariada Unidad IV
4.- La relación entre el precio de un producto y el volumen de consumo es la siguiente:
III

Precio 180 220 260 300 340

Consumo 1.905 2.370 2.835 3.300 3.765

Fuente: D. F.

Halle el valor del coeficiente de correlación.

5.- El departamento de Marketing de un grupo financiero ha realizado un estudio sobre la


influencia de la renta en las decisiones de inversión de sus clientes. Para ello eligió una
muestra de 20 clientes, cuya renta anual, junto con las cantidades invertidas en un cierto
año, en millones de pesos, aparecen recogidas en la siguiente tabla:

Inversión [0 – 4[ [4 – 8[ [8 – 12]
Renta
[6 – 14[ 4 2 0
[14 – 26[ 2 2 3
[26 – 34] 0 1 6
Fuente: D. F.
a. Halle las medias y varianzas de las variables consideradas.
b. ¿Cuál es la covarianza entre la inversión y la renta?
c. ¿Cuál sería el valor de la covarianza si cada cliente aumentara su inversión en un
millón de pesos?¿Qué valor tendría la covarianza si la renta de cada cliente se
incrementa en un 6%?

136
Estadística Descriptiva Bivariada Unidad IV
III
4.3 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE.

EJERCICIOS RESUELTOS

1.- La siguiente tabla muestra las edades en años de hombres y mujeres a la hora de casarse.

Esposo 40 36 20 18 60 50
Esposa 27 25 17 16 37 32

a. Halle las rectas de regresión de las variables.


b. Halle e interprete el grado de correlación.
Solución:

a.
X: Edad esposo. Y: Edad esposa.
Esposos(X) Esposas(Y) 𝑋 2 𝑌2 𝑋𝑌
40 27 1600 729 1080
36 25 1296 625 900
20 17 400 289 340
18 16 324 256 288
60 37 3600 1369 2220
50 32 2500 1024 1600
Total 224 154 9720 4292 6428

∑𝑌 154
𝑌̅ = 𝑁 𝑗 = 6 = 25,7 𝑎ñ𝑜𝑠

∑𝑋 224
𝑋̅ = 𝑁 𝑖 = 6 = 37,3 𝑎ñ𝑜𝑠

∑ 𝑌𝑗2 4292
𝑆𝑌2 = − 𝑌̅ 2 = − (25,7)2 = 54,84 𝑎ñ𝑜𝑠 2
𝑁 6

∑ 𝑋𝑖2 9720
𝑆𝑌2 = − 𝑋̅ 2 = − (37,3)2 = 228,71 𝑎ñ𝑜𝑠 2
𝑁 6

𝑆𝑌 = +√𝑆𝑌2 = +√54,84 = 7,41 𝑎ñ𝑜𝑠

𝑆𝑋 = +√𝑆𝑋2 = +√228,71 = 15,12 𝑎ñ𝑜𝑠


∑ 𝑋𝑖 𝑌𝑗 6428
𝑆𝑋𝑌 = − 𝑋̅𝑌̅ = − (25,7)(37,3) = 112,72
𝑁 6

137
Estadística Descriptiva Bivariada Unidad IV
𝑆𝑋𝑌 112,72
III
𝑏= 2 = 228,71 = 0,49
𝑆𝑋

𝑎 = 𝑌̅ − 𝑏𝑋̅ = 25,7 − 0,49 ∙ 37,3 = 7,42

Recta: 𝑌̂ = 7,42 + 0,49𝑋

b.
𝑆 112,72
𝑟 = 𝑆 𝑋𝑌 = (7,41)(15,12) = 1 𝑟2 = 1
𝑆
𝑥 𝑌

Hay una fiabilidad de un 100%, lo que nos indica que es muy buena la relación lineal entre
ambas variables.

2.- Con objeto de analizar si existe relación lineal entre el consumo de energía eléctrica
(kw. hora), variable X y el volumen de producción en millones de pesos, variable Y, de una
empresa se ha obtenido la siguiente información:

𝑥̅ = 0,151; 𝑦̅ = 94,6; 𝑆𝑥 = 0,055; 𝑆𝑦 = 56,248; 𝑆𝑥𝑦 = −2,870

Ajuste la recta de regresión lineal que explica el consumo de electricidad en 𝑓𝑖 del volumen
de producción. Interprete la validez de la recta ajustada.

Solución:

𝑆𝑋𝑌 −2,870
𝑏= 2 = = −948,76 𝑎 = 𝑌̅ − 𝑏𝑋̅ = 94,6 − (−948,76) ∙ (0,151) = 237,86
𝑆𝑋 0,0552

Recta: 𝑌̂ = 237,86 − 948,76𝑋

La validez de la recta se puede interpretar por medio del coeficiente de correlación

𝑆𝑋𝑌 −2,870
𝑟= = = −0,93
𝑆𝑥 𝑆𝑌 (0,055)(56,248)

Al ser -0,93 nos indica que hay una alta asociación lineal inversa entre las variables

138
Estadística Descriptiva Bivariada Unidad IV
3.- Se está estudiando la relación existente entre los años de estudio realizados por los
III
padres y los estudios realizados por los hijos en 14 personas.

Entrevistados Padres Hijos


A 12 12
B 10 8
C 6 6
D 16 11
E 8 10
F 9 8
Fuente: D. F.
G 12 11

Analice y establezca la posible dependencia y correlación entre ambas variables. Ajuste un


modelo de regresión.
Solución:

Entrevistados Padres(X) Hijos(Y) 𝑋 2 𝑌 2 𝑋𝑌


A 12 12 144 144 144
B 10 8 100 64 80
C 6 6 36 36 36
D 16 11 256 121 176
E 8 10 64 100 80
F 9 8 81 64 72
G 12 11 144 121 132 Fuente: D. F.
Total 73 66 825 666 720

∑𝑌 66
𝑌̅ = 𝑁 𝑗 = 7 = 9,43 𝑎ñ𝑜𝑠

∑𝑋 73
𝑋̅ = 𝑁 𝑖 = 7 = 10,43 𝑎ñ𝑜𝑠

∑ 𝑌𝑗2 666
𝑆𝑌2 = − 𝑌̅ 2 = 7 − (9,43)2 = 6,2 𝑎ñ𝑜𝑠 2
𝑁

∑ 𝑋𝑖2 825
𝑆𝑌2 = − 𝑋̅ 2 = − (10,43)2 = 9,07 𝑎ñ𝑜𝑠 2
𝑁 7

𝑆𝑌 = +√𝑆𝑌2 = +√6,2 = 2,49 𝑎ñ𝑜𝑠

𝑆𝑋 = +√𝑆𝑋2 = +√9,07 = 3,01 𝑎ñ𝑜𝑠

139
Estadística Descriptiva Bivariada Unidad IV
∑ 𝑋𝑖 𝑌𝑗 720
III
𝑆𝑋𝑌 = − 𝑋̅𝑌̅ = − (9,43)(10,43) = 4,5
𝑁 7
𝑆 4,5
𝑟 = 𝑆 𝑋𝑌 = (3,01)(2,49) = 0,60
𝑆
𝑥 𝑌

𝑟 2 = (0,60)2 = 0,36

Hay un 36% de fiabilidad. Aunque no es muy grande nos indica que no es demasiado
buena la relación lineal entre ambas variables. De todas formas podemos establecer la
siguiente relación:

𝑆𝑋𝑌 4,5
𝑏= 2 = 9,07 = 0,49
𝑆𝑋

𝑎 = 𝑌̅ − 𝑏𝑋̅ = 9,43 − 0,49 ∙ 10,43

Recta: 𝑌̂ = 4,32 + 0,49𝑋

6.- Demuestre que, si existe dependencia lineal perfecta entre las variables X e Y, esto es si

𝑌 =𝑎+𝑏∙𝑋

donde 𝑎 y 𝑏 son números reales, 𝑏 ≠ 0, entonces,

|𝑆𝑥𝑦 | = 𝑠𝑥 ∙ 𝑠𝑦

Solución:

Por las propiedades de la varianza, si 𝑠𝑥2 es la varianza de la variable X, entonces, la


varianza de la variable Y es

𝑠𝑦2 = 𝑏 2 ∙ 𝑠𝑥2

y en consecuencia, su desviación típica es

𝑠𝑦 = |𝑏| ∙ 𝑠𝑥

Para calcular la covarianza entre Xe Y, hay que considerar que para cada valor de la
variable X, 𝑥𝑖 , existe un valor de la variable 𝑌 = 𝑎 + 𝑏 ∙ 𝑥𝑖 , con lo cual, puede escribirse
un único sumatorio en la expresión de 𝑠; además, por las propiedades de la media
aritmética, se cumple que 𝑦̅ = 𝑎 + 𝑏 ∙ 𝑥̅ . Teniendo en cuenta estos comentarios, la
covarianza entre las variables X e Y es

𝑆𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ ) ∙ [(𝑎 + 𝑏 ∙ 𝑥𝑖 ) − (𝑎 + 𝑏 ∙ 𝑥̅ )] ∙ 𝑓𝑖 = 𝑏 ∑(𝑥𝑖 − 𝑥̅ ) ∙ 𝑓𝑖 = 𝑏 ∙ 𝑠𝑥2

140
Estadística Descriptiva Bivariada Unidad IV
Por tanto, tomando módulos en la expresión anterior, se tiene, por un lado,
III

|𝑆𝑥𝑦 | = |𝑏| ∙ 𝑠𝑥2

y, por otro lado, el producto de las desviaciones típicas es

𝑠𝑥 ∙ 𝑠𝑦 = 𝑠𝑥 ∙ |𝑏| ∙ 𝑠𝑥 = |𝑏| ∙ 𝑠𝑥2

En definitiva, comparando ambas expresiones:

|𝑆𝑥𝑦 | = 𝑠𝑥 ∙ 𝑠𝑦

según queríamos demostrar.

Se concluye, por lo tanto, que, si la relación entre la variables es creciente, esto es, si 𝑏 >
0, entonces,

𝑆𝑥𝑦 = 𝑏 ∙ 𝑠𝑥2

es una cantidad positiva, con lo cual, |𝑆𝑥𝑦 | = 𝑆𝑥𝑦 , y

𝑆𝑥𝑦 = 𝑠𝑥 ∙ 𝑠𝑦

siendo, en tal caso, el coeficiente de correlación lineal,

𝑆𝑥𝑦
𝑟=
𝑠𝑥 ∙ 𝑠𝑦

igual a 1.

Por el contrario, si la relación entre X e Y es decreciente, es decir, si 𝑏 < 0, entonces,

𝑆𝑥𝑦 = 𝑏 ∙ 𝑠𝑥2

es menor que cero, siendo, en ese caso, |𝑆𝑥𝑦 | = −𝑆𝑥𝑦 y verificándose que

𝑆𝑥𝑦 = −𝑠𝑥 ∙ 𝑠𝑦

con lo cual, el coeficiente de correlación lineal, 𝑟, toma el valor -1.

141
Estadística Descriptiva Bivariada Unidad IV
III
EJERCICIOS PROPUESTOS

1.- Las notas obtenidas por 9 alumnos en las pruebas finales del primer semestre y del
segundo son:
1° 5 7 6 7 3 4 2 4 6
2° 6 5 6 6 4 2 4 3 7

a. Existe correlación entre los resultados.


b. Realice las rectas de regresión de y sobre x y de x sobre y

2.- En una empresa se toma una muestra de 100 trabajadores con la finalidad de estudiar si
hay relación entre su edad X y los días que están con licencia en el año Y. Se obtuvieron los
siguientes resultados:

X/Y [0 – 20[ [20 – 40[ [40 – 60] Total


[20 – 30[ 28 2 0 30
[30 – 40[ 26 15 4 45
Fuente: D. F.
[40 – 50] 6 14 5 25

a. ¿Es simétrica la distribución del número de días de licencia de los trabajadores?


b. ¿Cuál es la edad más frecuente de los trabajadores que piden licencia en el año?
c. Ajuste un modelo de regresión lineal.

3.- En un depósito cilíndrico, la altura del agua que contiene varia conforme pasa el tiempo
según esta tabla:

Tiempo (h) 8 22 27 33 50
Fuente: D. F.
Altura (m) 17 14 12 11 6

a. Obtenga el coeficiente de correlación lineal entre el tiempo y la altura e interprételo.


b. ¿Cuál será la altura del agua cuando hayan transcurrido 40 horas?
c. Cuando la altura del agua es de 2m, suena una alarma ¿Qué tiempo ha de pasar para
que avise la alarma?

4.- En un determinado estudio médico se pretende medir la relación existente entre la


exposición al ruido y la hipertensión. Se obtuvieron los siguientes datos:

Y 1 0 1 2 5 1 4 6 2 3 5 4 6 8 4 5 7 9 7 6
X 60 63 65 70 70 70 80 80 80 80 85 89 90 90 90 90 94 100 100 100
Fuente: D. F.
Donde X representa la presión sonora en decibeles, e Y el aumento de la presión sanguínea
en Miligramos.

a. Realice un diagrama de dispersión de Y respecto a X.


b. Realice el modelo de regresión lineal simple. Interprete.

142
Estadística Descriptiva Bivariada Unidad IV
III
5.- El consumo y la renta mensual de 100 familias expresadas en miles de pesos, son los
siguientes: X= (Consumo) Y = (Renta)

Renta en miles

𝑋 𝑌 150 250 350 450

Consumo
en miles
300 10 15 0 0
400 5 20 25 0
500 0 15 5 5 Fuente: D. F.

a. Calcule la recta de regresión lineal de la renta sobre el consumo.


b. ¿Cuánto explica el modelo de regresión lineal?
c. ¿Cuál es el consumo para una renta de 241.000?

143
Estadística Descriptiva Bivariada Unidad IV
III
4.4 GRÁFICOS QUE MUESTRAN ASOCIACIÓN ENTRE VARIABLES.

EJERCICIOS RESUELTOS

1.- Los puntajes de 10 estudiantes de las clases de Matemática y en Física han sido las
siguientes:

Matemática 7 6 4 5 9 10 3 1 10 6
Física 8 6 3 6 10 9 1 2 10 5
Fuente: D. F.

Represente los datos mediante una nube de puntos e indique cuál de estos valores es más
apropiado para el coeficiente de correlación: 0,23; 0,94; -0,37; -0,94.

Solución:
Física

Matemática

De la representación gráfica se observa que el coeficiente de correlación es positivo y alto,


por lo tanto, 𝑟 = 0,94.

144
Estadística Descriptiva Bivariada Unidad IV
III
2.- Los números 0,1; 0,99; 0,6 y 0,89 son los valores absolutos del coeficiente de
correlación de las distribuciones bidimensionales cuyas nubes de puntos están dibujadas a
continuación. Asigne a cada diagrama su coeficiente de correlación correspondiente,
cambiando el signo cuando sea necesario.

Solución:

a. 𝑟 = 0,89
b. 𝑟 = 0,1
c. 𝑟 = −0,6
d. 𝑟 = −0,99

3.- Dada la distribución Bidimensional.

𝑋 10 20 30 40 50
Fuente: D. F.
𝑌 200 180 150 120 100

a. Ajuste una recta de regresión lineal. ¿tiene sentido el modelo? Apoye su respuesta
gráficamente.
b. Calcule el coeficiente de correlación.
Solución:

a.
X Y 𝑋2 𝑌2 𝑋𝑌
10 200 100 40000 2000
20 180 400 32400 3600
30 150 900 22500 4500
40 120 1600 14400 4800
50 100 2500 10000 5000
Fuente: D. F.
Total 150 750 5500 119300 19900

∑𝑌 750
𝑌̅ = 𝑁 𝑗 = 5 = 150

∑𝑋 150
𝑋̅ = 𝑖 = = 30
𝑁 5

145
Estadística Descriptiva Bivariada Unidad IV
III
∑ 𝑌𝑗2 119300
𝑆𝑌2 = − 𝑌̅ 2 = − (150)2 = 1360
𝑁 5

∑ 𝑋𝑖2 5500
𝑆𝑌2 = − 𝑋̅ 2 = − (30)2 = 200
𝑁 5

𝑆𝑌 = +√𝑆𝑌2 = +√1360 = 36,88

𝑆𝑋 = +√𝑆𝑋2 = +√200 = 14,14

∑ 𝑋𝑖 𝑌𝑗 19900
𝑆𝑋𝑌 = − 𝑋̅𝑌̅ = − (150)(30) = −520
𝑁 5
𝑆𝑋𝑌 −520
𝑏= 2
𝑆𝑋
= 200
= −2,6

𝑎 = 𝑌̅ − 𝑏𝑋̅ = 150 − (−2,6) ∙ 30 = 228

Recta: 𝑌̂ = 228 − 2,6𝑋


Variable Y

Variable X

b.
𝑆 −520
𝑟 = 𝑆 𝑋𝑌 = (14,14)(36,.88) = −0,99
𝑆 𝑥 𝑌

𝑟 2 = (−0,99)2 = 0,98

Hay un 98% de fiabilidad. Es un valor muy cercano a 1, lo que nos indica que es
demasiado buena la relación lineal entre ambas variables, pero como el valor de 𝑟 es
menor que cero la relación lineal es inversa.

146
Estadística Descriptiva Bivariada Unidad IV
III
4.- Dadas las variables estadísticas correspondientes a las edades de 5 niños y sus pesos
respectivos, hallar las rectas de regresión, su representación gráfica y su coeficiente de
correlación.

Edad en años 2 4 6 7 8
Peso en Kg. 15 19 25 33 34

Solución:
X Y 𝑋2 𝑌2 𝑋𝑌
2 15 4 225 30
4 19 16 361 76
6 25 36 625 150
7 33 49 1089 231
8 34 64 1156 272 Fuente: D. F.
Total 27 126 169 3456 759

∑𝑌 126
𝑌̅ = 𝑁 𝑗 = 5 = 25,2 𝑘𝑖𝑙𝑜𝑔𝑟𝑎𝑚𝑜𝑠

∑𝑋 27
𝑋̅ = 𝑁 𝑖 = 5 = 5,4 𝑎ñ𝑜𝑠

∑ 𝑌𝑗2 3456
𝑆𝑌2 = − 𝑌̅ 2 = − (25,2)2 = 56,16
𝑁 5

∑ 𝑋𝑖2 169
𝑆𝑌2 = − 𝑋̅ 2 = 5 − (5,4)2 = 4,64 𝑘𝑔2
𝑁

𝑆𝑌 = +√𝑆𝑌2 = +√56,16 = 7,49 𝑎ñ𝑜𝑠 2

𝑆𝑋 = +√𝑆𝑋2 = +√4,64 = 2,15

∑ 𝑋𝑖 𝑌𝑗 759
𝑆𝑋𝑌 = − 𝑋̅𝑌̅ = − (5,4)(25,2) = 15,72
𝑁 5

𝑆𝑋𝑌 15,72
𝑏= 2 = = 3,39
𝑆𝑋 4,64

𝑎 = 𝑌̅ − 𝑏𝑋̅ = 25,2 − 3,39 ∙ 5,4 = 6,8

Recta: 𝑌̂ = 6,89 + 3,39𝑋

147
Estadística Descriptiva Bivariada Unidad IV
III

Peso

Edad

𝑆 15,72
𝑟 = 𝑆 𝑋𝑌 = (2,15)(7,49) = 0,976
𝑆 𝑥 𝑌

𝑟 2 = (0,976)2 = 0,952

Hay un 95,2% de fiabilidad. Es un valor muy cercano a 1, lo que nos indica que es
demasiado buena la relación lineal entre ambas variables, la relación lineal es directa.

148
Estadística Descriptiva Bivariada Unidad IV
III
EJERCICIOS PROPUESTOS

1.- En un estudio sobre el sexismo en el trabajo se contrastaron las variables sexo y nivel de
ingresos. Los resultados obtenidos sobre una muestra de 528 individuos se presentan en la
siguiente tabla de doble entrada:

Nivel de ingreso
Alto Medio Bajo Bajo Total
Hombre 50 135 78 263
Género

Mujer 20 147 98 265


Total 70 282 176 528 Fuente: D. F.

a. Represente gráficamente las variables en estudio.


b. ¿Qué medida descriptiva del nivel de asociación entre ambas variables es posible
calcular? Justifique.

2.- Una compañía discográfica ha recopilado la siguiente información sobre 20 grupos


musicales, a saber, el número de conciertos dados este verano y las ventas de discos de
estos grupos (en miles de LPs), obteniendo los siguientes datos:

Número de conciertos
LPs [10 – 30[ [30 – 50[ [50 – 70]
Ventas

[1 – 6[ 3 2 1
[6 – 11[ 1 4 1
[11 – 16] 2 1 5 Fuente: D. F.

a. Calcule el número medio de LPs vendidos por estos grupos.


b. Obtenga la recta de regresión que explica la dependencia lineal
c. Si un grupo musical ha vendido 1800 LPs, ¿Qué número de conciertos se prevé que
dé este verano?

3.- El consumo de productos farmacéuticos y sanitarios y la renta mensual familiar en una


muestra de 5 hogares son los siguientes:

Consumo 100 150 180 200 210


Renta 20.000 25.000 35.000 40.000 45.000 Fuente: D. F.

a. Identifique la variable independiente y dependiente.


b. Realice una representación gráfica de la nube de puntos.

149
Estadística Descriptiva Bivariada Unidad IV
III
4.- En el departamento de personal de un determinado Banco del centro de Santiago, se ha
realizado un estudio queriendo constatar si la edad de los empleados está en relación con el
número de días que no se asiste al trabajo. Los resultados numéricos son:

Edad
[20 – 29[ [29 – 38[ [38 – 47[ [47 – 56[ [56 – 65[
[65 – 72[ 0 1 8 7 16
Ausencia
Días de

[58 – 65[ 2 6 10 2 4
[51 – 58[ 5 9 5 0 1
[44 – 51] 14 6 2 2 0 Fuente: D. F.

a. Establezca una función lineal que relacione las dos variables.


b. Grafique la función establecida.

5.- La siguiente tabla muestra el número de gérmenes patógenos por centímetro cúbico de
un determinado cultivo según el tiempo transcurrido:

N° de Horas 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
N° de gérmenes 20 26 33 41 47 53 56 58 61 65 67 69 70 75 78 82

a. Determine la recta de regresión para predecir el número de gérmenes por centímetro


cúbico en función del tiempo.
b. Grafique la función establecida.
c. ¿Qué cantidad de gérmenes por centímetro cúbico es predecible encontrar cuando
hayan transcurrido 6 horas? ¿Es buena esa predicción?

150
Estadística Descriptiva Bivariada Unidad IV
III
6.- La siguiente noticia fue extraída del diario Publimetro, con la información expuesta en
ella responda las preguntas:

Fuente: Diario Publimetro, 2015.

a. Determine las rectas de regresión de Lectura sobre Matemática y Matemática sobre


Lectura, de los colegio con mejores promedio en sus resultados.
b. Grafique y calcule el centro de gravedad de la distribución.
c. ¿Existe relación entre las variables puntaje de Matemática y puntaje de Lectura?

Sabías que…

El punto de
intersección de
las rectas de
regresión es
llamado centro
de gravedad de
la distribución.

151
Estadística Descriptiva Bivariada Unidad IV
III
CONTROL UNIDAD

1.- Demuestre que:

a. 𝑆𝑥𝑦 = 𝑥𝑦
̅̅̅ − 𝑥̅ 𝑦̅

𝑓
b. ∑𝑐𝑗=1 ∑𝑖=1 𝑛𝑖𝑗 = 𝑛

𝑓
c. ∑𝑐𝑗=1 ∑𝑖=1 𝑓𝑖𝑗 = 1

𝑓
d. ∑𝑖=1 𝑛𝑖⋅ = 𝑛

e. ∑𝑐𝑗=1 𝑛⋅𝑗 = 𝑛

2.- Demuestre que el coeficiente de correlación lineal de la distribución (𝑥𝑖 , 𝑦𝑗 ; 𝑓𝑖𝑗 ) es igual
a la covarianza de las variables tipificadas.

152
Estadística Descriptiva Bivariada Unidad IV
III
EJERCICIOS TIPO PRUEBA

1.- En un estudio de la Seguridad e Higiene en el Trabajo se contrastó la incidencia del


tabaquismo en la gravedad de los accidentes laborales. Considerando una clasificación de
Muy fumador hasta No fumador como media del tabaquismo, y una clasificación de Muy
grave a Leve en el tipo de accidente. Se extrajo una muestra de 525 individuos que habían
sufrido un accidente laboral. Los resultados se presentan en la siguiente tabla de
contingencia (tabla de doble entrada):

Tipo accidente
Muy Grave Grave Lesiones Medias Leves
Muy Fumador 0,038 0,019 0,019 0,057
Hábito de
fumar

Fumador 0,057 0,076 0,038 0,095


Fumador Esporádico 0,019 0,114 0,152 0,114
Fuente: D. F.
No Fumador 0,009 0,038 0,057 0,095

a. Represente los datos anteriores gráficamente.


b. Calcule las distribuciones marginales para cada una de las variables de estudio.
c. Construya una tabla de distribución de frecuencias porcentuales donde aparezcan las
distribuciones marginales de cada variable.

2.- De una determinada empresa se conocen los siguientes datos, referidos al volumen de
ventas (en miles de millones de pesos) y al gasto en publicidad (en millones de pesos) de
los últimos 6 años:

Volumen de Ventas Gastos Publicidad


10 16
15 32
20 48
22 56
30 64
Fuente: D. F.
32 80

a. ¿Existe relación lineal entre las ventas de la empresa y sus gastos en publicidad?
Interprete la respuesta.
b. Obtenga la recta de regresión lineal.
c. ¿Qué volumen de ventas de la empresa se podría esperar en un año que se gaste de
publicidad 60 millones de pesos? ¿Y para un volumen de ventas de 20 mil millones
de pesos?

153
Estadística Descriptiva Bivariada Unidad IV
d.
III
Si lo único que interesara es la evolución del volumen de ventas en términos de
gastos en publicidad, sin tener en cuenta la cantidad concreta de cada uno de ellas,
¿Existe correlación lineal entre ambas variables?

3.- Dados los siguientes conjuntos de datos:

U 1 2 3 4 5 6 7 8 9 10
V 3 5 6 5 7 9 10 9 10 10
W 4,543 4,543 4,543 4,543 4,543 4,543 4,543 4,543 4,543 14,117
X 6,646 6,646 6 6 6 7 7 5,684 8,838 14,186
Fuente: D. F.

a. Dibuje el diagrama de dispersión de cada uno de los conjuntos de datos,


considerando las siguientes combinaciones de variables independientes y
dependientes respectivamente: U/V, U/W, U/X, V/W, V/X y W/X.
b. Calcule la recta de regresión de cada uno de los conjuntos de datos y dibujarla en el
diagrama de dispersión, considerando las siguientes combinaciones de variables
independientes y dependientes respectivamente: U/V, U/W, U/X, V/W, V/X y W/X
c. Calcule el coeficiente de correlación lineal para cada uno de los conjuntos.
d. ¿Qué podemos observar?

4.- Dada la siguiente distribución de frecuencias bidimensional:

Y
5 7
X
2 1 0 Fuente: D. F.
3 0 1

Describa, sin hacer operaciones, cuál es el valor del coeficiente de determinación lineal
entre X e Y.

154
Estadística Descriptiva Bivariada Unidad IV
III
5.- Se ha hecho un test a 100 atletas del Centro de Entrenamiento Olímpico de Santiago
(CEO), sobre sus marcas en 100 y 400 metros. Se he obtenido que la marca media en 100
metros es de 12,2 segundos con una desviación típica de 0,5 segundos, mientras que la
marca media en 400 metros es de 61,3 segundos con una desviación típica de 1 segundo. Si
el coeficiente de correlación lineal entre ambas pruebas es de 0,9.

a. ¿Puede asegurar que los corredores que son mejores en 100 metros lo son también
en 400 metros? Justifique su respuesta.
b. Halle y grafique la recta de regresión apropiada.
c. ¿Qué marca en 400 metros puede esperarse de un atleta que corre 100 metros en 11
segundos?

6.- Demuestre que las rectas de regresión de X sobre Y y de Y sobre X se cortan en el


punto (𝑥̅ , 𝑦̅).

155
Estadística Descriptiva Bivariada Unidad IV
III
LECTURA COMPLEMENTARIA.

1.- Algunas notas históricas sobre la correlación y regresión y su uso en el aula.


Antonio Estepa, María Gea, Gustavo Cañadas y José Contreras. Madrid, España.

Resumen

Los currículos actuales nos aconsejan introducir los conocimientos matemáticos a partir
de situaciones reales donde intervengan con sentido los objetos matemáticos a estudiar.
Una fuente importante de casos reales la proporciona la historia, donde podemos
encontrar las situaciones que dieron origen al descubrimiento de los objetos matemáticos e
identificar algunas dificultades en su desarrollo que podrían reproducirse en los
estudiantes. En este trabajo se analizan brevemente algunos hechos que dieron lugar a la
creación de las nociones de correlación y regresión y se hace una reflexión general sobre
los posibles usos de la historia de la matemática en la enseñanza.

2.- La estimación de la correlación: variables de tarea y sesgos de razonamiento.


María Gea, Carmen Batanero, Gustavo Cañadas, Pedro Arteaga y José Contreras.
Universidad de Venezuela, Caracas.

Resumen

La correlación es un concepto estadístico central, pues extiende la idea de dependencia


funcional a variables estadísticas. Sin embargo, la investigación previa ha descrito sesgos
de razonamiento y dificultades asociadas a su comprensión. En este trabajo se analiza la
importancia de la correlación como idea estocástica fundamental y su lugar en el currículo
español. Seguidamente nos centramos en las tareas de estimación de la correlación,
describiendo las principales variables que determinan su dificultad. Se resumen los
resultados de las investigaciones sobre concepciones erróneas y sesgos de razonamiento
identificados en las mismas. Finalmente se presentan algunas implicaciones para la
investigación y la enseñanza.

156

También podría gustarte