Estadistica 2: Descripcion de Datos Bivariantes

ESTADÍSTICA
GRADO EN INGENIERÍA TÉCNICA INDUSTRIAL
HOJA DE PROBLEMAS 2: DESCRIPCIÓN DE DATOS BIVARIANTES
1. En un taller mecánico una pieza pasa primero por la máquina 1 (X) y luego por la
máquina 2 (Y ). La siguiente tabla muestra los tiempos X e Y (en minutos) empleados
por diez piezas en cada máquina.
X 5 15 10 10 10 5 10 10 15 10
Y 10 15 15 10 10 15 20 15 20 20
Se pide:
a) Obtener la distribución de frecuencias relativas conjunta de los tiempos de ambas

máquinas.
Obtenemos en primer lugar la distribución de frecuencias absolutas conjunta
Y/X 5 10 15
10 1 2 0
15 1 2 1
20 0 2 1
dividiendo cada frecuencia absoluta entre el número total de observaciones (10),
obtenemos la distribución de frecuencias relativas conjunta
Y/X 5 10 15
10 0.1 0.2 0
15 0.1 0.2 0.1
20 0 0.2 0.1
b) Obtener las distribuciones de frecuencias relativas marginales, dando sus medias y
sus varianzas.
Sumando por filas y por columnas,
Y/X 5 10 15 Total
10 0.1 0.2 0 0.3
15 0.1 0.2 0.1 0.4
20 0 0.2 0.1 0.3
Total 0.2 0.6 0.2 1
Usando la tabla, calculamos las medias, multiplicando cada valor de X o Y por su
frecuencia relativa correspondiente.
x̄ = 5 × 0.2 + 10 × 0.6 + 15 × 0.2 = 10
ȳ = 10 × 0.3 + 15 × 0.4 + 20 × 0.3 = 15
1
Análogamente, para calcular las varianzas, usamos
s2x = 52 × 0.2 + 102 × 0.6 + 152 × 0.2 − 102 = 10
s2y = 102 × 0.3 + 152 × 0.4 + 202 × 0.3 − 152 = 15

c) Calcular la covarianza entre ambas variables X e Y , interpretando el resultado.
10
1 X 1
sxy = xi yj − x̄ȳ = (5 · 10 + 15 · 15 + . . . + 10 · 20) − 10 · 15 = 5
10 i=1 10
Una covarianza positiva significa que ambas variables evolucionan conjuntamente, de

manera que crecen o decrecen simultáneamente. De esta forma cuanto más tiempo
invierta una pieza en la máquina X más tiempo se esperará que necesite también en
la máquina Y .
2. Tras preguntar a 300 estudiantes, se ha obtenido que el 10 % fuma y el 40 % eran del sexo
femenino. Construye la tabla de frecuencias absolutas de estos 300 estudiantes para las
variables Fuma/No Fuma y Chico/Chica, sabiendo que el número de chicos que fuma es
igual al número de chicas que fuma.
Definimos las variables X =Chico/Chica, Y =Fuma/No Fuma.
Y /X Chicas Chicos Total fumadores

Fuma 15 15 30
No fuma 105 165 270
Total por sexo 120 180 300
3. Dada la tabla del problema anterior se pide
a) La distribución de frecuencias conjunta relativa.

Dividiendo por 300,
Y /X Chicas Chicos
Fuma 0.05 0.05
No fuma 0.35 0.55
b) La distribución marginal relativa de la variable Fuma/No Fuma.
Y f.j
Fuma 0.10
No fuma 0.90
Total 1
2
c) La distribución de frecuencias absolutas de Fuma/No Fuma condicionada a que los
individuos son chicas.
Y |X =Chicas n1j
Fuma 15
No fuma 105
Total 120
d ) La distribución de frecuencias relativas de Fuma/No Fuma condicionada a que los
individuos son chicas.
A partir de la tabla anterior dividiendo por el número de chicas (120)
Y |X =Chicas f1j
Fuma 0.125
No fuma 0.875
Total 1
e) ¿Qué grupo es más fumador, los chicos o las chicas? De la tabla anterior vemos que
el 12.5 % de las chicas fuma. Si hacemos lo mismo para chicos tenemos
Y |X =Chicos f2j
Fuma 0.083
No fuma 0.916
Total 1
por tanto, aunque hay igual número de chicos que fuma que de chicas, el porcentaje
es menor. Sólo el 8.3 % de chicos fuma, mientras que las chicas lo hacen en un 12.5 %.
4. Un proceso productivo tiene dos lı́neas de producción: lı́nea A y lı́nea B, que funcionan de
forma totalmente independiente (distintas máquinas, distintos operarios, etc). Un analista
toma nota al final de cada lı́nea del número de defectos que tienen los artı́culos que van
produciendo ambas lı́neas. En una hoja de papel, va anotando en dos columnas los defectos
que tiene cada uno de los artı́culos que analiza. Primero toma nota de 50 artı́culos de la
lı́nea A y después va a la lı́nea B y toma nota de 50 artı́culos de dicha lı́nea.
orden Defectos A Defectos B

1 2 0
2 1 3
... ... ...
50 1 1
Cuando tiene 50 artı́culos inspeccionados por cada lı́nea construye una tabla de frecuencias
bivariante, resultando la siguiente tabla: ¿Qué conclusiones se pueden sacar?
3
La tabla no tiene sentido, pues los dos pares de 50 observaciones no están relacionados.
Los 50 datos de la lı́nea A no se corresponden con los de la lı́nea B.
5. Consideremos los datos de los niveles de NO2 en las estaciones de la red de medición de
la contaminación atmosférica del Ayuntamiento de Madrid. Llamemos X a los niveles
de contaminación en el año 2007 (medidos en microgramos por metro cúbico), e Y a los
2008. Con esta notación se tiene
25
X 25
X
xi = 1498 yi = 1387
i=1 i=1
X25 X25 25
X
x2i = 94828 yi2 = 80423 xi yi = 87035
i=1 i=1 i=1
a) Ajustar, mediante mı́nimos cuadrados, la recta de regresión que explica los niveles
medios de dióxido de nitrógeno en el año 2008 como función de los registrados en
2007.
A partir de los sumatorios de los que disponemos se pueden calcular la medias y
varianzas de las variables X e Y y la covarianza entre ellas:
25
X
x2i
1498 i=1 94828
x= = 59.92 = = 3793.12 s2x = 3793.12 − 59.922 = 202.71
25 25 25
4
25
X
yi2
1387 i=1 80423
y= = 55.48 = = 3216.92 s2y = 3216.92 − 55.482 = 138.89
25 25 25
25
X
xi y i
i=1 87035
= 3481.4 sxy = 3481.4 − 59.92 × 55.48 = 157.04
=
25 25
Podemos resumir estos valores indicando el vector de medias y la matriz de varianzas
y covarianzas de estos datos:
     2   
x 59.92 sx sxy 202.71 157.04
 = ; S= = 
2
y 55.48 syx sy 157.04 138.89
El valor de la pendiente de la recta de regresión es

sxy 157.04
b= 2
= = 0.77
sx 202.71
En cuanto al intercepto, su valor es
a = y − b x = 55.48 − 0.77 × 59.92 = 9.06
En consecuencia, la recta de regresión es
ŷ = 9.06 + 0.77 · x
b) Para un punto de Madrid que tuvo en 2007 un nivel medio de NO2 de 60 µg por m3 ,
¿qué estimación puede hacerse sobre su nivel de contaminación en el año 2008?
La estimación que proporciona la recta de regresión sobre su nivel de contaminación
en el año 2008 es
ŷ = 9.06 + 0.77 × 60 = 55.54µg/m3
c) ¿Qué porcentaje de la variabilidad de los niveles de NO2 en Madrid puede excplicarse
por la variabilidad de los niveles de este contaminante en el año anterior?
El coeficiente de determinación entre X e Y es
2 2
s2xy 157.042
R = rxy = 2 = = 0.8758
sx × s2y 202.71 × 138.89
Por tanto, el porcentaje de la variabilidad de los niveles de NO2 en 2008 que quedan
explicados por las variaciones de este contaminante en el año anterior es un 87.58 %.
5
6. Con el fin de investigar la relación entre el nivel de riqueza y el impacto ejercido sobre
el medio ambiente, se han analizado la renta per cápita de los paı́ses en el año 20081
(expresada en decenas de miles de dolares per cápita) y su huella ecológica per cápita
durante el mismo periodo2 (en hectáreas per cápita). Tras realizar un análisis de regresión
de los datos con R se ha obtenido el siguiente resultado:
Call:
lm(formula = Huella ecologica per capita ∼ Renta per capita)
Residuals:
Min 1Q Median 3Q Max
-3.5857 -0.5277 -0.1560 0.3973 3.3276
Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 1.08429 0.11164 9.712 <2e-16 ***
Renta per capita 1.31034 0.06187 21.178 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.9845 on 144 degrees of freedom
Multiple R-squared: 0.757, Adjusted R-squared: 0.7553
F-statistic: 48.5 on 1 and 144 DF, p-value: <2.2e-16
a) Interpretar la pendiente de esta recta de regresión.

Llamemos H a la huella ecológica per capita y P a la renta per cápita de los paı́ses
seleccionados. La salida de R indica que la recta que explica H en función de P es
h = 1.08429 + 1.31034 × p
b
o, redondeando,
h = 1.1 + 1.3 × p
b
La pendiente de esta recta, b ' 1.3, indica que por cada diez mil euros que aumenta
la renta per cápita, la huella ecológica del paı́s se incrementa por término medio en
aproximadamente 1.3 hectáreas (o más exactamente, 13103.4 m2 ) per cápita.
b) ¿Cuál es el coeficiente de correlación entre la renta per cápita de los paı́ses y su
huella ecológica per cápita? ¿Qué es lo que indica este valor?
Como puede observarse en la salida de R, el coeficiente de determinación es
R2 = 0.757.
1
Fuente de los datos: Fondo Monetario Internacional ( http://www.imf.org/external/pubs/ft/weo/2009/01)
2
Fuente de los datos: Global Footprint Network ( http://www.footprintnetwork.org/)
6
Teniendo en cuenta que el coeficiente de determinación (R2 ) es el cuadrado del
coeficiente de correlación (r), se deduce
r2 = 0.757
y por consiguiente √
|r| = 0.757 = 0.87
Para conocer el signo de r hay que tener en cuenta que éste siempre coincide con el
signo de la pendiente de la recta de regresión. En este caso la pendiente de la recta
de H sobre P es positiva, y en consecuencia
√
r = + 0.757 = 0.87
Este coeficiente de correlación, positivo y bastante próximo a 1, indica que existe

una fuerte dependencia lineal positiva entre H y P , poniendo de manifiesto que el
crecimiento económico de los paı́ses se produce a costa del deterioro de la naturaleza.
c) La renta per cápita de España en el año 2008 fue de 30621 dolares (es decir, de
3.0621 decenas de miles de dolares per cápita). ¿Qué estimación puede hacerse sobre
su huella ecológica per cápita?
La recta de regresión
ĥ = 1.08429 + 1.31034 × p
permite hacer estimaciones sobre la huella ecológica de un paı́s.
Para el caso de España, cuya renta per cápita en 2008 fue de 3.0621 decenas de miles
de dolares per cápita, la estimación que proporciona la recta de regresión para la
huella ecológica per cápita en ese mismo año es
ĥ = 1.08429 + 1.31034 × 3.0621 = 5.08 hectáreas per cápita
d ) La huella ecológica de España en 2008 fue de 5.7 hectáreas per cápita. Comparando
este valor con el obtenido en el apartado anterior, ¿qué conclusión puede extraerse?
Según se ha visto en el apartado anterior, la huella ecológica que estima la recta de
regresión para un paı́s con un nivel de renta como el de España es de 5.08 hectáreas
per cápita. Sin embargo, la huella real de España en 2008 fue de 5.7 hectáreas per
cápita, un valor bastante superior al que predice esta recta.
El valor real de la huella ecológica de España es superior al estimado por la recta
en más de 0.6 hectáreas per cápita, indicando que está por encima de la tendencia
general que marcan los paı́ses en su conjunto.
7. Diversos estudios epidemiológicos parecen indicar que la proximidad a las refinerı́as de

petróleo incrementa el riego de padecer distintos tipos de cáncer. Por ello son muchas las
personas que se oponen a que instalen este tipo de industrias quı́micas en lugares cercanos
a su residencia.
7
La tabla siguiente recoge la tasa de mortalidad por cáncer (expresada en número de muer-
tes por cada 10.000 habitantes) y la distancia (en kilómetros) a la refinerı́a de Esmeraldas
(situada en la costa noroeste de Ecuador), de seis municipios de población campesina e
indı́gena:
Distancia Cáncer
18 40
17 50
16 60
15 68
15 62
9 80
a) Calcular el vector de medias y la matriz de varianzas y covarianzas para estos datos.

Llamemos D a la distancia de la localidad a la refinerı́a y C a su tasa de mortalidad
por cáncer.
La tabla siguiente facilita los cálculos de las medias y varianzas de estas dos variables
y el de la covarianza entre ambas:
di ci d2i c2i di · ci
18 40 324 1600 720
17 50 289 2500 850
16 60 256 3600 960
15 68 225 4624 1020
15 62 225 3844 930
9 80 81 6400 720
Suma: 90 360 1400 22568 5200
Se tiene que
6
X
d2i
90 1400
d¯ = = 15 i=1
= = 233.33 s2d = 233.33 − 152 = 8.33
6 6 6
6
X
c2i
360 i=1 22568
c̄ = = 60 = = 3761.33 s2c = 3761.33 − 602 = 161.33
6 6 6
6
X
d i ci
i=1 5200
= = 866.67 sdc = 866.67 − 15 · 60 = −33.33
6 6
8
Por tanto el vector de medias y la matriz de varianzas y covarianzas de estos datos
son
d¯
     2   
15 sd sdc 8.33 −33.33
 =   S= =  
2
c̄ 60 scd sc −33.33 161.33
b) Hallar el coeficiente de correlación entre la distancia a la refinerı́a y la tasa de mor-

talidad por cáncer, e interpretar su valor.
El coeficiente de correlación entre la distancia a la refinerı́a y la tasa de cáncer es
sdc −33.33
rdc = p 2 =√ = −0.909
2
sd × sc 8.33 × 161.33
Puesto que se trata de un coeficiente de correlación negativo y bastante próximo a

-1, indica que existe una clara dependencia lineal negativa entre D y C.
Esto se traduce en que, para los municipios incluı́dos en este estudio, la tasa de
mortalidad por cáncer aumenta linealmente a medida de la distancia a la refinerı́a
de petróleo disminuye.
c) Ajustar, mediante mı́nimos cuadrados, la recta de regresión que explica la tasa de
mortalidad por cáncer en función de la distancia a la refinerı́a de petróleo.
Debemos obtener la ecuación de la recta de regresión que explica la tasa de cáncer
en función de la distancia a la refinerı́a de petróleo,
ĉ = a + b · d
El valor de la pendiente de esta recta es

sdc −33.33
b= 2
= = −4.
sd 8.33
En cuanto al intercepto, su valor es
a = c − b d = 60 − (−4) × 15 = 60 + 60 = 120.
En consecuencia, la recta de regresión de C sobre D es
ĉ = 120 − 4 · d
9
d ) Interpretar los coeficientes de esta recta de regresión.
Como acabamos de ver, la ecuación de la recta de regresión que explica la tasa de
cáncer a partir de la distancia a la refinerı́a es
ĉ = 120 − 4 · d
La pendiente de esta recta,

b = −4,
indica que, si la distancia a la refinerı́a disminuye en 1 kilómetro, entonces el
incremento medio del número de muertes por cáncer es de 4 casos por cada 10.000
habitantes.
Por su parte, el intercepto,
a = 120,
indicarı́a que, para localidades situadas sobre la misma refinerı́a (es decir, a distancia
0), la tasa media de mortalidad por cáncer serı́a de 120 casos por cada 10.000
habitantes, pero en la práctica no existen poblaciones situadas encima mismo de
una refinerı́a.
e) ¿Qué predicción puede hacerse sobre la tasa de mortalidad por cáncer en una loca-
lidad situada a 14 kilómetros de la refinerı́a de Esmeraldas?
Hemos visto que la ecuación de la recta de regresión que permite predecir la tasa de
cáncer a partir de la distancia a la refinerı́a es ĉ = 120 − 4 · d. Por tanto la predicción
que proporciona la recta para la la tasa de mortalidad por cáncer en una localidad
situada a 14 kilómetros de la refinerı́a de Esmeraldas es
ĉ = 120 − 4 × 14 = 64,
es decir, 64 muertes por cáncer por cada 10.000 habitantes.
10
f ) ¿Qué estimación puede hacerse sobre la tasa de mortalidad por cáncer en una loca-
lidad situada a 2 kilómetros de la refinerı́a?
La recta de regresión no puede utilizarse para hacer predicciones usando valores
de D que estén fuera del rango de los datos observados (es decir, fuera del rango
de valores de D utilizados para construir la recta). Por tanto, no podemos realizar
ninguna predicción fiable sobre la tasa de mortalidad por cáncer en una localidad
situada a 2 kilómetros de la refinerı́a.
g) ¿Qué predicción puede hacerse sobre la distancia a la refinerı́a de una localidad en
la que se ha se ha registrado una tasa de 55 muertes por cancer de por cada 10.000
habitantes?
Para predecir la distancia a la refinerı́a de una localidad en la que se ha se ha
registrado una tasa de 55 muertes por cancer de por cada 10.000 habitantes no
podemos utilizar la recta ĉ = 120 − 4 · d, ya que esta recta está diseñada para
predecir C a partir de D, y no al revés. Debemos por tanto construir la recta de
regresión que explica la distancia a la refineria a partir de la tasa de mortalidad por
cáncer,
dˆ = ã + b̃ · c
La pendiente de esta recta es
sdc −33.33
b̃ = = = −0.207
s2c 161.33
y su intercepto
ã = d − b̃ c = 15 − (−0.207) × 60 = 15 + 60 = 27.397
En consecuencia, la recta de regresión de D sobre C es
dˆ = 27.397 − 0.207 · c
11
Luego, la predicción que puede hacerse sobre la distancia a la refinerı́a de una loca-
lidad en la que se ha se ha registrado una tasa de 55 muertes por cancer de por cada
10.000 habitantes, es
dˆ = 27.397 − 0.207 × 55 = 16.012,
es decir, 16.012 kilómetros de la refinerı́a de Esmeraldas.
Esta predicción es una estimación de la distancia media a la refinerı́a de los munici-

pios con 55 muertes por cáncer por cada 10.000 habitantes.
h) ¿Qué pórcentaje de la variabilidad observada en la tasa de mortalidad por cáncer
puede explicarse a partir de la distancia a la refinerı́a de petróleo?
El coeficiente de determinación entre la distancia a la refinerı́a y la tasa de cáncer es
R2 = rdc
2
= 0.9092 = 0.826
Este valor indica que el pórcentaje de la variabilidad observada en la tasa de mor-
talidad por cáncer de las localidades que puede explicarse a partir de la distancia a
la refinerı́a de petróleo es de un 82.6 %.
12
i ) A la vista del análisis realizado para los datos de estos municipios, ¿qué conclusiones
pueden extraerse acerca de la relación entre la proximidad a una refinerı́a de petróleo
y el número de cánceres mortales?
Se ha visto que el coeficiente de correlación entre las variables D y C es
rdc = −0.909
Puesto que se trata de un coeficiente de correlación negativo y bastante próximo

a -1, indica que existe una clara dependencia lineal negativa entre D y C. Esto se
traduce en que el riesgo de padecer un cáncer mortal aumenta linealmente a medida
de la distancia a la refinerı́a de petróleo se hace más pequeña.
Dado que la distancia a la refinerı́a explica un 82.6 % de la variabilidad observada
en la tasa de mortalidad por cáncer, parece evidente que dicha tasa no obedece a
causas meramente genéticas, sino al nocivo efecto que tiene sobre sobre la salud de
la contaminación generada por la refinerı́a.
La propia organización Mundial de la Salud reconocı́a recientemente que ”se puede
afirmar que pese a los avances al respecto llevados a cabo a nivel internacional
no existe tecnologı́a capaz de evitar en una refinerı́a las emisiones significativas de
contaminantes peligrosos en el aire”.
Hay que tener en cuenta, no obstante, que el estudio se ha realizado con tan sólo 6
localidades, por lo que las conclusiones tienen poca fiabilidad.
8. Poco tiempo después del hundimiento de la plataforma petrolera Deepwater Horizon,

en el Golfo de México, la empresa BP contrató a los pescadores locales para limpiar el
chapapote a cambio de que éstos se comprometieran a no presentar demandas por el
vertido.
Para determinar si estas tareas de limpieza han tenido efectos perniciosos sobre la salud,
se han registrado los niveles de plomo en sangre que presentan actualmente 90 de los
pescadores que fueron contratados por BP, el tiempo que dedicó cada uno de ellos a
limpiar el vertido.
El resultado del análisis de regresión realizado con R para estos datos es el siguiente:
13
Los niveles de plomo están medidos en microgramos por decilitro de sangre (µg/dL), y el
tiempo dedicado a la limpieza del chapapote en horas.
a) Interpretar los coeficientes de esta recta de regresion.

Llamemos H a las horas dedicadas a la limpieza de chapapote y P al nivel de plomo
en sangre de un pescador. La salida de R indica que la recta que explica el nivel de
plomo en sangre en función del tiempo de limpieza de petróleo es
p̂ = 10.84 + 1.01 × h
La pendiente de la recta (b = 1.01) indica que el aumento medio que experimenta

el nivel de plomo en sangre por cada hora extra que dedica un pescador a limpiar
chapapote es de 1.01 µg/dL.
En cuanto al intercepto (a = 10.84) indica que el nivel medio de plomo en la sangre
de los pescadores que no han limpiado chapapote es de 10.84 µg/dL.
b) El nivel de plomo en la sangre de una pescadora local es actualmente de 60 µg/dL.
¿Qué estimación puede hacerse sobre el tiempo que estuvo limpiando chapapote esta
mujer?
La recta
p̂ = 10.84 + 1.01 × h
permite hacer estimaciones sobre el nivel de plomo en sangre en función del tiempo
dedicado a la limpieza de chapapote. Sin embargo, para predecir el tiempo que estuvo
14
limpiando chapapote una pescadora que tiene 60 µg/dL de plomo en la sangre,
necesitarı́amos conocer la ecuación de la recta de H sobre P , es decir, la recta
ĥ = c + d p
Puesto que la salida de R de la que disponemos no incluye los coeficientes de dicha

recta, no podemos responder a esta cuestión con la información disponible, ya que
utilizar la otra recta de regresión y despejar de ella el valor de h no proporcionarı́a
una buena predicción.
c) Un pescador local estuvo limpiando chapapote 80 horas. ¿Qué estimación puede
hacerse sobre el nivel de plomo en su sangre?
La salida de R sı́ proporciona la recta de regresión que explica el nivel de plomo en
su sangre (P ) en función del tiempo dedicado a la limpieza de chapapote (H):
p̂ = 10.84 + 1.01 × h
La estimación que proporciona esta recta de regresión para la el nivel de plomo en

la sangre de un pescador que estuvo limpiando chapapote 80 horas es
p̂ = 10.84 + 1.01 × 80 = 91.89µg/dL
d ) ¿Cuál es el coeficiente de correlación entre el tiempo dedicado a la recogida de

chapapote y el nivel de plomo en la sangre? Interpretar este valor.
En la salida de R se observa que el coeficiente de determinación es
R2 = 0.9139.
Puesto que el coeficiente de determinación (R2 ) es el cuadrado del coeficiente de

correlación (r), se tiene que
r2 = 0.9139
|r| = 0.9139 = 0.956
Para determinar el signo de r basta observar que éste siempre coincide con el signo
de las rectas de regresión. En este caso la pendiente de la recta de P sobre H es
positiva, y en consecuencia
√
r = + 0.9193 = 0.956
Puesto que se trata de un coeficiente de correlación positivo y muy próximo a 1,

indica que hay una relación de dependencia lineal positiva muy fuerte entre H y P .
e) A la vista del análisis realizado para estos datos ¿puede concluirse que la limpieza
del chapapote ha influido negativamente en la salud de los pescadores?
15
La fuerte dependencia lineal positiva entre H y P se traduce en que el nivel de plomo
en la sangre de los pescadores aumenta linealmente a medida de se incrementan las
horas dedicadas a la limpieza de chapapote.
Puesto que el plomo en la sangre es perjudicial para la salud humana, puede con-
cluirse que la limpieza del chapapote sı́ ha influido negativamente en la salud de los
pescadores del Golfo de México.
9. La tabla siguiente recoge cuatro conjuntos de datos, con 11 observaciones cada uno de
ellos. Fueron contruı́dos por el estadı́stico F. J. Anscombe con el fin de resaltar la impor-
tancia de representar gráficamente los conjuntos de datos antes de analizarlos numérica-
mente.
a) Calcular el vector de medias y la matriz de varianzas y covarianzas de cada uno de

los cuatro conjuntos de datos. Comentar los resultados.
Para estos cuatro conjuntos de datos se obtienen las siguientes medias, varianzas y
covarianzas:
x1 = 9 s2x1 = 10
y1 = 7.5 s2y1 = 3.75 sx1,y1 = 5
x2 = 9 s2x2 = 10
y2 = 7.5 s2y2 = 3.75 sx2,y2 = 5
x3 = 9 s2x3 = 10
y3 = 7.5 s2y3 = 3.75 sx3,y3 = 5
16
x4 = 9 s2x4 = 10
y4 = 7.5 s2y4 = 3.75 sx4,y4 = 5
Por tanto los vectores de medias y las matrices de covarianzas son:

     2   
x1 9 sx1 sx1,y1 10 5
 =  Sx1,y1 =   =  
y1 7.5 sx1,y1 s2y1 5 3.75
    
s2x2
  
x2 9 sx2,y2 10 5
 =  Sx2,y2 =  = 
y2 7.5 sx2,y2 s2y2 5 3.75
    
s2x3
  
x3 9 sx3,y3 10 5
 =  Sx3,y3 =  = 
y3 7.5 sx3,y3 s2y3 5 3.75
    
s2x4
  
x4 9 sx4,y4 10 5
 =  Sx4,y4 =  = 
y4 7.5 sx4,y4 s2y4 5 3.75
Como puede observarse, los cuatro conjuntos de datos tienen idéntico vector de
medias e idéntica matriz de varianzas y covarianzas.
b) Ajustar la recta de regresión de y sobre x para cada uno de ellos. ¿Qué se observa?
Los coeficientes de la recta de regresión de y1 sobre x1,
y1
c = a + b x1,
son
sx1,y1 5
b= 2
= = 0.5
sx1 10
y
a = y1 − b × x1 = 7.5 − 0.5 × 9 = 3
La recta de regresión de x1 sobre x1 es por tanto
y1
c = 3 + 0.5 x1
Dado que las medias, varianzas y covarianzas de los cuatro conjuntos de datos son
los mismos, las rectas de regresión de y2 sobre x2, de y3 sobre x3, y de y4 sobre x4,
serán idénticas a la anterior.
17
Es decir, se tendrá
y2
c = 3 + 0.5 x2,
y3
c = 3 + 0.5 x3,
y4
c = 3 + 0.5 x4.
Observamos pues que las cuatro rectas de regresión son iguales.
Además, los coeficientes de correlación de los cuatro conjuntos de datos son también
iguales,
5
rx1,y1 = rx2,y2 = rx3,y3 = rx4,y4 = √ = 0.8165,
10 × 3.75
y en consecuencia también lo son los coeficientes de determinación:
52
Rx1,y1 = Rx2,y2 = Rx3,y3 = Rx4,y4 = = 0.6667
10 × 3.75
c) Representar mediante diagramas de dispersión cada uno de los conjuntos, y ajustar

la recta de regresión sobre la nube de puntos. ¿Qué se observa?
Los siguientes diagramas de dispersión representan las nubes de puntos correspon-
dientes a cada uno de los cuatro conjuntos de datos:
18
Como puede observarse, a pesar que el coeficiente de determinación y la recta de
regresión son los mismos en los cuatro casos, los cuatro conjuntos de datos bivariantes
son muy diferentes:
La relación entre las variables X1 e Y 1 es claramente de tipo lineal, por lo que la
recta de regresión resume adecuadamente el comportamiento conjunto de estas
dos variables.
En cambio la relación entre las variables X2 e Y 2 no es lineal. El gráfico pone de
manifiesto que un ajuste de otro tipo (por ejemplo cuadrático) resultarı́a mucho
más adecuado
En el diagrama de dispersión de las variables X3 e Y 3 se observa la presencia
de un dato atı́pico (la tercera de las observaciones) que lleva a ajustar una recta
que no es la que mejor se adapta al resto de las observaciones. Si eliminásemos
este outlier obtendı́amos una recta que se ajustarı́a perfectamente a las 10 ob-
servaciones restantes. El coeficiente de correlación (tras eliminar el tercer dato)
serı́a rx3,y3 = 1.
19
Finalmente, la recta de regresión de Y 4 sobre X4 viene determinada por una
única observación (la octava, que es la única con un valor de la variable expli-
cativa diferente a los demás) por lo que no es una recta que resuma bien las
caracterı́sticas de estos datos bivariantes.
10. Como parte de un estudio para determinar si una reducción de la velocidad máxima en
los grandes núcleos urbanos podrı́a ser útil para disminuir los niveles de contaminación
atmosférica, se han medido los kilómetros que recorre un vehı́culo por cada litro de gaso-
lina a diferentes velocidades. Las salidas siguientes son parte de los resultados del análisis
de regresión realizado con R para estos datos. La velocidad está medida en km/h y la
distancia recorrida por cada litro de gasolina en km.
20
a) ¿Qué porcentaje de la variabilidad observada en las distancias recorridas por cada
litro de gasolina puede explicarse a partir de la velocidad del vehı́culo?
En la salida que proporciona R puede apreciarse que el coeficiente de determinación
es
R2 = 0.7176,
lo cual indica que un 71.76 % de la variabilidad observada en las distancias recorridas
por cada litro de gasolina puede explicarse a partir de las variaciones en la velocidad
de los vehı́culos.
21
b) Un vehı́culo se ha desplazado desde Móstoles hasta Madrid recorriendo 55 kilómetros
por cada litro de gasolina. ¿Qué estimación puede hacerse sobre la velocidad a la
que ha realizado este trayecto?
La segunda de las salidas de R indica que la recta de regresión que explica la ve-
locidad de los vehı́culos (V ) en función de la distancia recorrida por cada litro de
gasolina (D) es
v̂ = 364.9861 − 4.8028 d
Luego la estimación que proporciona la recta de regresión para la velocidad de un
vehı́culo que se ha desplazado desde Móstoles hasta Madrid recorriendo 55 kilómetros
por cada litro de gasolina es
v̂ = 364.9861 − 4.8028 × 55 = 100.8321 km/h
c) ¿Cuál es el coeficiente de correlación entre la velocidad y la distancia recorrida por
cada litro de gasolina? Interpretar este valor.
El coeficiente de determinación es el cuadrado del coeficiente de correlación,
R2 = r 2
En este caso el coeficiente de determinación es 0.7176, por lo que sabemos que el
coeficiente de correlación verifica
r2 = 0.7176
|r| = 0.7176 = 0.8471
Para determinar el signo de r basta observar que éste siempre coincide con el signo
de las rectas de regresión (que es siempre el mismo en la recta de y sobre x y en la
de x sobre y). En este caso las pendientes son negativas, y en consecuencia
√
r = − 0.7176 = −0.8471
Puesto que se trata de un coeficiente de correlación negativo y bastante próximo a
-1, indica que hay una relación de dependencia lineal negativa entre V y D.
d ) A la vista del análisis realizado para estos datos ¿puede concluirse que reducir el
lı́mite de velocidad podrı́a mejorar la contaminación ambiental en las grandes ciu-
dades?
La dependencia lineal negativa entre V y D se traduce en que el número de kilómetros
que un vehı́culo recorre con cada litro de basolina disminuye linealmente a medida
de se incrementa la velocidad del coche.
Recorrer menos kilómetros con cada litro de gasolina implica gastar más gasolina
para recorrer la misma distancia, lo que a su vez suponer contaminar más para
recorrer la misma distancia.
Luego podemos concluirse que, si este estudio es fiable, reducir el lı́mite de velocidad
podrı́a, en efecto, mejorar la contaminación ambiental en las grandes ciudades.
22

Estadistica 2: Descripcion de Datos Bivariantes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica 2: Descripcion de Datos Bivariantes

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

GRADO EN INGENIERÍA TÉCNICA INDUSTRIAL

HOJA DE PROBLEMAS 2: DESCRIPCIÓN DE DATOS BIVARIANTES

a) Obtener la distribución de frecuencias relativas conjunta de los tiempos de ambas

x̄ = 5 × 0.2 + 10 × 0.6 + 15 × 0.2 = 10

ȳ = 10 × 0.3 + 15 × 0.4 + 20 × 0.3 = 15

s2x = 52 × 0.2 + 102 × 0.6 + 152 × 0.2 − 102 = 10

s2y = 102 × 0.3 + 152 × 0.4 + 202 × 0.3 − 152 = 15

Una covarianza positiva significa que ambas variables evolucionan conjuntamente, de

Y /X Chicas Chicos Total fumadores

3. Dada la tabla del problema anterior se pide

a) La distribución de frecuencias conjunta relativa.

orden Defectos A Defectos B

El valor de la pendiente de la recta de regresión es

En cuanto al intercepto, su valor es

a = y − b x = 55.48 − 0.77 × 59.92 = 9.06

En consecuencia, la recta de regresión es

a) Interpretar la pendiente de esta recta de regresión.

Este coeficiente de correlación, positivo y bastante próximo a 1, indica que existe

ĥ = 1.08429 + 1.31034 × 3.0621 = 5.08 hectáreas per cápita

7. Diversos estudios epidemiológicos parecen indicar que la proximidad a las refinerı́as de

a) Calcular el vector de medias y la matriz de varianzas y covarianzas para estos datos.

b) Hallar el coeficiente de correlación entre la distancia a la refinerı́a y la tasa de mor-

Puesto que se trata de un coeficiente de correlación negativo y bastante próximo a

El valor de la pendiente de esta recta es

En cuanto al intercepto, su valor es

En consecuencia, la recta de regresión de C sobre D es

La pendiente de esta recta,

es decir, 64 muertes por cáncer por cada 10.000 habitantes.

En consecuencia, la recta de regresión de D sobre C es

Esta predicción es una estimación de la distancia media a la refinerı́a de los munici-

Puesto que se trata de un coeficiente de correlación negativo y bastante próximo

8. Poco tiempo después del hundimiento de la plataforma petrolera Deepwater Horizon,

a) Interpretar los coeficientes de esta recta de regresion.

La pendiente de la recta (b = 1.01) indica que el aumento medio que experimenta

Puesto que la salida de R de la que disponemos no incluye los coeficientes de dicha

La estimación que proporciona esta recta de regresión para la el nivel de plomo en

p̂ = 10.84 + 1.01 × 80 = 91.89µg/dL

d ) ¿Cuál es el coeficiente de correlación entre el tiempo dedicado a la recogida de

Puesto que el coeficiente de determinación (R2 ) es el cuadrado del coeficiente de

Puesto que se trata de un coeficiente de correlación positivo y muy próximo a 1,

a) Calcular el vector de medias y la matriz de varianzas y covarianzas de cada uno de

Por tanto los vectores de medias y las matrices de covarianzas son:

c) Representar mediante diagramas de dispersión cada uno de los conjuntos, y ajustar

También podría gustarte