Está en la página 1de 22

ESTADÍSTICA

GRADO EN INGENIERÍA TÉCNICA INDUSTRIAL

HOJA DE PROBLEMAS 2: DESCRIPCIÓN DE DATOS BIVARIANTES

1. En un taller mecánico una pieza pasa primero por la máquina 1 (X) y luego por la
máquina 2 (Y ). La siguiente tabla muestra los tiempos X e Y (en minutos) empleados
por diez piezas en cada máquina.

X 5 15 10 10 10 5 10 10 15 10
Y 10 15 15 10 10 15 20 15 20 20

Se pide:

a) Obtener la distribución de frecuencias relativas conjunta de los tiempos de ambas


máquinas.
Obtenemos en primer lugar la distribución de frecuencias absolutas conjunta
Y/X 5 10 15
10 1 2 0
15 1 2 1
20 0 2 1
dividiendo cada frecuencia absoluta entre el número total de observaciones (10),
obtenemos la distribución de frecuencias relativas conjunta
Y/X 5 10 15
10 0.1 0.2 0
15 0.1 0.2 0.1
20 0 0.2 0.1
b) Obtener las distribuciones de frecuencias relativas marginales, dando sus medias y
sus varianzas.
Sumando por filas y por columnas,
Y/X 5 10 15 Total
10 0.1 0.2 0 0.3
15 0.1 0.2 0.1 0.4
20 0 0.2 0.1 0.3
Total 0.2 0.6 0.2 1
Usando la tabla, calculamos las medias, multiplicando cada valor de X o Y por su
frecuencia relativa correspondiente.

x̄ = 5 × 0.2 + 10 × 0.6 + 15 × 0.2 = 10

ȳ = 10 × 0.3 + 15 × 0.4 + 20 × 0.3 = 15

1
Análogamente, para calcular las varianzas, usamos

s2x = 52 × 0.2 + 102 × 0.6 + 152 × 0.2 − 102 = 10

s2y = 102 × 0.3 + 152 × 0.4 + 202 × 0.3 − 152 = 15


c) Calcular la covarianza entre ambas variables X e Y , interpretando el resultado.
10
1 X 1
sxy = xi yj − x̄ȳ = (5 · 10 + 15 · 15 + . . . + 10 · 20) − 10 · 15 = 5
10 i=1 10

Una covarianza positiva significa que ambas variables evolucionan conjuntamente, de


manera que crecen o decrecen simultáneamente. De esta forma cuanto más tiempo
invierta una pieza en la máquina X más tiempo se esperará que necesite también en
la máquina Y .

2. Tras preguntar a 300 estudiantes, se ha obtenido que el 10 % fuma y el 40 % eran del sexo
femenino. Construye la tabla de frecuencias absolutas de estos 300 estudiantes para las
variables Fuma/No Fuma y Chico/Chica, sabiendo que el número de chicos que fuma es
igual al número de chicas que fuma.
Definimos las variables X =Chico/Chica, Y =Fuma/No Fuma.

Y /X Chicas Chicos Total fumadores


Fuma 15 15 30
No fuma 105 165 270
Total por sexo 120 180 300

3. Dada la tabla del problema anterior se pide

a) La distribución de frecuencias conjunta relativa.


Dividiendo por 300,
Y /X Chicas Chicos
Fuma 0.05 0.05
No fuma 0.35 0.55
b) La distribución marginal relativa de la variable Fuma/No Fuma.
Y f.j
Fuma 0.10
No fuma 0.90
Total 1

2
c) La distribución de frecuencias absolutas de Fuma/No Fuma condicionada a que los
individuos son chicas.
Y |X =Chicas n1j
Fuma 15
No fuma 105
Total 120
d ) La distribución de frecuencias relativas de Fuma/No Fuma condicionada a que los
individuos son chicas.
A partir de la tabla anterior dividiendo por el número de chicas (120)

Y |X =Chicas f1j
Fuma 0.125
No fuma 0.875
Total 1

e) ¿Qué grupo es más fumador, los chicos o las chicas? De la tabla anterior vemos que
el 12.5 % de las chicas fuma. Si hacemos lo mismo para chicos tenemos
Y |X =Chicos f2j
Fuma 0.083
No fuma 0.916
Total 1
por tanto, aunque hay igual número de chicos que fuma que de chicas, el porcentaje
es menor. Sólo el 8.3 % de chicos fuma, mientras que las chicas lo hacen en un 12.5 %.

4. Un proceso productivo tiene dos lı́neas de producción: lı́nea A y lı́nea B, que funcionan de
forma totalmente independiente (distintas máquinas, distintos operarios, etc). Un analista
toma nota al final de cada lı́nea del número de defectos que tienen los artı́culos que van
produciendo ambas lı́neas. En una hoja de papel, va anotando en dos columnas los defectos
que tiene cada uno de los artı́culos que analiza. Primero toma nota de 50 artı́culos de la
lı́nea A y después va a la lı́nea B y toma nota de 50 artı́culos de dicha lı́nea.

orden Defectos A Defectos B


1 2 0
2 1 3
... ... ...
50 1 1

Cuando tiene 50 artı́culos inspeccionados por cada lı́nea construye una tabla de frecuencias
bivariante, resultando la siguiente tabla: ¿Qué conclusiones se pueden sacar?

3
La tabla no tiene sentido, pues los dos pares de 50 observaciones no están relacionados.
Los 50 datos de la lı́nea A no se corresponden con los de la lı́nea B.

5. Consideremos los datos de los niveles de NO2 en las estaciones de la red de medición de
la contaminación atmosférica del Ayuntamiento de Madrid. Llamemos X a los niveles
de contaminación en el año 2007 (medidos en microgramos por metro cúbico), e Y a los
2008. Con esta notación se tiene
25
X 25
X
xi = 1498 yi = 1387
i=1 i=1
X25 X25 25
X
x2i = 94828 yi2 = 80423 xi yi = 87035
i=1 i=1 i=1

a) Ajustar, mediante mı́nimos cuadrados, la recta de regresión que explica los niveles
medios de dióxido de nitrógeno en el año 2008 como función de los registrados en
2007.
A partir de los sumatorios de los que disponemos se pueden calcular la medias y
varianzas de las variables X e Y y la covarianza entre ellas:
25
X
x2i
1498 i=1 94828
x= = 59.92 = = 3793.12 s2x = 3793.12 − 59.922 = 202.71
25 25 25

4
25
X
yi2
1387 i=1 80423
y= = 55.48 = = 3216.92 s2y = 3216.92 − 55.482 = 138.89
25 25 25
25
X
xi y i
i=1 87035
= 3481.4 sxy = 3481.4 − 59.92 × 55.48 = 157.04
=
25 25
Podemos resumir estos valores indicando el vector de medias y la matriz de varianzas
y covarianzas de estos datos:
     2   
x 59.92 sx sxy 202.71 157.04
 = ; S= = 
2
y 55.48 syx sy 157.04 138.89

El valor de la pendiente de la recta de regresión es


sxy 157.04
b= 2
= = 0.77
sx 202.71

En cuanto al intercepto, su valor es

a = y − b x = 55.48 − 0.77 × 59.92 = 9.06

En consecuencia, la recta de regresión es

ŷ = 9.06 + 0.77 · x

b) Para un punto de Madrid que tuvo en 2007 un nivel medio de NO2 de 60 µg por m3 ,
¿qué estimación puede hacerse sobre su nivel de contaminación en el año 2008?
La estimación que proporciona la recta de regresión sobre su nivel de contaminación
en el año 2008 es
ŷ = 9.06 + 0.77 × 60 = 55.54µg/m3
c) ¿Qué porcentaje de la variabilidad de los niveles de NO2 en Madrid puede excplicarse
por la variabilidad de los niveles de este contaminante en el año anterior?
El coeficiente de determinación entre X e Y es

2 2
s2xy 157.042
R = rxy = 2 = = 0.8758
sx × s2y 202.71 × 138.89

Por tanto, el porcentaje de la variabilidad de los niveles de NO2 en 2008 que quedan
explicados por las variaciones de este contaminante en el año anterior es un 87.58 %.

5
6. Con el fin de investigar la relación entre el nivel de riqueza y el impacto ejercido sobre
el medio ambiente, se han analizado la renta per cápita de los paı́ses en el año 20081
(expresada en decenas de miles de dolares per cápita) y su huella ecológica per cápita
durante el mismo periodo2 (en hectáreas per cápita). Tras realizar un análisis de regresión
de los datos con R se ha obtenido el siguiente resultado:

Call:
lm(formula = Huella ecologica per capita ∼ Renta per capita)
Residuals:
Min 1Q Median 3Q Max
-3.5857 -0.5277 -0.1560 0.3973 3.3276
Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 1.08429 0.11164 9.712 <2e-16 ***
Renta per capita 1.31034 0.06187 21.178 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.9845 on 144 degrees of freedom
Multiple R-squared: 0.757, Adjusted R-squared: 0.7553
F-statistic: 48.5 on 1 and 144 DF, p-value: <2.2e-16

a) Interpretar la pendiente de esta recta de regresión.


Llamemos H a la huella ecológica per capita y P a la renta per cápita de los paı́ses
seleccionados. La salida de R indica que la recta que explica H en función de P es

h = 1.08429 + 1.31034 × p
b

o, redondeando,
h = 1.1 + 1.3 × p
b

La pendiente de esta recta, b ' 1.3, indica que por cada diez mil euros que aumenta
la renta per cápita, la huella ecológica del paı́s se incrementa por término medio en
aproximadamente 1.3 hectáreas (o más exactamente, 13103.4 m2 ) per cápita.
b) ¿Cuál es el coeficiente de correlación entre la renta per cápita de los paı́ses y su
huella ecológica per cápita? ¿Qué es lo que indica este valor?
Como puede observarse en la salida de R, el coeficiente de determinación es

R2 = 0.757.
1
Fuente de los datos: Fondo Monetario Internacional ( http://www.imf.org/external/pubs/ft/weo/2009/01)
2
Fuente de los datos: Global Footprint Network ( http://www.footprintnetwork.org/)

6
Teniendo en cuenta que el coeficiente de determinación (R2 ) es el cuadrado del
coeficiente de correlación (r), se deduce

r2 = 0.757

y por consiguiente √
|r| = 0.757 = 0.87
Para conocer el signo de r hay que tener en cuenta que éste siempre coincide con el
signo de la pendiente de la recta de regresión. En este caso la pendiente de la recta
de H sobre P es positiva, y en consecuencia

r = + 0.757 = 0.87

Este coeficiente de correlación, positivo y bastante próximo a 1, indica que existe


una fuerte dependencia lineal positiva entre H y P , poniendo de manifiesto que el
crecimiento económico de los paı́ses se produce a costa del deterioro de la naturaleza.
c) La renta per cápita de España en el año 2008 fue de 30621 dolares (es decir, de
3.0621 decenas de miles de dolares per cápita). ¿Qué estimación puede hacerse sobre
su huella ecológica per cápita?
La recta de regresión
ĥ = 1.08429 + 1.31034 × p
permite hacer estimaciones sobre la huella ecológica de un paı́s.
Para el caso de España, cuya renta per cápita en 2008 fue de 3.0621 decenas de miles
de dolares per cápita, la estimación que proporciona la recta de regresión para la
huella ecológica per cápita en ese mismo año es

ĥ = 1.08429 + 1.31034 × 3.0621 = 5.08 hectáreas per cápita

d ) La huella ecológica de España en 2008 fue de 5.7 hectáreas per cápita. Comparando
este valor con el obtenido en el apartado anterior, ¿qué conclusión puede extraerse?
Según se ha visto en el apartado anterior, la huella ecológica que estima la recta de
regresión para un paı́s con un nivel de renta como el de España es de 5.08 hectáreas
per cápita. Sin embargo, la huella real de España en 2008 fue de 5.7 hectáreas per
cápita, un valor bastante superior al que predice esta recta.
El valor real de la huella ecológica de España es superior al estimado por la recta
en más de 0.6 hectáreas per cápita, indicando que está por encima de la tendencia
general que marcan los paı́ses en su conjunto.

7. Diversos estudios epidemiológicos parecen indicar que la proximidad a las refinerı́as de


petróleo incrementa el riego de padecer distintos tipos de cáncer. Por ello son muchas las
personas que se oponen a que instalen este tipo de industrias quı́micas en lugares cercanos
a su residencia.

7
La tabla siguiente recoge la tasa de mortalidad por cáncer (expresada en número de muer-
tes por cada 10.000 habitantes) y la distancia (en kilómetros) a la refinerı́a de Esmeraldas
(situada en la costa noroeste de Ecuador), de seis municipios de población campesina e
indı́gena:

Distancia Cáncer
18 40
17 50
16 60
15 68
15 62
9 80

a) Calcular el vector de medias y la matriz de varianzas y covarianzas para estos datos.


Llamemos D a la distancia de la localidad a la refinerı́a y C a su tasa de mortalidad
por cáncer.
La tabla siguiente facilita los cálculos de las medias y varianzas de estas dos variables
y el de la covarianza entre ambas:

di ci d2i c2i di · ci
18 40 324 1600 720
17 50 289 2500 850
16 60 256 3600 960
15 68 225 4624 1020
15 62 225 3844 930
9 80 81 6400 720
Suma: 90 360 1400 22568 5200

Se tiene que
6
X
d2i
90 1400
d¯ = = 15 i=1
= = 233.33 s2d = 233.33 − 152 = 8.33
6 6 6
6
X
c2i
360 i=1 22568
c̄ = = 60 = = 3761.33 s2c = 3761.33 − 602 = 161.33
6 6 6
6
X
d i ci
i=1 5200
= = 866.67 sdc = 866.67 − 15 · 60 = −33.33
6 6
8
Por tanto el vector de medias y la matriz de varianzas y covarianzas de estos datos
son


     2   
15 sd sdc 8.33 −33.33
 =   S= =  
2
c̄ 60 scd sc −33.33 161.33

b) Hallar el coeficiente de correlación entre la distancia a la refinerı́a y la tasa de mor-


talidad por cáncer, e interpretar su valor.
El coeficiente de correlación entre la distancia a la refinerı́a y la tasa de cáncer es
sdc −33.33
rdc = p 2 =√ = −0.909
2
sd × sc 8.33 × 161.33

Puesto que se trata de un coeficiente de correlación negativo y bastante próximo a


-1, indica que existe una clara dependencia lineal negativa entre D y C.
Esto se traduce en que, para los municipios incluı́dos en este estudio, la tasa de
mortalidad por cáncer aumenta linealmente a medida de la distancia a la refinerı́a
de petróleo disminuye.
c) Ajustar, mediante mı́nimos cuadrados, la recta de regresión que explica la tasa de
mortalidad por cáncer en función de la distancia a la refinerı́a de petróleo.
Debemos obtener la ecuación de la recta de regresión que explica la tasa de cáncer
en función de la distancia a la refinerı́a de petróleo,

ĉ = a + b · d

El valor de la pendiente de esta recta es


sdc −33.33
b= 2
= = −4.
sd 8.33

En cuanto al intercepto, su valor es

a = c − b d = 60 − (−4) × 15 = 60 + 60 = 120.

En consecuencia, la recta de regresión de C sobre D es

ĉ = 120 − 4 · d

9
d ) Interpretar los coeficientes de esta recta de regresión.
Como acabamos de ver, la ecuación de la recta de regresión que explica la tasa de
cáncer a partir de la distancia a la refinerı́a es

ĉ = 120 − 4 · d

La pendiente de esta recta,


b = −4,
indica que, si la distancia a la refinerı́a disminuye en 1 kilómetro, entonces el
incremento medio del número de muertes por cáncer es de 4 casos por cada 10.000
habitantes.
Por su parte, el intercepto,
a = 120,
indicarı́a que, para localidades situadas sobre la misma refinerı́a (es decir, a distancia
0), la tasa media de mortalidad por cáncer serı́a de 120 casos por cada 10.000
habitantes, pero en la práctica no existen poblaciones situadas encima mismo de
una refinerı́a.
e) ¿Qué predicción puede hacerse sobre la tasa de mortalidad por cáncer en una loca-
lidad situada a 14 kilómetros de la refinerı́a de Esmeraldas?
Hemos visto que la ecuación de la recta de regresión que permite predecir la tasa de
cáncer a partir de la distancia a la refinerı́a es ĉ = 120 − 4 · d. Por tanto la predicción
que proporciona la recta para la la tasa de mortalidad por cáncer en una localidad
situada a 14 kilómetros de la refinerı́a de Esmeraldas es

ĉ = 120 − 4 × 14 = 64,

es decir, 64 muertes por cáncer por cada 10.000 habitantes.

10
f ) ¿Qué estimación puede hacerse sobre la tasa de mortalidad por cáncer en una loca-
lidad situada a 2 kilómetros de la refinerı́a?
La recta de regresión no puede utilizarse para hacer predicciones usando valores
de D que estén fuera del rango de los datos observados (es decir, fuera del rango
de valores de D utilizados para construir la recta). Por tanto, no podemos realizar
ninguna predicción fiable sobre la tasa de mortalidad por cáncer en una localidad
situada a 2 kilómetros de la refinerı́a.
g) ¿Qué predicción puede hacerse sobre la distancia a la refinerı́a de una localidad en
la que se ha se ha registrado una tasa de 55 muertes por cancer de por cada 10.000
habitantes?
Para predecir la distancia a la refinerı́a de una localidad en la que se ha se ha
registrado una tasa de 55 muertes por cancer de por cada 10.000 habitantes no
podemos utilizar la recta ĉ = 120 − 4 · d, ya que esta recta está diseñada para
predecir C a partir de D, y no al revés. Debemos por tanto construir la recta de
regresión que explica la distancia a la refineria a partir de la tasa de mortalidad por
cáncer,
dˆ = ã + b̃ · c
La pendiente de esta recta es
sdc −33.33
b̃ = = = −0.207
s2c 161.33
y su intercepto

ã = d − b̃ c = 15 − (−0.207) × 60 = 15 + 60 = 27.397

En consecuencia, la recta de regresión de D sobre C es

dˆ = 27.397 − 0.207 · c

11
Luego, la predicción que puede hacerse sobre la distancia a la refinerı́a de una loca-
lidad en la que se ha se ha registrado una tasa de 55 muertes por cancer de por cada
10.000 habitantes, es
dˆ = 27.397 − 0.207 × 55 = 16.012,
es decir, 16.012 kilómetros de la refinerı́a de Esmeraldas.

Esta predicción es una estimación de la distancia media a la refinerı́a de los munici-


pios con 55 muertes por cáncer por cada 10.000 habitantes.
h) ¿Qué pórcentaje de la variabilidad observada en la tasa de mortalidad por cáncer
puede explicarse a partir de la distancia a la refinerı́a de petróleo?
El coeficiente de determinación entre la distancia a la refinerı́a y la tasa de cáncer es
R2 = rdc
2
= 0.9092 = 0.826
Este valor indica que el pórcentaje de la variabilidad observada en la tasa de mor-
talidad por cáncer de las localidades que puede explicarse a partir de la distancia a
la refinerı́a de petróleo es de un 82.6 %.

12
i ) A la vista del análisis realizado para los datos de estos municipios, ¿qué conclusiones
pueden extraerse acerca de la relación entre la proximidad a una refinerı́a de petróleo
y el número de cánceres mortales?
Se ha visto que el coeficiente de correlación entre las variables D y C es

rdc = −0.909

Puesto que se trata de un coeficiente de correlación negativo y bastante próximo


a -1, indica que existe una clara dependencia lineal negativa entre D y C. Esto se
traduce en que el riesgo de padecer un cáncer mortal aumenta linealmente a medida
de la distancia a la refinerı́a de petróleo se hace más pequeña.
Dado que la distancia a la refinerı́a explica un 82.6 % de la variabilidad observada
en la tasa de mortalidad por cáncer, parece evidente que dicha tasa no obedece a
causas meramente genéticas, sino al nocivo efecto que tiene sobre sobre la salud de
la contaminación generada por la refinerı́a.
La propia organización Mundial de la Salud reconocı́a recientemente que ”se puede
afirmar que pese a los avances al respecto llevados a cabo a nivel internacional
no existe tecnologı́a capaz de evitar en una refinerı́a las emisiones significativas de
contaminantes peligrosos en el aire”.
Hay que tener en cuenta, no obstante, que el estudio se ha realizado con tan sólo 6
localidades, por lo que las conclusiones tienen poca fiabilidad.

8. Poco tiempo después del hundimiento de la plataforma petrolera Deepwater Horizon,


en el Golfo de México, la empresa BP contrató a los pescadores locales para limpiar el
chapapote a cambio de que éstos se comprometieran a no presentar demandas por el
vertido.
Para determinar si estas tareas de limpieza han tenido efectos perniciosos sobre la salud,
se han registrado los niveles de plomo en sangre que presentan actualmente 90 de los
pescadores que fueron contratados por BP, el tiempo que dedicó cada uno de ellos a
limpiar el vertido.
El resultado del análisis de regresión realizado con R para estos datos es el siguiente:

13
Los niveles de plomo están medidos en microgramos por decilitro de sangre (µg/dL), y el
tiempo dedicado a la limpieza del chapapote en horas.

a) Interpretar los coeficientes de esta recta de regresion.


Llamemos H a las horas dedicadas a la limpieza de chapapote y P al nivel de plomo
en sangre de un pescador. La salida de R indica que la recta que explica el nivel de
plomo en sangre en función del tiempo de limpieza de petróleo es

p̂ = 10.84 + 1.01 × h

La pendiente de la recta (b = 1.01) indica que el aumento medio que experimenta


el nivel de plomo en sangre por cada hora extra que dedica un pescador a limpiar
chapapote es de 1.01 µg/dL.
En cuanto al intercepto (a = 10.84) indica que el nivel medio de plomo en la sangre
de los pescadores que no han limpiado chapapote es de 10.84 µg/dL.
b) El nivel de plomo en la sangre de una pescadora local es actualmente de 60 µg/dL.
¿Qué estimación puede hacerse sobre el tiempo que estuvo limpiando chapapote esta
mujer?
La recta
p̂ = 10.84 + 1.01 × h
permite hacer estimaciones sobre el nivel de plomo en sangre en función del tiempo
dedicado a la limpieza de chapapote. Sin embargo, para predecir el tiempo que estuvo

14
limpiando chapapote una pescadora que tiene 60 µg/dL de plomo en la sangre,
necesitarı́amos conocer la ecuación de la recta de H sobre P , es decir, la recta

ĥ = c + d p

Puesto que la salida de R de la que disponemos no incluye los coeficientes de dicha


recta, no podemos responder a esta cuestión con la información disponible, ya que
utilizar la otra recta de regresión y despejar de ella el valor de h no proporcionarı́a
una buena predicción.
c) Un pescador local estuvo limpiando chapapote 80 horas. ¿Qué estimación puede
hacerse sobre el nivel de plomo en su sangre?
La salida de R sı́ proporciona la recta de regresión que explica el nivel de plomo en
su sangre (P ) en función del tiempo dedicado a la limpieza de chapapote (H):

p̂ = 10.84 + 1.01 × h

La estimación que proporciona esta recta de regresión para la el nivel de plomo en


la sangre de un pescador que estuvo limpiando chapapote 80 horas es

p̂ = 10.84 + 1.01 × 80 = 91.89µg/dL

d ) ¿Cuál es el coeficiente de correlación entre el tiempo dedicado a la recogida de


chapapote y el nivel de plomo en la sangre? Interpretar este valor.
En la salida de R se observa que el coeficiente de determinación es

R2 = 0.9139.

Puesto que el coeficiente de determinación (R2 ) es el cuadrado del coeficiente de


correlación (r), se tiene que
r2 = 0.9139
y por consiguiente √
|r| = 0.9139 = 0.956
Para determinar el signo de r basta observar que éste siempre coincide con el signo
de las rectas de regresión. En este caso la pendiente de la recta de P sobre H es
positiva, y en consecuencia

r = + 0.9193 = 0.956

Puesto que se trata de un coeficiente de correlación positivo y muy próximo a 1,


indica que hay una relación de dependencia lineal positiva muy fuerte entre H y P .
e) A la vista del análisis realizado para estos datos ¿puede concluirse que la limpieza
del chapapote ha influido negativamente en la salud de los pescadores?

15
La fuerte dependencia lineal positiva entre H y P se traduce en que el nivel de plomo
en la sangre de los pescadores aumenta linealmente a medida de se incrementan las
horas dedicadas a la limpieza de chapapote.
Puesto que el plomo en la sangre es perjudicial para la salud humana, puede con-
cluirse que la limpieza del chapapote sı́ ha influido negativamente en la salud de los
pescadores del Golfo de México.

9. La tabla siguiente recoge cuatro conjuntos de datos, con 11 observaciones cada uno de
ellos. Fueron contruı́dos por el estadı́stico F. J. Anscombe con el fin de resaltar la impor-
tancia de representar gráficamente los conjuntos de datos antes de analizarlos numérica-
mente.

a) Calcular el vector de medias y la matriz de varianzas y covarianzas de cada uno de


los cuatro conjuntos de datos. Comentar los resultados.
Para estos cuatro conjuntos de datos se obtienen las siguientes medias, varianzas y
covarianzas:

x1 = 9 s2x1 = 10
y1 = 7.5 s2y1 = 3.75 sx1,y1 = 5

x2 = 9 s2x2 = 10
y2 = 7.5 s2y2 = 3.75 sx2,y2 = 5

x3 = 9 s2x3 = 10
y3 = 7.5 s2y3 = 3.75 sx3,y3 = 5

16
x4 = 9 s2x4 = 10
y4 = 7.5 s2y4 = 3.75 sx4,y4 = 5

Por tanto los vectores de medias y las matrices de covarianzas son:


     2   
x1 9 sx1 sx1,y1 10 5
 =  Sx1,y1 =   =  
y1 7.5 sx1,y1 s2y1 5 3.75

    
s2x2
  
x2 9 sx2,y2 10 5
 =  Sx2,y2 =  = 
y2 7.5 sx2,y2 s2y2 5 3.75

    
s2x3
  
x3 9 sx3,y3 10 5
 =  Sx3,y3 =  = 
y3 7.5 sx3,y3 s2y3 5 3.75

    
s2x4
  
x4 9 sx4,y4 10 5
 =  Sx4,y4 =  = 
y4 7.5 sx4,y4 s2y4 5 3.75

Como puede observarse, los cuatro conjuntos de datos tienen idéntico vector de
medias e idéntica matriz de varianzas y covarianzas.
b) Ajustar la recta de regresión de y sobre x para cada uno de ellos. ¿Qué se observa?
Los coeficientes de la recta de regresión de y1 sobre x1,

y1
c = a + b x1,

son
sx1,y1 5
b= 2
= = 0.5
sx1 10
y
a = y1 − b × x1 = 7.5 − 0.5 × 9 = 3
La recta de regresión de x1 sobre x1 es por tanto

y1
c = 3 + 0.5 x1

Dado que las medias, varianzas y covarianzas de los cuatro conjuntos de datos son
los mismos, las rectas de regresión de y2 sobre x2, de y3 sobre x3, y de y4 sobre x4,
serán idénticas a la anterior.

17
Es decir, se tendrá
y2
c = 3 + 0.5 x2,
y3
c = 3 + 0.5 x3,
y4
c = 3 + 0.5 x4.
Observamos pues que las cuatro rectas de regresión son iguales.
Además, los coeficientes de correlación de los cuatro conjuntos de datos son también
iguales,
5
rx1,y1 = rx2,y2 = rx3,y3 = rx4,y4 = √ = 0.8165,
10 × 3.75
y en consecuencia también lo son los coeficientes de determinación:

52
Rx1,y1 = Rx2,y2 = Rx3,y3 = Rx4,y4 = = 0.6667
10 × 3.75

c) Representar mediante diagramas de dispersión cada uno de los conjuntos, y ajustar


la recta de regresión sobre la nube de puntos. ¿Qué se observa?
Los siguientes diagramas de dispersión representan las nubes de puntos correspon-
dientes a cada uno de los cuatro conjuntos de datos:

18
Como puede observarse, a pesar que el coeficiente de determinación y la recta de
regresión son los mismos en los cuatro casos, los cuatro conjuntos de datos bivariantes
son muy diferentes:
La relación entre las variables X1 e Y 1 es claramente de tipo lineal, por lo que la
recta de regresión resume adecuadamente el comportamiento conjunto de estas
dos variables.
En cambio la relación entre las variables X2 e Y 2 no es lineal. El gráfico pone de
manifiesto que un ajuste de otro tipo (por ejemplo cuadrático) resultarı́a mucho
más adecuado
En el diagrama de dispersión de las variables X3 e Y 3 se observa la presencia
de un dato atı́pico (la tercera de las observaciones) que lleva a ajustar una recta
que no es la que mejor se adapta al resto de las observaciones. Si eliminásemos
este outlier obtendı́amos una recta que se ajustarı́a perfectamente a las 10 ob-
servaciones restantes. El coeficiente de correlación (tras eliminar el tercer dato)
serı́a rx3,y3 = 1.

19
Finalmente, la recta de regresión de Y 4 sobre X4 viene determinada por una
única observación (la octava, que es la única con un valor de la variable expli-
cativa diferente a los demás) por lo que no es una recta que resuma bien las
caracterı́sticas de estos datos bivariantes.

10. Como parte de un estudio para determinar si una reducción de la velocidad máxima en
los grandes núcleos urbanos podrı́a ser útil para disminuir los niveles de contaminación
atmosférica, se han medido los kilómetros que recorre un vehı́culo por cada litro de gaso-
lina a diferentes velocidades. Las salidas siguientes son parte de los resultados del análisis
de regresión realizado con R para estos datos. La velocidad está medida en km/h y la
distancia recorrida por cada litro de gasolina en km.

20
a) ¿Qué porcentaje de la variabilidad observada en las distancias recorridas por cada
litro de gasolina puede explicarse a partir de la velocidad del vehı́culo?
En la salida que proporciona R puede apreciarse que el coeficiente de determinación
es
R2 = 0.7176,
lo cual indica que un 71.76 % de la variabilidad observada en las distancias recorridas
por cada litro de gasolina puede explicarse a partir de las variaciones en la velocidad
de los vehı́culos.

21
b) Un vehı́culo se ha desplazado desde Móstoles hasta Madrid recorriendo 55 kilómetros
por cada litro de gasolina. ¿Qué estimación puede hacerse sobre la velocidad a la
que ha realizado este trayecto?
La segunda de las salidas de R indica que la recta de regresión que explica la ve-
locidad de los vehı́culos (V ) en función de la distancia recorrida por cada litro de
gasolina (D) es
v̂ = 364.9861 − 4.8028 d
Luego la estimación que proporciona la recta de regresión para la velocidad de un
vehı́culo que se ha desplazado desde Móstoles hasta Madrid recorriendo 55 kilómetros
por cada litro de gasolina es
v̂ = 364.9861 − 4.8028 × 55 = 100.8321 km/h
c) ¿Cuál es el coeficiente de correlación entre la velocidad y la distancia recorrida por
cada litro de gasolina? Interpretar este valor.
El coeficiente de determinación es el cuadrado del coeficiente de correlación,
R2 = r 2
En este caso el coeficiente de determinación es 0.7176, por lo que sabemos que el
coeficiente de correlación verifica
r2 = 0.7176
y por consiguiente √
|r| = 0.7176 = 0.8471
Para determinar el signo de r basta observar que éste siempre coincide con el signo
de las rectas de regresión (que es siempre el mismo en la recta de y sobre x y en la
de x sobre y). En este caso las pendientes son negativas, y en consecuencia

r = − 0.7176 = −0.8471
Puesto que se trata de un coeficiente de correlación negativo y bastante próximo a
-1, indica que hay una relación de dependencia lineal negativa entre V y D.
d ) A la vista del análisis realizado para estos datos ¿puede concluirse que reducir el
lı́mite de velocidad podrı́a mejorar la contaminación ambiental en las grandes ciu-
dades?
La dependencia lineal negativa entre V y D se traduce en que el número de kilómetros
que un vehı́culo recorre con cada litro de basolina disminuye linealmente a medida
de se incrementa la velocidad del coche.
Recorrer menos kilómetros con cada litro de gasolina implica gastar más gasolina
para recorrer la misma distancia, lo que a su vez suponer contaminar más para
recorrer la misma distancia.
Luego podemos concluirse que, si este estudio es fiable, reducir el lı́mite de velocidad
podrı́a, en efecto, mejorar la contaminación ambiental en las grandes ciudades.

22

También podría gustarte