Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. En un taller mecánico una pieza pasa primero por la máquina 1 (X) y luego por la
máquina 2 (Y ). La siguiente tabla muestra los tiempos X e Y (en minutos) empleados
por diez piezas en cada máquina.
X 5 15 10 10 10 5 10 10 15 10
Y 10 15 15 10 10 15 20 15 20 20
Se pide:
1
Análogamente, para calcular las varianzas, usamos
2. Tras preguntar a 300 estudiantes, se ha obtenido que el 10 % fuma y el 40 % eran del sexo
femenino. Construye la tabla de frecuencias absolutas de estos 300 estudiantes para las
variables Fuma/No Fuma y Chico/Chica, sabiendo que el número de chicos que fuma es
igual al número de chicas que fuma.
Definimos las variables X =Chico/Chica, Y =Fuma/No Fuma.
2
c) La distribución de frecuencias absolutas de Fuma/No Fuma condicionada a que los
individuos son chicas.
Y |X =Chicas n1j
Fuma 15
No fuma 105
Total 120
d ) La distribución de frecuencias relativas de Fuma/No Fuma condicionada a que los
individuos son chicas.
A partir de la tabla anterior dividiendo por el número de chicas (120)
Y |X =Chicas f1j
Fuma 0.125
No fuma 0.875
Total 1
e) ¿Qué grupo es más fumador, los chicos o las chicas? De la tabla anterior vemos que
el 12.5 % de las chicas fuma. Si hacemos lo mismo para chicos tenemos
Y |X =Chicos f2j
Fuma 0.083
No fuma 0.916
Total 1
por tanto, aunque hay igual número de chicos que fuma que de chicas, el porcentaje
es menor. Sólo el 8.3 % de chicos fuma, mientras que las chicas lo hacen en un 12.5 %.
4. Un proceso productivo tiene dos lı́neas de producción: lı́nea A y lı́nea B, que funcionan de
forma totalmente independiente (distintas máquinas, distintos operarios, etc). Un analista
toma nota al final de cada lı́nea del número de defectos que tienen los artı́culos que van
produciendo ambas lı́neas. En una hoja de papel, va anotando en dos columnas los defectos
que tiene cada uno de los artı́culos que analiza. Primero toma nota de 50 artı́culos de la
lı́nea A y después va a la lı́nea B y toma nota de 50 artı́culos de dicha lı́nea.
Cuando tiene 50 artı́culos inspeccionados por cada lı́nea construye una tabla de frecuencias
bivariante, resultando la siguiente tabla: ¿Qué conclusiones se pueden sacar?
3
La tabla no tiene sentido, pues los dos pares de 50 observaciones no están relacionados.
Los 50 datos de la lı́nea A no se corresponden con los de la lı́nea B.
5. Consideremos los datos de los niveles de NO2 en las estaciones de la red de medición de
la contaminación atmosférica del Ayuntamiento de Madrid. Llamemos X a los niveles
de contaminación en el año 2007 (medidos en microgramos por metro cúbico), e Y a los
2008. Con esta notación se tiene
25
X 25
X
xi = 1498 yi = 1387
i=1 i=1
X25 X25 25
X
x2i = 94828 yi2 = 80423 xi yi = 87035
i=1 i=1 i=1
a) Ajustar, mediante mı́nimos cuadrados, la recta de regresión que explica los niveles
medios de dióxido de nitrógeno en el año 2008 como función de los registrados en
2007.
A partir de los sumatorios de los que disponemos se pueden calcular la medias y
varianzas de las variables X e Y y la covarianza entre ellas:
25
X
x2i
1498 i=1 94828
x= = 59.92 = = 3793.12 s2x = 3793.12 − 59.922 = 202.71
25 25 25
4
25
X
yi2
1387 i=1 80423
y= = 55.48 = = 3216.92 s2y = 3216.92 − 55.482 = 138.89
25 25 25
25
X
xi y i
i=1 87035
= 3481.4 sxy = 3481.4 − 59.92 × 55.48 = 157.04
=
25 25
Podemos resumir estos valores indicando el vector de medias y la matriz de varianzas
y covarianzas de estos datos:
2
x 59.92 sx sxy 202.71 157.04
= ; S= =
2
y 55.48 syx sy 157.04 138.89
ŷ = 9.06 + 0.77 · x
b) Para un punto de Madrid que tuvo en 2007 un nivel medio de NO2 de 60 µg por m3 ,
¿qué estimación puede hacerse sobre su nivel de contaminación en el año 2008?
La estimación que proporciona la recta de regresión sobre su nivel de contaminación
en el año 2008 es
ŷ = 9.06 + 0.77 × 60 = 55.54µg/m3
c) ¿Qué porcentaje de la variabilidad de los niveles de NO2 en Madrid puede excplicarse
por la variabilidad de los niveles de este contaminante en el año anterior?
El coeficiente de determinación entre X e Y es
2 2
s2xy 157.042
R = rxy = 2 = = 0.8758
sx × s2y 202.71 × 138.89
Por tanto, el porcentaje de la variabilidad de los niveles de NO2 en 2008 que quedan
explicados por las variaciones de este contaminante en el año anterior es un 87.58 %.
5
6. Con el fin de investigar la relación entre el nivel de riqueza y el impacto ejercido sobre
el medio ambiente, se han analizado la renta per cápita de los paı́ses en el año 20081
(expresada en decenas de miles de dolares per cápita) y su huella ecológica per cápita
durante el mismo periodo2 (en hectáreas per cápita). Tras realizar un análisis de regresión
de los datos con R se ha obtenido el siguiente resultado:
Call:
lm(formula = Huella ecologica per capita ∼ Renta per capita)
Residuals:
Min 1Q Median 3Q Max
-3.5857 -0.5277 -0.1560 0.3973 3.3276
Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 1.08429 0.11164 9.712 <2e-16 ***
Renta per capita 1.31034 0.06187 21.178 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.9845 on 144 degrees of freedom
Multiple R-squared: 0.757, Adjusted R-squared: 0.7553
F-statistic: 48.5 on 1 and 144 DF, p-value: <2.2e-16
h = 1.08429 + 1.31034 × p
b
o, redondeando,
h = 1.1 + 1.3 × p
b
La pendiente de esta recta, b ' 1.3, indica que por cada diez mil euros que aumenta
la renta per cápita, la huella ecológica del paı́s se incrementa por término medio en
aproximadamente 1.3 hectáreas (o más exactamente, 13103.4 m2 ) per cápita.
b) ¿Cuál es el coeficiente de correlación entre la renta per cápita de los paı́ses y su
huella ecológica per cápita? ¿Qué es lo que indica este valor?
Como puede observarse en la salida de R, el coeficiente de determinación es
R2 = 0.757.
1
Fuente de los datos: Fondo Monetario Internacional ( http://www.imf.org/external/pubs/ft/weo/2009/01)
2
Fuente de los datos: Global Footprint Network ( http://www.footprintnetwork.org/)
6
Teniendo en cuenta que el coeficiente de determinación (R2 ) es el cuadrado del
coeficiente de correlación (r), se deduce
r2 = 0.757
y por consiguiente √
|r| = 0.757 = 0.87
Para conocer el signo de r hay que tener en cuenta que éste siempre coincide con el
signo de la pendiente de la recta de regresión. En este caso la pendiente de la recta
de H sobre P es positiva, y en consecuencia
√
r = + 0.757 = 0.87
d ) La huella ecológica de España en 2008 fue de 5.7 hectáreas per cápita. Comparando
este valor con el obtenido en el apartado anterior, ¿qué conclusión puede extraerse?
Según se ha visto en el apartado anterior, la huella ecológica que estima la recta de
regresión para un paı́s con un nivel de renta como el de España es de 5.08 hectáreas
per cápita. Sin embargo, la huella real de España en 2008 fue de 5.7 hectáreas per
cápita, un valor bastante superior al que predice esta recta.
El valor real de la huella ecológica de España es superior al estimado por la recta
en más de 0.6 hectáreas per cápita, indicando que está por encima de la tendencia
general que marcan los paı́ses en su conjunto.
7
La tabla siguiente recoge la tasa de mortalidad por cáncer (expresada en número de muer-
tes por cada 10.000 habitantes) y la distancia (en kilómetros) a la refinerı́a de Esmeraldas
(situada en la costa noroeste de Ecuador), de seis municipios de población campesina e
indı́gena:
Distancia Cáncer
18 40
17 50
16 60
15 68
15 62
9 80
di ci d2i c2i di · ci
18 40 324 1600 720
17 50 289 2500 850
16 60 256 3600 960
15 68 225 4624 1020
15 62 225 3844 930
9 80 81 6400 720
Suma: 90 360 1400 22568 5200
Se tiene que
6
X
d2i
90 1400
d¯ = = 15 i=1
= = 233.33 s2d = 233.33 − 152 = 8.33
6 6 6
6
X
c2i
360 i=1 22568
c̄ = = 60 = = 3761.33 s2c = 3761.33 − 602 = 161.33
6 6 6
6
X
d i ci
i=1 5200
= = 866.67 sdc = 866.67 − 15 · 60 = −33.33
6 6
8
Por tanto el vector de medias y la matriz de varianzas y covarianzas de estos datos
son
d¯
2
15 sd sdc 8.33 −33.33
= S= =
2
c̄ 60 scd sc −33.33 161.33
ĉ = a + b · d
a = c − b d = 60 − (−4) × 15 = 60 + 60 = 120.
ĉ = 120 − 4 · d
9
d ) Interpretar los coeficientes de esta recta de regresión.
Como acabamos de ver, la ecuación de la recta de regresión que explica la tasa de
cáncer a partir de la distancia a la refinerı́a es
ĉ = 120 − 4 · d
ĉ = 120 − 4 × 14 = 64,
10
f ) ¿Qué estimación puede hacerse sobre la tasa de mortalidad por cáncer en una loca-
lidad situada a 2 kilómetros de la refinerı́a?
La recta de regresión no puede utilizarse para hacer predicciones usando valores
de D que estén fuera del rango de los datos observados (es decir, fuera del rango
de valores de D utilizados para construir la recta). Por tanto, no podemos realizar
ninguna predicción fiable sobre la tasa de mortalidad por cáncer en una localidad
situada a 2 kilómetros de la refinerı́a.
g) ¿Qué predicción puede hacerse sobre la distancia a la refinerı́a de una localidad en
la que se ha se ha registrado una tasa de 55 muertes por cancer de por cada 10.000
habitantes?
Para predecir la distancia a la refinerı́a de una localidad en la que se ha se ha
registrado una tasa de 55 muertes por cancer de por cada 10.000 habitantes no
podemos utilizar la recta ĉ = 120 − 4 · d, ya que esta recta está diseñada para
predecir C a partir de D, y no al revés. Debemos por tanto construir la recta de
regresión que explica la distancia a la refineria a partir de la tasa de mortalidad por
cáncer,
dˆ = ã + b̃ · c
La pendiente de esta recta es
sdc −33.33
b̃ = = = −0.207
s2c 161.33
y su intercepto
ã = d − b̃ c = 15 − (−0.207) × 60 = 15 + 60 = 27.397
dˆ = 27.397 − 0.207 · c
11
Luego, la predicción que puede hacerse sobre la distancia a la refinerı́a de una loca-
lidad en la que se ha se ha registrado una tasa de 55 muertes por cancer de por cada
10.000 habitantes, es
dˆ = 27.397 − 0.207 × 55 = 16.012,
es decir, 16.012 kilómetros de la refinerı́a de Esmeraldas.
12
i ) A la vista del análisis realizado para los datos de estos municipios, ¿qué conclusiones
pueden extraerse acerca de la relación entre la proximidad a una refinerı́a de petróleo
y el número de cánceres mortales?
Se ha visto que el coeficiente de correlación entre las variables D y C es
rdc = −0.909
13
Los niveles de plomo están medidos en microgramos por decilitro de sangre (µg/dL), y el
tiempo dedicado a la limpieza del chapapote en horas.
p̂ = 10.84 + 1.01 × h
14
limpiando chapapote una pescadora que tiene 60 µg/dL de plomo en la sangre,
necesitarı́amos conocer la ecuación de la recta de H sobre P , es decir, la recta
ĥ = c + d p
p̂ = 10.84 + 1.01 × h
R2 = 0.9139.
15
La fuerte dependencia lineal positiva entre H y P se traduce en que el nivel de plomo
en la sangre de los pescadores aumenta linealmente a medida de se incrementan las
horas dedicadas a la limpieza de chapapote.
Puesto que el plomo en la sangre es perjudicial para la salud humana, puede con-
cluirse que la limpieza del chapapote sı́ ha influido negativamente en la salud de los
pescadores del Golfo de México.
9. La tabla siguiente recoge cuatro conjuntos de datos, con 11 observaciones cada uno de
ellos. Fueron contruı́dos por el estadı́stico F. J. Anscombe con el fin de resaltar la impor-
tancia de representar gráficamente los conjuntos de datos antes de analizarlos numérica-
mente.
x1 = 9 s2x1 = 10
y1 = 7.5 s2y1 = 3.75 sx1,y1 = 5
x2 = 9 s2x2 = 10
y2 = 7.5 s2y2 = 3.75 sx2,y2 = 5
x3 = 9 s2x3 = 10
y3 = 7.5 s2y3 = 3.75 sx3,y3 = 5
16
x4 = 9 s2x4 = 10
y4 = 7.5 s2y4 = 3.75 sx4,y4 = 5
s2x2
x2 9 sx2,y2 10 5
= Sx2,y2 = =
y2 7.5 sx2,y2 s2y2 5 3.75
s2x3
x3 9 sx3,y3 10 5
= Sx3,y3 = =
y3 7.5 sx3,y3 s2y3 5 3.75
s2x4
x4 9 sx4,y4 10 5
= Sx4,y4 = =
y4 7.5 sx4,y4 s2y4 5 3.75
Como puede observarse, los cuatro conjuntos de datos tienen idéntico vector de
medias e idéntica matriz de varianzas y covarianzas.
b) Ajustar la recta de regresión de y sobre x para cada uno de ellos. ¿Qué se observa?
Los coeficientes de la recta de regresión de y1 sobre x1,
y1
c = a + b x1,
son
sx1,y1 5
b= 2
= = 0.5
sx1 10
y
a = y1 − b × x1 = 7.5 − 0.5 × 9 = 3
La recta de regresión de x1 sobre x1 es por tanto
y1
c = 3 + 0.5 x1
Dado que las medias, varianzas y covarianzas de los cuatro conjuntos de datos son
los mismos, las rectas de regresión de y2 sobre x2, de y3 sobre x3, y de y4 sobre x4,
serán idénticas a la anterior.
17
Es decir, se tendrá
y2
c = 3 + 0.5 x2,
y3
c = 3 + 0.5 x3,
y4
c = 3 + 0.5 x4.
Observamos pues que las cuatro rectas de regresión son iguales.
Además, los coeficientes de correlación de los cuatro conjuntos de datos son también
iguales,
5
rx1,y1 = rx2,y2 = rx3,y3 = rx4,y4 = √ = 0.8165,
10 × 3.75
y en consecuencia también lo son los coeficientes de determinación:
52
Rx1,y1 = Rx2,y2 = Rx3,y3 = Rx4,y4 = = 0.6667
10 × 3.75
18
Como puede observarse, a pesar que el coeficiente de determinación y la recta de
regresión son los mismos en los cuatro casos, los cuatro conjuntos de datos bivariantes
son muy diferentes:
La relación entre las variables X1 e Y 1 es claramente de tipo lineal, por lo que la
recta de regresión resume adecuadamente el comportamiento conjunto de estas
dos variables.
En cambio la relación entre las variables X2 e Y 2 no es lineal. El gráfico pone de
manifiesto que un ajuste de otro tipo (por ejemplo cuadrático) resultarı́a mucho
más adecuado
En el diagrama de dispersión de las variables X3 e Y 3 se observa la presencia
de un dato atı́pico (la tercera de las observaciones) que lleva a ajustar una recta
que no es la que mejor se adapta al resto de las observaciones. Si eliminásemos
este outlier obtendı́amos una recta que se ajustarı́a perfectamente a las 10 ob-
servaciones restantes. El coeficiente de correlación (tras eliminar el tercer dato)
serı́a rx3,y3 = 1.
19
Finalmente, la recta de regresión de Y 4 sobre X4 viene determinada por una
única observación (la octava, que es la única con un valor de la variable expli-
cativa diferente a los demás) por lo que no es una recta que resuma bien las
caracterı́sticas de estos datos bivariantes.
10. Como parte de un estudio para determinar si una reducción de la velocidad máxima en
los grandes núcleos urbanos podrı́a ser útil para disminuir los niveles de contaminación
atmosférica, se han medido los kilómetros que recorre un vehı́culo por cada litro de gaso-
lina a diferentes velocidades. Las salidas siguientes son parte de los resultados del análisis
de regresión realizado con R para estos datos. La velocidad está medida en km/h y la
distancia recorrida por cada litro de gasolina en km.
20
a) ¿Qué porcentaje de la variabilidad observada en las distancias recorridas por cada
litro de gasolina puede explicarse a partir de la velocidad del vehı́culo?
En la salida que proporciona R puede apreciarse que el coeficiente de determinación
es
R2 = 0.7176,
lo cual indica que un 71.76 % de la variabilidad observada en las distancias recorridas
por cada litro de gasolina puede explicarse a partir de las variaciones en la velocidad
de los vehı́culos.
21
b) Un vehı́culo se ha desplazado desde Móstoles hasta Madrid recorriendo 55 kilómetros
por cada litro de gasolina. ¿Qué estimación puede hacerse sobre la velocidad a la
que ha realizado este trayecto?
La segunda de las salidas de R indica que la recta de regresión que explica la ve-
locidad de los vehı́culos (V ) en función de la distancia recorrida por cada litro de
gasolina (D) es
v̂ = 364.9861 − 4.8028 d
Luego la estimación que proporciona la recta de regresión para la velocidad de un
vehı́culo que se ha desplazado desde Móstoles hasta Madrid recorriendo 55 kilómetros
por cada litro de gasolina es
v̂ = 364.9861 − 4.8028 × 55 = 100.8321 km/h
c) ¿Cuál es el coeficiente de correlación entre la velocidad y la distancia recorrida por
cada litro de gasolina? Interpretar este valor.
El coeficiente de determinación es el cuadrado del coeficiente de correlación,
R2 = r 2
En este caso el coeficiente de determinación es 0.7176, por lo que sabemos que el
coeficiente de correlación verifica
r2 = 0.7176
y por consiguiente √
|r| = 0.7176 = 0.8471
Para determinar el signo de r basta observar que éste siempre coincide con el signo
de las rectas de regresión (que es siempre el mismo en la recta de y sobre x y en la
de x sobre y). En este caso las pendientes son negativas, y en consecuencia
√
r = − 0.7176 = −0.8471
Puesto que se trata de un coeficiente de correlación negativo y bastante próximo a
-1, indica que hay una relación de dependencia lineal negativa entre V y D.
d ) A la vista del análisis realizado para estos datos ¿puede concluirse que reducir el
lı́mite de velocidad podrı́a mejorar la contaminación ambiental en las grandes ciu-
dades?
La dependencia lineal negativa entre V y D se traduce en que el número de kilómetros
que un vehı́culo recorre con cada litro de basolina disminuye linealmente a medida
de se incrementa la velocidad del coche.
Recorrer menos kilómetros con cada litro de gasolina implica gastar más gasolina
para recorrer la misma distancia, lo que a su vez suponer contaminar más para
recorrer la misma distancia.
Luego podemos concluirse que, si este estudio es fiable, reducir el lı́mite de velocidad
podrı́a, en efecto, mejorar la contaminación ambiental en las grandes ciudades.
22