Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SEMESTRE 2017-I
PRACTICA 1
VIERNES, 28 DE ABRIL DE 2017
Nombre:___________________________________________________________________________
Sección:___________________
No se puede consultar ningún tipo de documentación.
1. Sean X e Y un par de variables de las que se tienen las observaciones (𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 ) tomadas en un
conjunto de 𝑛 individuos. Contesta a las siguientes cuestiones, justificando brevemente la respuesta.
a) Supongamos que la ecuación de regresión de Y sobre X es 𝑌̂ = 5 + 𝑋. Sabiendo que las desviaciones
típicas de Y y X son 4 y 2, respectivamente, ¿cuánto vale el coeficiente de correlación? (1p)
b) Si a partir de la ecuación de regresión 𝑌̂ = 5 + 𝑋 se comete un error de predicción de 3 para un
individuo de valor Y=15 ¿Cuánto vale la puntuación de este individuo en la variable X? (1p)
c) ¿Pueden ser iguales el coeficiente de correlación de Pearson y la covarianza? (1p)
d) Cuanto más lejos estén los puntos (𝑥, 𝑦) de la recta de regresión ¿mayor será la correlación? (1p)
e) Si la nube de puntos tiene forma monótona decreciente y convexa (con segunda derivada positiva),
¿una transformación del tipo 𝑦 ∗ = 𝑦 𝑐 con 𝑐 > 1 puedeconseguir linealizar la relación? (2p)
f) Si tenemos la regresión 𝑌̂ = 5 + 𝑋 y sabemos que 𝑋̅ = 4, ¿podemos saber el valor de 𝑌̅? (1p)
SOLUCIÓN:
a. El coeficiente de correlación es
𝑐𝑜𝑣(𝑥, 𝑦)
𝜌= .
𝑆𝑥 𝑆𝑦
Del modelo de regresión se tiene que
𝑐𝑜𝑣(𝑥, 𝑦)
𝛽̂1 = = 1 ⇒ 𝑐𝑜𝑣(𝑥, 𝑦) = 𝑆𝑥2 .
𝑆𝑥2
Por tanto:
𝑐𝑜𝑣(𝑥, 𝑦) 𝑆𝑥2 𝑆𝑥 2
𝜌= = = = = 0.5.
𝑆𝑥 𝑆𝑦 𝑆𝑥 𝑆𝑦 𝑆𝑦 4
𝑐𝑜𝑣(𝑥, 𝑦)
𝜌= = 𝑐𝑜𝑣(𝑥, 𝑦) ⇒ 𝑆𝑥 𝑆𝑦 = 1
𝑆𝑥 𝑆𝑦
Por tanto, sí pueden ser iguales si el producto de las desviaciones típicas fuese uno. Por ejemplo, si
𝑆𝑥 = 𝑆𝑦 = 1.
d. Falso. La correlación será tanto mayor cuanto más alineados estén los puntos. Por tanto, si los puntos
están muy alejados de la recta de regresión la correlación sería baja.
e. Falso. En ese caso los puntos tendrán la forma
Por tanto, para linealizar la relación transformando la 𝑦, habria que disminuir mucho los valores altos
de 𝑦, y menos los bajos, lo que se consigue con 𝑦 𝑐 , 𝑐 < 1.
SOLUCIÓN:
a) La media es
12 25 26 20 13 3 1
𝑥̅ = ∑ 𝑥𝑖 𝑓𝑟 (𝑥𝑖 ) = 1 +2 +3 +4 +5 +6 +8 = 3.11.
100 100 100 100 100 100 100
𝑖
La moda es el valor más frecuente, es decir, moda=3.
b) La siguiente tabla muestra las frecuencias acumulada que facilitan el cálculo de los cuartiles
Los cuartiles son los valores que dejan por debajo al 15%, 50% y 75% de los datos, respectivamente. Se
obtiene entonces que 𝑸𝟏 = 𝟐; 𝑸𝟐 = 𝟑; 𝑸𝟑 = 𝟒.
c) El box-plot es:
d) Si sumamos 10 a cada dato, el orden de los datos no cambia. Los valores de los cuartiles estarán, por tanto,
en la misma posición que antes, pero con su valor incrementado en esas 10 unidades. Es decir, 𝑄1∗ = 12;
𝑄2∗ = 13; 𝑄3∗ = 14. El rango intercuartílico no variará, pues será
𝑅𝐼 ∗ = 𝑄3∗ − 𝑄1∗ = (𝑄3 + 10) − (𝑄1 + 10) = 𝑄3 − 𝑄1 = 2.
3. Se estima que 4 de cada 1000 habitantes padece cierta enfermedad transmitida por la picadura de los zancudos. El
diagnóstico de esta enfermedad no es sencillo, pues sus síntomas son los mismos que los de otras dolencias. De
hecho, sólo el 40% de los ciudadanos que presentan síntomas tienen realmente esta enfermedad. En algunos
pacientes, esta enfermedad pasa desapercibida al no sentir ningún síntoma, lo que sucede en el 5% de los
enfermos por esta dolencia. Calcula, razonando la respuesta:
a) ¿Qué proporción de los pacientes de esta enfermedad presentan síntomas? (1p)
b) ¿Qué proporción de la población presenta los síntomas que hagan sospechar que padece esta
enfermedad, tengan o no esta dolencia? (2p)
c) ¿Cuál es la probabilidad de que una persona que no tenga esta enfermedad tenga los síntomas? (2p)
d) ¿Cuál es la probabilidad de que al seleccionar un ciudadano al azar éste tenga tanto los síntomas como la
enfermedad? (1p)
SOLUCIÓN:
𝑃(𝑆|𝐸) = 0.95.
b) Nos están pidiendo 𝑃(𝑆). Como tenemos 𝑃(𝐸|𝑆) y 𝑃(𝑆|𝐸) podemos utilizar el teorema de Bayes