Está en la página 1de 4

ESTADÍSTICA BÁSICA

SEMESTRE 2017-I
PRACTICA 1
VIERNES, 28 DE ABRIL DE 2017

Nombre:___________________________________________________________________________
Sección:___________________
No se puede consultar ningún tipo de documentación.

1. Sean X e Y un par de variables de las que se tienen las observaciones (𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 ) tomadas en un
conjunto de 𝑛 individuos. Contesta a las siguientes cuestiones, justificando brevemente la respuesta.
a) Supongamos que la ecuación de regresión de Y sobre X es 𝑌̂ = 5 + 𝑋. Sabiendo que las desviaciones
típicas de Y y X son 4 y 2, respectivamente, ¿cuánto vale el coeficiente de correlación? (1p)
b) Si a partir de la ecuación de regresión 𝑌̂ = 5 + 𝑋 se comete un error de predicción de 3 para un
individuo de valor Y=15 ¿Cuánto vale la puntuación de este individuo en la variable X? (1p)
c) ¿Pueden ser iguales el coeficiente de correlación de Pearson y la covarianza? (1p)
d) Cuanto más lejos estén los puntos (𝑥, 𝑦) de la recta de regresión ¿mayor será la correlación? (1p)
e) Si la nube de puntos tiene forma monótona decreciente y convexa (con segunda derivada positiva),
¿una transformación del tipo 𝑦 ∗ = 𝑦 𝑐 con 𝑐 > 1 puedeconseguir linealizar la relación? (2p)
f) Si tenemos la regresión 𝑌̂ = 5 + 𝑋 y sabemos que 𝑋̅ = 4, ¿podemos saber el valor de 𝑌̅? (1p)

SOLUCIÓN:

a. El coeficiente de correlación es
𝑐𝑜𝑣(𝑥, 𝑦)
𝜌= .
𝑆𝑥 𝑆𝑦
Del modelo de regresión se tiene que
𝑐𝑜𝑣(𝑥, 𝑦)
𝛽̂1 = = 1 ⇒ 𝑐𝑜𝑣(𝑥, 𝑦) = 𝑆𝑥2 .
𝑆𝑥2
Por tanto:
𝑐𝑜𝑣(𝑥, 𝑦) 𝑆𝑥2 𝑆𝑥 2
𝜌= = = = = 0.5.
𝑆𝑥 𝑆𝑦 𝑆𝑥 𝑆𝑦 𝑆𝑦 4

b. El error de predicción es 𝑌 − 𝑌̂ = 3, por lo que, si 𝑌 = 15, se tiene que


𝑌̂ = 15 − 3 = 12 ⇒ 5 + 𝑋 = 12 ⇒ 𝑋 = 7.

c. De la definición de dichos coeficientes se tiene

𝑐𝑜𝑣(𝑥, 𝑦)
𝜌= = 𝑐𝑜𝑣(𝑥, 𝑦) ⇒ 𝑆𝑥 𝑆𝑦 = 1
𝑆𝑥 𝑆𝑦

Por tanto, sí pueden ser iguales si el producto de las desviaciones típicas fuese uno. Por ejemplo, si
𝑆𝑥 = 𝑆𝑦 = 1.

d. Falso. La correlación será tanto mayor cuanto más alineados estén los puntos. Por tanto, si los puntos
están muy alejados de la recta de regresión la correlación sería baja.
e. Falso. En ese caso los puntos tendrán la forma

Por tanto, para linealizar la relación transformando la 𝑦, habria que disminuir mucho los valores altos
de 𝑦, y menos los bajos, lo que se consigue con 𝑦 𝑐 , 𝑐 < 1.

f. Sí se puede saber, pues se cumple que


𝛽̂0 = 𝑦̅ − 𝛽̂ 𝑥̅ ⇒ 𝑦̅ = 𝛽̂0 + 𝛽̂ 𝑥̅ = 5 + 4 = 9.
2. La siguiente figura muestra el gráfico de barras de una
muestra de 100 datos de una variable discreta. El valor
sobre las barras es la frecuencia absoluta de cada valor.
Se pide:
a) Calcula la media y la modaa de esta variable. (1p)
b) Calcula los cuartiles de esta variable. (2p)
c) Dibuja el box-plot, incluyendo las marcas de
atípicos. (2p)
d) ¿Cómo cambiaría el rango intercuartílico si
sumamos el valor 10 a cada dato? (2p)

SOLUCIÓN:

a) La media es
12 25 26 20 13 3 1
𝑥̅ = ∑ 𝑥𝑖 𝑓𝑟 (𝑥𝑖 ) = 1 +2 +3 +4 +5 +6 +8 = 3.11.
100 100 100 100 100 100 100
𝑖
La moda es el valor más frecuente, es decir, moda=3.

b) La siguiente tabla muestra las frecuencias acumulada que facilitan el cálculo de los cuartiles

Frecuencia Frecuencia Frec. relativa


Clase Valor Frecuencia
Relativa Acumulada Acumulada
1 1 12 0,12 12 0,12
2 2 25 0,25 37 0,37
3 3 26 0,26 63 0,63
4 4 20 0,2 83 0,83
5 5 13 0,13 96 0,96
6 6 3 0,03 99 0,99
7 8 1 0,01 100 1

Los cuartiles son los valores que dejan por debajo al 15%, 50% y 75% de los datos, respectivamente. Se
obtiene entonces que 𝑸𝟏 = 𝟐; 𝑸𝟐 = 𝟑; 𝑸𝟑 = 𝟒.

c) El box-plot es:

d) Si sumamos 10 a cada dato, el orden de los datos no cambia. Los valores de los cuartiles estarán, por tanto,
en la misma posición que antes, pero con su valor incrementado en esas 10 unidades. Es decir, 𝑄1∗ = 12;
𝑄2∗ = 13; 𝑄3∗ = 14. El rango intercuartílico no variará, pues será
𝑅𝐼 ∗ = 𝑄3∗ − 𝑄1∗ = (𝑄3 + 10) − (𝑄1 + 10) = 𝑄3 − 𝑄1 = 2.
3. Se estima que 4 de cada 1000 habitantes padece cierta enfermedad transmitida por la picadura de los zancudos. El
diagnóstico de esta enfermedad no es sencillo, pues sus síntomas son los mismos que los de otras dolencias. De
hecho, sólo el 40% de los ciudadanos que presentan síntomas tienen realmente esta enfermedad. En algunos
pacientes, esta enfermedad pasa desapercibida al no sentir ningún síntoma, lo que sucede en el 5% de los
enfermos por esta dolencia. Calcula, razonando la respuesta:
a) ¿Qué proporción de los pacientes de esta enfermedad presentan síntomas? (1p)
b) ¿Qué proporción de la población presenta los síntomas que hagan sospechar que padece esta
enfermedad, tengan o no esta dolencia? (2p)
c) ¿Cuál es la probabilidad de que una persona que no tenga esta enfermedad tenga los síntomas? (2p)
d) ¿Cuál es la probabilidad de que al seleccionar un ciudadano al azar éste tenga tanto los síntomas como la
enfermedad? (1p)

SOLUCIÓN:

a) Definimos los siguientes sucesos:


• E=tener la enfermedad
• S=tener síntomas

De la información del enunciado se tiene:

𝑃(𝐸) = 0.004 ⇒ 𝑃(𝐸̅ ) = 0.996

𝑃(𝐸|𝑆) = 0.4 ⇒ 𝑃(𝐸̅ |𝑆) = 0.6

𝑃(𝑆̅|𝐸) = 0.05 ⇒ 𝑃(𝑆|𝐸) = 0.95

Por tanto, la proporción de pacientes de esta enfermedad que presentan síntomas es

𝑃(𝑆|𝐸) = 0.95.

b) Nos están pidiendo 𝑃(𝑆). Como tenemos 𝑃(𝐸|𝑆) y 𝑃(𝑆|𝐸) podemos utilizar el teorema de Bayes

𝑃(𝑆|𝐸)𝑃(𝐸) 𝑃(𝑆|𝐸)𝑃(𝐸) 0.95(0.004)


𝑃(𝐸|𝑆) = ⇒ 𝑃(𝑆) = = = 0.0095.
𝑃(𝑆) 𝑃(𝐸|𝑆) 0.4

c) Nos piden ahora 𝑃(𝑆|𝐸̅ ). Por Bayes:


𝑃(𝐸̅ |𝑆)𝑃(𝑆) 0.6(0.0095)
𝑃(𝑆|𝐸̅ ) = = = 0.00572.
𝑃(𝐸̅ ) 0.996

d) En esta ocasión preguntan por la probabilidad 𝑃(𝑆 ∩ 𝐸):

𝑃(𝑆 ∩ 𝐸) = 𝑃(𝐸|𝑆)𝑃(𝑆) = 0.4(0.0095) = 0.0038

También podría gustarte