Está en la página 1de 2

Universidad Técnica Federico Santa Marı́a

Departamento de Informática

Certamen III - Estadı́stica Computacional


Semestre I 2017 - Jueves 29.06.17
90 + 30 minutos

Por favor lea y siga atentamente las siguientes instrucciones:

• Cada pregunta se evaluará con una nota de 0 a 100. Su calificación final será el promedio entre estos ı́temes.
• Entregue las respuestas a cada pregunta en hojas separadas, utilizando un lápiz de pasta o tinta indeleble y
escribiendo su nombre y rol en cada hoja.
• Escriba cualquier supuesto que crea importante y todos los pasos intermedios que sean necesarios para llegar
a un resultado. En preguntas que incluyan intervalos de confianza o contrastes de hipótesis, asegúrese de
indicar las estadı́sticas y los percentiles que utilizará antes de instanciar los datos del problema. Indique
además la distribución de probabilidad involucrada y sus parámetros.

• Este es un evento solemne. Cualquier intento de copia, o acto reñido con la ética, implicará nota 0 en este
certamen (no substituible). Además, los antecedentes serán derivados a la comisión de ética de la universidad
para que determine las sanciones pertinentes según la hoja de vida del estudiante.
• Si lo desea, puede omitir la pregunta 4 de este certamen, entregando sus respuestas antes del
primer llamado, que se producirá transcurridos 90 minutos desde el inicio.

• Muy buena suerte!

Preguntas:

1. Se está diseñando un sistema para detectar actividad abusiva en una red a partir del tráfico que muestra una
IP en un determinado intervalo de tiempo (X). A partir de un conjunto de n1 = 21 datos correspondientes
a un cierto tipo de conexiones abusivas y n2 = 41 datos correspondientes a conexiones no-abusivas, se ha
observado que las primeras presentan una media y desviación estándar muestrales de X̄1 = 15 y S1 = 5
logB/s respectivamente, mientras que las segundas exhiben una media y desviación estándar muestrales de
X̄2 = 11.5 y S2 = 2.5 logB/s respectivamente. Si el tráfico en cada categorı́a (i = 1, 2) se modela como v.a.
normal Xi ∼ N (µi , σi2 ),
(a) (50%) Estime un intervalo de confianza para la diferencia ∆ = µ1 − µ2 asumiendo que las varianzas
σ12 , σ22 son iguales y adoptando un nivel de significación del 1%. A partir del resultado, explique si hay
una diferencia significativa entre las medias (µ1 ,µ2 ) de cada categorı́a.
(b) (50%) Estime un intervalo de confianza para el cuociente θ = σ12 /σ22 , adoptando un nivel de significación
del 10%. A partir del resultado, determine si el supuesto de varianzas idénticas es razonable.
2. La tasa de clicks (CTR) indica la probabilidad con la que los usuarios que ven un anuncio acaban haciendo
clic en él. Suponga que se desea estimar la tasa de clicks p correspondiente a una nueva campaña publicitaria
en Internet. A partir de n datos recogidos en un estudio preliminar, se sabe un 20% de las veces que la
publicidad se mostró a un usuario, ésta recibió un click. La campaña publicitaria se considera exitosa cuando
p ≥ 1/3.

1
(a) (30%) Si n = 100, determine un intervalo de confianza aproximado para p, adoptando un nivel de
significación del 1%. ¿Qué se puede concluir acerca de la nueva campaña? Hint: por simplicidad trabaje
con un intervalo simétrico.
(b) (35%) Determine el número aproximado de datos n con los que debiese construirse el intervalo anterior,
si se desea que estimar p con un error de a lo más 0.01, manteniendo el nivel de confianza del 99%. Hint:
Suponga que la fracción de clicks observada en la muestra se mantiene en 20%.
(c) (35%) Si p = 0.3, aproxime la probabilidad de que sobre n = 100 visualizaciones se obtengan a lo más
20 clicks. ¿Qué se puede concluir acerca de la nueva campaña?
3. Un grupo de estudiantes USM se encuentra diseñando un algoritmo para estimar profundidad en una escena
a partir de imágenes RGB. El algoritmo se considera “calibrado” si la distribución de sus errores es N (µ, σ 2 )
con µ = 0 y σ ≤ 1.5. Suponga que ya se ha determinado que los errores son efectivamente normales y que
σ = 1. Para determinar si µ = 0, uno de los estudiantes propone ejecutar el contraste:

H0 : µ = 0
H1 : µ 6= 0,

y rechazar H0 cuando el promedio de los errores del algoritmo sobre 100 casos de prueba (Ē) exceda 0.1.
(a) (50%) Determine la probabilidad de un error tipo 1 (α) si se usa la regla propuesta por el estudiante y
proponga una nueva regla de rechazo basada en el promedio (Ē) que mantenga este error bajo el 5%.
(b) (50%) Compare la potencia del contraste propuesto por el estudiante y el suyo, cuando en realidad ocurre
que µ = 0.05. ¿Qué regla es preferible desde este punto de vista?

4. A continuación se resumen estadı́sticas correspondientes a precio (Y , en dólares) alcanzado por ciertos bonos
del tesoro americano en el mercado financiero y la correspondiente tasa o porcentaje de pago periódico X. Se
desea predecir el precio que alcanzará el bono como función de la tasa que ofrece el instrumento. Asumiendo
que el modelo Y = a · X + b +  es correcto con  ∼ N (0, σ 2 ),

x̄ = n1 Pi xi = 9.438 ȳ = n1 Pi yi = 103.055
P P
n = 62P
Sxx = i (xi − x̄)2 = 176.875 Sxy = i (xi − x̄)(yi − ȳ) = 804.178 Syy = i (yi − ȳ)2 = 3948.043

(a) (50%) Determine un intervalo de confianza para b adoptando un nivel de significación del 5%. ¿Se puede
concluir que el precio de los bonos aumenta cuando aumenta la tasa de pago ofrecida?
(b) (50%) Si un bono ofrece una tasa de pago del 9.25% (X = 9.25), estime un intervalo de confianza para
el valor esperado del precio del bono (E(Y |X = 9.25)).

RNA+CVV LATEX

También podría gustarte