Intervalos de Confianza - Bootstrap - 2018

Inferencia Estadı́stica
PROBABILIDAD Y ESTADÍSTICA
Guı́a Práctica: Intervalos de confianza con bootstrap.

1. Los ı́tems (a) a (d) se refieren a las distribuciones muestrales dadas en la Figura 1. En cada caso,
inferir el valor del parámetro poblacional y estimar el error estándar para el estadı́stico calculado en
la muestra.
a) La figura (a) muestra las proporciones muestrales para muestras de tamaño n = 40 a partir de
una población.
b) La figura (b) muestra las medias muestrales de muestras de tamaño n = 30 a partir de una
población.
c) La figura (c) muestra las medias muestrales de muestras de tamaño n = 100 a partir de una
población.
d ) La figura (d) muestra las proporciones muestrales de muestras de tamaño n = 180 a partir de
una población.
Figura 1: Cuatro distribuciones muestrales
2. Los ı́tems (a) a (d) se refieren a las distribuciones muestrales dadas en la Figura 1. Varios posibles
valores se dan para el estadı́stico de la muestra. En cada caso, indicar si cada valor es (i) razonablemente
probable que ocurra a partir de una muestra de este tamaño, (ii) inusual pero puede ocurrir de vez en
cuando, o (iii) extremadamente improbable que haya ocurrido
a) Usando la distribución de muestreo de la Figura 1 (a), ¿qué tan probable son estas proporciones
muestrales?:
(1) p̂ = 0.1 (2) p̂ = 0.35 (3) p̂ = 0.6
b) Usando la distribución de muestreo de la Figura 1 (b), ¿qué tan probable son estas medias
muestrales?:
(1) x̄ = 70 (2) x̄ = 100 (3) x̄ = 140
1
c) Usando la distribución de muestreo de la Figura 1 (c), ¿qué tan probable son estas medias
muestrales?:
(1) x̄ = 250 (2) x̄ = 305 (3) x̄ = 315
d ) Usando la distribución de muestreo de la Figura 1 (d), ¿qué tan probable son estas proporciones
muestrales?:
(1) p̂ = 0.72 (2) p̂ = 0.88 (3) p̂ = 0.95
3. En una encuesta realizada en mayo de 2010 se le preguntó a 2.252 adultos de los EE.UU: “¿Es dueño
de una computadora portátil?”. El número que respondió afirmativamente fue 1238. ¿Cuál es la mejor
estimación de la proporción de los adultos de los EE.UU. que poseen un ordenador portátil? Exprese la
notación para la cantidad que estamos estimando, la notación para el número que estamos utilizando
para hacer la estimación, y el valor de la mejor estimación. Asegúrese de definir claramente todos los
parámetro en el contexto de esta situación.
4. Florida cuenta con más de 7.700 lagos. Deseamos estimar la correlación entre el nivel de pH de todos
los lagos de Florida y los niveles de mercurio de los peces de estos lagos. A partir de una muestra
de tamaño n = 53, se calculó el coeficiente de correlación entre estas dos variables y se obtuvo un
resultado de -0,575.
a) Dé una notación para la cantidad que estamos estimando, una notación para la cantidad que
utilizamos para hacer la estimación y el valor de la mejor estimación.
b) ¿Por qué hablamos de una estimación en este caso? ¿Qué serı́a necesario para calcular el valor
exacto de la cantidad que estamos estimando?
Figura 2: Histogramas de mil medias muestrales
5. En el último Censo de EE.UU. se obtuvo que la media de cantidad de habitantes por casas en los
EE.UU. es 2.61. La Figura 2 muestra las posibles distribuciones de los promedios para 1000 muestras
de hogares. La escala en el eje horizontal es la misma en todos los casos.
a) Supongamos que dos de las distribuciones muestran resultados de 1.000 muestras al azar, mientras
que otras dos muestran las distribuciones de un método de muestreo sesgado. ¿Cuáles gráficos
parece que se realizaron con muestras provenientes de un método sesgado de muestreo? Explique
su razonamiento. Elegir una de esas figuras y describir un posible método de muestreo que podrı́a
producir este sesgo.
2
b) Para las dos distribuciones que parecen mostrar resultados de muestras aleatorias, supongamos
que uno proviene de 1000 muestras de tamaño n = 100 y el otro proviene de 1000 muestras de
tamaño n = 500. ¿Cuál es cuál?. ¿Qué pasa con la distribución de muestreo de acuerdo al tamaño
de la muestra? Explique.
6. El censo de EE.UU. indica que el 35 % de los residentes de Estados Unidos tienen menos de 25 años
de edad. La Figura 3 muestra posibles distribuciones de muestreo para la proporción de residentes con
menos de 25 años para muestras de tamaño n = 20, n = 100, y n = 500.
Figura 3: Gráficos para distintos tamaños de muestra
a) ¿Qué tamaño de muestra se corresponde con cada distribución?

b) Si usamos una proporción p̂, basado en una muestra de tamaño n = 20, para estimar el parámetro
de la población p = 0.35, ¿serı́a muy sorprendente obtener una estimación que se aleje por más
de 0.10 de la verdadera (es decir, la proporción muestral sea inferior a 0.25 o mayor que 0.45)?
¿Qué esperarı́a con una muestra de tamaño n = 100? ¿y con n = 500?
c) En el ı́tem anterior, ¿serı́a muy sorprendente obtener una estimación que se aleje por más de
0.05 de la verdadera (es decir, la proporción muestral sea inferior a 0.3 o mayor que 0.4)? ¿Qué
esperarı́a con una muestra de tamaño n = 100? ¿y con n = 500?
d ) Usando los ı́tems (b) y (c), comentar acerca de los efectos que tiene el tamaño de la muestra sobre
precisión de una estimación.
7. En la preparación para un examen de un conjunto de temas, ¿es mejor estudiar un tema a la vez
o estudiar temas mezclados entre sı́?. En un estudio, se tomó una muestra de estudiantes de cuarto
grado y se les enseñó sobre cuatro diferentes ecuaciones. A la mitad de los niños se les enseñó mediante
el estudio de ejemplos repetidos de cada ecuación, una a la vez. El otro grupo estudió problemas
mixtos que incluyeron ejemplos de los cuatro tipos de ecuaciones. Un dı́a más tarde, los estudiantes
realizaron un examen sobre lo aprendido. Los estudiantes en el grupo de práctica mixta obtuvieron un
promedio de 77, mientras que los otros estudiantes un promedio de 38. ¿Cuál es la mejor estimación de
la diferencia en el promedio de calificaciones entre los estudiantes que estudian problemas mixtos y los
que estudian cada ecuación de forma independiente? Dé una notación para la cantidad que estamos
tratando de estimar, una notación para el estimador, y el valor de la estimación. Defina claramente
todos los parámetros involucrados en este contexto.
8. Supongamos que 5 % de los tornillos que venden una empresa son defectuosos. La figura 4 muestra las
distribuciones de las proporciones muestrales en dos casos: en uno de ellos las muestras son de tamaño
100, y en el otro caso son muestras de tamaño 1000.
3
a) ¿Cuál es el centro de ambas distribuciones?

b) ¿Cuál es el mı́nimo y máximo aproximado de cada distribución?
c) Dé una estimación aproximada del error estándar en cada caso.
d ) Supongamos que usted toma una muestra más en cada caso. ¿Serı́a una proporción muestral de
0.08 (es decir, 8 % defectuoso en la muestra) un valor posible de una muestra de tamaño 100?
¿Serı́a un valor posible de una muestra de tamaño 1000?
Figura 4: Gráficos para distintos tamaños de muestra
9. Desde su fundación hasta el año 2012, el Salón de la Fama del Rock and Roll ha incluido 273 grupos o
individuos. Cuarenta y uno de los homenajeados han sido mujeres o han incluı́do miembros femeninos.
El conjunto de datos está disponible en RockAndRoll.txt.
a) ¿Qué proporción de homenajeados han sido mujeres o han incluido miembros femeninos? Utilice
la notación correcta en su respuesta.
b) Si tomamos muchas muestras de tamaño 50 de la población de todos los homenajeados y registra-
mos la proporción de mujeres de cada muestra, ¿qué forma esperamos que tenga la distribución
de las proporciones de la muestra? ¿dónde esperamos que esté centrada?
c) Realice una simulación para corroborar el resultado del ı́tem anterior.
10. La distribución del género en el Salón de la fama del Rock and Roll indica que 41 de los 273 miembros
son mujeres. Los datos están disponibles en RockAndRoll.txt. Utilizando a todos los homenajeados
como una población resuelva lo que sigue:
a) Tome muestras al azar (n = 10), calcule la proporción de mujeres en las muestras y grafique un
histograma. ¿Cuál es el error estándar de pb? ¿Cuál es el valor de la proporción que se encuentra
más lejos de la proporción de la población (p = 0.150)?
b) Repita el ı́tem (a) para n = 20.
c) Repita el ı́tem (a) para n = 50.
d ) Use las respuestas (a), (b) y (c) para comentar el efecto de incrementar el tamaño de muestra en
la precisión con la que se estima la proporción de mujeres de la población.
4
11. En Mayo de 2011 se obtuvo una muestra aleatoria de 755 usuarios de teléfonos celulares mayores de
18 años, y la misma arrojó que el número promedio de mensajes de texto enviados o recibidos por dı́a
era de 41.5, con un error estándar estimado de 6.1. (es decir la desviación estándar de las x̄ es 6.1).
a) ¿Cómo le parece que encontró el error estandar con una sola muestra?
b) Enuncie cuál es la población y cuál el parámetro de interés. Use la información dada para dar el
mejor estimador del parámetro de interés.
c) Encuentre e interprete el intervalo de confianza del 95 % para la media, utilizando la regla del
95 %. ¿Cómo tiene que ser la distribución muetral para poder usar esta regla?
12. Supongamos que un intervalo de confianza del 95 % sobre la base de una muestra de tamaño 100 para
la media poblacional es (-2, 3). La interpretación correcta de este intervalo es:
a) Si muchos intervalos de 95 % de confianza se calcularan para muchas muestras de tamaño 100 de

la misma población, el 95 % de estos intervalos contendrá a la verdadera media.
b) El 95 % de las veces la media poblacional cae dentro del intervalo (-2, 3).
c) Hay una probabilidad de 95 % de que la media poblacional se encuentre en el intervalo (-2, 3).
d ) La hipótesis µ = 0 es verdadera.
e) El 95 % de los datos poblacionales se encuentran entre -2 y 3.
13. ¿Cuántas hormigas subirán en un pedazo de un sándwich de mantequilla de manı́, si se lo coloca cerca
de un hormiguero? Para responder esta pregunta, un estudiante en Australia dejó un sándwich cerca de
un hormiguero durante varios minutos, luego lo cubrió con una vasija y contó el número de hormigas.
Lo hizo 8 veces, y el resultado se muestra en la siguiente tabla:
Número de hormigas 43 59 22 25 36 47 19 21
Cuadro 1: Número de hormigas en un sandwich
a) Encuentre la media y la desviación estándar de la muestra.

b) ¿Cómo espera que sea la forma de la distribución bootstrap? ¿Cuál espera que sea el centro?
c) ¿Cuál es el parámetro poblacional de interés? ¿Cuál es el mejor estimador puntual para el paráme-
tro?
d ) Una distribución de 5000 estadı́sticos bootstrap arroja un error estándar de 4.85. Use el error
estándar para encontrar e interpretar el intervalo de confianza del 95 % definido en (d).
e) Realice usted las muestras bootstrap para construir el intervalo de confianza y construyalo (no
se olvide de mirar la distribución bootstrap del estadı́stico antes de realizarlo). Utilice ambos
métodos.
14. En un ensayo se observó que 23 ratas de un total de 30 liberaron a otras ratas encerradas en jaulas,
aún cuando se les habı́a servido chocolate como distracción, e incluso cuando debı́an compartirlo con
las ratas liberadas. Las ratas no abrieron la jaula cuando la misma estaba vacı́a o cuando habı́a un
peluche en el interior. Queremos utilizar el ejemplo para estimar la proporción de ratas que muestra
compasión. Los datos están disponibles en CompassionateRats.txt.
a) Enunciar el parámetro de interés y su estimación puntual.
5
b) Utilice R para generar una distribución bootstrap. Describa la forma y el centro de la distribución.
¿Cuál es el error estándar?
c) Utilice el error estándar para encontrar e interpretar un intervalo de confianza del 95 % para la
proporción de ratas que muestra compasión.
d ) Idem con intervalos de confianza usando percentiles.
15. Un equipo de ingenieros encargados del control de calidad de una empresa examina 1000 engrana-
jes del proveedor habitual y encuentra que 899 pasa el control de calidad. Además, examina 1000
engranajes de un nuevo proveedor y encuentra que 958 pasan la inspección. Se desea averiguar si la
proporción de engranajes que pasan el examen de calidad del proveedor nuevo es diferente a la pro-
porción de engranajes que pasan el control de calidad del proveedor habitual. Los datos se encuentran
en datosproporciones.csv”.
a) Enunciar el parámetro de interés y su estimación puntual.

b) Utilice R para generar una distribución bootstrap. Describa la forma y el centro de la distribución.
¿Cuál es el error estándar?
c) Utilice el error estándar para encontrar e interpretar un intervalo de confianza del 95 % para la
diferencia de proporciones de engranajes que pasan el control de calidad del proveedor nuevo y
de engranajes que superan el control del proveedor habitual.
d ) Ídem con intervalos de confianza usando percentiles. Compare con el ı́tem anterior.
16. Además del tiempo de viaje (en minutos), los datos CommuteAtlanta.txt incluyen la distancia
de los desplazamientos (en millas) para 500 trabajadores de una muestra del área metropolitana de
Atlanta.
a) Encuentre la media y la desviación estándar de las distancias de los desplazamientos.

b) Crear una distribución bootstrap para las medias de las distancias de los desplazamientos. Des-
cribir la forma y el centro de la distribución.
c) Utilice la distribución bootstrap para estimar el error estándar de la distancia media de viaje
utilizando muestras de tamaño 500.
d ) Utilice el error estándar para encontrar un intervalo del 95 % de confianza para la distancia
promedio de viaje de los trabajadores de Atlanta. Interprete dicho intervalo. No se olvide de
graficar antes la distribución bootstrap del estadı́stico.
e) Construya el intervalo de confianza usando percentiles. Compararlo con el anterior.
17. En este ejercicio utilizaremos los datos CommuteAtlanta.txt del ejercicio anterior. Esperamos que
la correlación entre las variables Distance y Time sea positiva, ya que distancias más largas tienden a
tomar más tiempo de viaje. Para ello:
a) Determine la correlación entre la distancia y el tiempo para la muestra original de 500 desplaza-
mientos de Atlanta.
b) Cree una distribución bootstrap para el coeficiente de correlación entre las variables de interés.
Describa la forma y el centro de la distribución de estas correlaciones.
c) Utilice las caracterı́sticas de la distribución bootstrap para estimar el margen de error y dé un
intervalo de confianza para la correlación entre la distancia y el tiempo de los desplazamientos de
los trabajadores en Atlanta. No se olvide de graficar antes la distribución bootstrap del estadı́stico.
6
d ) Marque donde se ubica el intervalo de confianza del ı́tem (c) en el gráfico que construyó en el
ı́tem (b).
e) Construya el intervalo de confianza usando percentiles. Compárelo con el anterior.
18. La Figura 5 muestra la distribución bootstrap para la media en base a una muestra de 10 puntuaciones
de CI.
Figura 5: Distribuión bootstrap para la media de puntuaciones de CI
a) Estime la media de la muestra original de las puntuaciones CI.

b) La distribución bootstrap se ha creado usando 1000 muestras bootstrap. Utilice la distribución
obtenida para dar un intervalo de confianza del 99 % para la media poblacional de las puntuaciones
de CI. Interprete dicho intervalo.
19. Los datos RestaurantTips.txt contienen información sobre una muestra de 157 cuentas de restau-
rantes.
a) Cree una distribución bootstrap para la media de las propinas dejadas por el cliente usando estos
datos. Contruya un intervalo de confianza del 95 % a partir de esta distribución bootstrap de dos
maneras diferentes: usando el error estándar y usando percentiles. Compare los resultados.
b) Dos intervalos de confianza para la media de las propinas dejadas por el cliente se dan a conti-
nuación. Un intervalo es del 90 % de confianza y el otro del 99 % de confianza
Intervalo A: (3.55 ; 4.15) Intervalo B: (3.35 ; 4.35)
1) ¿Cuál es el intervalo de confianza del 90 %? ¿cuál el del 99 %?

2) Un mozo generalmente sirve (en media) 20 mesas en un turno. Dar un rango de propinas
esperadas. Dar un rango para su ingreso diario esperado en propina, utilizando tanto el 90 %
y de confianza del 99 %. Interpretar los resultados.
20. Los datos StudentSurvey.txt contienen datos de estudiantes mujeres y hombres, entre ellos si son
fumadores o no. Observando los datos se puede ver que 27 de los 193 hombres en la muestra fuman
mientras que 16 de las 169 mujeres en la muestra lo hacen.
7
a) ¿Cuál es la mejor estimación para la diferencia entre las proporciones de fumadores de hombres
y mujeres? ¿Cuál es el género que más fuma en la muestra?
b) Encuentre e interprete un intervalo de 99 % de confianza para la diferencia entre las proporciones.
21. Los datos CommuteAtlanta.txt contienen una muestra sobre la distancia (en millas) y el tiempo (en
minutos) que requieren los desplazamientos para 500 trabajadores del área metropolitana de Atlanta.
Por otra parte, los datos CommuteStLouis.txt contienen la misma información pero de trabajadores
del área metropolitana de St. Louis. La siguiente figura muestra los boxplots para los tiempos de viaje
para ambas localidades. Se desea estimar la diferencia entre las medias de tiempo de desplazamiento.
a) Compare los boxplots que presenta la figura. ¿Qué ciudad aparenta tener mayor promedio de
tiempo de viajes?
b) Dar una notación para el parámetro a estimar y dar la mejor estimación puntual en base a los
datos.
c) Describa cómo realizarı́a una distribución bootstrap para estos datos.
d ) Cree una distribución bootstrap para la diferencia entre las medias para el tiempo de viaje, utilice
el error estándar obtenido por bootstrap y construya un intervalo de confianza del 95 % para dicha
diferencia. Interprete el intervalo obtenido.
22. En un estudio los participantes comieron significativamente más y ejercitaron significativamente menos
durante un mes. Dos años y medio más tarde, los participantes fueron pesados y se constató que, en
promedio, los participantes habı́an aumentado 6.8 libras respecto del peso al comienzo del experimento,
mientras que en un grupo de control no sufrieron un aumento en su peso. ¿La cantidad de peso ganada
luego de 2.5 años está directamente relacionada a cuánto peso ganó la persona durante el perı́odo de un
mes? Para los 18 individuos, la correlación entre el incremento de peso durante el mes de intervención
y el peso ganado luego de 30 meses es r = 0.21. Se desea estimar, para la población de los adultos, la
correlación entre el aumento de peso durante el mes de los atracones y el efecto de ese mes en el peso
de una persona 2,5 años más tarde.
a) ¿Cuál es el parámetro de interés de la población?

b) Para hallar la correlación muestral r = 0.21, se utilizó un conjunto de datos que contiene 18 pares
ordenados (peso ganado en un mes y aumento de peso 2.5 años más tarde para cada individuo
en el estudio). Describir cómo utilizar estos datos para obtener una muestra bootstrap.
c) ¿Qué estadı́stico calcula para la muestra bootstrap?
8
d ) Supongamos que tomamos 1.000 muestras bootstrap y calculamos el estadı́stico de interés. Des-
criba como calcuları́a el error estándar usando estas muestras bootstrap.
e) El error estándar para una muestra bootstrap es 0.14. Calcule un intervalo del 95 % de confianza
para la correlación entre las variables de interés.
f ) Use el intervalo obtenido en el ı́tem (e) para indicar si existe una correlación positiva entre ambas
variables de interés, o si existe una posibilidad de que no haya correlación. Justifique su respuesta.
g) Un intervalo del 90 % de confianza será más ancho o más pequeño que el intervalo del 95 % del
ı́tem (e)?
23. El hipocampo es una región del cerebro cuya anatomı́a y fisiologı́a básica parecen ser altamente alte-
radas en la esquizofrenia. Para estudiar las anomalı́as anatómicas asociadas con la esquizofrenia a 15
pares de gemelos idénticos de los cuales uno era esquizofrénico y el otro no, se les realizó una resonancia
magnética para medir el volúmen (cm3 ) del hipocampo de cada gemelo. ¿Hay indicadores fisiológicos
asociados con la esquizofrenia? ¿Existen diferencias?
a) Escriba como modelo la relación que se quiere estudiar, especificando de qué tipo es de cada una
de la variables involucradas.
b) Escriba formalmente la pregunta de interés utilizando parámetros poblacionales. De además un
estimador puntual para dicho parámetro.
c) Conteste exploratoriamente la pregunta de interés.
d ) Construya un intervalo del 95 % de confianza que le permita responder a la pregunta de interés.
e) Indique qué suposiciones deben cumplirse para que el intervalo de confianza que construyó sea
correcto. ¿Se verifican tales suposiciones?
f ) A partir de los items anteriores ¿cuál es su conclusión respecto a la pregunta de interés? Justifique
su respuesta.
24. Para probar la efectividad de una vacuna se realiza el siguiente experimento a un grupo de personas:
se vacuna a una parte de ellas y se observa si contraen o no la enfermedad. Los datos se recogen en la
siguiente tabla:
enfermos no enfermos
vacunados 13 215
no vacunados 236 450
Se quiere estudiar la efectividad de la vacuna.
a) Defina las variables involucradas en el problema y la relación entre ellas que se desea estudiar.
b) ¿Cuál es el/los parámetro/s de interés en este caso? Defı́nalo/s claramente.
c) Escriba la hipótesis de interés a estudiar.
d ) Conteste exploratoriamente a la pregunta de interés (resumen numérico y gráfico).
e) Conteste estadı́sticamente la pregunta de interés.
25. Se desea comparar el efecto de dos tratamientos para la migraña. Para ello, 84 pacientes que sufren
migraña son sometidos a dos tratamientos: A y B. El orden en que reciben los tratamientos se define
aleatoriamente. La variable que se registra es el efecto del tratamiento: nulo alivio, algún alivio.
Los resultados obtenidos se muestran en la siguiente tabla.
9
Tratamiento B
Alivio nulo Alivio
Alivio nulo 10 17
Tratamiento A
Alivio 5 52
a) Defina las variables involucradas en el problema y la relación entre ellas que se desea estudiar.
b) ¿Cuál es el/los parámetro/s de interés en este caso? Defı́nalo/s claramente.
c) Escriba la hipótesis de interés a estudiar.
d ) Estime el/los parámetro/s y conteste exploratoriamente a la pregunta de interés.
e) Conteste estadı́sticamente la pregunta de interés.
10

Intervalos de Confianza - Bootstrap - 2018

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Intervalos de Confianza - Bootstrap - 2018

Cargado por

Copyright:

Formatos disponibles

Inferencia Estadı́stica

Guı́a Práctica: Intervalos de confianza con bootstrap.

Figura 1: Cuatro distribuciones muestrales

Figura 2: Histogramas de mil medias muestrales

Figura 3: Gráficos para distintos tamaños de muestra

a) ¿Qué tamaño de muestra se corresponde con cada distribución?

a) ¿Cuál es el centro de ambas distribuciones?

Figura 4: Gráficos para distintos tamaños de muestra

a) Si muchos intervalos de 95 % de confianza se calcularan para muchas muestras de tamaño 100 de

Cuadro 1: Número de hormigas en un sandwich

a) Encuentre la media y la desviación estándar de la muestra.

a) Enunciar el parámetro de interés y su estimación puntual.

a) Enunciar el parámetro de interés y su estimación puntual.

a) Encuentre la media y la desviación estándar de las distancias de los desplazamientos.

Figura 5: Distribuión bootstrap para la media de puntuaciones de CI

a) Estime la media de la muestra original de las puntuaciones CI.

Intervalo A: (3.55 ; 4.15) Intervalo B: (3.35 ; 4.35)

1) ¿Cuál es el intervalo de confianza del 90 %? ¿cuál el del 99 %?

a) ¿Cuál es el parámetro de interés de la población?

Se quiere estudiar la efectividad de la vacuna.

También podría gustarte