Está en la página 1de 10

Inferencia Estadı́stica

PROBABILIDAD Y ESTADÍSTICA

Guı́a Práctica: Intervalos de confianza con bootstrap.


1. Los ı́tems (a) a (d) se refieren a las distribuciones muestrales dadas en la Figura 1. En cada caso,
inferir el valor del parámetro poblacional y estimar el error estándar para el estadı́stico calculado en
la muestra.

a) La figura (a) muestra las proporciones muestrales para muestras de tamaño n = 40 a partir de
una población.
b) La figura (b) muestra las medias muestrales de muestras de tamaño n = 30 a partir de una
población.
c) La figura (c) muestra las medias muestrales de muestras de tamaño n = 100 a partir de una
población.
d ) La figura (d) muestra las proporciones muestrales de muestras de tamaño n = 180 a partir de
una población.

Figura 1: Cuatro distribuciones muestrales

2. Los ı́tems (a) a (d) se refieren a las distribuciones muestrales dadas en la Figura 1. Varios posibles
valores se dan para el estadı́stico de la muestra. En cada caso, indicar si cada valor es (i) razonablemente
probable que ocurra a partir de una muestra de este tamaño, (ii) inusual pero puede ocurrir de vez en
cuando, o (iii) extremadamente improbable que haya ocurrido

a) Usando la distribución de muestreo de la Figura 1 (a), ¿qué tan probable son estas proporciones
muestrales?:
(1) p̂ = 0.1 (2) p̂ = 0.35 (3) p̂ = 0.6
b) Usando la distribución de muestreo de la Figura 1 (b), ¿qué tan probable son estas medias
muestrales?:
(1) x̄ = 70 (2) x̄ = 100 (3) x̄ = 140

1
Inferencia Estadı́stica

c) Usando la distribución de muestreo de la Figura 1 (c), ¿qué tan probable son estas medias
muestrales?:
(1) x̄ = 250 (2) x̄ = 305 (3) x̄ = 315
d ) Usando la distribución de muestreo de la Figura 1 (d), ¿qué tan probable son estas proporciones
muestrales?:
(1) p̂ = 0.72 (2) p̂ = 0.88 (3) p̂ = 0.95

3. En una encuesta realizada en mayo de 2010 se le preguntó a 2.252 adultos de los EE.UU: “¿Es dueño
de una computadora portátil?”. El número que respondió afirmativamente fue 1238. ¿Cuál es la mejor
estimación de la proporción de los adultos de los EE.UU. que poseen un ordenador portátil? Exprese la
notación para la cantidad que estamos estimando, la notación para el número que estamos utilizando
para hacer la estimación, y el valor de la mejor estimación. Asegúrese de definir claramente todos los
parámetro en el contexto de esta situación.

4. Florida cuenta con más de 7.700 lagos. Deseamos estimar la correlación entre el nivel de pH de todos
los lagos de Florida y los niveles de mercurio de los peces de estos lagos. A partir de una muestra
de tamaño n = 53, se calculó el coeficiente de correlación entre estas dos variables y se obtuvo un
resultado de -0,575.

a) Dé una notación para la cantidad que estamos estimando, una notación para la cantidad que
utilizamos para hacer la estimación y el valor de la mejor estimación.
b) ¿Por qué hablamos de una estimación en este caso? ¿Qué serı́a necesario para calcular el valor
exacto de la cantidad que estamos estimando?

Figura 2: Histogramas de mil medias muestrales

5. En el último Censo de EE.UU. se obtuvo que la media de cantidad de habitantes por casas en los
EE.UU. es 2.61. La Figura 2 muestra las posibles distribuciones de los promedios para 1000 muestras
de hogares. La escala en el eje horizontal es la misma en todos los casos.

a) Supongamos que dos de las distribuciones muestran resultados de 1.000 muestras al azar, mientras
que otras dos muestran las distribuciones de un método de muestreo sesgado. ¿Cuáles gráficos
parece que se realizaron con muestras provenientes de un método sesgado de muestreo? Explique
su razonamiento. Elegir una de esas figuras y describir un posible método de muestreo que podrı́a
producir este sesgo.

2
Inferencia Estadı́stica

b) Para las dos distribuciones que parecen mostrar resultados de muestras aleatorias, supongamos
que uno proviene de 1000 muestras de tamaño n = 100 y el otro proviene de 1000 muestras de
tamaño n = 500. ¿Cuál es cuál?. ¿Qué pasa con la distribución de muestreo de acuerdo al tamaño
de la muestra? Explique.

6. El censo de EE.UU. indica que el 35 % de los residentes de Estados Unidos tienen menos de 25 años
de edad. La Figura 3 muestra posibles distribuciones de muestreo para la proporción de residentes con
menos de 25 años para muestras de tamaño n = 20, n = 100, y n = 500.

Figura 3: Gráficos para distintos tamaños de muestra

a) ¿Qué tamaño de muestra se corresponde con cada distribución?


b) Si usamos una proporción p̂, basado en una muestra de tamaño n = 20, para estimar el parámetro
de la población p = 0.35, ¿serı́a muy sorprendente obtener una estimación que se aleje por más
de 0.10 de la verdadera (es decir, la proporción muestral sea inferior a 0.25 o mayor que 0.45)?
¿Qué esperarı́a con una muestra de tamaño n = 100? ¿y con n = 500?
c) En el ı́tem anterior, ¿serı́a muy sorprendente obtener una estimación que se aleje por más de
0.05 de la verdadera (es decir, la proporción muestral sea inferior a 0.3 o mayor que 0.4)? ¿Qué
esperarı́a con una muestra de tamaño n = 100? ¿y con n = 500?
d ) Usando los ı́tems (b) y (c), comentar acerca de los efectos que tiene el tamaño de la muestra sobre
precisión de una estimación.

7. En la preparación para un examen de un conjunto de temas, ¿es mejor estudiar un tema a la vez
o estudiar temas mezclados entre sı́?. En un estudio, se tomó una muestra de estudiantes de cuarto
grado y se les enseñó sobre cuatro diferentes ecuaciones. A la mitad de los niños se les enseñó mediante
el estudio de ejemplos repetidos de cada ecuación, una a la vez. El otro grupo estudió problemas
mixtos que incluyeron ejemplos de los cuatro tipos de ecuaciones. Un dı́a más tarde, los estudiantes
realizaron un examen sobre lo aprendido. Los estudiantes en el grupo de práctica mixta obtuvieron un
promedio de 77, mientras que los otros estudiantes un promedio de 38. ¿Cuál es la mejor estimación de
la diferencia en el promedio de calificaciones entre los estudiantes que estudian problemas mixtos y los
que estudian cada ecuación de forma independiente? Dé una notación para la cantidad que estamos
tratando de estimar, una notación para el estimador, y el valor de la estimación. Defina claramente
todos los parámetros involucrados en este contexto.

8. Supongamos que 5 % de los tornillos que venden una empresa son defectuosos. La figura 4 muestra las
distribuciones de las proporciones muestrales en dos casos: en uno de ellos las muestras son de tamaño
100, y en el otro caso son muestras de tamaño 1000.

3
Inferencia Estadı́stica

a) ¿Cuál es el centro de ambas distribuciones?


b) ¿Cuál es el mı́nimo y máximo aproximado de cada distribución?
c) Dé una estimación aproximada del error estándar en cada caso.
d ) Supongamos que usted toma una muestra más en cada caso. ¿Serı́a una proporción muestral de
0.08 (es decir, 8 % defectuoso en la muestra) un valor posible de una muestra de tamaño 100?
¿Serı́a un valor posible de una muestra de tamaño 1000?

Figura 4: Gráficos para distintos tamaños de muestra

9. Desde su fundación hasta el año 2012, el Salón de la Fama del Rock and Roll ha incluido 273 grupos o
individuos. Cuarenta y uno de los homenajeados han sido mujeres o han incluı́do miembros femeninos.
El conjunto de datos está disponible en RockAndRoll.txt.

a) ¿Qué proporción de homenajeados han sido mujeres o han incluido miembros femeninos? Utilice
la notación correcta en su respuesta.
b) Si tomamos muchas muestras de tamaño 50 de la población de todos los homenajeados y registra-
mos la proporción de mujeres de cada muestra, ¿qué forma esperamos que tenga la distribución
de las proporciones de la muestra? ¿dónde esperamos que esté centrada?
c) Realice una simulación para corroborar el resultado del ı́tem anterior.

10. La distribución del género en el Salón de la fama del Rock and Roll indica que 41 de los 273 miembros
son mujeres. Los datos están disponibles en RockAndRoll.txt. Utilizando a todos los homenajeados
como una población resuelva lo que sigue:

a) Tome muestras al azar (n = 10), calcule la proporción de mujeres en las muestras y grafique un
histograma. ¿Cuál es el error estándar de pb? ¿Cuál es el valor de la proporción que se encuentra
más lejos de la proporción de la población (p = 0.150)?
b) Repita el ı́tem (a) para n = 20.
c) Repita el ı́tem (a) para n = 50.
d ) Use las respuestas (a), (b) y (c) para comentar el efecto de incrementar el tamaño de muestra en
la precisión con la que se estima la proporción de mujeres de la población.

4
Inferencia Estadı́stica

11. En Mayo de 2011 se obtuvo una muestra aleatoria de 755 usuarios de teléfonos celulares mayores de
18 años, y la misma arrojó que el número promedio de mensajes de texto enviados o recibidos por dı́a
era de 41.5, con un error estándar estimado de 6.1. (es decir la desviación estándar de las x̄ es 6.1).

a) ¿Cómo le parece que encontró el error estandar con una sola muestra?
b) Enuncie cuál es la población y cuál el parámetro de interés. Use la información dada para dar el
mejor estimador del parámetro de interés.
c) Encuentre e interprete el intervalo de confianza del 95 % para la media, utilizando la regla del
95 %. ¿Cómo tiene que ser la distribución muetral para poder usar esta regla?

12. Supongamos que un intervalo de confianza del 95 % sobre la base de una muestra de tamaño 100 para
la media poblacional es (-2, 3). La interpretación correcta de este intervalo es:

a) Si muchos intervalos de 95 % de confianza se calcularan para muchas muestras de tamaño 100 de


la misma población, el 95 % de estos intervalos contendrá a la verdadera media.
b) El 95 % de las veces la media poblacional cae dentro del intervalo (-2, 3).
c) Hay una probabilidad de 95 % de que la media poblacional se encuentre en el intervalo (-2, 3).
d ) La hipótesis µ = 0 es verdadera.
e) El 95 % de los datos poblacionales se encuentran entre -2 y 3.

13. ¿Cuántas hormigas subirán en un pedazo de un sándwich de mantequilla de manı́, si se lo coloca cerca
de un hormiguero? Para responder esta pregunta, un estudiante en Australia dejó un sándwich cerca de
un hormiguero durante varios minutos, luego lo cubrió con una vasija y contó el número de hormigas.
Lo hizo 8 veces, y el resultado se muestra en la siguiente tabla:

Número de hormigas 43 59 22 25 36 47 19 21

Cuadro 1: Número de hormigas en un sandwich

a) Encuentre la media y la desviación estándar de la muestra.


b) ¿Cómo espera que sea la forma de la distribución bootstrap? ¿Cuál espera que sea el centro?
c) ¿Cuál es el parámetro poblacional de interés? ¿Cuál es el mejor estimador puntual para el paráme-
tro?
d ) Una distribución de 5000 estadı́sticos bootstrap arroja un error estándar de 4.85. Use el error
estándar para encontrar e interpretar el intervalo de confianza del 95 % definido en (d).
e) Realice usted las muestras bootstrap para construir el intervalo de confianza y construyalo (no
se olvide de mirar la distribución bootstrap del estadı́stico antes de realizarlo). Utilice ambos
métodos.

14. En un ensayo se observó que 23 ratas de un total de 30 liberaron a otras ratas encerradas en jaulas,
aún cuando se les habı́a servido chocolate como distracción, e incluso cuando debı́an compartirlo con
las ratas liberadas. Las ratas no abrieron la jaula cuando la misma estaba vacı́a o cuando habı́a un
peluche en el interior. Queremos utilizar el ejemplo para estimar la proporción de ratas que muestra
compasión. Los datos están disponibles en CompassionateRats.txt.

a) Enunciar el parámetro de interés y su estimación puntual.

5
Inferencia Estadı́stica

b) Utilice R para generar una distribución bootstrap. Describa la forma y el centro de la distribución.
¿Cuál es el error estándar?
c) Utilice el error estándar para encontrar e interpretar un intervalo de confianza del 95 % para la
proporción de ratas que muestra compasión.
d ) Idem con intervalos de confianza usando percentiles.

15. Un equipo de ingenieros encargados del control de calidad de una empresa examina 1000 engrana-
jes del proveedor habitual y encuentra que 899 pasa el control de calidad. Además, examina 1000
engranajes de un nuevo proveedor y encuentra que 958 pasan la inspección. Se desea averiguar si la
proporción de engranajes que pasan el examen de calidad del proveedor nuevo es diferente a la pro-
porción de engranajes que pasan el control de calidad del proveedor habitual. Los datos se encuentran
en datosproporciones.csv”.

a) Enunciar el parámetro de interés y su estimación puntual.


b) Utilice R para generar una distribución bootstrap. Describa la forma y el centro de la distribución.
¿Cuál es el error estándar?
c) Utilice el error estándar para encontrar e interpretar un intervalo de confianza del 95 % para la
diferencia de proporciones de engranajes que pasan el control de calidad del proveedor nuevo y
de engranajes que superan el control del proveedor habitual.
d ) Ídem con intervalos de confianza usando percentiles. Compare con el ı́tem anterior.

16. Además del tiempo de viaje (en minutos), los datos CommuteAtlanta.txt incluyen la distancia
de los desplazamientos (en millas) para 500 trabajadores de una muestra del área metropolitana de
Atlanta.

a) Encuentre la media y la desviación estándar de las distancias de los desplazamientos.


b) Crear una distribución bootstrap para las medias de las distancias de los desplazamientos. Des-
cribir la forma y el centro de la distribución.
c) Utilice la distribución bootstrap para estimar el error estándar de la distancia media de viaje
utilizando muestras de tamaño 500.
d ) Utilice el error estándar para encontrar un intervalo del 95 % de confianza para la distancia
promedio de viaje de los trabajadores de Atlanta. Interprete dicho intervalo. No se olvide de
graficar antes la distribución bootstrap del estadı́stico.
e) Construya el intervalo de confianza usando percentiles. Compararlo con el anterior.

17. En este ejercicio utilizaremos los datos CommuteAtlanta.txt del ejercicio anterior. Esperamos que
la correlación entre las variables Distance y Time sea positiva, ya que distancias más largas tienden a
tomar más tiempo de viaje. Para ello:

a) Determine la correlación entre la distancia y el tiempo para la muestra original de 500 desplaza-
mientos de Atlanta.
b) Cree una distribución bootstrap para el coeficiente de correlación entre las variables de interés.
Describa la forma y el centro de la distribución de estas correlaciones.
c) Utilice las caracterı́sticas de la distribución bootstrap para estimar el margen de error y dé un
intervalo de confianza para la correlación entre la distancia y el tiempo de los desplazamientos de
los trabajadores en Atlanta. No se olvide de graficar antes la distribución bootstrap del estadı́stico.

6
Inferencia Estadı́stica

d ) Marque donde se ubica el intervalo de confianza del ı́tem (c) en el gráfico que construyó en el
ı́tem (b).
e) Construya el intervalo de confianza usando percentiles. Compárelo con el anterior.

18. La Figura 5 muestra la distribución bootstrap para la media en base a una muestra de 10 puntuaciones
de CI.

Figura 5: Distribuión bootstrap para la media de puntuaciones de CI

a) Estime la media de la muestra original de las puntuaciones CI.


b) La distribución bootstrap se ha creado usando 1000 muestras bootstrap. Utilice la distribución
obtenida para dar un intervalo de confianza del 99 % para la media poblacional de las puntuaciones
de CI. Interprete dicho intervalo.

19. Los datos RestaurantTips.txt contienen información sobre una muestra de 157 cuentas de restau-
rantes.

a) Cree una distribución bootstrap para la media de las propinas dejadas por el cliente usando estos
datos. Contruya un intervalo de confianza del 95 % a partir de esta distribución bootstrap de dos
maneras diferentes: usando el error estándar y usando percentiles. Compare los resultados.
b) Dos intervalos de confianza para la media de las propinas dejadas por el cliente se dan a conti-
nuación. Un intervalo es del 90 % de confianza y el otro del 99 % de confianza

Intervalo A: (3.55 ; 4.15) Intervalo B: (3.35 ; 4.35)

1) ¿Cuál es el intervalo de confianza del 90 %? ¿cuál el del 99 %?


2) Un mozo generalmente sirve (en media) 20 mesas en un turno. Dar un rango de propinas
esperadas. Dar un rango para su ingreso diario esperado en propina, utilizando tanto el 90 %
y de confianza del 99 %. Interpretar los resultados.

20. Los datos StudentSurvey.txt contienen datos de estudiantes mujeres y hombres, entre ellos si son
fumadores o no. Observando los datos se puede ver que 27 de los 193 hombres en la muestra fuman
mientras que 16 de las 169 mujeres en la muestra lo hacen.

7
Inferencia Estadı́stica

a) ¿Cuál es la mejor estimación para la diferencia entre las proporciones de fumadores de hombres
y mujeres? ¿Cuál es el género que más fuma en la muestra?
b) Encuentre e interprete un intervalo de 99 % de confianza para la diferencia entre las proporciones.

21. Los datos CommuteAtlanta.txt contienen una muestra sobre la distancia (en millas) y el tiempo (en
minutos) que requieren los desplazamientos para 500 trabajadores del área metropolitana de Atlanta.
Por otra parte, los datos CommuteStLouis.txt contienen la misma información pero de trabajadores
del área metropolitana de St. Louis. La siguiente figura muestra los boxplots para los tiempos de viaje
para ambas localidades. Se desea estimar la diferencia entre las medias de tiempo de desplazamiento.

a) Compare los boxplots que presenta la figura. ¿Qué ciudad aparenta tener mayor promedio de
tiempo de viajes?
b) Dar una notación para el parámetro a estimar y dar la mejor estimación puntual en base a los
datos.
c) Describa cómo realizarı́a una distribución bootstrap para estos datos.
d ) Cree una distribución bootstrap para la diferencia entre las medias para el tiempo de viaje, utilice
el error estándar obtenido por bootstrap y construya un intervalo de confianza del 95 % para dicha
diferencia. Interprete el intervalo obtenido.

22. En un estudio los participantes comieron significativamente más y ejercitaron significativamente menos
durante un mes. Dos años y medio más tarde, los participantes fueron pesados y se constató que, en
promedio, los participantes habı́an aumentado 6.8 libras respecto del peso al comienzo del experimento,
mientras que en un grupo de control no sufrieron un aumento en su peso. ¿La cantidad de peso ganada
luego de 2.5 años está directamente relacionada a cuánto peso ganó la persona durante el perı́odo de un
mes? Para los 18 individuos, la correlación entre el incremento de peso durante el mes de intervención
y el peso ganado luego de 30 meses es r = 0.21. Se desea estimar, para la población de los adultos, la
correlación entre el aumento de peso durante el mes de los atracones y el efecto de ese mes en el peso
de una persona 2,5 años más tarde.

a) ¿Cuál es el parámetro de interés de la población?


b) Para hallar la correlación muestral r = 0.21, se utilizó un conjunto de datos que contiene 18 pares
ordenados (peso ganado en un mes y aumento de peso 2.5 años más tarde para cada individuo
en el estudio). Describir cómo utilizar estos datos para obtener una muestra bootstrap.
c) ¿Qué estadı́stico calcula para la muestra bootstrap?

8
Inferencia Estadı́stica

d ) Supongamos que tomamos 1.000 muestras bootstrap y calculamos el estadı́stico de interés. Des-
criba como calcuları́a el error estándar usando estas muestras bootstrap.
e) El error estándar para una muestra bootstrap es 0.14. Calcule un intervalo del 95 % de confianza
para la correlación entre las variables de interés.
f ) Use el intervalo obtenido en el ı́tem (e) para indicar si existe una correlación positiva entre ambas
variables de interés, o si existe una posibilidad de que no haya correlación. Justifique su respuesta.
g) Un intervalo del 90 % de confianza será más ancho o más pequeño que el intervalo del 95 % del
ı́tem (e)?

23. El hipocampo es una región del cerebro cuya anatomı́a y fisiologı́a básica parecen ser altamente alte-
radas en la esquizofrenia. Para estudiar las anomalı́as anatómicas asociadas con la esquizofrenia a 15
pares de gemelos idénticos de los cuales uno era esquizofrénico y el otro no, se les realizó una resonancia
magnética para medir el volúmen (cm3 ) del hipocampo de cada gemelo. ¿Hay indicadores fisiológicos
asociados con la esquizofrenia? ¿Existen diferencias?

a) Escriba como modelo la relación que se quiere estudiar, especificando de qué tipo es de cada una
de la variables involucradas.
b) Escriba formalmente la pregunta de interés utilizando parámetros poblacionales. De además un
estimador puntual para dicho parámetro.
c) Conteste exploratoriamente la pregunta de interés.
d ) Construya un intervalo del 95 % de confianza que le permita responder a la pregunta de interés.
e) Indique qué suposiciones deben cumplirse para que el intervalo de confianza que construyó sea
correcto. ¿Se verifican tales suposiciones?
f ) A partir de los items anteriores ¿cuál es su conclusión respecto a la pregunta de interés? Justifique
su respuesta.

24. Para probar la efectividad de una vacuna se realiza el siguiente experimento a un grupo de personas:
se vacuna a una parte de ellas y se observa si contraen o no la enfermedad. Los datos se recogen en la
siguiente tabla:

enfermos no enfermos
vacunados 13 215
no vacunados 236 450

Se quiere estudiar la efectividad de la vacuna.

a) Defina las variables involucradas en el problema y la relación entre ellas que se desea estudiar.
b) ¿Cuál es el/los parámetro/s de interés en este caso? Defı́nalo/s claramente.
c) Escriba la hipótesis de interés a estudiar.
d ) Conteste exploratoriamente a la pregunta de interés (resumen numérico y gráfico).
e) Conteste estadı́sticamente la pregunta de interés.

25. Se desea comparar el efecto de dos tratamientos para la migraña. Para ello, 84 pacientes que sufren
migraña son sometidos a dos tratamientos: A y B. El orden en que reciben los tratamientos se define
aleatoriamente. La variable que se registra es el efecto del tratamiento: nulo alivio, algún alivio.
Los resultados obtenidos se muestran en la siguiente tabla.

9
Inferencia Estadı́stica

Tratamiento B
Alivio nulo Alivio
Alivio nulo 10 17
Tratamiento A
Alivio 5 52

a) Defina las variables involucradas en el problema y la relación entre ellas que se desea estudiar.
b) ¿Cuál es el/los parámetro/s de interés en este caso? Defı́nalo/s claramente.
c) Escriba la hipótesis de interés a estudiar.
d ) Estime el/los parámetro/s y conteste exploratoriamente a la pregunta de interés.
e) Conteste estadı́sticamente la pregunta de interés.

10

También podría gustarte