Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROBABILIDAD Y ESTADÍSTICA
a) La figura (a) muestra las proporciones muestrales para muestras de tamaño n = 40 a partir de
una población.
b) La figura (b) muestra las medias muestrales de muestras de tamaño n = 30 a partir de una
población.
c) La figura (c) muestra las medias muestrales de muestras de tamaño n = 100 a partir de una
población.
d ) La figura (d) muestra las proporciones muestrales de muestras de tamaño n = 180 a partir de
una población.
2. Los ı́tems (a) a (d) se refieren a las distribuciones muestrales dadas en la Figura 1. Varios posibles
valores se dan para el estadı́stico de la muestra. En cada caso, indicar si cada valor es (i) razonablemente
probable que ocurra a partir de una muestra de este tamaño, (ii) inusual pero puede ocurrir de vez en
cuando, o (iii) extremadamente improbable que haya ocurrido
a) Usando la distribución de muestreo de la Figura 1 (a), ¿qué tan probable son estas proporciones
muestrales?:
(1) p̂ = 0.1 (2) p̂ = 0.35 (3) p̂ = 0.6
b) Usando la distribución de muestreo de la Figura 1 (b), ¿qué tan probable son estas medias
muestrales?:
(1) x̄ = 70 (2) x̄ = 100 (3) x̄ = 140
1
Inferencia Estadı́stica
c) Usando la distribución de muestreo de la Figura 1 (c), ¿qué tan probable son estas medias
muestrales?:
(1) x̄ = 250 (2) x̄ = 305 (3) x̄ = 315
d ) Usando la distribución de muestreo de la Figura 1 (d), ¿qué tan probable son estas proporciones
muestrales?:
(1) p̂ = 0.72 (2) p̂ = 0.88 (3) p̂ = 0.95
3. En una encuesta realizada en mayo de 2010 se le preguntó a 2.252 adultos de los EE.UU: “¿Es dueño
de una computadora portátil?”. El número que respondió afirmativamente fue 1238. ¿Cuál es la mejor
estimación de la proporción de los adultos de los EE.UU. que poseen un ordenador portátil? Exprese la
notación para la cantidad que estamos estimando, la notación para el número que estamos utilizando
para hacer la estimación, y el valor de la mejor estimación. Asegúrese de definir claramente todos los
parámetro en el contexto de esta situación.
4. Florida cuenta con más de 7.700 lagos. Deseamos estimar la correlación entre el nivel de pH de todos
los lagos de Florida y los niveles de mercurio de los peces de estos lagos. A partir de una muestra
de tamaño n = 53, se calculó el coeficiente de correlación entre estas dos variables y se obtuvo un
resultado de -0,575.
a) Dé una notación para la cantidad que estamos estimando, una notación para la cantidad que
utilizamos para hacer la estimación y el valor de la mejor estimación.
b) ¿Por qué hablamos de una estimación en este caso? ¿Qué serı́a necesario para calcular el valor
exacto de la cantidad que estamos estimando?
5. En el último Censo de EE.UU. se obtuvo que la media de cantidad de habitantes por casas en los
EE.UU. es 2.61. La Figura 2 muestra las posibles distribuciones de los promedios para 1000 muestras
de hogares. La escala en el eje horizontal es la misma en todos los casos.
a) Supongamos que dos de las distribuciones muestran resultados de 1.000 muestras al azar, mientras
que otras dos muestran las distribuciones de un método de muestreo sesgado. ¿Cuáles gráficos
parece que se realizaron con muestras provenientes de un método sesgado de muestreo? Explique
su razonamiento. Elegir una de esas figuras y describir un posible método de muestreo que podrı́a
producir este sesgo.
2
Inferencia Estadı́stica
b) Para las dos distribuciones que parecen mostrar resultados de muestras aleatorias, supongamos
que uno proviene de 1000 muestras de tamaño n = 100 y el otro proviene de 1000 muestras de
tamaño n = 500. ¿Cuál es cuál?. ¿Qué pasa con la distribución de muestreo de acuerdo al tamaño
de la muestra? Explique.
6. El censo de EE.UU. indica que el 35 % de los residentes de Estados Unidos tienen menos de 25 años
de edad. La Figura 3 muestra posibles distribuciones de muestreo para la proporción de residentes con
menos de 25 años para muestras de tamaño n = 20, n = 100, y n = 500.
7. En la preparación para un examen de un conjunto de temas, ¿es mejor estudiar un tema a la vez
o estudiar temas mezclados entre sı́?. En un estudio, se tomó una muestra de estudiantes de cuarto
grado y se les enseñó sobre cuatro diferentes ecuaciones. A la mitad de los niños se les enseñó mediante
el estudio de ejemplos repetidos de cada ecuación, una a la vez. El otro grupo estudió problemas
mixtos que incluyeron ejemplos de los cuatro tipos de ecuaciones. Un dı́a más tarde, los estudiantes
realizaron un examen sobre lo aprendido. Los estudiantes en el grupo de práctica mixta obtuvieron un
promedio de 77, mientras que los otros estudiantes un promedio de 38. ¿Cuál es la mejor estimación de
la diferencia en el promedio de calificaciones entre los estudiantes que estudian problemas mixtos y los
que estudian cada ecuación de forma independiente? Dé una notación para la cantidad que estamos
tratando de estimar, una notación para el estimador, y el valor de la estimación. Defina claramente
todos los parámetros involucrados en este contexto.
8. Supongamos que 5 % de los tornillos que venden una empresa son defectuosos. La figura 4 muestra las
distribuciones de las proporciones muestrales en dos casos: en uno de ellos las muestras son de tamaño
100, y en el otro caso son muestras de tamaño 1000.
3
Inferencia Estadı́stica
9. Desde su fundación hasta el año 2012, el Salón de la Fama del Rock and Roll ha incluido 273 grupos o
individuos. Cuarenta y uno de los homenajeados han sido mujeres o han incluı́do miembros femeninos.
El conjunto de datos está disponible en RockAndRoll.txt.
a) ¿Qué proporción de homenajeados han sido mujeres o han incluido miembros femeninos? Utilice
la notación correcta en su respuesta.
b) Si tomamos muchas muestras de tamaño 50 de la población de todos los homenajeados y registra-
mos la proporción de mujeres de cada muestra, ¿qué forma esperamos que tenga la distribución
de las proporciones de la muestra? ¿dónde esperamos que esté centrada?
c) Realice una simulación para corroborar el resultado del ı́tem anterior.
10. La distribución del género en el Salón de la fama del Rock and Roll indica que 41 de los 273 miembros
son mujeres. Los datos están disponibles en RockAndRoll.txt. Utilizando a todos los homenajeados
como una población resuelva lo que sigue:
a) Tome muestras al azar (n = 10), calcule la proporción de mujeres en las muestras y grafique un
histograma. ¿Cuál es el error estándar de pb? ¿Cuál es el valor de la proporción que se encuentra
más lejos de la proporción de la población (p = 0.150)?
b) Repita el ı́tem (a) para n = 20.
c) Repita el ı́tem (a) para n = 50.
d ) Use las respuestas (a), (b) y (c) para comentar el efecto de incrementar el tamaño de muestra en
la precisión con la que se estima la proporción de mujeres de la población.
4
Inferencia Estadı́stica
11. En Mayo de 2011 se obtuvo una muestra aleatoria de 755 usuarios de teléfonos celulares mayores de
18 años, y la misma arrojó que el número promedio de mensajes de texto enviados o recibidos por dı́a
era de 41.5, con un error estándar estimado de 6.1. (es decir la desviación estándar de las x̄ es 6.1).
a) ¿Cómo le parece que encontró el error estandar con una sola muestra?
b) Enuncie cuál es la población y cuál el parámetro de interés. Use la información dada para dar el
mejor estimador del parámetro de interés.
c) Encuentre e interprete el intervalo de confianza del 95 % para la media, utilizando la regla del
95 %. ¿Cómo tiene que ser la distribución muetral para poder usar esta regla?
12. Supongamos que un intervalo de confianza del 95 % sobre la base de una muestra de tamaño 100 para
la media poblacional es (-2, 3). La interpretación correcta de este intervalo es:
13. ¿Cuántas hormigas subirán en un pedazo de un sándwich de mantequilla de manı́, si se lo coloca cerca
de un hormiguero? Para responder esta pregunta, un estudiante en Australia dejó un sándwich cerca de
un hormiguero durante varios minutos, luego lo cubrió con una vasija y contó el número de hormigas.
Lo hizo 8 veces, y el resultado se muestra en la siguiente tabla:
Número de hormigas 43 59 22 25 36 47 19 21
14. En un ensayo se observó que 23 ratas de un total de 30 liberaron a otras ratas encerradas en jaulas,
aún cuando se les habı́a servido chocolate como distracción, e incluso cuando debı́an compartirlo con
las ratas liberadas. Las ratas no abrieron la jaula cuando la misma estaba vacı́a o cuando habı́a un
peluche en el interior. Queremos utilizar el ejemplo para estimar la proporción de ratas que muestra
compasión. Los datos están disponibles en CompassionateRats.txt.
5
Inferencia Estadı́stica
b) Utilice R para generar una distribución bootstrap. Describa la forma y el centro de la distribución.
¿Cuál es el error estándar?
c) Utilice el error estándar para encontrar e interpretar un intervalo de confianza del 95 % para la
proporción de ratas que muestra compasión.
d ) Idem con intervalos de confianza usando percentiles.
15. Un equipo de ingenieros encargados del control de calidad de una empresa examina 1000 engrana-
jes del proveedor habitual y encuentra que 899 pasa el control de calidad. Además, examina 1000
engranajes de un nuevo proveedor y encuentra que 958 pasan la inspección. Se desea averiguar si la
proporción de engranajes que pasan el examen de calidad del proveedor nuevo es diferente a la pro-
porción de engranajes que pasan el control de calidad del proveedor habitual. Los datos se encuentran
en datosproporciones.csv”.
16. Además del tiempo de viaje (en minutos), los datos CommuteAtlanta.txt incluyen la distancia
de los desplazamientos (en millas) para 500 trabajadores de una muestra del área metropolitana de
Atlanta.
17. En este ejercicio utilizaremos los datos CommuteAtlanta.txt del ejercicio anterior. Esperamos que
la correlación entre las variables Distance y Time sea positiva, ya que distancias más largas tienden a
tomar más tiempo de viaje. Para ello:
a) Determine la correlación entre la distancia y el tiempo para la muestra original de 500 desplaza-
mientos de Atlanta.
b) Cree una distribución bootstrap para el coeficiente de correlación entre las variables de interés.
Describa la forma y el centro de la distribución de estas correlaciones.
c) Utilice las caracterı́sticas de la distribución bootstrap para estimar el margen de error y dé un
intervalo de confianza para la correlación entre la distancia y el tiempo de los desplazamientos de
los trabajadores en Atlanta. No se olvide de graficar antes la distribución bootstrap del estadı́stico.
6
Inferencia Estadı́stica
d ) Marque donde se ubica el intervalo de confianza del ı́tem (c) en el gráfico que construyó en el
ı́tem (b).
e) Construya el intervalo de confianza usando percentiles. Compárelo con el anterior.
18. La Figura 5 muestra la distribución bootstrap para la media en base a una muestra de 10 puntuaciones
de CI.
19. Los datos RestaurantTips.txt contienen información sobre una muestra de 157 cuentas de restau-
rantes.
a) Cree una distribución bootstrap para la media de las propinas dejadas por el cliente usando estos
datos. Contruya un intervalo de confianza del 95 % a partir de esta distribución bootstrap de dos
maneras diferentes: usando el error estándar y usando percentiles. Compare los resultados.
b) Dos intervalos de confianza para la media de las propinas dejadas por el cliente se dan a conti-
nuación. Un intervalo es del 90 % de confianza y el otro del 99 % de confianza
20. Los datos StudentSurvey.txt contienen datos de estudiantes mujeres y hombres, entre ellos si son
fumadores o no. Observando los datos se puede ver que 27 de los 193 hombres en la muestra fuman
mientras que 16 de las 169 mujeres en la muestra lo hacen.
7
Inferencia Estadı́stica
a) ¿Cuál es la mejor estimación para la diferencia entre las proporciones de fumadores de hombres
y mujeres? ¿Cuál es el género que más fuma en la muestra?
b) Encuentre e interprete un intervalo de 99 % de confianza para la diferencia entre las proporciones.
21. Los datos CommuteAtlanta.txt contienen una muestra sobre la distancia (en millas) y el tiempo (en
minutos) que requieren los desplazamientos para 500 trabajadores del área metropolitana de Atlanta.
Por otra parte, los datos CommuteStLouis.txt contienen la misma información pero de trabajadores
del área metropolitana de St. Louis. La siguiente figura muestra los boxplots para los tiempos de viaje
para ambas localidades. Se desea estimar la diferencia entre las medias de tiempo de desplazamiento.
a) Compare los boxplots que presenta la figura. ¿Qué ciudad aparenta tener mayor promedio de
tiempo de viajes?
b) Dar una notación para el parámetro a estimar y dar la mejor estimación puntual en base a los
datos.
c) Describa cómo realizarı́a una distribución bootstrap para estos datos.
d ) Cree una distribución bootstrap para la diferencia entre las medias para el tiempo de viaje, utilice
el error estándar obtenido por bootstrap y construya un intervalo de confianza del 95 % para dicha
diferencia. Interprete el intervalo obtenido.
22. En un estudio los participantes comieron significativamente más y ejercitaron significativamente menos
durante un mes. Dos años y medio más tarde, los participantes fueron pesados y se constató que, en
promedio, los participantes habı́an aumentado 6.8 libras respecto del peso al comienzo del experimento,
mientras que en un grupo de control no sufrieron un aumento en su peso. ¿La cantidad de peso ganada
luego de 2.5 años está directamente relacionada a cuánto peso ganó la persona durante el perı́odo de un
mes? Para los 18 individuos, la correlación entre el incremento de peso durante el mes de intervención
y el peso ganado luego de 30 meses es r = 0.21. Se desea estimar, para la población de los adultos, la
correlación entre el aumento de peso durante el mes de los atracones y el efecto de ese mes en el peso
de una persona 2,5 años más tarde.
8
Inferencia Estadı́stica
d ) Supongamos que tomamos 1.000 muestras bootstrap y calculamos el estadı́stico de interés. Des-
criba como calcuları́a el error estándar usando estas muestras bootstrap.
e) El error estándar para una muestra bootstrap es 0.14. Calcule un intervalo del 95 % de confianza
para la correlación entre las variables de interés.
f ) Use el intervalo obtenido en el ı́tem (e) para indicar si existe una correlación positiva entre ambas
variables de interés, o si existe una posibilidad de que no haya correlación. Justifique su respuesta.
g) Un intervalo del 90 % de confianza será más ancho o más pequeño que el intervalo del 95 % del
ı́tem (e)?
23. El hipocampo es una región del cerebro cuya anatomı́a y fisiologı́a básica parecen ser altamente alte-
radas en la esquizofrenia. Para estudiar las anomalı́as anatómicas asociadas con la esquizofrenia a 15
pares de gemelos idénticos de los cuales uno era esquizofrénico y el otro no, se les realizó una resonancia
magnética para medir el volúmen (cm3 ) del hipocampo de cada gemelo. ¿Hay indicadores fisiológicos
asociados con la esquizofrenia? ¿Existen diferencias?
a) Escriba como modelo la relación que se quiere estudiar, especificando de qué tipo es de cada una
de la variables involucradas.
b) Escriba formalmente la pregunta de interés utilizando parámetros poblacionales. De además un
estimador puntual para dicho parámetro.
c) Conteste exploratoriamente la pregunta de interés.
d ) Construya un intervalo del 95 % de confianza que le permita responder a la pregunta de interés.
e) Indique qué suposiciones deben cumplirse para que el intervalo de confianza que construyó sea
correcto. ¿Se verifican tales suposiciones?
f ) A partir de los items anteriores ¿cuál es su conclusión respecto a la pregunta de interés? Justifique
su respuesta.
24. Para probar la efectividad de una vacuna se realiza el siguiente experimento a un grupo de personas:
se vacuna a una parte de ellas y se observa si contraen o no la enfermedad. Los datos se recogen en la
siguiente tabla:
enfermos no enfermos
vacunados 13 215
no vacunados 236 450
a) Defina las variables involucradas en el problema y la relación entre ellas que se desea estudiar.
b) ¿Cuál es el/los parámetro/s de interés en este caso? Defı́nalo/s claramente.
c) Escriba la hipótesis de interés a estudiar.
d ) Conteste exploratoriamente a la pregunta de interés (resumen numérico y gráfico).
e) Conteste estadı́sticamente la pregunta de interés.
25. Se desea comparar el efecto de dos tratamientos para la migraña. Para ello, 84 pacientes que sufren
migraña son sometidos a dos tratamientos: A y B. El orden en que reciben los tratamientos se define
aleatoriamente. La variable que se registra es el efecto del tratamiento: nulo alivio, algún alivio.
Los resultados obtenidos se muestran en la siguiente tabla.
9
Inferencia Estadı́stica
Tratamiento B
Alivio nulo Alivio
Alivio nulo 10 17
Tratamiento A
Alivio 5 52
a) Defina las variables involucradas en el problema y la relación entre ellas que se desea estudiar.
b) ¿Cuál es el/los parámetro/s de interés en este caso? Defı́nalo/s claramente.
c) Escriba la hipótesis de interés a estudiar.
d ) Estime el/los parámetro/s y conteste exploratoriamente a la pregunta de interés.
e) Conteste estadı́sticamente la pregunta de interés.
10