Está en la página 1de 9

ACTIVIDAD 6: COMPARANDO MEDIAS DE DOS GRUPOS

Ejercicio 3. Old Faithful

Vea los datos sobre los tiempos de espera entre erupciones de "Old Faithful", y etiqueta la
erupción anterior como "Larga" o "Corta" dependiendo de si duró más de 3 minutos.

1. Compare los tiempos de espera para estos dos grupos. Utilice diagramas de caja,
estadísticas de resumen o cualquier otro método que conozca.

Tiempos de espera entre erupciones de “Old Faithful“

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido Corta 68 30.6 30.6 30.6
Larga 154 69.4 69.4 100.0
Total 222 100.0 100.0
N Válido 222
Perdidos 0
Mínimo 1.7
Máximo 5.2
Percentiles 25 2.3
50 4.0
75 4.4

2. Escribe un párrafo que resuma lo que has aprendido sobre estos datos. ¿Cómo se
comparan los centros y las variaciones? ¿Hay valores atípicos? ¿Cómo predeciría el
momento de la próxima erupción de "Old Faithful"? ¿Se te ocurre alguna razón para el
patrón que has encontrado?

 Después de procesar los datos se encontró que los datos están dispersos entre sí, con lo
cual hay una alta variabilidad entre ellos. Por otra parte, no se evidencia una distribución
simétrica, sino una asimetría negativa, puesto que la mediana se encuentra más cerca del
tercer cuartil, que para este caso corresponde al valor 4,4; lo que permite inferir que la
media es menor que la mediana y, a su vez, menor que la moda. Por otra parte, no se
observan datos atípicos en la distribución de los datos.
Ahora bien, con respecto a cómo se predeciría el momento de la próxima erupción de “Old
Faithful”, la distribución de los datos indica que puede ser de duración larga, puesto que la
mediana de los últimos datos se encuentra cercana al tercer cuartil. Además de que las
erupciones de duración larga son más frecuentes en un 39% que las de duración corta.
Ejercicio 4. Michelson

En 1879, A. A. Michelson hizo 100 mediciones de la velocidad de la luz en el aire utilizando una
modificación de un método propuesto por el físico francés Foucault. Michelson informó sus
resultados en varios ensayos. Las mediciones se derivan de conjuntos de números de
observaciones a menudo muy dispares. Los números están en km/seg, y se les han restado
299,000. La velocidad "verdadera" actualmente aceptada de la luz en el vacío es 299,792.5
km/seg. El valor "verdadero" apropiado para la comparación con estas mediciones es 734.5. Cada
ensayo puede ser un resumen de varias observaciones experimentales.

1. Haz diagramas de caja para comparar las pruebas. ¿Qué diferencias notas entre las pruebas?

Primera Segunda Tercera Cuarta Quinta


N Válido 20 20 20 20 20
Perdidos 0 0 0 0 0
Mínimo 650 760 620 720 740
Máximo 1070 960 970 920 950
Percentiles 25 850.00 800.00 840.00 762.50 802.50
50 940.00 845.00 855.00 815.00 810.00
75 980.00 895.00 880.00 875.00 870.00
 Dentro de las diferencias entre las pruebas se evidencian, primero, la dispersión de
los datos, lo cual está determinado por el rango intercuartílico, que, para este caso,
sería menor en la segunda prueba. Es decir, que los datos de la segunda prueba son
los que menor variabilidad tienen. Por otro lado, la posición de la mediana también
entre todas las pruebas, lo que significa que el 50% de los datos presentan una alta
variabilidad entre ellos.
También se observa que si bien la segunda prueba es la que presenta menor
variabilidad entre sus datos, también es la que más datos atípicos posee; seguida de
la primera prueba que presenta una menor cantidad de datos atípicos.
Finalmente, la distribución de los datos difiere en cada una de las pruebas, así:
o Primera: Asimetría negativa.
o Segunda: Simétrica.
o Tercera: Asimetría positiva.
o Cuarta: Asimetría positiva.
o Quinta: Asimetría positiva.

3. El objetivo de Michelson era una estimación de la velocidad de la luz. Comente cómo los
centros de los ensayos se comparan entre sí y con el verdadero valor de 734.5 (en esta
escala).

 Al comparar los centros de los ensayos es posible identificar que a medida que se avanza
entre las pruebas, cada uno presenta un menor valor; siendo 940 para la primera y 810
para la última. Ahora bien, en relación con el valor de 734,5 hay una clara diferencia, pues
los valores obtenidos con las pruebas superan a este. Incluso, en todas las pruebas, este
valor se encuentra por debajo del percentil 25, lo que indica que casi no hay relación de
los datos obtenidos frente a este valor.

4. Michelson estaba trabajando con un nuevo método y con equipos de nueva construcción.
¿Ayuda esa información a dar cuenta de alguno de los patrones que ves en los datos?

 Es probable que debido al uso de un método nuevo y equipos de nueva construcción se


obtengan datos tan alejados y con tal variabilidad respecto al valor de 734,5. De seguro, si
se usarán los mismos métodos y equipos de siempre no se generarán tales errores.

Ejercicio 5. Nubes

El conjunto de datos de nubes contiene resultados de un experimento para determinar si


bombardear nubes aumenta la lluvia. En este experimento, las nubes fueron asignadas al azar para
ser bombardeadas o no y se midió la cantidad de lluvia que generaron.

1. Haga diagramas de cajas comparativo de nubes sin bombardeadas y no bombardeadas.

Nube no Nube
bombardeada bombardeada
N Válido 26 26
Perdidos 0 0
Media 164.588 441.985
Mediana 44.200 221.600
Moda 4.9 274.7
Mínimo 1.0 4.1
Máximo 1202.6 2745.6
Percentiles 25 23.725 79.450
50 44.200 221.600
75 183.325 444.775

2. El eje Y de la gráfica de caja está en pulgadas de lluvia. ¿Ves evidencia de que el bombardeo
aumenta la lluvia? Explica tu respuesta.

 Es evidente que al bombardear las nubes aumenta la lluvia. Mientras que para las nubes
NO bombardeadas, tanto el valor mínimo como el máximo son de 1 y 1202.6,
respectivamente; par las nubes que sí fueron bombardeadas, estos valores son de 4.1 y
2475.6.
 Por otro lado, una prueba más sólida de que sí aumenta la lluvia en las nubes
bombardeadas lo muestran los valores de los percentiles 25 y 75 de cada tipo de prueba.
Pues las bombardeadas presentan aproximadamente el triple de lo que indican las nubes
que no fueron bombardeadas.
 Finalmente, ambas pruebas presentan una asimetría positiva; lo cual, para el caso de las
nubes bombardeadas, deja una clara tendencia a presentar mayor lluvia cuando son
bombardeadas.
Ejercicio 6. Gasto en educación pública

Queremos comparar el gasto en educación pública en varias regiones de EEUU. Debido a que los
estados varían en población, debemos comparar los dólares gastados por alumno en lugar de los
dólares totales gastados. El archivo de datos SAT proporciona los dólares gastados por alumno en
cada estado. La Oficina del Censo agrupa a los estados en cuatro regiones:

Noreste: MA (Atlántico Medio) y NE (Nueva Inglaterra)

Sur: SA (Atlántico Sur), ESC (Este Sur Central) y WSC (Oeste Sur Central)

Medio oeste: ENC (East North Central) y WNC (West North Central)

Oeste: MTN (montaña) y PAC (Pacífico)

1. El Distrito de Columbia es una ciudad en lugar de un estado. ¿DC es un caso atípico en la


región sur? Omitiremos DC porque no es realmente un estado.
Estadísticos

Dólares por
Estudiante Estado

N Válido 51 51

Perdidos 0 0
Media 5175.4902
Mediana 5045.0000
Mínimo 2993.00
Máximo 9159.00
Percentiles 25 4327.0000

50 5045.0000

75 5740.0000

 DC sí es un caso atípico puesto que su valor está por encima de 8000, cómo se puede
evidenciar en la gráfica que se presenta a continuación. En el diagrama de caja todos
aquellos datos con un valor superior a 7000 ya son considerados datos atípicos

2. Haga resúmenes numéricos y gráficos para comparar las cuatro distribuciones. Escribe una
breve declaración de lo que encuentres.
 En la gráfica anterior es posible observar, primero, que la distribución es ligeramente
simétrica, por ende, no se observa una distribución que indique cuál es la variabilidad de
los datos. Por otro lado, es de resaltar que se presentan cinco valores atípicos en la
distribución, uno de ellos del Distrito de Columbia mencionado en el punto anterior.
Finalmente, con esta distribución no es posible identificar sesgos con lo cual tampoco es
posible predecir cuál sería la variabilidad futura de los datos.

También podría gustarte