Está en la página 1de 2

Ejercicio Estadística Descriptiva – Base de datos “Titanic”

La base de datos “Titanic.xlsx" contiene una muestra de pasajeros de la embarcación,


sobre la que realizaremos un estudio estadístico. A continuación, se describe los
atributos presentes:

 survival: supervivencia (0 No, 1 Si).


 pclass: clase del pasajero (1,2 o 3).
 name: nombre del pasajero (texto).
 sex: sexo del pasajero (“male", “female").
 age: edad del pasajero (número, ojo que hay datos faltantes).
 sibsp: cantidad de hermanos y cónyuges (totalizado) embarcados (número
entero).
 parch: cantidad de padres e hijos (totalizado) embarcados (número entero).
 ticket: código del boleto (texto).
 fare: tarifa del pasaje (número real número real en libras en 1912).
 cabin: cabina (texto).
 embarked: puerto de embarque (S= Southampton, Q=Queenstown, C =
Cherbourg).

Ejercicio 1:

1. Identificar las variables e indicar, si es posible, sus diferentes dominios.


2. Realizar un histograma de la variable “Age” y extraer algún tipo de información
del gráfico.
3. Identificar si hay datos atípicos en las variables cuantitativas.
4. Calcular las medidas resumen para las variables “Fare” y “Age”, e interpretarlas.
5. Realizar tablas de frecuencias para las variables “pclas”, “Sex” y “Survival”
6. Comparar mediante tablas de frecuencias las edades de cada clase.
7. Realizar la misma comparación, pero mediante gráficos de boxplots.
8. Realizar nuevamente histogramas de la variable “Age” pero separándolos por
clase.

Ejercicio 2:
Completar con los resultados correspondientes o tachar según corresponda.
De los no sobrevivientes el … pertenecía a la clase 3 y el … a la clase 1, pero de la clase
3 sobrevivieron el … y de la clase 1 el …
Las mujeres que realizaron el viaje tuvieron una edad promedio de … años y un desvío
estándar de … años, y los hombres un promedio de … años y un desvío de … años.
La edad de las mujeres fue más heterogénea/homogénea que la edad de los hombres.
La edad máxima del … de las mujeres fue de …, pero la edad máxima del 60% de las
mujeres que sobrevivieron fue de ….
El cuartil 1 de la variable “fare” vale … e indica que la tarifa máxima pagada por el
25% de las personas fue de … libras.
La edad mediana de las mujeres fue menor/mayor con respecto a la de los hombres, e
indica que ….
La tarifa promedio de los sobrevivientes fue de … y fue … a la tarifa promedio de los
no sobrevivientes.
El mayor porcentaje de sobrevivientes se embarcó en el puerto de …. De estos, el
80% tuvo como mínimo ….

Ejercicio 3:
1. Comparar mediante gráficos de boxplot la variable “fare” en las distintas clases, y
extraer alguna información.
2. Si realizamos un histograma de la variable “fare”, ¿qué información podemos
extraer del gráfico?
3. Ahora, realicemos el mismo gráfico, pero para cada categoría de la variable
“survived”, ¿qué se puede observar?
4. Comparar mediante gráficos de boxplots la variable “age” para cada categoría de
“survived”.
5. Realizar una tabla de frecuencias de la variable “sibsp”.
6. Realizar la misma tabla de frecuencias, pero para cada categoría de la variable
“pclass”.

También podría gustarte