Está en la página 1de 14

UNIVERSIDAD CATÓLICA DEL MAULE

CAMPUS SAN MIGUEL


FACULTAD DE CIENCIAS BÁSICAS

METODOLOGÍA DE LA
INVESTIGACIÓN
ANÁLISIS CUANTITATIVO
DE DATOS
Análisis de analogía entre el factor migratorio y el
Titanic

Descripción
Informe para ser presesentado al Docente Dr. Marcelo Rodriguez Gallardo
en el marco del desarrollo del ramo de metodología de la investigación

Marcelo Andrés Sepúlveda Albornoz


msepulvedaalb@gmail.com
Índice
Introducción..................................................................................................................1
Análisis de datos:...........................................................................................................2
1. Percepción del Negocio....................................................................................................2
2. Enfoque analítico.............................................................................................................2
3. Requisitos de datos..........................................................................................................3
4. Recolección de datos........................................................................................................3
5. Comprender de datos.......................................................................................................3
6. Preparación de datos.......................................................................................................7
7. Modelado........................................................................................................................11
8. Evaluación......................................................................................................................13
9. Implementación.............................................................................................................13
10. Retroalimentación.....................................................................................................13
Conclusión....................................................................................................................13

Introducción

En el presente trabajo se analizará la opinión del twittero Agrotributos (@Agrotributos) con respecto a
la frase “Emigrar en Latinoamérica, es como cambiar de camarote en el Titanic”

1
Someteremos a juicio científico la opinión del twittero y utilizaremos estadística descriptiva y técnicas
de análisis de datos multivariadas para juzgar críticamente la opinión anteriormente mencionada
basados en metodología de ciencia de datos de 10 etapas según IBM.

Análisis de datos:

1. Percepción del Negocio.

La primera etapa consta de percibir el negocio, en nuestro caso debemos entender el contexto en el cual
se produjo el accidente y la distribución de los camarotes.

Analizando la historia, el hundimiento del Titanic es uno de los naufragios más infames de la historia. El
15 de abril de 1912, durante su viaje inaugural, el RMS Titanic, ampliamente considerado
"insumergible", se hundió tras chocar con un iceberg. Desafortunadamente, no había suficientes botes
salvavidas para todos a bordo, lo que resultó en la muerte de 1502 de los 2224 pasajeros y la
tripulación.

Los precios de las distintas clases de pasaje se encontraban entre las 870 libras por persona en suite de
lujo y unas 30 libras en camarote de lujo estándar a las 12 de 2ª clase. Por otro lado, las suites más
lujosas, de 1ª clase, estaban ubicadas en la parte central hacia popa del Titanic, entre las cubiertas 5 y 6.
Las otras cabinas de 1ª clase, con ventana panorámica, estaban ubicadas en la zona central pero hacia
popa, también entre las cubiertas 5 y 6. A bordo había 416 cabinas de 1ª clase, entre suites y camarotes
“tipo estándar” pero con servicio de mayordomo y otras exclusividades.

Los camarotes de 2ª clase, más sencillos pero con cama de matrimonio, baño, armario, tocador y
ventana ojo de buey, estaban instaladas todas ellas (182 en total) entre las cubiertas 1, 2 y 3, justo por
debajo del comedor de esta misma clase de pasaje.

Finalmente, los camarotes de 3ª clase, 262 en total, estaban repartidos en la proa y en la popa, entre las
cubiertas 2 y 3. En ambos casos, las vibraciones y el ruido de la sala de máquinas se percibía
absolutamente.

2. Enfoque analítico.
En la segunda etapa nos preocuparemos de buscar el enfoque analítico, es decir determinar la
estrategia con la cuál se obtendrá una solución viable al problema.

2
El problema es analizar la veracidad de las palabras del twittero, quien plantea que en el Titanic casi
todos murieron y al establecer la analogía, asegura que da lo mismo en qué país de Latinoamérica te
encuentres porque vas a morir. Por ello, para poder responder científicamente será necesario obtener
información real del accidente del titanic, filtrar la información, analizar la información descriptiva y
finalmente usar una técnica de clasificación de árbol para establecer un modelo que nos permita
comprender cuales son las variables que afectan la sobrevivencia y verificar si el camarote es realmente
un factor que incide en la sobrevivencia.

3. Requisitos de datos.

En esta etapa debemos definir que tipo de datos necesitaremos en correspondencia con el modelo
elegido para relacionar la sobrevivencia las distintas variables que podrían incidir.
En este caso necesitaremos datos cualitativos (sobrevivencia, El sexo, el puerto, destino, clase de
pasajero) y datos cuantitativos (edad, acompañante adulto, acompañante niño, precio del ticket) el
objetivo es establecer correlaciones entre la variable sobrevivencia y otras.

4. Recolección de datos.
En esta etapa el requisito son los datos estructurados los cuales serán los registros recuperados de la
pagina web https://www.kaggle.com/c/titanic los cuales utilizaremos para el análisis de datos. Cabe
destacar que en esta etapa debemos hacer limpieza de los datos par evitar errores en el análisis, pero
atendiendo a las necesidades inmediatas del curso, este paso fue omitido por la priorización del tiempo
de clases.

5. Comprender de datos.

Una vez cumplido el requisito de obtención de los datos estructurados, como los obtenidos de la web,
vamos ahora a comprender los datos que tenemos. En primer lugar se debe hacer estadística
descriptiva y aplicar técnicas de visualización.
Con la información en SPSS nos realizamos la pregunta que responda a la pregunta: "¿Qué tipo de
personas tenían más probabilidades de sobrevivir?" 
Para ello usaremos una base de datos de registros de pasajeros que abordaron el titánica (nombre,
edad, sexo, clase socioeconómica, etc.)

3
Analizando los datos recolectados, tratamos de identificar variables y formular hipótesis que nos
permitan dar respuesta al problema.

En este caso la primera pregunta que surge es la ubicación de los camarotes por clases donde ocupando
la información obtenida en el paso 1, logramos establecer que la primera clase se encontraba al centro
del barco y las clases mas bajas estaban en la proa y en la popa muy cercanas a la sala de máquinas.

Si tomamos muestras de 20 pasajeros podemos observar:

4
Podemos estimar que la probabilidad empírica para cada clase es de:
Clase sobrevivientes Muestra Probabilidad
empírica
1º 13 20 65%
2º 9 20 45%
3º 2 20 10%

Rápidamente hacemos un análisis de sobrevivencia.

Y podemos observar que solo el 38% sobrevive.

5
Así solamente aplicando estadística descriptiva podemos observar que la gran mayoría de los
tripulantes es de tercera clase.

Al analizar el cuadro de la edad podemos ver varios ceros y datos repetidos, esto resalta la necesidad de
filtrar y limpiar adecuadamente los datos antes de procesarlos, para evitar errores en la interpretación
de estos.

6
6. Preparación de datos.

En esta etapa preparamos los datos y nos damos cuenta de que al filtrar la información de la edad y
establecer categorías y rangos de edad, la información queda más sencilla para la evaluación.
De esta manera podemos observar claramente que de los que no sobreviven la mayor cantidad son
jóvenes.

7
El gráfico que relaciona la frecuencia con la tarifa del ticket muestra claramente que las personas con
un costo bajo en el ticket tienen una mayor cantidad de muertos en relación con los que pagaron ticket
sobre los 100 dólares.

Con los gráficos anteriores podemos ver que hay gran cantidad de pasajeros que
pagaron un precio reducido por el ticket, esto se puede deber a que son empleados o

8
personas encargadas del funcionamiento del barco. Sobre todo de la mantención de la
sala de máquinas.

Ahora podemos tratar de ver si hay correlaciones asociadas con los datos obtenidos.

Al observar los gráficos de dispersión podemos ver que no hay una tendencia clara
para establecer correlaciones por ello debemos analizar los datos cualitativos y usar la
prueba de chi- cuadrado para analizar la probabilidad.

9
Al analizar las probabilidades de sobrevivencia podemos ver que una persona con
ticket de primera clase tiene un 62% de probabilidades de sobrevivir en relación a
una persona con ticket de tercera clase quien tiene un 26% de probabilidad de
sobrevir. En este caso, la decisión final no solo se basa en la observación de las
variables sino que tambien se basa en una prueba de hipotesis, donde
H0=No hay diferencias entre el camarote escogido.
H1=Si hay diferencias entre el camarote escogido.
Aqui el valor p es 1,72E-28 lo cual es muy inferior a 0,05 lo que nos indica claramente
que debemos rechazar la hipotesis nula y aceptar la alterna, por ello podemos concluir
que las personas con ticket de primera clase, efectivamente tenían más probabilidades
de sobrevivencia.

10
Continuando con el análisis chi-cuadrado podemos observar que la variable puerto
también incide en la sobrevivencia.

7. Modelado.

Para poder establecer un modelo asociado a la sobrevivencia del Titanic, usaremos una
técnica de clasificación llamada árbol de clasificación con el objetivo de verificar cuales
son las variables que efectivamente inciden en la sobrevivencia de los pasajeros

11
De acuerdo con el modelo entregado por el árbol de clasificación la probabilidad de sobrevivencia es
del 38%. No obstante la variable que más influye en la sobrevivencia corresponde al sexo. Es decir si el
pasajero es mujer la probabilidad de sobrevivencia es del 72% y en este caso el camarote utilizado, si es
un factor influyente en la sobrevivencia pues si utiliza un camarote de primera clase Las probabilidades
de sobrevivir son del 97%, si utiliza un camarote de segunda clase las probabilidades de sobrevivir
corresponden al 89% y si utiliza un camarote de tercera clase las probabilidades disminuyen al 49%.
Finalmente si va en tercera clase la variable que influye es el puerto con un 40% de probabilidad para
el puerto “S” y un 63% para los puertos “C” y “Q”
En cambio, si el pasajero es hombre la probabilidad de sobrevivencia es del 19%, por ello la
recomendación seria no viajar en el titanic. Ahora si aún desea viajar, la variable más influyente es la
edad, pues si es menor a 13 años las probabilidades de sobrevivir son del 52%, en cambio si es mayor
las probabilidades de sobrevivir corresponden al 17%. Y dado que es mayor de 13 años, la variable que
afecta es la clase, estableciendo una probabilidad del 32% si viaja en primera clase y 13% en caso de
ser de segunda o tercera clase.

12
8. Evaluación.
En este caso podemos ver que el modelo es funcional y responde adecuadamente a las necesidades
técnicas para el cual fue elaborado.
Ha sido validado utilizando distintos tipos de análisis, en primer lugar se realizó una descripción de los
datos utilizando gráficas y estableciendo comparaciones.
Posteriormente se aplicó prueba estadística de chi-cuadrado, contrastando hipótesis y estableciendo la
probabilidad de error al asumir independencia entre las variables.
Finalmente realizamos una prueba de clasificación donde podemos observar que las variables que
mejor predicen la sobrevivencia son: sexo, clase, puerto y edad. relacionadas en el estudio las cuales
El modelo permite informar al cliente acerca de las posibilidades que puede tener para aumentar la
probabilidad de sobrevivencia basados en métodos estadísticos.

9. Implementación.
Al implementar el modelo podemos observar que no da lo mismo el camarote en el cual viaje la persona
pues aumenta o disminuye las posibilidades de sobrevivencia. Por ello podemos establecer que el
modelo es funcional, útil y cumple con las necesidades para el cuál fue creado.

10.Retroalimentación.
En este caso podemos ver que el modelo es funcional y responde adecuadamente a las necesidades
técnicas para el cual fue elaborado. Pues permite guiar en la toma de decisiones a partir de información
previa.
Un claro ejemplo es la recomendación para viajar a un hombre de 38 años, pues el modelo por el simple
hecho de ser hombre ya entrega información para no recomendar el viaje y en el caso de que el cliente
insista en viajar, el modelo permite informar al cliente acerca de las posibilidades que puede tener para
aumentar la probabilidad de sobrevivencia

Conclusión

Mediante las pruebas estadísticas de chi-cuadrado y árbol de clasificación podemos determinar que el
comentario del twittero no es correcto. Es falso, pues al analizar el caso del Titanic podemos observar
que la clase de camarote es un factor clave en la sobrevivencia al naufragio. La validación del modelo
mediante contraste de hipótesis permite asegurar que el fenómeno migratorio en Latinoamérica no se
comporta de la misma manera que el hundimiento del Titanic.

13

También podría gustarte