Está en la página 1de 8

Realizar para el caso del Titanic en Knime:

1. Análisis de datos con estadística


2. Representación gráfica de los datos
A. Identificar la fuente de datos
B. Identificar los tipos de datos
C. Realizar estadísticas de acuerdo al tipo de datos en Knime
Solo revisar los aspectos relevantes a la Estadística Descriptiva
3. Plantear preguntas:
A. Que factores influyen en que un pasajero se salve?
B. Describa el perfil de quien tiene mas probabilidad de salvarse:
• los niños, jóvenes o adultos
• las mujeres o los hombres
• ¿Influye el nivel económico? (Clase, valor del ticket)
C. Realice el análisis combinando algunas variables
D. Realizar las representaciones gráficas de las principales variables
• Gráficos de barras
• Gráfico de dispersión
• Gráfico de caja de bigotes
Por cada gráfico realizar la interpretación respectiva.

E. Cada integrante del equipo debe hacer al menos una estadística y al menos un
gráfico.

Intrucciones:
o Ingresar a Kaggle y revisar el overview: https://www.kaggle.com/c/titanic/data
o Crearse un usuario
o Descargar la base de datos:
o Titanic - Machine Learning from Disaster | Kaggle
Modelo usado en KNIME:
• Nodo 1: adquisición de datos
• Nodos 3, 7, 8, 10, 11: manejar, preparar y limpiar los datos
• Nodo 12: aprendizaje de máquina 1
• Nodo 13: predictor asociado al aprendizaje de máquina 1
• Nodo 5: Scorer asociado al aprendizaje de máquina 1
• Nodo 2: aprendizaje de máquina 2
• Nodo 4: predictor asociado al aprendizaje de máquina 2
• Nodo 14: Scorer asociado al aprendizaje de máquina 2

Estadísticas del Nodo 15:


Árbol de deciciones con Nodo 2, Decision Tree Learner:
• 1er variable de decisión (principal): Sexo
• 2da variable de decisión: Edad
• 3era variable de decisión: Clase

Acurracy del modelo de aprendizaje de máquina 1, SVM Learner:

Confusion Matrix del modelo de aprendizaje de máquina 1, SVM Learner:

Acurracy del modelo de aprendizaje de máquina 2, Decision Tree Learner:

Confusion Matrix del modelo de aprendizaje de máquina 2, Decision Tree Learner:


FUENTE 1: https://www.kaggle.com/c/titanic/data

Resumen

Los datos se han dividido en dos grupos:


• conjunto de entrenamiento (train.csv)
• conjunto de prueba (test.csv)

El conjunto de entrenamiento debe utilizarse para construir sus modelos de aprendizaje


automático. Para el conjunto de entrenamiento, proporcionamos el resultado también conocido
como la "verdad básica (ground truth)" para cada pasajero. Su modelo se basará en
"características" como el género y la clase de los pasajeros. También puede utilizar la ingeniería
de características para crear otras nuevas.

El conjunto de pruebas debe utilizarse para comprobar el rendimiento de su modelo con datos
no vistos. Para el conjunto de pruebas, no proporcionamos la "verdad básica (ground truth)"
para cada pasajero. Es su trabajo predecir los resultados. Para cada pasajero del conjunto de
prueba, utiliza el modelo que has entrenado para predecir si sobrevivieron o no al hundimiento
del Titanic.

También incluimos gender_submission.csv, el cual es un conjunto de predicciones que supone


que todos los pasajeros femeninos sobreviven, como ejemplo de cómo debería ser un archivo de
presentación.

Diccionario de Datos
Nota sobre las variables

pclass: Aproximación del estatus socioeconómico (socio-economic status, SES)


• 1st = Superior (Upper)
• 2nd = Medio (Middle)
• 3rd = Baja (Lower)

age: la edad (Age) es una fracción menor a 1. El formado es xx.5

sibsp: El conjunto de datos define las relaciones familiares de esta manera:


• Sibling = hermano (brother), hermana (sister),hermanastra (stepsister),hermanastro
(stepbrother),
• Spouse = husband (esposo), wife (esposa) ,se han ignorado las amantes y los prometidos.

parch: El conjunto de datos define las relaciones familiares de esta manera:


• Parent = mother, father
• Child = daughter, son, stepdaughter, stepson
Nota: Algunos niños viajaron sólo con una niñera, por lo que parch=0 para ellos
FUENTE 2: https://www.kaggle.com/startupsci/titanic-data-science-solutions

Soluciones de Ciencia de Datos Titanic

El cuaderno nos guía a través de un flujo de trabajo típico para resolver concursos de ciencia de
datos en sitios como Kaggle.

Hay varios cuadernos excelentes para estudiar las entradas de las competiciones de ciencia de
datos. Sin embargo, muchos se saltarán parte de la explicación sobre cómo se desarrolla la
solución, ya que estos cuadernos están desarrollados por expertos para expertos. El objetivo de
este cuaderno es seguir un flujo de trabajo paso a paso, explicando cada paso y la justificación
de cada decisión que tomamos durante el desarrollo de la solución.

Etapas del flujo de trabajo


El flujo de trabajo de la solución del concurso pasa por siete etapas descritas en el libro Data
Science Solutions.

1. Definición de la pregunta o del problema.


2. Adquirir datos de entrenamiento y de prueba.
3. Manejar, preparar y limpiar los datos.
4. Analizar, identificar patrones y explorar los datos.
5. Modelar, predecir y resolver el problema.
6. Visualizar, informar y presentar los pasos de la resolución del problema y la solución final.
7. Suministrar o presentar los resultados.

El flujo de trabajo indica la secuencia general de cómo cada etapa puede seguir a la otra. Sin
embargo, hay casos de uso con excepciones.

• Podemos combinar múltiples etapas del flujo de trabajo. Podemos analizar visualizando
los datos.
• Realizar una etapa antes de lo indicado. Podemos analizar los datos antes y después de la
gestión.
• Realizar una etapa varias veces en nuestro flujo de trabajo. La etapa de visualización
puede ser utilizada varias veces.
• Dejar de lado una etapa. Es posible que no necesitemos la etapa de suministro para
producir o habilitar nuestro conjunto de datos para un concurso.

Definición de la pregunta y el problema


Los sitios de concursos como Kaggle definen el problema que hay que resolver o las preguntas
que hay que plantear, a la vez que proporcionan los conjuntos de datos para entrenar tu modelo
de ciencia de datos y probar los resultados del modelo contra un conjunto de datos de prueba.
La definición de la pregunta o el problema para la competición Titanic Survival se describe aquí
en Kaggle.

Sabiendo, a partir de un conjunto de muestras de entrenamiento que enumera a los


pasajeros que sobrevivieron o no al desastre del Titanic, puede nuestro modelo
determinar, basándose en un conjunto de datos de prueba dado que no contiene la
información de supervivencia, si estos pasajeros en el conjunto de datos de prueba
sobrevivieron o no.

También es posible que queramos desarrollar algún tipo de conocimiento previo sobre el
dominio de nuestro problema. Esto se describe en la página de descripción del concurso de
Kaggle aquí. Aquí están los aspectos más destacados a tener en cuenta.

• El 15 de abril de 1912, durante su viaje inaugural, el Titanic se hundió después de chocar


con un iceberg, matando a 1502 de los 2224 pasajeros y la tripulación. Una tasa de
supervivencia del 32%.
• Una de las razones por las que el naufragio provocó tal pérdida de vidas fue que no había
suficientes botes salvavidas para los pasajeros y la tripulación.
• Aunque hubo algún elemento de suerte en la supervivencia del hundimiento, algunos
grupos de personas tuvieron más probabilidades de sobrevivir que otros, como las
mujeres, los niños y la clase alta.

Objetivos del flujo de trabajo


El flujo de trabajo de las soluciones de ciencia de datos resuelve siete objetivos principales.

Clasificar. Es posible que queramos clasificar o categorizar nuestras muestras. También podemos
querer entender las implicaciones o la correlación de las diferentes clases con nuestro objetivo
de solución.

Correlacionar. Uno puede abordar el problema basándose en las características disponibles


dentro del conjunto de datos de entrenamiento. ¿Qué características del conjunto de datos
contribuyen significativamente a nuestro objetivo de solución? Desde el punto de vista
estadístico, ¿existe una correlación entre una característica y el objetivo de la solución? A medida
que cambian los valores de las características, ¿cambia también el estado de la solución, y
viceversa? Esto puede comprobarse tanto para las características numéricas como para las
categóricas en el conjunto de datos dado. También es posible que queramos determinar la
correlación entre características distintas de la supervivencia para los objetivos posteriores y las
etapas del flujo de trabajo. La correlación de ciertas características puede ayudar a crear,
completar o corregir características.

Conversión. Para la etapa de modelización, hay que preparar los datos. Dependiendo de la
elección del algoritmo del modelo, puede ser necesario convertir todas las características en
valores numéricos equivalentes. Por ejemplo, convertir los valores categóricos del texto en
valores numéricos.

Completar. La preparación de los datos también puede requerir que estimemos los valores que
faltan en una característica. Los algoritmos de los modelos pueden funcionar mejor cuando no
hay valores perdidos.

Corregir. También podemos analizar el conjunto de datos de entrenamiento en busca de errores


o valores posiblemente inexactos dentro de las características y tratar de corregir estos valores
o excluir las muestras que contienen los errores. Una forma de hacerlo es detectar cualquier valor
atípico entre nuestras muestras o características. También podemos descartar por completo una
característica si no contribuye al análisis o puede sesgar significativamente los resultados.
Crear. Podemos crear nuevas características basadas en una característica existente o en un
conjunto de características, de manera que la nueva característica siga los objetivos de
correlación, conversión y exhaustividad.

Gráficos. Cómo seleccionar los gráficos y diagramas de visualización adecuados en función de la


naturaleza de los datos y los objetivos de la solución.

Refactorización 2017-Jan-29
Estamos refactorizando significativamente el cuaderno en base a (a) los comentarios recibidos
por los lectores, (b) los problemas en la portación del cuaderno desde el kernel de Jupyter (2.7)
al kernel de Kaggle (3.5), y (c) la revisión de algunos kernels más de mejores prácticas.

Comentarios de los usuarios:


• Combinar los datos de entrenamiento y de prueba para ciertas operaciones como
convertir los títulos de todo el conjunto de datos en valores numéricos. (gracias @Sharan
Naribole)
• Observación correcta - casi el 30% de los pasajeros tenían hermanos y/o cónyuges a
bordo. (gracias @Reinhard)
• Interpretación correcta de los coeficientes de regresión logística. (gracias @Reinhard)

Problemas de portabilidad:
• Especificar las dimensiones del gráfico, llevar la leyenda al gráfico.

Mejores prácticas:
• Realizar el análisis de correlación de características al principio del proyecto.
• Utilizar múltiples gráficos en lugar de superposiciones para facilitar la lectura.

FUENTE 3: https://www.kaggle.com/alexisbcook/titanic-tutorial

También podría gustarte