Está en la página 1de 5

Python walk-through for Titanic data analysis

CARGA DE DATOS Y MODULOS:


Cargar módulos de Python: la lista de módulos crece paso a paso al
agregar nuevas funciones que son útiles para este proyecto. Un
módulo podría definirse más abajo una vez que sea necesario, pero
prefiero tenerlos todos en un solo lugar para tener una visión
general.

EXPLORACION INICIAL
Junto con PassengerId, que es solo un índice continuo y la
indicación de si este pasajero sobrevivió (1) o no (0), tenemos la
siguiente información para cada persona:
Pclass es la clase de billete: se utilizaron billetes de primera (1),
segunda (2) y tercera (3) clase. Esta es una característica de entero
ordinal.
Nombre es el nombre del pasajero. Los nombres también
contienen títulos y algunas personas pueden compartir el mismo
apellido; indicando relaciones familiares. Sabemos que algunos
títulos pueden indicar un determinado grupo de edad. Por ejemplo,
Master es un niño mientras que Mr es un hombre. Esta función es
una cadena de caracteres de longitud variable pero de formato
similar.
El sexo es un indicador de si el pasajero era hombre o mujer. Esta
es una función de cadena de texto categórica.
La edad es la edad entera del pasajero. Hay valores de NaN en esta
columna.
SibSp es otra función de número entero ordinal que describe el
número de hermanos o cónyuges que viajan con cada pasajero.
Parch es otro entero ordinal de características que da el número de
padres o hijos que viajan con cada pasajero.
El ticket es una cadena de caracteres de longitud variable que
proporciona el número del ticket.
La tarifa es una característica flotante que muestra cuánto pagó
cada pasajero por su viaje bastante memorable.
Cabina da el número de cabina de cada pasajero. Hay NaN en esta
columna. Esta es otra característica de la cadena.
Embarcado muestra el puerto de embarque como valor de carácter
categórico.
Conocer los valores perdidos es importante porque indican cuánto
no sabemos sobre nuestros datos. Hacer inferencias basadas en
unos pocos casos a menudo es imprudente. Además, muchos
procedimientos de modelado fallan cuando se trata de valores
faltantes y las filas correspondientes deberán eliminarse por
completo o los valores deberán estimarse de alguna manera.
Aprendemos:
En los datos de entrenamiento falta una gran mayoría de números
de cabina, junto con 177 valores de edad y 2 valores de embarcado.
Además, en los datos de prueba falta una tarifa (selección
descarada), se desconocen casi 100 valores de edad y solo se
conservaron 91 números de cabina. Lo mejor es tener eso en
cuenta.
Después de inspeccionar las funciones disponibles individualmente,
es posible que se haya dado cuenta de que es probable que algunas
de ellas estén conectadas. ¿La supervivencia dependiente de la
edad cambia con el sexo? ¿Cómo se relacionan la clase y la tarifa?
¿Están lo suficientemente conectados como para que uno de ellos
sea superfluo? Vamos a averiguar.
Ahora estamos conectando pistas individuales para tener una idea
del panorama general.
La correlación positiva versus negativa debe entenderse en
términos de si un aumento en una característica conduce a un
aumento (positivo) o una disminución (negativa) en la característica
correlacionada. La correlación perfecta tendría un índice de
correlación de 1; la anticorrelación perfecta (= correlación negativa)
tendría -1 (obviamente, cada característica está perfectamente
correlacionada consigo misma, lo que lleva a la diagonal de color
rojo oscuro). El triángulo superior derecho vs inferior izquierdo que
componen este gráfico contienen la misma información, ya que las
celdas correspondientes muestran los coeficientes de correlación
de las mismas características.
La matriz nos da una visión general de qué características son
particularmente interesantes para nuestro análisis. Tanto las
correlaciones fuertemente positivas como las negativas con la
característica Sobrevivido son valiosas. Las fuertes correlaciones
entre otras dos características sugerirían que solo una de ellas es
necesaria para nuestro modelo (e incluir la otra de hecho induciría
ruido y podría conducir a un ajuste excesivo).

Aprendemos:
Pclass está algo relacionado con la tarifa (los boletos de primera
clase serían más caros que los de tercera clase)
SibSp y Parch están débilmente correlacionados (las familias
numerosas tendrían valores altos para ambos; los que viajan solos
tendrían cero para ambos)
Pclass ya se correlaciona con Survived de manera notable
Además, trazamos un gráfico de pares de las características
numéricas. Este tipo de gráfico es una visualización más detallada
de las relaciones entre variables. Muestra diagramas de dispersión
para las diferentes combinaciones de características más una
distribución de cada característica en la diagonal. Nuevamente, el
triángulo superior derecho e inferior izquierdo contienen la misma
información. Este tipo de gráfico es mucho más útil para un
conjunto de variables continuas, en lugar de los valores categóricos
o enteros que tenemos aquí. No obstante, es una valiosa
herramienta exploratoria que tiene un lugar en la caja de
herramientas de todos.
Esta trama está inspirada y realizada mucho más estéticamente en
el completo Ensemble Stacking Kernel de Anisotropic

También podría gustarte