Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Abstract
Este informe del proyecto Titanic tiene como principal objetivo construir un modelo de regre-
sin logstica, mediante el cual se busca evaluar algunas variables cualitativas, de tal forma que
permita identificar la mayor probabilidad de aciertos, de que una persona sobreviva al hun-
dimiento del Titanic. Para obtener la ecuacin de regresin logstica ms acertada, en primer
lugar se transform las variables cualitativas a cuantitativas, luego se realiz varias pruebas em-
pleando modelos de regresin simple con cada una de ellas, buscando obtener la ecuacin que
arroje la probabilidad ms exacta de sobrevivir al accidente. Este proceso de pruebas se realiz
de igual forma con los modelos de regresin mltiple, en los que progresivamente se increment
una variable, hasta finalmente obtener la ecuacin de regresin logstica con la probabilidad de
acierto ms cercana a la realidad. Adicionalmente, para apoyar el anlisis de datos del modelo
de regresin logstica se aplic la regla de oro de este modelo, la cual consiste en dividir la base
de datos en training y pruebas. Finalmente se infiere que las variables independientes de mayor
relevancia son: Clase x1 , Sexo x2 y Sibsp X3 . Debido a los resultados obtenidos en cada ensayo
los cuales superan el 80 % de acierto.
Keywords: Modelo de Regresin logstica simple, mltiple, variables independientes y variables depen-
dientes, Software R.
1. Introduccin.
Para el desarrollo de este proyecto se utiliz el modelo de regresin logstica, el mismo que
es Un modelo clsico de regresin simple o mltiple, pero donde la variable dependiente es
binaria o dicotmica. Es decir, adopta solo dos valores posibles por ejemplo: xito y fracaso,
muerto y vivo, bueno y mal desempeo, aprobado o no aprobado. La regresin logstica es
un tipo especial de regresin que se utiliza para explicar y predecir una variable binaria (dos
grupos), en funcin de varias variables independientes que a su vez pueden ser cuantitativas
o cualitativas Los ensayos de prueba se realizaron con el programa estadstico R. Este es un
software estadstico preferido por los analistas de datos e interesados de la programacin.
De alguna manera, R cambi mi opinin sobre el gnero humano al observar
cuntas personas estn realmente dispuestas a participar en actividades colectivas,
1
Informe del Proyecto Titanic Banderas, Herreria y Oa
buscando algo que trasciende a sus propios intereses. En este mbito, se realizan
muchas actividades sin que haya un reconocimiento individual."
2. Metodologa.
2.1. Objetivo
Construir un modelo de regresin logstico para determinar cules variables son capaces de
explicar la supervivencia de las personas al hundimiento del Titanic.
2.2. Variables.
Las variables que se consideraron para las diferentes pruebas fueron:
Pclass: Clase del pasaje (primera clase =1, segunda clase=2, tercera clase = 3)
Sex: Gnero del pasajero (male=masculino, female=femenino), para usar esta informa-
cin se podra codificar como 0 para mujeres y 1 para hombres.
Como segundo punto se realiz pruebas de regresin mltiple aumentando en cada ensayo
una variable dependiente ms, como se demostrar posteriormente. Para la variable Sexo
se realiz una transformacin de variable cualitativa a variable cuantitativa (1 o 0).
2.4. Nomenclatura.
T2: Variable con nmero de aciertos.
T3: Variable con nmero de aciertos, utilizando la regla de Oro, en donde se divide la
Data Set en dos grupos.
2
Informe del Proyecto Titanic Banderas, Herreria y Oa
3. Experimentos
3.1. Modelos de Regresin Simple
3.1.1. Variables Clases vs. Sobrevivientes
En el modelo de regresin simple con las variables Clase vs sobrevivientes, se puede observar
que la sumatoria de aciertos (T2 para el presente caso de estudio) es de 605, lo que corresponde
a un 67,90 % de xito. La correlacin obtenida entre las dos variables es negativa 0,338481. En
definitiva, con este primer ensayo no se puede inferir si el aporte de esta variable es significativo.
3
Informe del Proyecto Titanic Banderas, Herreria y Oa
Se puede observar que con la variable sexo el R nos arroja un total de aciertos de 701, lo
que representa una probabilidad de 78,67 % de sobrevivientes.
La ecuacin del modelo de regresin simple entre las variables (x2 )y (y 0 ) nos infiere una
correlacin positiva de 0,5433, con lo cual se concluye que este ensayo nos entrega una mejor
correlacin que el ensayo anterior.
Correlacin 0,0353
4
Informe del Proyecto Titanic Banderas, Herreria y Oa
En el ensayo con las variables independientes SibSp vs. Sobrevivientes nos arroja 366 aciertos,
lo que representa un porcentaje del 41,08 % de probabilidad de acierto. De igual manera el
modelo nos demuestra una correlacin negativa y extremadamente baja de 0,0353.
5
Informe del Proyecto Titanic Banderas, Herreria y Oa
Si se realiza el experimento con un modelo de regresin mltiple con las variables clase,
sexo contra los sobrevivientes el nmero de aciertos que se obtienes es de 701, lo cual indica un
porcentaje de probabilidad del 78,67 %.
Las variables independientes x1 y x2 tienen una correlacin negativa de 0,13, siendo satis-
factorio porque indica que se encuentran muy relacionadas.
Ahora si se compara el resultado obtenido en el ensayo del modelo de regresin simple con
las variables sexo vs sobrevivientes, se observa que los dos modelos tienen el mismo nmero de
aciertos.
6
Informe del Proyecto Titanic Banderas, Herreria y Oa
7
Informe del Proyecto Titanic Banderas, Herreria y Oa
En este ensayo se aument la variable independiente Parch (x49 ), dando como resultado una
T 2 de 709 aciertos y un porcentaje de 79,57 % de acierto.
Las correlaciones obtenidas en este ensayo son relativamente bajas, siendo la correlacin
entre x3 y x4 la ms alta con 0,41. Sin embargo se pierde un 1 % de acierto con respecto al
ensayo anterior lo que ratifica que le modelo de regresin logstico ms acertado es entre las
variables x1 , x2 y x3 .
8
Informe del Proyecto Titanic Banderas, Herreria y Oa
4. Conclusiones
Despus de realizar 7 ensayos con todas las variables del caso de estudio, se lleg a la
conclusin que las variables independientes de mayor relevancia son: Clase (x1 ), Sexo (x2 ) y
Sibsp (x3 ), porque da un porcentaje de acierto superior al 80 %.
El proyecto del Titanic permite observar algunas aplicaciones valiosas de la estadstica in-
ferencial en el entorno administrativo, por ejemplo:
5. Referencias
Ramn Das Uriarte. (2003). Introduccin al uso y programacin del sistema estads-
tico R. 11 04 2017, de Unidad de Bioinformtica Centro Nacional de Investigacio-
nes Oncolgicas del Sitio web: https://cran.r-project.org/doc/contrib/curso-R.
Diaz-Uriarte.pdf.
9
Informe del Proyecto Titanic Banderas, Herreria y Oa
Nelcy Rocio Escobar Moreno. (2013). Anlisis de regresin logstica para investigacin de
mercados. 11-04-2017, de Universidad Nacional de Colombia Facultad de Ciencias Econ-
micas Sitio web http://www.fcenew.unal.edu.co/publicaciones/images/Descanrgue_
documento_EACP_CID_No_18.pdf
10