Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Resumen introductorio
Es decir que nuestro grupo objetivo son los infractores y necesitamos que nuestro
modelo tenga la capacidad de identificar el porcentaje más alto posible de los
mismos, para el caso un “1” ejemplificará el infractor y un “0” se tomará con un no
infractor.
Si nuestro modelo maneja un alto porcentaje de sensitivity, será más fácil para el
director de la prisión decidir si un recluso debe o no tener el beneficio de libertad
condicional, así mismo será más fácil para él determinar a qué personas debe incluir
en su nuevo programa que busca concientizar a los detenidos para que cumplen su
sentencia de manera correcta con este beneficio y no cometan delitos adicionales
que los lleve a estar más años en la prisión.
● Edad
● Tiempo servido o de estancia en la prisión
● Sentencia máxima
Obtuvimos el siguiente modelo de regresión logística con las variables:
● Ofensas múltiples
● Estado (Kentucky, Louisiana, Virginia u otro estado)
Lo que quiere decir que para saber qué persona es posible que infrinja las
condiciones de la libertad condicional es necesario fijarse en el estado en el que
reside y si fue condenado por múltiples ofensas.
UMBRAL:
Según la curva ROC podemos evidenciar que desde aproximadamente 0.4 hasta
0.05 tenemos umbrales adecuados para que nuestro parámetro principal Sensitivity
sea bueno en el modelo, sin embargo, decidimos escoger el 0.15 pues
consideramos es el punto más óptimo, que nos permite tener no solo sensitivity con
un porcentaje alto, si no que nos da buenos valores en los otros parámetros, por lo
que tendremos en general una regresión logística útil para clasificar cualquier tipo de
observación.
GRÁFICA 4
Árboles - Train
Minbucket #Nodes #Leaves Threshold Accuracy Sensitivity Specificity
Escogimos el árbol con 10 minbuckets pues a pesar que del valor 6 al 15 se repiten
los valores de los parámetros accuracy, sensitivity y specificity, este árbol maneja
una cantidad de hojas y de nodos que es fácil de leer, interpretar y que a simple
vista se ve consistente pues involucra tres de las variables de nuestra base de
datos.
Para todos los árboles realizados usamos el mismo umbral y escogimos un árbol
que no fuera demasiado complejo como aquel que maneja 1 minbucket pero
tampoco demasiado simple como el de 20, pues no solo los parámetros nos indican
que son menos efectivos, si no que puede perder funcionalidad para nuestra tarea y
para cumplir la tarea encargada por el director de la prisión.
MODELO ESCOGIDO
Pero debido a que nuestro objetivo es determinar correctamente los presos que
violaran la libertad condicional, el mejor modelo es el de Árboles de decisión
porque nos da una clasificación correcta del 87% con respecto al modelo de
regresión logística que es del 83%.
Así mismo podemos hablar en términos de interpretabilidad que el árbol nos da una
forma más fácil de clasificar a las personas, este sería entendible incluso para una
persona que no maneje conocimientos en programación o estadística, pues
simplemente debe identificar en la observación la característica que indica el árbol y
de ahí ir siguiendo las indicaciones, mientras que con la regresión es una ecuación
que puede ser más compleja y tediosa de realizar.
CONCLUSIONES
Ejecutamos el método random forest con el mismo ejercicio para comparar si este
nos podría brindar una mejor solución que los ya hechos anteriormente.
Sin embargo, decidimos tratar con un umbral menor ya que como vemos en la
gráfica desde 0.1 hasta 0 denota que será mejor el parámetro sensitivity.
Umbral 0.1
DATA Accuracy Sensitivity Specificity
Ahora disminuimos un poco más el umbral para ver logramos mejores resultados
que en los otros modelos
Umbral 0.08
DATA Accuracy Sensitivity Specificity