Está en la página 1de 8

Erika Tatiana Álvarez

Tatiana Alejandra Guayazán


Laura Sofía Cuellar
Bedsy Yuliana Arévalo
PARCIAL SEGUNDO CORTE
MÉTODOS PREDICTIVOS

1. Resumen introductorio

Mediante este trabajo se busca encontrar un modelo que prediga si determinado


recluso según su perfil puede llegar a infringir ciertas normas de la libertad
condicional, pues el director de la prisión busca una manera más fácil de poder
saber si es confiable o no, darle este privilegio a un preso partiendo de solo datos
como su género, edad, crimen, máxima sentencia, entre otros; para esto, se toma en
un principio una base de 675 observaciones y se hallarán dos modelos uno basado
en regresión logística y otro en árboles de decisión, buscando en ambos analizar e
interpretar el indicador de “sensibilidad”.

Sin embargo, en busca de realizar la tarea de la mejor manera posible, se realiza un


trabajo de balanceo de datos duplicando algunos de los datos de los que han
infringido la libertad condicional. Esto nos deja una base de datos con 729
observaciones.

2. Porque “Sensitivity” es el factor más importante de decisión en este caso

Sensitivity es el parámetro más importante de decisión, pues este nos indica el


porcentaje que hemos clasificado correctamente del grupo objetivo, en el caso
presentado nuestra misión es poder predecir con las variables dadas, cuáles de los
prisioneros puestos en libertad condicional infringirán las normas otorgadas por el
juez.

Es decir que nuestro grupo objetivo son los infractores y necesitamos que nuestro
modelo tenga la capacidad de identificar el porcentaje más alto posible de los
mismos, para el caso un “1” ejemplificará el infractor y un “0” se tomará con un no
infractor.

Si nuestro modelo maneja un alto porcentaje de sensitivity, será más fácil para el
director de la prisión decidir si un recluso debe o no tener el beneficio de libertad
condicional, así mismo será más fácil para él determinar a qué personas debe incluir
en su nuevo programa que busca concientizar a los detenidos para que cumplen su
sentencia de manera correcta con este beneficio y no cometan delitos adicionales
que los lleve a estar más años en la prisión.

3. Presentar el modelo de regresión logística

Al eliminar las variables que no tenían impacto en el modelo:

● Edad
● Tiempo servido o de estancia en la prisión
● Sentencia máxima
Obtuvimos el siguiente modelo de regresión logística con las variables:
● Ofensas múltiples
● Estado (Kentucky, Louisiana, Virginia u otro estado)

Aplicado a la fórmula nuestro modelo quedó de la siguiente forma:

Lo que quiere decir que para saber qué persona es posible que infrinja las
condiciones de la libertad condicional es necesario fijarse en el estado en el que
reside y si fue condenado por múltiples ofensas.

UMBRAL:

Según la curva ROC podemos evidenciar que desde aproximadamente 0.4 hasta
0.05 tenemos umbrales adecuados para que nuestro parámetro principal Sensitivity
sea bueno en el modelo, sin embargo, decidimos escoger el 0.15 pues
consideramos es el punto más óptimo, que nos permite tener no solo sensitivity con
un porcentaje alto, si no que nos da buenos valores en los otros parámetros, por lo
que tendremos en general una regresión logística útil para clasificar cualquier tipo de
observación.

DATA Accuracy Sensitivity Specificity

Train 0.6514286 0.6944444 0.6402878

Test 0.71078443 0.8333333 0.6944444

En resumen, nuestro modelo clasifica correctamente 83.3% los reclusos en libertad


condicional que es probable que violen los términos impuestos. (SENSITIVITY)

Clasifica de manera correcta en un 69.4% aquellos reclusos que no violaran ningún


término de la libertad condicional. (SPECIFICITY)
En general tiene clasifica correctamente las observaciones en un 71.07%.
(ACCURACY)

4. Presentar modelo de árbol de clasificación

Se tomó en cuenta como segundo método de predicción el árbol de decisión para


poder evaluar los posibles infractores de la libertad condicional, ya que es un método
que permite el manejo de variables numéricas y categóricas para tener un universo
más amplio con mayores variables (características de perfil) para detectar los
posibles infractores y no infractores. La curva ROC del modelo de árbol de
clasificación mostró los datos de la Gráfica 4, resaltando que para tener el mejor
grado de asertividad en el perfil para los posibles infractores, es necesario definir el
mayor sensitivity (proporción de “infractores” clasificados correctamente), así,
siguiendo esta condición se escogió un umbral de 0,15. De esta manera obtenemos
una predicción correcta de posibles prisioneros infractores del 87% y de no
infractores del 54%, sin embargo este último porcentaje no es relevante para el
análisis desarrollado. Teniendo en cuenta estos datos en nuestra prueba de testeo,
iniciaremos nuestra predicción en la base de muestra.

GRÁFICA 4

Resultados con nivel de


precisión de 0,15:
Como podemos observar en
la gráfica, el sensitivity
decrece (línea azul clara)
respecto del testeo del mismo
modelo, pero al compararlo
con el modelo de regresión
logística (línea amarilla) es
mayor el rango de asertividad en la predicción de los prisioneros que pueden ser
infractores.

El de Árboles de decisión permite interpretar con un rango del 87% de asertividad


que prisioneros pueden ser infractores ante una libertad condicional, con la premisa
que las variables que intervienen en el modelo son: las múltiples ofensas cometidas,
la edad y el estado.

DATA Accuracy Sensitivity Specificity

Train 0,62 0,92 0.54

Test 0,58 0,87 0.54

Árboles - Train
Minbucket #Nodes #Leaves Threshold Accuracy Sensitivity Specificity

1 31 33 0,15 0.9295238 0.9074074 0.9352518

2 30 32 0,15 0.927619 0.9074074 0.9328537

3 14 16 0,15 0.6438095 0.9259259 0.5707434

4 10 12 0,15 0.6285714 0.9259259 0.5515588

5 9 11 0,15 0.6304762 0.9259259 0.5539568

6 9 11 0,15 0.6209524 0.9259259 0.5419664

7 6 8 0,15 0.6209524 0.9259259 0.5419664

8 6 8 0,15 0.6209524 0.9259259 0.5419664

9 5 7 0,15 0.6209524 0.9259259 0.5419664

10 4 6 0,15 0.6209524 0.9259259 0.5419664

11 4 6 0,15 0.6209524 0.9259259 0.5419664

12 4 6 0,15 0.6209524 0.9259259 0.5419664

13 4 6 0,15 0.6209524 0.9259259 0.5419664

14 4 6 0,15 0.6209524 0.9259259 0.5419664

15 4 6 0,15 0.6209524 0.9259259 0.5419664

16 1 3 0,15 0.84 0.5 0.9280576

17 1 3 0,15 0.84 0.5 0.9280576

18 1 3 0,15 0.84 0.5 0.9280576

19 1 3 0,15 0.84 0.5 0.9280576


20 1 3 0,15 0.84 0.5 0.9280576

Escogimos el árbol con 10 minbuckets pues a pesar que del valor 6 al 15 se repiten
los valores de los parámetros accuracy, sensitivity y specificity, este árbol maneja
una cantidad de hojas y de nodos que es fácil de leer, interpretar y que a simple
vista se ve consistente pues involucra tres de las variables de nuestra base de
datos.

Para todos los árboles realizados usamos el mismo umbral y escogimos un árbol
que no fuera demasiado complejo como aquel que maneja 1 minbucket pero
tampoco demasiado simple como el de 20, pues no solo los parámetros nos indican
que son menos efectivos, si no que puede perder funcionalidad para nuestra tarea y
para cumplir la tarea encargada por el director de la prisión.

5. Escoger uno de los modelos, explicar porque, y concluir

MODELO ESCOGIDO

Hablando en términos generales si buscáramos un modelo que simplemente


clasificara a un recluso como violador o no violador de la libertad condicional, la
regresión logística nos brinda un alto porcentaje en todos los parámetros, lo que nos
indica que es un muy buen modelo de predicción.

Pero debido a que nuestro objetivo es determinar correctamente los presos que
violaran la libertad condicional, el mejor modelo es el de Árboles de decisión
porque nos da una clasificación correcta del 87% con respecto al modelo de
regresión logística que es del 83%.

Así mismo podemos hablar en términos de interpretabilidad que el árbol nos da una
forma más fácil de clasificar a las personas, este sería entendible incluso para una
persona que no maneje conocimientos en programación o estadística, pues
simplemente debe identificar en la observación la característica que indica el árbol y
de ahí ir siguiendo las indicaciones, mientras que con la regresión es una ecuación
que puede ser más compleja y tediosa de realizar.
CONCLUSIONES

● El modelo que le permitirá al director de la prisión predecir si determinados


prisioneros infringirán las normas teniendo libertad condicional es el Árbol de
clasificación, puesto que es aquel que le puede dar a conocer una mayor
proporción en cuanto a los reclusos que podrían violar ciertas normas de la
libertad condicional. Es con este modelo que podría impactar a la población
que desea con su programa para instruirlos en las normas y
comportamientos a seguir.
● En términos de procedimiento, podemos decir que la regresión logística se
tardó menos, y si bien obtuvimos muy buenos resultados, al final el árbol
resultó siendo el modelo ganador.
● Podemos notar que en términos de variables el árbol maneja una más amplia
selección, desde el primer árbol (1 minbucket) que incluye casi todas las
variables, hasta el escogido que incluye tres variables (edad, estado y
ofensas múltiples). El modelo de la regresión logística solo uso dos variables
pues estas fueron las que presentaron significancia.

MÉTODO RANDOM FOREST

Ejecutamos el método random forest con el mismo ejercicio para comparar si este
nos podría brindar una mejor solución que los ya hechos anteriormente.

Iniciamos realizando la curva ROC, y decidimos escoger el mismo umbral que


manejamos en la regresión logística y en el árbol de decisión, para tener este
parámetro uniforme.
Umbral 0.15
DATA Accuracy Sensitivity Specificity

Train 0.8038 0.8148 0.8009

Test 0.8284 0.6666 0.85

Sin embargo, decidimos tratar con un umbral menor ya que como vemos en la
gráfica desde 0.1 hasta 0 denota que será mejor el parámetro sensitivity.

Obtuvimos los siguientes resultados:

Umbral 0.1
DATA Accuracy Sensitivity Specificity

Train 0.7733 0.9537 0.7266

Test 0.7941 0.7083 0.8055

Ahora disminuimos un poco más el umbral para ver logramos mejores resultados
que en los otros modelos

Umbral 0.08
DATA Accuracy Sensitivity Specificity

Train 0.7733 0.9537 0.7266

Test 0.7549 0.7083 0.7611

CONCLUSIONES DEL MÉTODO RANDOM FOREST


● Podemos notar que, aunque este método nos arroja grandes valores en la
muestra de entrenamiento disminuye bastante para la muestra test y no logra
superar los resultados que nos dio el método de árboles de decisión.
● Aunque el árbol de decisión muestra mejores resultados, el método random
forest presenta un algoritmo más robusto pues combina una cantidad amplia
de árboles de decisión buscando el mejor entre ellos, sin embargo, puede
que al ser tan pocas observaciones estas se dispersen, y es por esto que
este método funciona mejor con algo más sencillo como el árbol de decisión.
También puede influir el desbalance de los datos.

También podría gustarte