Está en la página 1de 4

Trabajo Métodos Predictivos - 2do Corte

Rafael Rivera

In order to concentrate the effort on the inmates which are likely to violate their parole the
director of the prison asked you to create a model able to predict if a certain parolee will be a
violator or a non-violator.

Brief Introduction

Los métodos predictivos, independientemente del tipo o modelo que escojamos y de lo que
queramos alcanzar con este, son herramientas que nos permiten analizar conjuntos de datos, ya
sean pequeños o grandes, y generar inputs relevantes para el objetivo o meta que queramos
alcanzar o incluso si no tenemos algún resultado esperado en mente y sólo queremos encontrar
información relevante.
El caso que estamos analizando en este ejercicio nos muestra cómo a partir de unos datos que, en
primera instancia, parecen no tener nada en común, terminan siendo bajo la combinación
adecuada un factor de decisión para llevar a cabo un proyecto o no y predecir con la asertividad
más óptima. Sin la ayuda de estos métodos de predicción probablemente este conjunto de datos
quedaría en los registros de la cárcel sin ser percibidos como información relevante.

Why is sensitivity the most import decision factor in this case

Para este caso en particular, el indicador que representa el mayor nivel de importancia al
analizarlo es sensitivity debido a los objetivos que buscan alcanzarse con el programa impartido
por la cárcel. Al concentrarse en sensitivity, que en este caso mediría asertivamente aquellos
individuos que de acuerdo al modelo seleccionado es más probable que violen la libertad
condicional por desconocer o no ser conscientes de las reglas que deben seguir, se lograría
optimizar los candidatos que harán parte del programa y así conseguir que el esfuerzo y los
recursos (económicos y de tiempo) no sean utilizados en vano.
Regresión Logistica

La ecuación que escogimos para el modelo de regresión logística es la siguiente:


Violator: -4,5285 + 1,3952(Multiple offenses) + 2,7701(state 1) + 3,0021(state 2) + 4,2167(state 3).

Decidimos comparar el modelo con tres umbrales diferentes (0.1, 0.15 y 0.4) para validar, como
lo explicamos antes, cuál es el mejor sensitivity. Encontramos que el mejor indicador de
sensitivity se encuentra en el umbral de 0.1, con una tasa del 88%. Con este % logramos la
mayor tasa de asertividad para determinar aquellos que es más probable que violen la libertad
condicional.

Threshold Accuracy Sensitivity Specificity

0,1 58% 88% 54%

0,15 71% 83% 69%

0,4 85% 67% 87%


Arbol de decisión

Para el modelo de árbol de decisión tomamos el umbral de 0.1, al igual que en el modelo de
regresión logística, y lo evaluamos en un rango de minbucket de 1 a 20. El mayor nivel de
sensitivity alcanzado es del 92,59% desde el minbucket 3 hasta la cola del rango seleccionado,
debido a lo anterior, analizamos la simplicidad de nodes & leaves, teniendo presente que no
fuera demasiado extenso ni demasiado corto pero que aún así nos presentara una serie de
criterios racionales. Por esta razón escogimos el minbucket de 9, donde, además de incluir la
variable state, incluye si la persona tuvo múltiple offenses, su edad y la máxima sentencia de la
misma.

MINBUCKET #NODES #LEAVES THRESHOLD ACCURACY SENSITIVITY SPECIFICITY


1 32 33 0.1 92.90% 90.70% 93.30%
2 31 32 0.1 92.76% 90.74% 93.28%
3 15 16 0.1 64.38% 92.59% 57.07%
4 11 12 0.1 62.85% 92.59% 55.15%
5 10 11 0.1 63.00% 92.59% 55.30%
6 10 11 0.1 62.09% 92.59% 54.19%
7 7 8 0.1 62.09% 92.59% 54.19%
8 7 8 0.1 62.09% 92.59% 54.19%
9 6 7 0.1 62.09% 92.59% 54.19%
10 5 6 0.1 62.09% 92.59% 54.19%
11 5 6 0.1 62.09% 92.59% 54.19%
12 5 6 0.1 62.09% 92.59% 54.19%
13 5 6 0.1 62.09% 92.59% 54.19%
14 5 6 0.1 62.09% 92.59% 54.19%
15 5 6 0.1 62.00% 92.59% 54.19%
16 2 3 0.1 62.00% 92.59% 54.19%
17 2 3 0.1 62.00% 92.59% 54.19%
18 2 3 0.1 62.00% 92.59% 54.19%
19 2 3 0.1 62.00% 92.59% 54.19%
20 2 3 0.1 62.00% 92.59% 54.19%
Random Forest

Este tipo de método, nos arrojó unos valores más homogéneos en el estudio, con resultados
similares en cada uno de los estándares a evaluar. No obstante, es importante aclarar que para
este escenario, lo que nos interesa es la sensibilidad de los datos; con respecto a lo anterior,
deducimos analiticamente que este tipo de método no funcionará correctamente para el programa
a evaluar, debido a que su sensibilidad no es tan alta como otros métodos ya vistos
anteriormente.

TEST RF
THRESHOLD ACCURACY SENSITIVITY SPECIFICITY
0.06 75% 79% 74%
0.08 75% 71% 76%
0.1 79% 71% 81%

¿Regresión logística, Árbol de Decisión o Random Forest?

Entre los modelos de regresión logística, árbol de decisión y random forest, decidimos escoger el
árbol de decisión, principalmente porque alcanza un nivel de sensitivity más alto que el de
modelo de regresión logística y de random forest, que es principalmente el indicador más
importante para el objeto del proyecto acerca de la libertad condicional en prisioneros. Con esta
decisión creemos que tomamos el método de predicción óptimo para seleccionar las personas
que harán parte del curso que será impartido en la cárcel.

También podría gustarte