Parcial Segundo Corte Metodos Predictivos

Erika Tatiana Álvarez
Tatiana Alejandra Guayazán

Laura Sofía Cuellar
Bedsy Yuliana Arévalo
PARCIAL SEGUNDO CORTE
MÉTODOS PREDICTIVOS
1. Resumen introductorio
Mediante este trabajo se busca encontrar un modelo que prediga si determinado

recluso según su perfil puede llegar a infringir ciertas normas de la libertad
condicional, pues el director de la prisión busca una manera más fácil de poder
saber si es confiable o no, darle este privilegio a un preso partiendo de solo datos
como su género, edad, crimen, máxima sentencia, entre otros; para esto, se toma en
un principio una base de 675 observaciones y se hallarán dos modelos uno basado
en regresión logística y otro en árboles de decisión, buscando en ambos analizar e
interpretar el indicador de “sensibilidad”.
Sin embargo, en busca de realizar la tarea de la mejor manera posible, se realiza un

trabajo de balanceo de datos duplicando algunos de los datos de los que han
infringido la libertad condicional. Esto nos deja una base de datos con 729
observaciones.
2. Porque “Sensitivity” es el factor más importante de decisión en este caso
Sensitivity es el parámetro más importante de decisión, pues este nos indica el

porcentaje que hemos clasificado correctamente del grupo objetivo, en el caso
presentado nuestra misión es poder predecir con las variables dadas, cuáles de los
prisioneros puestos en libertad condicional infringirán las normas otorgadas por el
juez.
Es decir que nuestro grupo objetivo son los infractores y necesitamos que nuestro
modelo tenga la capacidad de identificar el porcentaje más alto posible de los
mismos, para el caso un “1” ejemplificará el infractor y un “0” se tomará con un no
infractor.
Si nuestro modelo maneja un alto porcentaje de sensitivity, será más fácil para el
director de la prisión decidir si un recluso debe o no tener el beneficio de libertad
condicional, así mismo será más fácil para él determinar a qué personas debe incluir
en su nuevo programa que busca concientizar a los detenidos para que cumplen su
sentencia de manera correcta con este beneficio y no cometan delitos adicionales
que los lleve a estar más años en la prisión.
3. Presentar el modelo de regresión logística
Al eliminar las variables que no tenían impacto en el modelo:
● Edad
● Tiempo servido o de estancia en la prisión
● Sentencia máxima
Obtuvimos el siguiente modelo de regresión logística con las variables:
● Ofensas múltiples
● Estado (Kentucky, Louisiana, Virginia u otro estado)
Aplicado a la fórmula nuestro modelo quedó de la siguiente forma:
Lo que quiere decir que para saber qué persona es posible que infrinja las
condiciones de la libertad condicional es necesario fijarse en el estado en el que
reside y si fue condenado por múltiples ofensas.
UMBRAL:
Según la curva ROC podemos evidenciar que desde aproximadamente 0.4 hasta
0.05 tenemos umbrales adecuados para que nuestro parámetro principal Sensitivity
sea bueno en el modelo, sin embargo, decidimos escoger el 0.15 pues
consideramos es el punto más óptimo, que nos permite tener no solo sensitivity con
un porcentaje alto, si no que nos da buenos valores en los otros parámetros, por lo
que tendremos en general una regresión logística útil para clasificar cualquier tipo de
observación.
DATA Accuracy Sensitivity Specificity
Train 0.6514286 0.6944444 0.6402878
Test 0.71078443 0.8333333 0.6944444
En resumen, nuestro modelo clasifica correctamente 83.3% los reclusos en libertad

condicional que es probable que violen los términos impuestos. (SENSITIVITY)
Clasifica de manera correcta en un 69.4% aquellos reclusos que no violaran ningún

término de la libertad condicional. (SPECIFICITY)
En general tiene clasifica correctamente las observaciones en un 71.07%.
(ACCURACY)
4. Presentar modelo de árbol de clasificación
Se tomó en cuenta como segundo método de predicción el árbol de decisión para

poder evaluar los posibles infractores de la libertad condicional, ya que es un método
que permite el manejo de variables numéricas y categóricas para tener un universo
más amplio con mayores variables (características de perfil) para detectar los
posibles infractores y no infractores. La curva ROC del modelo de árbol de
clasificación mostró los datos de la Gráfica 4, resaltando que para tener el mejor
grado de asertividad en el perfil para los posibles infractores, es necesario definir el
mayor sensitivity (proporción de “infractores” clasificados correctamente), así,
siguiendo esta condición se escogió un umbral de 0,15. De esta manera obtenemos
una predicción correcta de posibles prisioneros infractores del 87% y de no
infractores del 54%, sin embargo este último porcentaje no es relevante para el
análisis desarrollado. Teniendo en cuenta estos datos en nuestra prueba de testeo,
iniciaremos nuestra predicción en la base de muestra.
GRÁFICA 4
Resultados con nivel de

precisión de 0,15:
Como podemos observar en
la gráfica, el sensitivity
decrece (línea azul clara)
respecto del testeo del mismo
modelo, pero al compararlo
con el modelo de regresión
logística (línea amarilla) es
mayor el rango de asertividad en la predicción de los prisioneros que pueden ser
infractores.
El de Árboles de decisión permite interpretar con un rango del 87% de asertividad

que prisioneros pueden ser infractores ante una libertad condicional, con la premisa
que las variables que intervienen en el modelo son: las múltiples ofensas cometidas,
la edad y el estado.
Train 0,62 0,92 0.54
Test 0,58 0,87 0.54
Árboles - Train
Minbucket #Nodes #Leaves Threshold Accuracy Sensitivity Specificity
1 31 33 0,15 0.9295238 0.9074074 0.9352518
2 30 32 0,15 0.927619 0.9074074 0.9328537
3 14 16 0,15 0.6438095 0.9259259 0.5707434
4 10 12 0,15 0.6285714 0.9259259 0.5515588
5 9 11 0,15 0.6304762 0.9259259 0.5539568
6 9 11 0,15 0.6209524 0.9259259 0.5419664
7 6 8 0,15 0.6209524 0.9259259 0.5419664
8 6 8 0,15 0.6209524 0.9259259 0.5419664
9 5 7 0,15 0.6209524 0.9259259 0.5419664
10 4 6 0,15 0.6209524 0.9259259 0.5419664
11 4 6 0,15 0.6209524 0.9259259 0.5419664
12 4 6 0,15 0.6209524 0.9259259 0.5419664
13 4 6 0,15 0.6209524 0.9259259 0.5419664
14 4 6 0,15 0.6209524 0.9259259 0.5419664
15 4 6 0,15 0.6209524 0.9259259 0.5419664
16 1 3 0,15 0.84 0.5 0.9280576
17 1 3 0,15 0.84 0.5 0.9280576
18 1 3 0,15 0.84 0.5 0.9280576
19 1 3 0,15 0.84 0.5 0.9280576

20 1 3 0,15 0.84 0.5 0.9280576
Escogimos el árbol con 10 minbuckets pues a pesar que del valor 6 al 15 se repiten
los valores de los parámetros accuracy, sensitivity y specificity, este árbol maneja
una cantidad de hojas y de nodos que es fácil de leer, interpretar y que a simple
vista se ve consistente pues involucra tres de las variables de nuestra base de
datos.
Para todos los árboles realizados usamos el mismo umbral y escogimos un árbol
que no fuera demasiado complejo como aquel que maneja 1 minbucket pero
tampoco demasiado simple como el de 20, pues no solo los parámetros nos indican
que son menos efectivos, si no que puede perder funcionalidad para nuestra tarea y
para cumplir la tarea encargada por el director de la prisión.
5. Escoger uno de los modelos, explicar porque, y concluir
MODELO ESCOGIDO
Hablando en términos generales si buscáramos un modelo que simplemente

clasificara a un recluso como violador o no violador de la libertad condicional, la
regresión logística nos brinda un alto porcentaje en todos los parámetros, lo que nos
indica que es un muy buen modelo de predicción.
Pero debido a que nuestro objetivo es determinar correctamente los presos que
violaran la libertad condicional, el mejor modelo es el de Árboles de decisión
porque nos da una clasificación correcta del 87% con respecto al modelo de
regresión logística que es del 83%.
Así mismo podemos hablar en términos de interpretabilidad que el árbol nos da una
forma más fácil de clasificar a las personas, este sería entendible incluso para una
persona que no maneje conocimientos en programación o estadística, pues
simplemente debe identificar en la observación la característica que indica el árbol y
de ahí ir siguiendo las indicaciones, mientras que con la regresión es una ecuación
que puede ser más compleja y tediosa de realizar.
CONCLUSIONES
● El modelo que le permitirá al director de la prisión predecir si determinados

prisioneros infringirán las normas teniendo libertad condicional es el Árbol de
clasificación, puesto que es aquel que le puede dar a conocer una mayor
proporción en cuanto a los reclusos que podrían violar ciertas normas de la
libertad condicional. Es con este modelo que podría impactar a la población
que desea con su programa para instruirlos en las normas y
comportamientos a seguir.
● En términos de procedimiento, podemos decir que la regresión logística se
tardó menos, y si bien obtuvimos muy buenos resultados, al final el árbol
resultó siendo el modelo ganador.
● Podemos notar que en términos de variables el árbol maneja una más amplia
selección, desde el primer árbol (1 minbucket) que incluye casi todas las
variables, hasta el escogido que incluye tres variables (edad, estado y
ofensas múltiples). El modelo de la regresión logística solo uso dos variables
pues estas fueron las que presentaron significancia.
MÉTODO RANDOM FOREST
Ejecutamos el método random forest con el mismo ejercicio para comparar si este
nos podría brindar una mejor solución que los ya hechos anteriormente.
Iniciamos realizando la curva ROC, y decidimos escoger el mismo umbral que

manejamos en la regresión logística y en el árbol de decisión, para tener este
parámetro uniforme.
Umbral 0.15
Train 0.8038 0.8148 0.8009
Test 0.8284 0.6666 0.85
Sin embargo, decidimos tratar con un umbral menor ya que como vemos en la
gráfica desde 0.1 hasta 0 denota que será mejor el parámetro sensitivity.
Obtuvimos los siguientes resultados:
Umbral 0.1
Train 0.7733 0.9537 0.7266
Test 0.7941 0.7083 0.8055
Ahora disminuimos un poco más el umbral para ver logramos mejores resultados
que en los otros modelos
Umbral 0.08
Train 0.7733 0.9537 0.7266
Test 0.7549 0.7083 0.7611
CONCLUSIONES DEL MÉTODO RANDOM FOREST

● Podemos notar que, aunque este método nos arroja grandes valores en la
muestra de entrenamiento disminuye bastante para la muestra test y no logra
superar los resultados que nos dio el método de árboles de decisión.
● Aunque el árbol de decisión muestra mejores resultados, el método random
forest presenta un algoritmo más robusto pues combina una cantidad amplia
de árboles de decisión buscando el mejor entre ellos, sin embargo, puede
que al ser tan pocas observaciones estas se dispersen, y es por esto que
este método funciona mejor con algo más sencillo como el árbol de decisión.
También puede influir el desbalance de los datos.

Parcial Segundo Corte Metodos Predictivos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Parcial Segundo Corte Metodos Predictivos

Cargado por

Copyright:

Formatos disponibles

Erika Tatiana Álvarez

Tatiana Alejandra Guayazán

Mediante este trabajo se busca encontrar un modelo que prediga si determinado

Sin embargo, en busca de realizar la tarea de la mejor manera posible, se realiza un

2. Porque “Sensitivity” es el factor más importante de decisión en este caso

Sensitivity es el parámetro más importante de decisión, pues este nos indica el

3. Presentar el modelo de regresión logística

Al eliminar las variables que no tenían impacto en el modelo:

Aplicado a la fórmula nuestro modelo quedó de la siguiente forma:

DATA Accuracy Sensitivity Specificity

Train 0.6514286 0.6944444 0.6402878

Test 0.71078443 0.8333333 0.6944444

En resumen, nuestro modelo clasifica correctamente 83.3% los reclusos en libertad

Clasifica de manera correcta en un 69.4% aquellos reclusos que no violaran ningún

4. Presentar modelo de árbol de clasificación

Se tomó en cuenta como segundo método de predicción el árbol de decisión para

Resultados con nivel de

El de Árboles de decisión permite interpretar con un rango del 87% de asertividad

DATA Accuracy Sensitivity Specificity

Train 0,62 0,92 0.54

Test 0,58 0,87 0.54

1 31 33 0,15 0.9295238 0.9074074 0.9352518

2 30 32 0,15 0.927619 0.9074074 0.9328537

3 14 16 0,15 0.6438095 0.9259259 0.5707434

4 10 12 0,15 0.6285714 0.9259259 0.5515588

5 9 11 0,15 0.6304762 0.9259259 0.5539568

6 9 11 0,15 0.6209524 0.9259259 0.5419664

7 6 8 0,15 0.6209524 0.9259259 0.5419664

8 6 8 0,15 0.6209524 0.9259259 0.5419664

9 5 7 0,15 0.6209524 0.9259259 0.5419664

10 4 6 0,15 0.6209524 0.9259259 0.5419664

11 4 6 0,15 0.6209524 0.9259259 0.5419664

12 4 6 0,15 0.6209524 0.9259259 0.5419664

13 4 6 0,15 0.6209524 0.9259259 0.5419664

14 4 6 0,15 0.6209524 0.9259259 0.5419664

15 4 6 0,15 0.6209524 0.9259259 0.5419664

16 1 3 0,15 0.84 0.5 0.9280576

17 1 3 0,15 0.84 0.5 0.9280576

18 1 3 0,15 0.84 0.5 0.9280576

19 1 3 0,15 0.84 0.5 0.9280576

5. Escoger uno de los modelos, explicar porque, y concluir

Hablando en términos generales si buscáramos un modelo que simplemente

● El modelo que le permitirá al director de la prisión predecir si determinados

MÉTODO RANDOM FOREST

Iniciamos realizando la curva ROC, y decidimos escoger el mismo umbral que

Train 0.8038 0.8148 0.8009

Test 0.8284 0.6666 0.85

Obtuvimos los siguientes resultados:

Train 0.7733 0.9537 0.7266

Test 0.7941 0.7083 0.8055

Train 0.7733 0.9537 0.7266

Test 0.7549 0.7083 0.7611

CONCLUSIONES DEL MÉTODO RANDOM FOREST

También podría gustarte