Está en la página 1de 1

PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE

FACULTAD DE MATEMÁTICAS
DEPARTAMENTO DE ESTADÍSTICA

TAREA 2

CÓDIGO : EYP3707
CURSO : Métodos Estadı́sticos para el Manejo
de Grandes Volúmenes de Datos
FECHA DE ENTREGA : 05/06/2023

1. En esta pregunta considere la base de datos BreastCancer, incluida en la librerı́a de


R denominada mlbench. El objetivo del análisis es desarrollar un modelo que permita
predecir la clase de cancer (benigno o maligno).

1.1. Lleve a cabo un análisis exploratorio de los datos. (0.5 puntos)


1.2. Construya un clasificador en base a un modelo de regresión logı́stica, árbol de cla-
sificación, Bayes ingenuo, AdaBag, AdaBoost, Random Forest, y redes neuronales.
(1.5 puntos)
1.3. Evalúe la capacidad predictiva de cada uno de los clasificadores desarrollados en
el punto anterior. Justifique el procedimiento utilizado para llevar a cabo esta
evaluación. (1.0 puntos)

2. Considere la base de datos sobre el no-pago de tarjetas de crédito disponible en el


siguiente enlace:

https://raw.githubusercontent.com/MLWave/Black-Boxxy/master/credit-card-default.csv

El objetivo del análisis es desarrollar un modelo que permita predecir la falla en el


pago de la tarjeta de crédito. Asuma que un falso negativo le cuesta 10 veces el valor
de un falso positivo para este problema. Utilice al menos dos tipos de métodos de
clasificación para resolver este problema y evalúe la capacidad predictiva de cada uno
de los clasificadores implementados, justificando el procedimiento utilizado para llevar
a cabo esta evaluación. (2.0 puntos)

3. A través de este problema aprenderá a evaluar la importancia de las variables seleccio-


nadas en un clasificador utilizando la técnica de permutación. Usted podrá encontrar
mayor información sobre está técnica en el siguiente enlace:

https://christophm.github.io/interpretable-ml-book/feature-importance.html

Considere los datos de la pregunta 2 y un clasificador basado en un árbol de clasificación


para evaluar la importancia de las variables seleccionadas. (1.0 puntos)

También podría gustarte