Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Informe TP2 Sarbach Clasificación
Informe TP2 Sarbach Clasificación
Pág. 1 de 11
Ingeniería TP2
TP N°2: CLASIFICACIÓN
Contenido
1. Enunciado
2. Análisis general de clasificación
3. Método de Regresión Logística (RLOG)
4. Análisis Discriminante Lineal (LDA)
5. Análisis Discriminante Cuadrático (QDA)
6. Cálculo del Costo Total Esperado
Aplicaciones de Ciencia de Datos para
Pág. 2 de 11
Ingeniería TP2
Variables predictoras:
1- Relación de planitud
2- Simetría
3- Flujo cruzado
4 a 11 - Velocidad de flujo en cada uno de los ocho caminos
12 a 19 - Velocidad del sonido en cada uno de los ocho caminos
20 - Velocidad promedio del sonido en los ocho caminos
21 a 36 - Ganancia en ambos extremos de cada uno de los ocho caminos
Variable de respuesta:
37- Estado del medidor:
Clase 1: Sin defectos
Clase 2: Defectos de instalación
Matriz de Costo-ganancia:
NOTA 1: para facilitar el análisis, codificar la variable de clasificación como 0 sin defectos, 1
defectos.
Aplicaciones de Ciencia de Datos para
Pág. 3 de 11
Ingeniería TP2
El script contiene el archivo meter_f.csv el cual presentaba los datos separados por
comas. Para poder realizar el programa, se modificó el archivo original, el cual tiene
un total de 36 variables predictores y una variable respuesta llamada “clase”. Debido
a que el algoritmo requería una variable respuesta discreta, se agregó una variable
llamada “falla” que oscila entre 0 y 1. Con éstas modificaciones el archivo original
quedó en el formato meter_fx.xlsx.
# Identificación de variables
Variables predictores:
Variable de respuesta:
## C7 - Estado del medidor según la clase (clase) # No utilizo la variable clase. Solo
voy a usar la variable falla
## C8 - NO FALLA = 0, FALLA = 1
Número de clases:
Se procede a analizar si las clases están bien separadas comparando las distintas
variables y su correlación. Se observa que los datos en la mayoría de los casos se
encuentran muy próximos unos a otros. Debido a que se tienen solo 2 clases y que
además los datos se encuentran muy cercanos entre ellos, se descarta a priori el
método de los K-vecinos.
Se procede a realizar una partición de los datos, asignando el 70% de ellos de forma
aleatoria a un set de entrenamiento, y el resto para testeo. Es necesario validar los
métodos de clasificación, porque lo que funcione mejor con los datos de
entrenamiento, no necesariamente va a funcionar con los de testeo, u otros datos que
se utilicen en un futuro. Se tiene que analizar cómo se comporta frente a otros datos
que no sean los utilizados para entrenarlo. Para ello se realiza una matriz de
confusión, donde se compara la clase que fue asignada por el modelo a cada
observación del set de testeo contra la clase que efectivamente es según la base.
La curva calculada dio un área = 0.85 para un U = 0.5, una vez determinada la
curva, se bajó el umbral U= 0.30 el cual permitió calcular nuevamente la curva de
ROC obteniéndose un área = 0.864, mayor a la anterior.
En cuanto a la sensibilidad S = VP/P = 0.88 y exactitud EX = 0.88.
Puede verse que se calcularon las probabilidades para los dos tipos de
clases. Pr(FALLA)=0.58 T Pr(NO_FALLA)=0.41. Por su parte se tienen los
coeficientes y las medias para cada predictor.
El cálculo y análisis QDA es similar al método LDA. Puede verse que las
probabilidades de las clases incluso son iguales al método anterior.
En cuanto al ecm = 0.07, es el más bajo de todos los métodos vistos, y la exactitud
= 0.925, especificidad = 0.894 y sensibilidad S = 1 son realmente muy
prometedoras.
Es por ello que para el cálculo del costo total esperado se realizará con el
método RLOG, puesto que éste último resultó ser muy robusto en cuanto a
resultados y logró una muy buena clasificación con la matriz de confusión.
REALIDAD
PREDIGO
FALLA (1) NO FALLA (0)
FALLA (1) VP = 100 FP = 0
NO FALLA (0) FN = 0 VN = -70
MATRIZ DE CONFUSIÓN
La matriz de confusión calculada por el algoritmo sigue el primer caso. Para poder
implementarla con el cálculo del costo total esperado se cambian las diagonales,
quedando la matriz de confusión como el segundo caso.
Aplicaciones de Ciencia de Datos para
Pág. 11 de 11
Ingeniería TP2
𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = (0.59) ∗ (100) + (0.07) ∗ (0) + (0.04) ∗ (0) + (0.30) ∗ (-70) = 38, 52