Informe TP2 Sarbach Clasificación

Aplicaciones de Ciencia de Datos para
Pág. 1 de 11
Ingeniería TP2
Alumno: Fernando Sarbach Fecha: 28/10/2022
Aplicaciones de Ciencias de Datos en

Ingeniería
TP N°2: CLASIFICACIÓN
Profesores: Kornblit, Fernando

Delbon, Marisa
Alumno: Sarbach, Fernando
Contenido
1. Enunciado
2. Análisis general de clasificación
3. Método de Regresión Logística (RLOG)
4. Análisis Discriminante Lineal (LDA)
5. Análisis Discriminante Cuadrático (QDA)
6. Cálculo del Costo Total Esperado
Pág. 2 de 11
Ingeniería TP2
1. Enunciado: Ejercicio 6 – Caudalímetros Ultrasónicos f
La data set “meter_f” contiene 87 observaciones y 37 parámetros de diagnóstico para

un medidor de flujo ultrasónico líquido (USM) de 8 vías. Utilizando como variables
predictoras las columnas (1,2,11,16,20,31,37), queremos separar y clasificar los
medidores sin defectos (clase 1) y los que poseen algún tipo de defecto (clase 2).
Usando al menos 2 de los métodos vistos en la materia:
1) Establecer un criterio de clasificación, calcular la correspondiente matriz de

confusión, ecm, sensibilidad y especificidad obtenidas para cada método.
2) Usando la matriz de costo, como criterio, seleccionar el mejor método para este
problema.
Variables predictoras:
1- Relación de planitud
2- Simetría
3- Flujo cruzado
4 a 11 - Velocidad de flujo en cada uno de los ocho caminos
12 a 19 - Velocidad del sonido en cada uno de los ocho caminos
20 - Velocidad promedio del sonido en los ocho caminos
21 a 36 - Ganancia en ambos extremos de cada uno de los ocho caminos
Variable de respuesta:
37- Estado del medidor:
Clase 1: Sin defectos
Clase 2: Defectos de instalación
Matriz de Costo-ganancia:
NOTA 1: para facilitar el análisis, codificar la variable de clasificación como 0 sin defectos, 1
defectos.
Pág. 3 de 11
Ingeniería TP2
2. Análisis general de clasificación
a. Identificación de variables significativas
El script contiene el archivo meter_f.csv el cual presentaba los datos separados por
comas. Para poder realizar el programa, se modificó el archivo original, el cual tiene
un total de 36 variables predictores y una variable respuesta llamada “clase”. Debido
a que el algoritmo requería una variable respuesta discreta, se agregó una variable
llamada “falla” que oscila entre 0 y 1. Con éstas modificaciones el archivo original
quedó en el formato meter_fx.xlsx.
# Identificación de variables
Variables predictores:
## C1 - Relación de planitud (RP)

## C2 - Simetría (S)
## C3 - Velocidad de flujo en cada uno de los ocho caminos (VF8)
## C4 - Velocidad del sonido en cada uno de los ocho caminos (VS5)
## C5 - Velocidad promedio del sonido en los ocho caminos (VP)
## C6 - Ganancia en ambos extremos de cada uno de los ocho caminos (GE11)
Variable de respuesta:
## C7 - Estado del medidor según la clase (clase) # No utilizo la variable clase. Solo
voy a usar la variable falla
## C8 - NO FALLA = 0, FALLA = 1
Número de clases:
## Clase 1  Sin defectos = 0 (NO FALLA)

## Clase 2  Defectos de instalación = 1 (FALLA)
Pág. 4 de 11
Ingeniería TP2
b) Observación de comportamiento de clases:
Se procede a analizar si las clases están bien separadas comparando las distintas
variables y su correlación. Se observa que los datos en la mayoría de los casos se
encuentran muy próximos unos a otros. Debido a que se tienen solo 2 clases y que
además los datos se encuentran muy cercanos entre ellos, se descarta a priori el
método de los K-vecinos.
La clasificación de los datos se realizará por dos métodos: Regresión logística

(RLOG) y Análisis discriminante lineal (LDA).
El método RLOG es un método paramétrico que funciona bien cuando las clases
están bien mezcladas, no así cuando están muy separadas ya que esto vuelve al
algoritmo muy inestable. Asimismo, aunque funciona bien con 2 clases como es este
caso, también puede utilizarse para varias clases.
Respecto al segundo método, el análisis discriminante lineal (LDA) funciona mejor si
los datos tienen distribución normal, y si la cantidad de datos es pequeña. Lo que
hace este algoritmo es maximizar la probabilidad de ocurrencia de cada clase para
clasificar, es decir, determina que la observación es clase i si dicha clase es la que
tiene mayor probabilidad a posteriori. Para que un modelo de LDA resulte bueno, las
clases se deberían poder limitar por contornos lineales.
Pág. 5 de 11
Ingeniería TP2
Se procede a realizar una partición de los datos, asignando el 70% de ellos de forma
aleatoria a un set de entrenamiento, y el resto para testeo. Es necesario validar los
métodos de clasificación, porque lo que funcione mejor con los datos de
entrenamiento, no necesariamente va a funcionar con los de testeo, u otros datos que
se utilicen en un futuro. Se tiene que analizar cómo se comporta frente a otros datos
que no sean los utilizados para entrenarlo. Para ello se realiza una matriz de
confusión, donde se compara la clase que fue asignada por el modelo a cada
observación del set de testeo contra la clase que efectivamente es según la base.
3. Método de Regresión Logística (RLOG)
En el método RLOG se procede a realizar el algoritmo, en primera

instancia se corrieron todas las variables predictores y su variable
respuesta. Para ello se utilizaron los datos de entrenamiento (70%) del
cual se obtuvieron los siguientes datos:
En la devolución del cálculo se determinaron las variables significativas

(*), para poder optimizar el algoritmo se eliminaron las variables que no
Pág. 6 de 11
Ingeniería TP2
lo son (S = “simetría” y GE11 “Ganancia en ambos extremos”). Quedando

de la siguiente manera:
Puede observarse una disminución en el AIC y una menor iteración.

Luego se estimaron las probabilidades de falla en función de las
variables predictores. Se obtuvieron diferentes valores de
probabilidades, pero éstos no fueron muy cercanos a cero lo cual indica
que el método es aceptable para los datos. Asimismo, se calculó la
matriz de confusión para los datos de testeo y el error cuadrático
medio.
Siendo el error cuadrático medio (ECM = 0.11) lo cual es aceptable.

Ahora bien, lo importante del método es definir un umbral el cual va a
impactar en los elementos de la matriz de confusión, estos elementos
son VP, VN, FP, FN.
Pág. 7 de 11
Ingeniería TP2
Por defecto se eligió un umbral optimo U=0.5 para predecir la falla y se

realizó el grafico de la curva de ROC. Teniéndose en cuenta que un
umbral muy bajo nos da un 100% de sensibilidad y uno muy alto
devuelve 100% de especificidad. El objetivo es obtener un umbral
optimo el cual veremos más adelante si es correcto con el cálculo de la
matriz de costos-beneficios
Curva de ROC (% medida de desempeño del algoritmo)
La curva calculada dio un área = 0.85 para un U = 0.5, una vez determinada la
curva, se bajó el umbral U= 0.30 el cual permitió calcular nuevamente la curva de
ROC obteniéndose un área = 0.864, mayor a la anterior.
En cuanto a la sensibilidad S = VP/P = 0.88 y exactitud EX = 0.88.
4. Análisis Discriminante Lineal (LDA)
Este método se eligió debido a que además de ser un algoritmo estable,

cumple la condición de tener una cantidad pequeña de datos. Es importante
considerar que las variables predictores deben tener una distribución normal.
Pág. 8 de 11
Ingeniería TP2
Puede verse que se calcularon las probabilidades para los dos tipos de
clases. Pr(FALLA)=0.58 T Pr(NO_FALLA)=0.41. Por su parte se tienen los
coeficientes y las medias para cada predictor.
También se obtuvo al igual que el método anterior la matriz de confusión:

Pág. 9 de 11
Ingeniería TP2
El ecm = 0.259 y la tasa de aciertos = 0.74. Puede verse que el ecm es

mucho mayor que el método de RLOG. Por su parte la sensibilidad es
también menor que RLOG, nos da una S = 0.636. Debido a esto se probará
un último método, el análisis discriminante cuadrático.
5. Análisis Discriminante Cuadrático (QDA)
El cálculo y análisis QDA es similar al método LDA. Puede verse que las
probabilidades de las clases incluso son iguales al método anterior.
Pero se tiene una mejor clasificación en la matriz de confusión.
En cuanto al ecm = 0.07, es el más bajo de todos los métodos vistos, y la exactitud
= 0.925, especificidad = 0.894 y sensibilidad S = 1 son realmente muy
prometedoras.
6. Cálculo del Costo Total Esperado
De los métodos expuestos, el mejor en cuanto a resultados es el QDA, salvo

por una métrica calculada, la sensibilidad. En éste método la sensibilidad fue
de un 100% lo cual no es buena para una clasificación.
Pág. 10 de 11
Ingeniería TP2
Es por ello que para el cálculo del costo total esperado se realizará con el
método RLOG, puesto que éste último resultó ser muy robusto en cuanto a
resultados y logró una muy buena clasificación con la matriz de confusión.
MATRIZ COSTO - BENEFICIO
VP  Predigo “FALLA” y en realidad “FALLA”

FP  Predigo “FALLA” y en realidad “NO FALLA”
VN  Predigo “NO FALLA” y en realidad “NO FALLA”
FN  Predigo “NO FALLA” y en realidad “FALLA”
REALIDAD
PREDIGO
FALLA (1) NO FALLA (0)
FALLA (1) VP = 100 FP = 0
NO FALLA (0) FN = 0 VN = -70
𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = 𝑷(𝑽𝑷)∗𝑪(𝑽𝑷) + 𝑷(𝑭𝑷)∗𝑪(𝑭𝑷) + 𝑷(𝑭𝑵)∗𝑪(𝑭𝑵) + 𝑷(𝑽𝑵)∗𝑪(𝑽𝑵)
Reemplazo los valores de la matriz de costo en la ecuación de costo esperado:
𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = 𝑷(𝑽𝑷)∗ (100)+ 𝑷(𝑭𝑷)∗(0) + 𝑷(𝑭𝑵)∗(0) + 𝑷(𝑽𝑵)∗(-70)
MATRIZ DE CONFUSIÓN
La matriz de confusión calculada por el algoritmo sigue el primer caso. Para poder
implementarla con el cálculo del costo total esperado se cambian las diagonales,
quedando la matriz de confusión como el segundo caso.
Pág. 11 de 11
Ingeniería TP2
Matriz de confusión - Caso 1 y 2
T 27 Proporción Costo P*C

VP 16 0,59 100 59,26
VN 8 0,30 -70 -20,74
FP 2 0,07 0 0,00
FN 1 0,04 0 0,00
Costo total esperado (CTE) 38,52
𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = (0.59) ∗ (100) + (0.07) ∗ (0) + (0.04) ∗ (0) + (0.30) ∗ (-70) = 38, 52

Informe TP2 Sarbach Clasificación

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Informe TP2 Sarbach Clasificación

Cargado por

Copyright:

Formatos disponibles

Aplicaciones de Ciencia de Datos para

Alumno: Fernando Sarbach Fecha: 28/10/2022

Aplicaciones de Ciencias de Datos en

Profesores: Kornblit, Fernando

Alumno: Sarbach, Fernando

Alumno: Fernando Sarbach Fecha: 28/10/2022

1. Enunciado: Ejercicio 6 – Caudalímetros Ultrasónicos f

La data set “meter_f” contiene 87 observaciones y 37 parámetros de diagnóstico para

Usando al menos 2 de los métodos vistos en la materia:

1) Establecer un criterio de clasificación, calcular la correspondiente matriz de

Alumno: Fernando Sarbach Fecha: 28/10/2022

2. Análisis general de clasificación

a. Identificación de variables significativas

## C1 - Relación de planitud (RP)

## Clase 1  Sin defectos = 0 (NO FALLA)

Alumno: Fernando Sarbach Fecha: 28/10/2022

b) Observación de comportamiento de clases:

La clasificación de los datos se realizará por dos métodos: Regresión logística

Alumno: Fernando Sarbach Fecha: 28/10/2022

3. Método de Regresión Logística (RLOG)

En el método RLOG se procede a realizar el algoritmo, en primera

En la devolución del cálculo se determinaron las variables significativas

Alumno: Fernando Sarbach Fecha: 28/10/2022

lo son (S = “simetría” y GE11 “Ganancia en ambos extremos”). Quedando

Puede observarse una disminución en el AIC y una menor iteración.

Siendo el error cuadrático medio (ECM = 0.11) lo cual es aceptable.

Alumno: Fernando Sarbach Fecha: 28/10/2022

Por defecto se eligió un umbral optimo U=0.5 para predecir la falla y se

Curva de ROC (% medida de desempeño del algoritmo)

4. Análisis Discriminante Lineal (LDA)

Este método se eligió debido a que además de ser un algoritmo estable,

Alumno: Fernando Sarbach Fecha: 28/10/2022

También se obtuvo al igual que el método anterior la matriz de confusión:

Alumno: Fernando Sarbach Fecha: 28/10/2022

El ecm = 0.259 y la tasa de aciertos = 0.74. Puede verse que el ecm es

5. Análisis Discriminante Cuadrático (QDA)

Pero se tiene una mejor clasificación en la matriz de confusión.

6. Cálculo del Costo Total Esperado

De los métodos expuestos, el mejor en cuanto a resultados es el QDA, salvo

Alumno: Fernando Sarbach Fecha: 28/10/2022

MATRIZ COSTO - BENEFICIO

VP  Predigo “FALLA” y en realidad “FALLA”

𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = 𝑷(𝑽𝑷)∗𝑪(𝑽𝑷) + 𝑷(𝑭𝑷)∗𝑪(𝑭𝑷) + 𝑷(𝑭𝑵)∗𝑪(𝑭𝑵) + 𝑷(𝑽𝑵)∗𝑪(𝑽𝑵)

Reemplazo los valores de la matriz de costo en la ecuación de costo esperado:

𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = 𝑷(𝑽𝑷)∗ (100)+ 𝑷(𝑭𝑷)∗(0) + 𝑷(𝑭𝑵)∗(0) + 𝑷(𝑽𝑵)∗(-70)

Alumno: Fernando Sarbach Fecha: 28/10/2022

Matriz de confusión - Caso 1 y 2

T 27 Proporción Costo P*C

También podría gustarte