Está en la página 1de 11

Aplicaciones de Ciencia de Datos para

Pág. 1 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

Aplicaciones de Ciencias de Datos en


Ingeniería

TP N°2: CLASIFICACIÓN

Profesores: Kornblit, Fernando


Delbon, Marisa

Alumno: Sarbach, Fernando

Contenido

1. Enunciado
2. Análisis general de clasificación
3. Método de Regresión Logística (RLOG)
4. Análisis Discriminante Lineal (LDA)
5. Análisis Discriminante Cuadrático (QDA)
6. Cálculo del Costo Total Esperado
Aplicaciones de Ciencia de Datos para
Pág. 2 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

1. Enunciado: Ejercicio 6 – Caudalímetros Ultrasónicos f

La data set “meter_f” contiene 87 observaciones y 37 parámetros de diagnóstico para


un medidor de flujo ultrasónico líquido (USM) de 8 vías. Utilizando como variables
predictoras las columnas (1,2,11,16,20,31,37), queremos separar y clasificar los
medidores sin defectos (clase 1) y los que poseen algún tipo de defecto (clase 2).

Usando al menos 2 de los métodos vistos en la materia:

1) Establecer un criterio de clasificación, calcular la correspondiente matriz de


confusión, ecm, sensibilidad y especificidad obtenidas para cada método.
2) Usando la matriz de costo, como criterio, seleccionar el mejor método para este
problema.

Variables predictoras:
1- Relación de planitud
2- Simetría
3- Flujo cruzado
4 a 11 - Velocidad de flujo en cada uno de los ocho caminos
12 a 19 - Velocidad del sonido en cada uno de los ocho caminos
20 - Velocidad promedio del sonido en los ocho caminos
21 a 36 - Ganancia en ambos extremos de cada uno de los ocho caminos

Variable de respuesta:
37- Estado del medidor:
Clase 1: Sin defectos
Clase 2: Defectos de instalación

Matriz de Costo-ganancia:

NOTA 1: para facilitar el análisis, codificar la variable de clasificación como 0 sin defectos, 1
defectos.
Aplicaciones de Ciencia de Datos para
Pág. 3 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

2. Análisis general de clasificación

a. Identificación de variables significativas

El script contiene el archivo meter_f.csv el cual presentaba los datos separados por
comas. Para poder realizar el programa, se modificó el archivo original, el cual tiene
un total de 36 variables predictores y una variable respuesta llamada “clase”. Debido
a que el algoritmo requería una variable respuesta discreta, se agregó una variable
llamada “falla” que oscila entre 0 y 1. Con éstas modificaciones el archivo original
quedó en el formato meter_fx.xlsx.

# Identificación de variables

Variables predictores:

## C1 - Relación de planitud (RP)


## C2 - Simetría (S)
## C3 - Velocidad de flujo en cada uno de los ocho caminos (VF8)
## C4 - Velocidad del sonido en cada uno de los ocho caminos (VS5)
## C5 - Velocidad promedio del sonido en los ocho caminos (VP)
## C6 - Ganancia en ambos extremos de cada uno de los ocho caminos (GE11)

Variable de respuesta:

## C7 - Estado del medidor según la clase (clase) # No utilizo la variable clase. Solo
voy a usar la variable falla
## C8 - NO FALLA = 0, FALLA = 1

Número de clases:

## Clase 1  Sin defectos = 0 (NO FALLA)


## Clase 2  Defectos de instalación = 1 (FALLA)
Aplicaciones de Ciencia de Datos para
Pág. 4 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

b) Observación de comportamiento de clases:

Se procede a analizar si las clases están bien separadas comparando las distintas
variables y su correlación. Se observa que los datos en la mayoría de los casos se
encuentran muy próximos unos a otros. Debido a que se tienen solo 2 clases y que
además los datos se encuentran muy cercanos entre ellos, se descarta a priori el
método de los K-vecinos.

La clasificación de los datos se realizará por dos métodos: Regresión logística


(RLOG) y Análisis discriminante lineal (LDA).
El método RLOG es un método paramétrico que funciona bien cuando las clases
están bien mezcladas, no así cuando están muy separadas ya que esto vuelve al
algoritmo muy inestable. Asimismo, aunque funciona bien con 2 clases como es este
caso, también puede utilizarse para varias clases.
Respecto al segundo método, el análisis discriminante lineal (LDA) funciona mejor si
los datos tienen distribución normal, y si la cantidad de datos es pequeña. Lo que
hace este algoritmo es maximizar la probabilidad de ocurrencia de cada clase para
clasificar, es decir, determina que la observación es clase i si dicha clase es la que
tiene mayor probabilidad a posteriori. Para que un modelo de LDA resulte bueno, las
clases se deberían poder limitar por contornos lineales.
Aplicaciones de Ciencia de Datos para
Pág. 5 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

Se procede a realizar una partición de los datos, asignando el 70% de ellos de forma
aleatoria a un set de entrenamiento, y el resto para testeo. Es necesario validar los
métodos de clasificación, porque lo que funcione mejor con los datos de
entrenamiento, no necesariamente va a funcionar con los de testeo, u otros datos que
se utilicen en un futuro. Se tiene que analizar cómo se comporta frente a otros datos
que no sean los utilizados para entrenarlo. Para ello se realiza una matriz de
confusión, donde se compara la clase que fue asignada por el modelo a cada
observación del set de testeo contra la clase que efectivamente es según la base.

3. Método de Regresión Logística (RLOG)

En el método RLOG se procede a realizar el algoritmo, en primera


instancia se corrieron todas las variables predictores y su variable
respuesta. Para ello se utilizaron los datos de entrenamiento (70%) del
cual se obtuvieron los siguientes datos:

En la devolución del cálculo se determinaron las variables significativas


(*), para poder optimizar el algoritmo se eliminaron las variables que no
Aplicaciones de Ciencia de Datos para
Pág. 6 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

lo son (S = “simetría” y GE11 “Ganancia en ambos extremos”). Quedando


de la siguiente manera:

Puede observarse una disminución en el AIC y una menor iteración.


Luego se estimaron las probabilidades de falla en función de las
variables predictores. Se obtuvieron diferentes valores de
probabilidades, pero éstos no fueron muy cercanos a cero lo cual indica
que el método es aceptable para los datos. Asimismo, se calculó la
matriz de confusión para los datos de testeo y el error cuadrático
medio.

Siendo el error cuadrático medio (ECM = 0.11) lo cual es aceptable.


Ahora bien, lo importante del método es definir un umbral el cual va a
impactar en los elementos de la matriz de confusión, estos elementos
son VP, VN, FP, FN.
Aplicaciones de Ciencia de Datos para
Pág. 7 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

Por defecto se eligió un umbral optimo U=0.5 para predecir la falla y se


realizó el grafico de la curva de ROC. Teniéndose en cuenta que un
umbral muy bajo nos da un 100% de sensibilidad y uno muy alto
devuelve 100% de especificidad. El objetivo es obtener un umbral
optimo el cual veremos más adelante si es correcto con el cálculo de la
matriz de costos-beneficios

Curva de ROC (% medida de desempeño del algoritmo)

La curva calculada dio un área = 0.85 para un U = 0.5, una vez determinada la
curva, se bajó el umbral U= 0.30 el cual permitió calcular nuevamente la curva de
ROC obteniéndose un área = 0.864, mayor a la anterior.
En cuanto a la sensibilidad S = VP/P = 0.88 y exactitud EX = 0.88.

4. Análisis Discriminante Lineal (LDA)

Este método se eligió debido a que además de ser un algoritmo estable,


cumple la condición de tener una cantidad pequeña de datos. Es importante
considerar que las variables predictores deben tener una distribución normal.
Aplicaciones de Ciencia de Datos para
Pág. 8 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

Puede verse que se calcularon las probabilidades para los dos tipos de
clases. Pr(FALLA)=0.58 T Pr(NO_FALLA)=0.41. Por su parte se tienen los
coeficientes y las medias para cada predictor.

También se obtuvo al igual que el método anterior la matriz de confusión:


Aplicaciones de Ciencia de Datos para
Pág. 9 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

El ecm = 0.259 y la tasa de aciertos = 0.74. Puede verse que el ecm es


mucho mayor que el método de RLOG. Por su parte la sensibilidad es
también menor que RLOG, nos da una S = 0.636. Debido a esto se probará
un último método, el análisis discriminante cuadrático.

5. Análisis Discriminante Cuadrático (QDA)

El cálculo y análisis QDA es similar al método LDA. Puede verse que las
probabilidades de las clases incluso son iguales al método anterior.

Pero se tiene una mejor clasificación en la matriz de confusión.

En cuanto al ecm = 0.07, es el más bajo de todos los métodos vistos, y la exactitud
= 0.925, especificidad = 0.894 y sensibilidad S = 1 son realmente muy
prometedoras.

6. Cálculo del Costo Total Esperado

De los métodos expuestos, el mejor en cuanto a resultados es el QDA, salvo


por una métrica calculada, la sensibilidad. En éste método la sensibilidad fue
de un 100% lo cual no es buena para una clasificación.
Aplicaciones de Ciencia de Datos para
Pág. 10 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

Es por ello que para el cálculo del costo total esperado se realizará con el
método RLOG, puesto que éste último resultó ser muy robusto en cuanto a
resultados y logró una muy buena clasificación con la matriz de confusión.

MATRIZ COSTO - BENEFICIO

VP  Predigo “FALLA” y en realidad “FALLA”


FP  Predigo “FALLA” y en realidad “NO FALLA”
VN  Predigo “NO FALLA” y en realidad “NO FALLA”
FN  Predigo “NO FALLA” y en realidad “FALLA”

REALIDAD
PREDIGO
FALLA (1) NO FALLA (0)
FALLA (1) VP = 100 FP = 0
NO FALLA (0) FN = 0 VN = -70

𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = 𝑷(𝑽𝑷)∗𝑪(𝑽𝑷) + 𝑷(𝑭𝑷)∗𝑪(𝑭𝑷) + 𝑷(𝑭𝑵)∗𝑪(𝑭𝑵) + 𝑷(𝑽𝑵)∗𝑪(𝑽𝑵)

Reemplazo los valores de la matriz de costo en la ecuación de costo esperado:

𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = 𝑷(𝑽𝑷)∗ (100)+ 𝑷(𝑭𝑷)∗(0) + 𝑷(𝑭𝑵)∗(0) + 𝑷(𝑽𝑵)∗(-70)

MATRIZ DE CONFUSIÓN

La matriz de confusión calculada por el algoritmo sigue el primer caso. Para poder
implementarla con el cálculo del costo total esperado se cambian las diagonales,
quedando la matriz de confusión como el segundo caso.
Aplicaciones de Ciencia de Datos para
Pág. 11 de 11
Ingeniería TP2

Alumno: Fernando Sarbach Fecha: 28/10/2022

Matriz de confusión - Caso 1 y 2

T 27 Proporción Costo P*C


VP 16 0,59 100 59,26
VN 8 0,30 -70 -20,74
FP 2 0,07 0 0,00
FN 1 0,04 0 0,00
Costo total esperado (CTE) 38,52

𝑪𝒐𝒔𝒕𝒐 𝑬𝒔𝒑𝒆𝒓𝒂𝒅𝒐 = (0.59) ∗ (100) + (0.07) ∗ (0) + (0.04) ∗ (0) + (0.30) ∗ (-70) = 38, 52

También podría gustarte