Está en la página 1de 3

Taller 10%, Unidad 2 – Analítica Predictiva

Este taller se desarrollará en grupos de cuatro (4) personas, y la fecha límite es el 18 de abril de 2023.
Debe desarrollar la solución en R Studio, informando sus resultados en un reporte.

1. Planteamiento del Problema

El Tennessee Eastman Process (TEP) fue creado por Eastman Chemical Company con el fin de proveer un
proceso industrial realista para la evaluación de métodos de control y monitoreo de procesos. Este
proceso está basado en la simulación de un proceso químico real, en el cual los componentes, cinéticas y
las condiciones de operación han sido modificados por razones de propiedad intelectual. La Figura 1
muestra un diagrama de proceso del TEP.

Figura 1 - Diagrama de proceso del TEP.

El proceso tiene cuatro unidades operacionales: un reactor exotérmico de dos fases, un separador flash,
un extractor con re-hervidor y un compresor de recirculación. El proceso es alimentado por los reactantes
gaseosos A, C, D y E y el inerte B, mientras que se forman los productos líquidos G y H. Hay dos tipos de
variables, las de entrada (XMV) y las de salida (XMEAS), las cuales son descritas respectivamente en las
Tablas 1 y 2. Adicionalmente, hay una variable binaria, faultNumber, que indica si el comportamiento del
proceso es normal (faultNumber = 0) o si hay una falla en el proceso (faultNumber=1).
Tabla 1 - Variables de entrada.

Tabla 2 - Variables de salida.


2. Requisitos de la Asignación

El dataset “TEP_Data_Sample.csv” contiene una muestra de las variables operativas del Tennessee
Eastman Process (TEP). Deben cargar este dataset usando R Studio utilizando el comando:

Data = read.csv("TEP_Data_Sample.csv", header = TRUE)

Deben construir un modelo de clustering con el algoritmo k-means utilizando todas las variables de
entrada (XMV) y de salida (XMEAS). La variable binaria faultNumber NO se debe usar para el
entrenamiento del modelo. Nombren al modelo como “model”. Utilicen el siguiente comando para
visualizar los clusters:

plot(Data[,c("xmeas_2", "xmeas_3")], col = model$cluster,

main = "K-means, k=2")

points(model$centers[, c("xmeas_2", "xmeas_3")],

col = 1:2, pch = 8, cex = 2)

Se presume que los datos parecidos entre sí serán agrupados mutuamente. Por esto, deberán estimar el
porcentaje de coincidencia entre los clusters obtenidos y la variable binaria faultNumber, la cual nos dice
si se trata de una condición normal de operación o una falla de proceso. Para esto, el siguiente comando
puede ser de ayuda:

Data$cluster = model$cluster

Match = 100*sum(Data$faultNumber==0 & Data$cluster== 2)/sum(Data$faultNumber==0)

Dado que la suposición inicial de los centroides de los clusters ocurre aleatoriamente, repitan el
procedimiento varias veces (al menos 4) y promedien los resultados para tener en cuenta la
reproducibilidad de los resultados informados. Escriban un informe detallado paso a paso explicando lo
que han hecho y analizando los resultados que han obtenido.

También podría gustarte