Está en la página 1de 1

A partir de los datos de entrenamiento, es decir, específicamente los diferentes grupos de

atributos generados según su método de ranqueo y estableciendo determinados parámenos


como la distancia, el número de k vecinos y número de modelos para la validación cruzada k-
fold se realizó el entrenamiento del algoritmo KNN. El algoritmo una vez entrenado, generó 10
diferentes modelos computacionales entrenados.

El siguiente paso consiste en que estos modelos generados clasifiquen los datos de
entrenamiento. Al momento de realizar la clasificación de datos con los modelos, se obtuvo
una matriz de etiquetas correspondientes (este caso las etiquetas son desde P1 hasta P9
puesto que son los niveles de severidad de diente roto) a los datos de entrenamiento
clasificados por el modelo y también se generó una matriz de la probabilidad posterior al
clasificar. La probabilidad posterior hacer referencia a la probabilidad que tiene una señal de
ser clasificada con determinada etiqueta.

Para la generación de la matriz de confusión, en un principio se consideró contar cada 90


etiquetas su cantidad clasificada ya sea en P1 o cualquier etiqueta hasta P9 porque en el
tratamiento de datos se había obtenido que 90 subseñales pertenecen a una señal original. El
método se basaba en que la señal con mayor número de subseñales etiquetadas desde P1
hasta P9 determinada la etiqueta de la señal completa. El principal problema de realizar el
conteo de etiquetas correspondiente a las ventanas o subseñales es que existía empate en
determinados modelos, entonces para evitar el empate se optó por la suma de la probabilidad
posterior.

Con el fin de explicar el proceso detalladamente, se debe mencionar que cada subseñal tiene
determina probabilidad de ser etiquetada en cualquier nivel de severidad de fallo (P1-P9). La
mayor probabilidad obtenida en cierta etiqueta determina su clasificación y para esto, se suma
el total de la probabilidad de 90 de subseñales de ser clasificada. En otras palabras, la
probabilidad máxima era 90 y la mínima era de 0, esto se debe a que en Matlab la probabilidad
para cada subseñal tenía el rango de 0 a 1. Al determinar cada 90 veces cuál de las etiquetas
era la más probable, se llegaba a clasificar a una señal original con su correspondiente
etiqueta. De esto modo, la matriz de confusión que se obtuvo es de 9x9 con el valor máximo
de etiquetas correctamente clasificadas de 24 para el caso de los datos de entrenamiento y de
6 para los datos entrenamiento. Este proceso se realizó con todos los datos para poder
comparar su compartimento y rendimiento general.

Con las matrices de confusión generadas se realiza el cálculo de precisión, exactitud, recall y
Score F1 para determinar si los resultados los deseados, pero sobre todo los adecuaos para
una clasificación optima. En caso de no cumplir con lo requerido se tomó la decisión de
cambiar lo parámetros y en caso de tener buenos resultados fue posible determinar los
mejores parámetros y grupos de atributos. Finalmente, se generación graficas de los mejores
resultados obtenidos por grupos atributos y parámetros.

También podría gustarte