Está en la página 1de 3

Echocardiogram, parcial final

María Camila Wagner Wagner


Estudiante de administración de empresas de la Escuela Colombiana de Ingeniería Julio Garavito,
Bogotá D.C., maria.wagner@mail.escuelaing.edu.co, 2119993

1. Introducción
Partiendo de que en el desarrollo del curso de minería de datos se analizó la metodología CRISP y se
aplicaron algunos métodos de clasificación, en el presente documento se compararán y evaluarán
diversos métodos de clasificación supervisada y no supervisada para el mismo dataset.

Anteriormente, se realizó el proyecto del curso de minería de datos con la base de datos echocardiogram,
para clasificación supervisada se evaluaron métodos en el proyecto como k-nearest neighbor (KNN),
artificial neural network (AN)N y logistic regression, mientras que para clasificación no supervisada se
analizó K-means. Por lo que, para el presente documento se evaluarán otros dos métodos: para
clasificación supervisada el método de SVM y para no supervisada el de agrupamiento jerárquico. Dicha
evaluación se hará con el fin de determinar cuál método de los desarrollados es el mejor.

2. Algoritmo
Support Vector Machines (SVM)
De acuerdo con Navlani (2019) SVM tiene como objetivo segregar el conjunto de datos dado de la mejor
manera posible, por medio de la selección de un hiperplano con el máximo margen posible entre los
vectores de soporte en el conjunto de datos dado. SVM busca el hiperplano marginal máximo:
i.Generando hiperplanos que segreguen las clases de la mejor manera. En la imagen se muestran 3
hiperplanos: negro, azul y naranja. El azul y el naranja tienen un error de clasificación alto, mientras que
el negro separa las dos clases correctamente, como se observa en la ilustación 1. ii. Se selecciona el
hiperplano con la máxima segregación de los puntos de datos más cercanos, como se muestra en la
siguiente ilustración 2.
Ilustración 1 SVM hiperplanos Ilustración 2 SVM correcta selección

Fuente: Tomado de Navlani (2009) Fuente: Tomado de Navlani (2009)

Agrupación en clúster jerárquico


El clustering jerárquico construye una jerarquía de clústeres para realizar el análisis. Para representar los
resultados de la jerarquía de grupos se usa el dendograma que muestra las jerarquías de acuerdo a las
distancias que existen entre lose elementos del conjunto de datos, las cuales se pueden representar en una
matriz de distancias.
Para el caso de este documento, se realizó clustering jerárquico divisivo, el cual se lleva a cabo con un
enfoque de arriba hacia abajo. Se parte con todos los elementos asignados a un solo cluster y se sigue el

1
algoritmo hasta que cada elemento sea un cluster individual, como se muestra en la ilustración 5. (Ávila,
2020)
Ilustración 3 Cluster jerárquico

Fuente: Tomado de (Ávila, 2020)

3. Resultados
Support Vector Machines
Se pudo observar que al entrenar el modelo, se generó una precisión del 92,5%. Esto se puede evidenciar
en la ilustración 6, donde al sumar la diagonal principal 26 (verdadero positivo) y 11 (verdadero negativo)
y dividirlo sonre el total de datos entrenados (26+11+1+2), da como resultado la eficacia del modelo.

Ilustración 4 SVM matriz de confusión

Fuente: Elaboración propia

Agrupación jerárquica
Luego de aplicar la función, se obtiene como resultado la ilustración 7, donde se logra evidenciar que el
grupo que contiene los puntos de color azul pertenecen a la clase 0 (está vivo) y los rojos a la clase 1 (no
está vivo).
Ilustración 5 Agrupación jerárquica Ilustración 6 k means

Fuente: Elaboración propia Fuente: Elaboración propia

2
Además, en la ilustración 6 se muestra la clasificación no supervisada del proyecto (kmeans) para poder
compararla con el desarrollado en el presente documento.

4. Comparación
Clasificación supervisada
Se realiza la comparación de la precisión y del error de los modelos de clasificación supervisada del
proyecto (KNN, ANN, regresión logística) y del presente documento (SVM). Por lo que, se busca
principalmente una alta precisión y un bajo error. Los resultados se presentan a continuación:

KNN ANN Reg logistica SVM


Precisión 87,5% 77,27% 90% 92,5%
Error 12,5% 22,72% 10% 7,5%

Se observa que el mejor modelo de clasificación supervisada para el data set echocardiogram es el
trabajado durante el presente documento, es decir, SVM. Ya que tiene una precisión del 92,5%, más alta
que los demás modelos y un error de 7,5%, que es más bajo que el de los demás modelos.

Clasificación no supervisada
Como se observa en la comparación de las gráficas de Kmeans (trabajada en el proyecto) y de agrupación
jerárquica, el mejor método de clasificación no supervisada es el de Kmeans, ya que los puntos no se
encuentran dispersos uno dentro del otro, mientras que para agrupación jerárquica si lo hacen.

5. Conclusiones
Como el presente documento es realizado con base en el proyecto trabajado en minería de datos, y como
se mencionó anteriormente el objetivo de éste es comparar los diferentes métodos de clasificación
supervisada y no supervisada y decidir que método el mejor. Por lo que, en el caso de clasificación
supervisada arrojó como resultado que el mejor método es el de SVM trabajado durante este documento
ya que tiene una mejor precisión y un menor error. Mientras que, para el caso de clasificación no
supervisada es mejor el trabajado en el proyecto ya que los puntos se clasifican de mejor manera al no
mezclar las dos clases.

6. Bibliografía
Navlani, A. (27 de Diciembre de 2019). Datacamp. Obtenido de Support Vector Machines with Scikit-
learn : https://www.datacamp.com/community/tutorials/svm-classification-scikit-learn-python
Ávila, J. (3 de Julio de 2020). JacobSoft. Obtenido de Clustering Jerárquico con Python :
https://www.jacobsoft.com.mx/es_mx/clustering-jerarquico-con-python/

También podría gustarte