Documentos de Académico
Documentos de Profesional
Documentos de Cultura
WagnerMaria Parcialfinal PDF
WagnerMaria Parcialfinal PDF
1. Introducción
Partiendo de que en el desarrollo del curso de minería de datos se analizó la metodología CRISP y se
aplicaron algunos métodos de clasificación, en el presente documento se compararán y evaluarán
diversos métodos de clasificación supervisada y no supervisada para el mismo dataset.
Anteriormente, se realizó el proyecto del curso de minería de datos con la base de datos echocardiogram,
para clasificación supervisada se evaluaron métodos en el proyecto como k-nearest neighbor (KNN),
artificial neural network (AN)N y logistic regression, mientras que para clasificación no supervisada se
analizó K-means. Por lo que, para el presente documento se evaluarán otros dos métodos: para
clasificación supervisada el método de SVM y para no supervisada el de agrupamiento jerárquico. Dicha
evaluación se hará con el fin de determinar cuál método de los desarrollados es el mejor.
2. Algoritmo
Support Vector Machines (SVM)
De acuerdo con Navlani (2019) SVM tiene como objetivo segregar el conjunto de datos dado de la mejor
manera posible, por medio de la selección de un hiperplano con el máximo margen posible entre los
vectores de soporte en el conjunto de datos dado. SVM busca el hiperplano marginal máximo:
i.Generando hiperplanos que segreguen las clases de la mejor manera. En la imagen se muestran 3
hiperplanos: negro, azul y naranja. El azul y el naranja tienen un error de clasificación alto, mientras que
el negro separa las dos clases correctamente, como se observa en la ilustación 1. ii. Se selecciona el
hiperplano con la máxima segregación de los puntos de datos más cercanos, como se muestra en la
siguiente ilustración 2.
Ilustración 1 SVM hiperplanos Ilustración 2 SVM correcta selección
1
algoritmo hasta que cada elemento sea un cluster individual, como se muestra en la ilustración 5. (Ávila,
2020)
Ilustración 3 Cluster jerárquico
3. Resultados
Support Vector Machines
Se pudo observar que al entrenar el modelo, se generó una precisión del 92,5%. Esto se puede evidenciar
en la ilustración 6, donde al sumar la diagonal principal 26 (verdadero positivo) y 11 (verdadero negativo)
y dividirlo sonre el total de datos entrenados (26+11+1+2), da como resultado la eficacia del modelo.
Agrupación jerárquica
Luego de aplicar la función, se obtiene como resultado la ilustración 7, donde se logra evidenciar que el
grupo que contiene los puntos de color azul pertenecen a la clase 0 (está vivo) y los rojos a la clase 1 (no
está vivo).
Ilustración 5 Agrupación jerárquica Ilustración 6 k means
2
Además, en la ilustración 6 se muestra la clasificación no supervisada del proyecto (kmeans) para poder
compararla con el desarrollado en el presente documento.
4. Comparación
Clasificación supervisada
Se realiza la comparación de la precisión y del error de los modelos de clasificación supervisada del
proyecto (KNN, ANN, regresión logística) y del presente documento (SVM). Por lo que, se busca
principalmente una alta precisión y un bajo error. Los resultados se presentan a continuación:
Se observa que el mejor modelo de clasificación supervisada para el data set echocardiogram es el
trabajado durante el presente documento, es decir, SVM. Ya que tiene una precisión del 92,5%, más alta
que los demás modelos y un error de 7,5%, que es más bajo que el de los demás modelos.
Clasificación no supervisada
Como se observa en la comparación de las gráficas de Kmeans (trabajada en el proyecto) y de agrupación
jerárquica, el mejor método de clasificación no supervisada es el de Kmeans, ya que los puntos no se
encuentran dispersos uno dentro del otro, mientras que para agrupación jerárquica si lo hacen.
5. Conclusiones
Como el presente documento es realizado con base en el proyecto trabajado en minería de datos, y como
se mencionó anteriormente el objetivo de éste es comparar los diferentes métodos de clasificación
supervisada y no supervisada y decidir que método el mejor. Por lo que, en el caso de clasificación
supervisada arrojó como resultado que el mejor método es el de SVM trabajado durante este documento
ya que tiene una mejor precisión y un menor error. Mientras que, para el caso de clasificación no
supervisada es mejor el trabajado en el proyecto ya que los puntos se clasifican de mejor manera al no
mezclar las dos clases.
6. Bibliografía
Navlani, A. (27 de Diciembre de 2019). Datacamp. Obtenido de Support Vector Machines with Scikit-
learn : https://www.datacamp.com/community/tutorials/svm-classification-scikit-learn-python
Ávila, J. (3 de Julio de 2020). JacobSoft. Obtenido de Clustering Jerárquico con Python :
https://www.jacobsoft.com.mx/es_mx/clustering-jerarquico-con-python/