Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Ciencias
Examen 2
Elaborado por:
Osvaldo Jair Bernal Almazán
Clave: 294692
Curso:
Aprendizaje y Clasificación
Impartido por:
Dr. Miguel Ghebre Ramírez Elías
Agrupación jerárquica
HCA es una estrategia que busca construir una jerarquía de clústeres que tenga
un orden establecido de arriba a abajo. K-means no entraría en esta categoría
ya que no genera clústeres en una jerarquía, así que tengamos una idea de lo
que queremos obtener al ejecutar uno de estos algoritmos. Una "jerarquía de
grupos" generalmente se representa mediante un dendrograma. [3]
Base de datos:
Para el desarrollo de este proyecto se uso la base de datos “iris”, el dataset se
compone de 150 observaciones de flores de la planta iris. Existen tres tipos de
clases de flores iris: virginica, setosa y versicolor. Hay 50 observaciones de
cada una. Las variables o atributos que se miden de cada flor son: 1 el tipo de
flor como variable categórica, 2 el largo y el ancho del pétalo en cm como
variables numérica y 3 el largo y el ancho del sépalo en cm como variables
numéricas.
Metodología:
PCA
Para el método de análisis de los componentes principales o PCA se inicializa
con las diversas librerías que se usaran a lo largo del código.
Ya una vez mostrados los datos del dataset, se inicia el proceso de PCA con
las siguientes funciones.
Después se hace un resumen de los datos obtenidos en la parte del código
anterior.
Fig.1 Representación de toda la información del dataset iris, donde se pueden ver los 3 diferentes
tipos de especie de plantas que se encuentran, las correlaciones y sus distribuciones.
Fig.2 Gráfica tipo biplot, en el que se puede observar las diferentes columnas del dataset iris
mediante un diagrama de dispersión de dos dimensiones.
Fig, 3 Se pone una forma diferente de la dispersión de los datos parecida a la anterior pero sin los
datos separados, únicamente mostrándonos las dispersiones mas importantes.
Fig. 6
Fig. 7
Fig. 8
Fig. 9 Primer dendograma de la HCA
Referencias:
[1] Rodrigo, J. A. (2017, junio). Análisis de Componentes Principales (Principal
https://www.cienciadedatos.net/documentos/35_principal_component_analysis
https://towardsdatascience.com/understanding-k-means-clustering-in-machine-
learning-6a6e67336aa1
https://medium.com/ds3ucsd/an-overview-of-hierarchical-cluster-analysis-hca-
84f37f99bc7c