Está en la página 1de 16

Universidad Autónoma de San Luis Potosí

Facultad de Ciencias

Examen 2

Elaborado por:
Osvaldo Jair Bernal Almazán
Clave: 294692

Curso:
Aprendizaje y Clasificación

Impartido por:
Dr. Miguel Ghebre Ramírez Elías

San Luis Potosí, SLP, 20 de noviembre del 2022


Introducción:
Principal Component Analysis (PCA) es un método estadístico que permite
simplificar la complejidad de espacios muestrales con muchas dimensiones a
la vez que conserva su información. Supóngase que existe una muestra
con nn individuos cada uno con pp variables (X1X1, X2X2, …, XpXp), es
decir, el espacio muestral tiene pp dimensiones. PCA permite encontrar un
número de factores subyacentes (z<p)(z<p) que explican aproximadamente lo
mismo que las pp variables originales. Donde antes se necesitaban pp valores
para caracterizar a cada individuo, ahora bastan zz valores. Cada una de
estas zz nuevas variables reciben el nombre de componente principal.
El método de PCA permite por lo tanto “condensar” la información aportada
por múltiples variables en solo unas pocas componentes. Esto lo convierte en
un método muy útil de aplicar previa utilización de otras técnicas estadísticas
tales como regresión, clustering… Aun así no hay que olvidar que sigue
siendo necesario disponer del valor de las variables originales para calcular las
componentes. [1]
K-means
La agrupación en clústeres de K-means es uno de los algoritmos de
aprendizaje automático no supervisado más simples y populares. Por lo
general, los algoritmos no supervisados hacen inferencias a partir de conjuntos
de datos utilizando solo vectores de entrada sin referirse a resultados
conocidos o etiquetados. Un grupo se refiere a una colección de puntos de
datos agregados debido a ciertas similitudes. Definirá un número objetivo k,
que se refiere a la cantidad de centroides que necesita en el conjunto de datos.
Un centroide es la ubicación imaginaria o real que representa el centro del
grupo. Cada punto de datos se asigna a cada uno de los grupos mediante la
reducción de la suma de cuadrados dentro del grupo.
En otras palabras, el algoritmo de K-medias identifica k número de centroides
y luego asigna cada punto de datos al grupo más cercano, mientras mantiene
los centroides lo más pequeños posible. Los "medios" en K-means se refieren
al promedio de los datos; es decir, encontrar el centroide.
Cómo funciona el algoritmo K-means:
Para procesar los datos de aprendizaje, el algoritmo K-means en minería de
datos comienza con un primer grupo de centroides seleccionados al azar, que
se utilizan como puntos de inicio para cada grupo, y luego realiza cálculos
iterativos (repetitivos) para optimizar las posiciones de los centroides.
Detiene la creación y optimización de clústeres cuando:
Los centroides se han estabilizado: no hay cambios en sus valores porque la
agrupación se ha realizado correctamente o se ha alcanzado el número
definido de iteraciones. [2]

Agrupación jerárquica
HCA es una estrategia que busca construir una jerarquía de clústeres que tenga
un orden establecido de arriba a abajo. K-means no entraría en esta categoría
ya que no genera clústeres en una jerarquía, así que tengamos una idea de lo
que queremos obtener al ejecutar uno de estos algoritmos. Una "jerarquía de
grupos" generalmente se representa mediante un dendrograma. [3]

Base de datos:
Para el desarrollo de este proyecto se uso la base de datos “iris”, el dataset se
compone de 150 observaciones de flores de la planta iris. Existen tres tipos de
clases de flores iris: virginica, setosa y versicolor. Hay 50 observaciones de
cada una. Las variables o atributos que se miden de cada flor son: 1 el tipo de
flor como variable categórica, 2 el largo y el ancho del pétalo en cm como
variables numérica y 3 el largo y el ancho del sépalo en cm como variables
numéricas.
Metodología:
PCA
Para el método de análisis de los componentes principales o PCA se inicializa
con las diversas librerías que se usaran a lo largo del código.

Después se selecciona el dataset que se va a usar y se imprime en una tabla.

A continuación, se realizan las graficas necesarias para poder observar el


comportamiento del dataset, graficas que se pueden ver en la fig. 1 en la
sección de resultados

Ya una vez mostrados los datos del dataset, se inicia el proceso de PCA con
las siguientes funciones.
Después se hace un resumen de los datos obtenidos en la parte del código
anterior.

Mediante la formula de loadings es posible visualizar la correlación entre las


variables y los componentes principales.

En esta línea de código se pueden observar los principales componentes para


completar correctamente el análisis. Además se grafican los valores del
dataset, fig 2 y fig 3.

Después se comparan los eigenvalores y la variación de los mismos datos, se


puede observar en la fig. 4
Otra gráfica, pero esta vez comparando los valores genuinos y las etiquetas
falsas, fig. 5

Por ultimo se prepararon nuevos datos, para comprobar la fidelidad del


modelo, y se usó la función predict para obtener el resultado.

Con este resultado para cada PC.

Procedimiento para el K-means


Instalación de librerías y inicialización de la librería que se planea usar

Se realiza una escalación de valores, se quita la media y se divide entre la


desviación estándar, después se grafica para observar mejor los valores. Fig. 6
Se realiza la inicialización de la tarea y el aprendizaje, y se procede a elegir
los mejores parámetros, respetando que no se hagan sobreajustes o subajustes.

Después se comparan los 3 métodos elegidos por medio de graficas que se


pueden observar en la Fig. 7

Se entrena completamente el modelo y se grafica, fig. 8


HCA
Se ponen las librerías, la base de datos y se ponen en una tabla

Se separan las variables de acuerdo a su distancia por medio de una función de


aglomeramiento y se grafican usando el primer dendograma, fig. 9

Se encuentran los coeficientes aglomerativos


Se encuentran el resto de los dendogramas para corroborar los coeficientes
aglomerativos y el closter, y por ultimo se grafican los nuevos valores.

Dando como resultado dendograma de agnes, de diana, el dendograma de


cluster y el Plot de cluster. Fig 10, 11 y 12.
Resultados:

Fig.1 Representación de toda la información del dataset iris, donde se pueden ver los 3 diferentes
tipos de especie de plantas que se encuentran, las correlaciones y sus distribuciones.

Fig.2 Gráfica tipo biplot, en el que se puede observar las diferentes columnas del dataset iris
mediante un diagrama de dispersión de dos dimensiones.
Fig, 3 Se pone una forma diferente de la dispersión de los datos parecida a la anterior pero sin los
datos separados, únicamente mostrándonos las dispersiones mas importantes.

Fig, 4 Graficos de barra comparando los eigenvalores y la variación de los datos.


Fig. 5 En donde se pretenden separar los valores genuinos y las etiquetas falsas de cada grupo de
valores.

Fig. 6
Fig. 7

Fig. 8
Fig. 9 Primer dendograma de la HCA

Fig. 10 dendograma de agnes


Fig 11. Dendograma de diana

Fig. 12 grafica del cluster.


Conclusiones
En la realización de este trabajo se pudo apreciar la diferencia de los diversos
métodos de análisis no supervisados, para una predicción correcta y cercana a
valores de 1, es decir, casi idéntica a los valores propuestos, el uso de un
análisis de componentes principales resulto ser el mejor de los 3. Para un uso
de representaciones graficas y donde se puedan observar la dispersión de los
datos que nos da una database el uso de HCA fue el mejor. Y para el uso de
una database desordenada y con una gran cantidad de valores el mejor fue el
K-means ya que separa ordenadamente cada valor y demuestra que en el caso
del mejor entrenamiento de separación fue McQueen.

Referencias:
[1] Rodrigo, J. A. (2017, junio). Análisis de Componentes Principales (Principal

Component Analysis, PCA) y t-SNE. ciencia de datos.

https://www.cienciadedatos.net/documentos/35_principal_component_analysis

[2] Education Ecosystem. (2018, 12 septiembre). Understanding K-means Clustering in

Machine Learning. towardsdatascience.

https://towardsdatascience.com/understanding-k-means-clustering-in-machine-

learning-6a6e67336aa1

[3] Dunning, C. (2021, 14 diciembre). An Overview of Hierarchical Cluster Analysis

(HCA) - Data Science Student Society @ UC San Diego. Medium.

https://medium.com/ds3ucsd/an-overview-of-hierarchical-cluster-analysis-hca-

84f37f99bc7c

También podría gustarte