Está en la página 1de 6

UNIVERSIDAD NACIONAL DE SAN AGUSTÍN

ASIGNATURA: INTELIGENCIA DE
NEGOCIOS

PRÁCTICA
LABORATORIO N°5
- Alumno : Salas Flores Alexanderd Jose
OBJETIVO

• La presente práctica de laboratorio tiene como objetivo el que el alumno lleve a


cabo el análisis del modelo clustering usando herramientas como Python y sus
librerías gráficas.

TEMA

• Clustering
MARCO TEÓRICO

• El Clustering es una tarea que consiste en agrupar un conjunto de objetos (no


etiquetados) en subconjuntos de objetos llamados Clusters. Cada Cluster está
formado por una colección de objetos que son similares (o se consideran similares)
entre sí, pero que son distintos respecto a los objetos de otros Clusters.
• Python es un lenguaje de programación interpretado cuya filosofía hace hincapié en
una sintaxis que
favorezca un código legible. Se trata de un lenguaje de programación multiparadigma,
ya que soporta orientación a objetos, programación imperativa y, en menor medida,
programación funcional.

1- Descargar la base de datos .csv


2- Realizaremos el clustering jerárquico mediante el siguiente código:

- Primero realizamos la configuración de la semilla es decir los datos se calcularán desde 1991
- Además cargamos la data de iris.csv y especificamos los campos que cargaremos

- Calculamos las distancias de manhattan y euclidia

- La función linkage y ward juntan y crean un cluster jerárquico único


- ward une todos los grupos
- Dendogram permite visualizar el dendograma
- La función aglomerative clustering le damos el número de cluster y enlace es el ward
- Añadimos a nuestra BD una nueva columna llamada label_h que son los cluster encontrados hasta
ahora

3- Clustering No Jerarquico (K-Means)


- Método para hallar el número “K” de grupos
- Aplicamos clustering mediante Kmeans
- Aqui obtenemos los grupos dandoles el numero de clusters

- Podemos imprimir los modelos obtenidos

- Podemos ver los gráficos juntos

- Ahora para corroborar los datos se aplican métodos de cruzado de contingencia y métodos estadísticos
como chi cuadrado
Cruzado de contingencia y Chi cuadrado

Error es 3.15 que es muy bajo esto quiere decir existe asociación entre la distribución inicial del
dataset y los grupos de K Means.

GRACIAS

También podría gustarte