Práctica de Laboratorio #11 KDD - Algoritmos de Clustering

ALAS PERUANAS ESCUELA DE INGENIERÍA DE SISTEMAS E INFORMATICA
PRÁCTICA DE LABORATORIO N° 11
KDD – ALGORITMOS DE CLUSTERING
1. TEMA:
Un KDD es el Descubrimiento de Conocimiento en Bases de Datos o KDD se
refiere al proceso de identificar patrones válidos, novedosos, potencialmente
útiles y principalmente entendibles.
2. OBJETIVOS:
Knowledge Discovery implica la evaluación e interpretación de patrones y
modelos para tomar decisiones con respecto a lo que constituye conocimiento y
lo que no lo es. Por lo tanto, el KDD requiere de un amplio y profundo
conocimiento sobre tu área de estudio.
Por otra parte, la Minería de Datos, exploración de datos o Data Mining, no

requiere tanto conocimiento sobre el área de estudio, sino más conocimiento
técnico.
Como mencionamos anteriormente, la Minería de Datos es un paso que forma

parte del KDD e implica el análisis de grandes cantidades de datos
observacionales, para encontrar relaciones insospechadas.
3. FUNDAMENTO TEORICO:
La Extracción de conocimiento está principalmente relacionado con el proceso
de descubrimiento conocido como Knowledge Discovery in Databases (KDD),
que se refiere al proceso no-trivial de descubrir conocimiento e información
potencialmente útil dentro de los datos contenidos en algún repositorio de
información [1]. No es un proceso automático, es un proceso iterativo que
exhaustivamente explora volúmenes muy grandes de datos para determinar
relaciones. Es un proceso que extrae información de calidad que puede usarse
para dibujar conclusiones basadas en relaciones o modelos dentro de los datos.
TOPICOS ESPECIALES DE INGENIERIA

DE SISTEMAS E INFORMATICA DECIMMO CICLO
4. Pasos:
4.1. Fases de KDD
Fases para elaboración de un KDD
1. Selección de datos. En esta etapa se determinan las fuentes de datos y el

tipo de información a utilizar. Es la etapa donde los datos relevantes para el
análisis son extraídos desde la o las fuentes de datos.
2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los

datos extraídos desde las distintas fuentes de datos en una forma
manejable, necesaria para las fases posteriores. En esta etapa se utilizan
diversas estrategias para manejar datos faltantes o en blanco, datos
inconsistentes o que están fuera de rango, obteniéndose al final una
estructura de datos adecuada para su posterior transformación.
3. Transformación. Consiste en el tratamiento preliminar de los datos,

transformación y generación de nuevas variables a partir de las ya
existentes con una estructura de datos apropiada. Aquí se realizan
operaciones de agregación o normalización, consolidando los datos de una
forma necesaria para la fase siguiente.
4. Data Mining. Es la fase de modelamiento propiamente tal, en donde

métodos inteligentes son aplicados con el objetivo de extraer patrones
previamente desconocidos, válidos, nuevos, potencialmente útiles y
comprensibles y que están contenidos u “ocultos” en los datos.
5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que

son realmente interesantes, basándose en algunas medidas y se realiza
una evaluación de los resultados obtenidos.

5. CUESTIONARIO:
5.1. ¿Qué es KDD?
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
5.2. ¿De qué está formado un KDD?
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
5.3. Indique las reglas para realizar un KDD

..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
5.4. Indique los fases para realizar un KDD
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
6. OBSERVACIONES Y CONCLUSIONES:
Anotar cinco observaciones y conclusiones acerca de esta práctica.
1. ..........................................................................................................
..........................................................................................................
..........................................................................................................
2. ..........................................................................................................
..........................................................................................................
..........................................................................................................
3. ..........................................................................................................
..........................................................................................................
..........................................................................................................
4. ..........................................................................................................
..........................................................................................................

..........................................................................................................
5. ..........................................................................................................

PRÁCTICA DE LABORATORIO N° 11 (CONTIUACION )
ALGORITMOS DE CLUSTERING
1. TEMA:
También conocido como agrupamiento, es una de las técnicas de minería de
datos, el proceso consiste en la división de los datos en grupos de objetos
similares. Cuando se representan la información obtenida a través de clusters
se pierden algunos detalles de los datos, pero a la vez se simplifica dicha
información.
2. OBJETIVOS:
Clustering es una técnica de minería de datos (data mining) dentro de la
disciplina de Inteligencia Artificial que identifica de forma automática
agrupaciones o clústeres de elementos de acuerdo a una medida de similitud
entre ellos. El objetivo fundamental de las técnicas de clustering consiste en
identificar grupos o clústeres.
3. FUNDAMENTO TEORICO:
Técnica en la que el aprendizaje realizado es no supervisado. Desde un punto
de vista práctico. El clustering juega un papel muy importante en aplicaciones de
minería de datos, tales como exploración de datos científicos, recuperación de
la información y minería de texto, aplicaciones sobre bases de datos espaciales
(tales como GIS o datos procedentes de astronomía), aplicaciones Web,
marketing, diagnóstico médico, análisis de ADN en biología computacional y
muchas otras.
De forma general, las técnicas de Clustering son las que utilizando algoritmos
matemáticos se encargan de agrupar objetos. Usando la información que
brindan las variables que pertenecen a cada objeto se mide la similitud entre los

mismos, y una vez hecho esto se colocan en clases que son muy similares
internamente (entre los miembros de la misma clase) y a la vez diferente entre
los miembros de las diferentes clases.
4. ALGORITMOS DE CLUSTERING:
4.1. TIPOS DE CLUSTERING

Simple K-Means
Este algoritmo debe definir el número de clusters que se desean obtener, así se
convierte en un algoritmo voraz para particionar. Los pasos básicos para aplicar
el algoritmo son muy simples. Primeramente se determina la cantidad de clusters
en los que se quiere agrupar la información, en este caso las simulaciones.
Luego se asume de forma aleatoria los centros por cada clusters. Una vez
encontrados los primeros centroides el algoritmo hará los tres pasos siguientes:
1. Determina las coordenadas del centroide.
2. Determina la distancia de cada objeto a los centroides.
3. Agrupa los objetos basados en la menor distancia.
Finalmente quedarán agrupados por clusters, los grupos de simulaciones según

la cantidad de clusters que el investigador definió en el momento de ejecutar el
algoritmo
X-Means
Este algoritmo es una variante mejorada del K-Means. Su ventaja fundamental

está en haber solucionado una de las mayores deficiencias presentadas en K-
Means, el hecho de tener que seleccionar a priori el número de clusters que se
deseen obtener, a X-Means se le define un límite inferior K-min (número mínimo
de clusters) y un límite superior K-Max (número máximo de clusters) y este
algoritmo es capaz de obtener en ese rango el número óptimo de clusters, dando
de esta manera más flexibilidad al usuario. Durante este proceso, el conjunto de
centroides que alcanzan el mejor valor son almacenados, y estos serían la salida
final, es decir, los valores finales de cada simulación de acuerdo a la distancia

entre ellos. Los mismos son aplicables cuando en la Base de datos existen al
menos 2 simulaciones para el modelo (que son ecuaciones formadas por
arreglos de parámetros y condiciones iniciales). Se ha comprobado que sus
resultados son más fiables que los obtenidos con el K-Means, debido a que
presenta un valor de distorsión menor, son mucho mejor para realizar Clusters
de un conjunto grande de datos y es incluso una variante mucho más rápida.
Cobweb
Pertenece a la familia de algoritmos jerárquicos. Se caracteriza por la utilización

de aprendizaje incremental, esto quiere decir, que realiza las agrupaciones
instancia a instancia. Durante la ejecución del algoritmo se forma un árbol (árbol
de clasificación) donde las hojas representan los segmentos y el nodo raíz
engloba por completo el conjunto de datos. Al principio, el árbol consiste en un
único nodo raíz. Las instancias se van añadiendo una a una y el árbol se va
actualizando en cada paso. La clave para saber cómo y dónde se debe actualizar
el árbol la proporciona una medida denominada utilidad de categoría, que mide
la calidad general de una partición de instancias en un segmento. Pertenece a
los métodos de aprendizaje conceptual o basado en modelos. Esto significa que
cada cluster se considera como un modelo que puede describirse
intrínsecamente, más que un ente formado por una colección de puntos. Además
en el algoritmo también hay que tener en cuenta dos parámetros muy
importantes:
• Acuity: es un parámetro muy necesario, pues la utilidad de categoría está

basada en la estimación de la media y la desviación estándar del valor de un
atributo para un nodo en particular, el resultado es 0 si dicho nodo solo tiene
una instancia; por lo que se puede decir que el valor que toma este parámetro
es la medida del error de un nodo con una sola instancia (establece la
varianza mínima de un atributo).
• Cut-off: este parámetro es usado para evitar el crecimiento descontrolado de

la cantidad de segmentos. Indica el grado de mejor ía que se debe producir
en la utilidad de categoría para que la instancia se pueda tener en cuenta de
manera individual. Resumiendo, cuando se va a añadir un nuevo nodo y no
es suficiente el crecimiento de la utilidad de categoría, pues ese nodo se poda
y la instancia pasa a otro nodo ya existente.
EM
Este algoritmo pertenece a una familia de modelos que se conocen como Finite
Mixture Models, los cuales se pueden utilizar para segmentar conjuntos de

datos. Está clasificado como un método de particionado y recolocación, o sea,

Clustering Probabilístico. Se trata de obtener la FDP (Función de Densidad de
Probabilidad) desconocida a la que pertenecen el conjunto completo de datos.
El algoritmo EM, procede en dos pasos que se repiten de forma iterativa:
• Expectation: Utiliza los valores de los parámetros, iniciales o proporcionados

por el paso Maximization, obteniendo diferentes formas de la FDP buscada.
• Maximization: Obtiene nuevos valores de los parámetros a partir de los datos

proporcionados por el paso anterior.
Finalmente se obtendrá un conjunto de clusters que agrupan el conjunto de

proyectos original. Cada uno de estos cluster estará definido por los parámetros
de una distribución
5. PROCEDIMIENTO PARA REALIZAR KMEANS:

Inicialización
• Escoger k centroides aleatoriamente (hay métodos más sofisticados).

• Formar k grupos, asignando cada punto al centroide más cercano
Proceso iterativo
• Mientras que los Mientras que los centroides cambien:

• Calcular las distancias de todos los puntos a los k de todos los puntos
a los k centroides.
• Formar k grupos, asignando cada punto al asignando cada punto al
centroide más cercano.
• Recalcular los nuevos Recalcular los nuevos centroides.

6. CUESTIONARIO:
6.1. ¿Cuál es el objetivo de un algoritmo de clustering?
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
6.2. ¿Cuál es la estructura de un Clustering?
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
6.3. Indique los pasos para realizar un algoritmo Kmeans
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
6.4. Indique los 3 usos de los algoritmos de clustering
..........................................................................................................
..........................................................................................................
..........................................................................................................
..........................................................................................................
7. OBSERVACIONES Y CONCLUSIONES:
Anotar cinco observaciones y conclusiones acerca de esta práctica.

6. ..........................................................................................................
..........................................................................................................
..........................................................................................................
7. ..........................................................................................................
..........................................................................................................
..........................................................................................................
8. ..........................................................................................................
..........................................................................................................
..........................................................................................................
9. ..........................................................................................................
..........................................................................................................
..........................................................................................................
10. ..........................................................................................................
..........................................................................................................
..........................................................................................................


Práctica de Laboratorio #11 KDD - Algoritmos de Clustering

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Práctica de Laboratorio #11 KDD - Algoritmos de Clustering

Cargado por

Copyright:

Formatos disponibles

ALAS PERUANAS ESCUELA DE INGENIERÍA DE SISTEMAS E INFORMATICA

KDD – ALGORITMOS DE CLUSTERING

Por otra parte, la Minería de Datos, exploración de datos o Data Mining, no

Como mencionamos anteriormente, la Minería de Datos es un paso que forma

TOPICOS ESPECIALES DE INGENIERIA

4.1. Fases de KDD

Fases para elaboración de un KDD

1. Selección de datos. En esta etapa se determinan las fuentes de datos y el

2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los

3. Transformación. Consiste en el tratamiento preliminar de los datos,

4. Data Mining. Es la fase de modelamiento propiamente tal, en donde

5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que

TOPICOS ESPECIALES DE INGENIERIA

TOPICOS ESPECIALES DE INGENIERIA

TOPICOS ESPECIALES DE INGENIERIA

TOPICOS ESPECIALES DE INGENIERIA

PRÁCTICA DE LABORATORIO N° 11 (CONTIUACION )

TOPICOS ESPECIALES DE INGENIERIA

4.1. TIPOS DE CLUSTERING

1. Determina las coordenadas del centroide.

2. Determina la distancia de cada objeto a los centroides.

3. Agrupa los objetos basados en la menor distancia.

Finalmente quedarán agrupados por clusters, los grupos de simulaciones según

Este algoritmo es una variante mejorada del K-Means. Su ventaja fundamental

TOPICOS ESPECIALES DE INGENIERIA

Pertenece a la familia de algoritmos jerárquicos. Se caracteriza por la utilización

• Acuity: es un parámetro muy necesario, pues la utilidad de categoría está

• Cut-off: este parámetro es usado para evitar el crecimiento descontrolado de

TOPICOS ESPECIALES DE INGENIERIA

datos. Está clasificado como un método de particionado y recolocación, o sea,

• Expectation: Utiliza los valores de los parámetros, iniciales o proporcionados

• Maximization: Obtiene nuevos valores de los parámetros a partir de los datos

Finalmente se obtendrá un conjunto de clusters que agrupan el conjunto de

5. PROCEDIMIENTO PARA REALIZAR KMEANS:

• Escoger k centroides aleatoriamente (hay métodos más sofisticados).

• Mientras que los Mientras que los centroides cambien:

TOPICOS ESPECIALES DE INGENIERIA

TOPICOS ESPECIALES DE INGENIERIA

TOPICOS ESPECIALES DE INGENIERIA

También podría gustarte