Octavo Material de Apoyo - Analisis Cluster (Agrupacion de Datos para Efectuar La Segmentacion)

ANÁLISIS CLUSTER (AGRUPACIÓN DE DATOS
PARA EFECTUAR LA SEGMENTACIÓN)

Es la tarea de agrupar objetos por similitud, en grupos o conjuntos de
manera que los miembros del mismo grupo tengan características similares.
Es la tarea principal de la minería de datos exploratoria y es una técnica
común en el análisis de datos estadísticos.
Además, es utilizada en múltiples campos comoː
 aprendizaje automático
 reconocimiento de patrones
 análisis de imágenes
 búsqueda y recuperación de información
 bioinformática
 compresión de datos
 computación gráfica.
El análisis de grupos es un problema, es un planteo general, y existen miles
de algoritmos que lo resuelven, cada uno con sus propias características.
Muchos algoritmos difieren significativamente en su idea de qué constituye
un grupo y cómo encontrarlos eficientemente.
El agrupamiento, por tanto, puede ser formulado como un problema multi-
objetivo de optimización. El algoritmo apropiado y sus parámetros
dependen del conjunto de datos que se analiza y el uso que se le dará a los
resultados.
El agrupamiento como tal no es una tarea con solución directa, sino un
proceso iterativo o interactivo que implica ensayo y error. Este proceso de
prueba y error es iterativo en la medida que sea automático, e interactivo en
la medida que requiera intervención humana. Es una práctica usual ejecutar
un algoritmo de agrupamiento (un proceso iterativo), y a partir de los
resultados ajustar los parámetros y repetir la operación (resultando en un
proceso interactivo).
Las aplicaciones del agrupamiento se dividen en dos tipos principalesː
 aquellas en la que los grupos constituyen el resultado buscado

o es el caso de análisis de grupos, minería de datos,
análisis de imágenes
 otras en las que los grupos constituyen el punto de partida para
las clasificaciones de nuevas muestras de datos, desconocidas al
momento de procesar el agrupamiento
o es el caso de clasificación automática en el mundo del
aprendizaje de máquina
GRUPO
La idea de un grupo de datos similares resulta incompleta y subjetiva, por
el sencillo hecho de que la definición de similitud es parte del problema
específico que se requiere resolver y no es parte del problema general de
agrupamiento. Éste es el principal motivo de que existan miles de
algoritmos de agrupamiento.
Aun así, los investigadores emplean diferentes modelos de grupo, y para
cada uno de estos modelos se utilizan diferentes algoritmos. La idea de un
grupo, cuando es encontrado por algoritmos diferentes, varía
significativamente en sus propiedades. Entender estos "modelos de grupo"
es clave para entender las diferencias entre los algoritmos.
Típicamente los modelos de grupo incluyen estos otros modelos de:
 Conectividad: por ejemplo, agrupamiento jerárquico construye

modelos basados en la distancia de las conexiones
 Centroide: por ejemplo, el algoritmo k-means representa cada
grupo por un solo vector medio
 Distribución: los grupos son modelados utilizando distribuciones
estadísticas, como la distribución normal multivariada utilizada
por el algoritmo Expectation-maximization
 Densidad: por ejemplo, DBSCAN y OPTICS definen grupos
como regiones densas conectadas en el espacio de los datos
 Subespacios: en Bi-agrupamiento (también conocido como Co-
clustering o two-mode-clustering), los grupos son modelados con
ambas características, miembros del grupo y atributos relevantes
 Grupo: algunos algoritmos no proporcionan un modelo refinado
para sus resultados y solo proporcionan la información de la
agrupación
 Grafos: un clique, i.e., un subconjunto de nodos en un grafo tal
que cada dos nodos en el subconjunto están conectados por una
arista puede ser considerado como un prototipo o forma de grupo.
Relajaciones del requisito de completa conectividad (una fracción
de las aristas puede faltar) es conocida como quasi-cliques, como
en el algoritmo HCS
AGRUPAMIENTO
Un agrupamiento es esencialmente un conjunto de tales grupos,
normalmente conteniendo todos los objetos en el conjunto de datos.
Además, puede especificar la relación de los grupos a cada uno de los
otros, por ejemplo, una jerarquía de grupos contenida en cada otro. Los
agrupamientos pueden ser aproximadamente clasificados como:
 Duro: cada objeto pertenece a un grupo o no

 Suave o difuso: cada objeto pertenece a cada grupo según un
grado de pertenencia (p. ej. la probabilidad de pertenecer al
grupo)
Hay también otras distinciones posibles de agrupamientos:
 con partición estricta: aquí cada objeto pertenece a exactamente

un grupo
 con partición estricta con ruido: los objetos también pueden no
pertenecer a ningún grupo, y están considerados ruido o
anomalías
 con solapamiento (También: agrupamiento alternativo,
agrupamiento multi-objetivo): contrario a agrupamiento duro, los
objetos pueden pertenecer a más de un grupo
 jerárquico: objetos que pertenecen a un grupo hijo también
pertenecen al grupo padre
 de subespacios: contrario a agrupamiento con solapamiento,
dentro de un único sub-espacio definido, los grupos deben
solaparse
ALGORITMOS
Los algoritmos de agrupamiento pueden ser categorizados de varias
maneras, por ejemplo, por suː
 modelo de grupo
 eficiencia computacional o velocidad de cómputo
 eficacia en el problema específico
En adelante se listan solamente los algoritmos más prominentes, ya que
existen más de 100 publicados. No todos proporcionan modelos para sus
grupos y por esto pueden no ser fácil categorizarlos. No existe un algoritmo
de agrupamiento "correcto", como se pudo haber notado, "el agrupamiento
está en el ojo del observador". El algoritmo más apropiado para un
problema particular a menudo necesita ser escogido experimentalmente, a
no ser que haya una razón matemática para preferir un modelo de grupo
sobre otro.
APLICACIONES
 Biología, biología computacional y bioinformáticas

o Ecología vegetal y animal: el análisis de grupo suele usarse
para describir y para hacer comparaciones espacial y temporal
de comunidades de organismos en entornos heterogéneos.
o Transcriptoma: el agrupamiento es usado para construir
grupos de genes con patrones de expresión relacionados
(también conocidos como coexpressed genes) como en HCS.
A menudo tales grupos contienen proteínas relacionadas
funcionalmente, como enzimas para una vía metabólica
específica, o genes que son co-regulados.
o Análisis de secuencia: el agrupamiento es usado para agrupar
secuencias homólogas en familias de genes. Esto es un
concepto muy importante en bioinformática, y biología
evolutiva en general. Ver evolución por duplicación de gen.
o Agrupamiento en genética humana: la semejanza de datos
genéticos está utilizada en agrupamiento para inferir
estructuras de población.
 Medicina
o Imágenes médicas: en PET scans, el análisis de grupo puede
usarse para diferenciar entre tipos diferentes de tejido y sangre
en una imagen tridimensional. En esta aplicación, la posición
real no importa, pero la intensidad está considerada como un
vector, con una dimensión para cada imagen que fue tomada
con el tiempo. Esta técnica permite, por ejemplo, la medida
cuidadosa del índice de un rastro radioactivo entregado al área
de interés, sin un muestreo separado de sangre arterial, una
técnica intrusiva que es más común hoy.
o Análisis de actividad antimicrobial: el análisis de grupo suele
usarse para analizar patrones de resistencia de antibiótica, para
clasificar compuestos antimicrobiales según su mecanismo de
acción y para clasificar antibióticos según su actividad
antibacterial.
 Empresarial y marketing
o Búsqueda de mercado: el análisis de grupo es ampliamente
utilizado en búsqueda de mercado cuando se trabaja con datos
multivariados de encuestas y tableros de prueba
o Agrupando elementos de compra: el conglomerado puede
usarse para agrupar todos los elementos de compra disponibles
en la web en un conjunto de productos únicos. Por ejemplo,
todos los elementos en eBay pueden ser agrupados en
productos únicos.
 World wide web

o Análisis de red social: en el estudio de redes sociales, el
agrupamiento puede usarse para reconocer comunidades
dentro de grupos grandes de personas.
o Agrupación de resultados de la búsqueda: en el proceso de
agrupación inteligente de los archivos y sitios web, el
agrupamiento puede usarse para crear un conjunto más
pertinente de resultados de búsqueda comparados a motores de
búsqueda normales como Google.
o Slippy map optimization: el mapa de fotos de Flickr y otros
sitios usan el agrupamiento para reducir el número de
marcadores en un mapa. Esto los hace a ambos más rápidos y
reduce la cantidad de grupos visuales.
 Informática
o Segmentación de imagen: el agrupamiento puede usarse para
dividir una imagen digital a regiones distintas para detección
de frontera o reconocimiento de objetos.
o Algoritmos evolutivos: el agrupamiento puede usarse para
identificar nichos diferentes dentro de la población de un
algoritmo evolutivo de modo que la oportunidad reproductiva
puede ser distribuida más equitativamente entre la especie a
evolucionar o subespecie.
o Sistemas de recomendación: los sistemas de recomendación
están diseñados para recomendar los elementos nuevos
basados en los gustos de un usuario. A veces utilizan
algoritmos de agrupamiento para pronosticar las preferencias
de un usuario basados en las preferencias de otros usuarios en
el grupo del usuario.
o Detección de anomalía: las anomalías/outliers son típicamente
-pueden ser explícitamente o implícitamente- definidas con
respecto a la estructura de los grupos en los datos.
 Ciencia social
o Análisis de delito: el análisis de grupos puede usarse para
identificar áreas donde hay incidencias más grandes de tipos
particulares de delito. Para identificar estas áreas distintas o
"sitios calientes" donde un delito similar ha pasado en un
periodo de tiempo, es posible dirigir recursos de aplicación de
la ley más eficazmente.
o Minería de datos educacional: el análisis de grupo es, por
ejemplo, utilizado para identificar grupos de escuelas o
alumnado con propiedades similares.
EJEMPLOS
ESTATURAS
155 166 168 173
156 165 169 173
157 165 169 173
156 165 169 173
157 165 169 174
159 165 169 174
160 165 169 174
161 165 169 174
161 165 169 174
162 165 169 174
162 167 169 174
162 167 170 175
162 167 170 175
163 167 170 176
164 167 170 176
163 167 170 179
161 167 170
162 167 171
163 167 171
162 167 171
165 168 171
166 168 171
166 168 172
166 168 172
166 168 172
166 168 172
166 168 172
166 168 173
Los datos agrupados son aquellos que se han clasificado en categorías o
clases, tomando como criterio su frecuencia. Esto se hace con la finalidad
de simplificar el manejo de grandes cantidades de datos y establecer sus
tendencias.
Una vez organizados en estas clases por sus frecuencias, los datos
conforman una distribución de frecuencias, de la cual se extrae
información de utilidad a través de sus características.
ESATURAS (CM) NUMERO DE ESTUDIANTES
155-159 6
160-164 14
165-169 47
170-174 28
175-179 5
n=100
Características de la distribución de frecuencias
Frecuencia
Como hemos visto, la frecuencia es el número de veces que se repite un

dato. Y para facilitar los cálculos de las propiedades de la distribución,
tales como la media y la varianza, se definen las siguientes cantidades:
–Frecuencia acumulada: se obtiene sumando la frecuencia de una clase

con la frecuencia acumulada anterior. La primera de todas las frecuencias
coincide con la del intervalo en cuestión, y la última es el número total de
datos.
–Frecuencia relativa: se calcula dividiendo la frecuencia absoluta de cada

clase entre el número total de datos. Y si se multiplica por 100 se tiene la
frecuencia relativa porcentual.
–Frecuencia relativa acumulada: es la suma de las frecuencias relativas

de cada clase con el acumulado anterior. La última de las frecuencias
relativas acumuladas debe ser igual a 1.
Límites
Los valores extremos de cada clase o intervalo se llaman límites de
clase. Como podemos ver, cada clase tiene un límite menor y uno mayor.
Por ejemplo, la primera clase del estudio acerca de las estaturas tiene un
límite menor de 155 cm y uno mayor de 159 cm.
Este ejemplo tiene límites que están claramente definidos, sin embargo, es
posible definir límites abiertos: si en vez de definir los valores exactos, se
dijese “estatura menor a 160 cm”, “estatura menor a 165 cm” y así
sucesivamente.
COMO AGRUPAR EN EXCEL

Agrupar los siguientes datos sobre ventas contenido en el siguiente cuadro:
MES VENDEDOR ARTICULOS VENTAS
ENERO Rafael 67 85,966.00
ENERO Isabel 53 47,047.00
ENERO Gloria 57 66,004.00
ENERO Arturo 72 78,120.00
ENERO Silvia 49 82,142.00
ENERO David 25 32,951.00
FEBRERO Luisa 35 31,672.00
FEBRERO Gloria 28 26,431.00
FEBRERO Silvia 93 78,080.00
FEBRERO David 81 86,281.00
FEBRERO Arturo 79 48,647.00
MARZO Gerardo 46 65,135.00
MARZO Isabel 83 59,289.00
MARZO Arturo 39 47,204.00
MARZO Silvia 32 73,844.00
MARZO Gloria 95 60,883.00
MARZO Rafael 62 33,666.00
MARZO David 41 33,679.00

Octavo Material de Apoyo - Analisis Cluster (Agrupacion de Datos para Efectuar La Segmentacion)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Octavo Material de Apoyo - Analisis Cluster (Agrupacion de Datos para Efectuar La Segmentacion)

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS CLUSTER (AGRUPACIÓN DE DATOS

PARA EFECTUAR LA SEGMENTACIÓN)

 aquellas en la que los grupos constituyen el resultado buscado

 Conectividad: por ejemplo, agrupamiento jerárquico construye

 Duro: cada objeto pertenece a un grupo o no

 con partición estricta: aquí cada objeto pertenece a exactamente

 Biología, biología computacional y bioinformáticas

 World wide web

Características de la distribución de frecuencias

Como hemos visto, la frecuencia es el número de veces que se repite un

–Frecuencia acumulada: se obtiene sumando la frecuencia de una clase

–Frecuencia relativa: se calcula dividiendo la frecuencia absoluta de cada

–Frecuencia relativa acumulada: es la suma de las frecuencias relativas

COMO AGRUPAR EN EXCEL

También podría gustarte