Está en la página 1de 6

Etiquetado de clúster

Ir a la navegaciónIr a la búsqueda

Este artículo o sección sobre informática necesita ser wikificado, por favor,
edítalo para que cumpla con las convenciones de estilo.
Este aviso fue puesto el 17 de diciembre de 2012.
El Etiquetado de Clúster está estrechamente relacionado con el agrupamiento de
documentos. Este proceso intenta seleccionar etiquetas descriptivas para los grupos
obtenidos a través de un algoritmo de clúster ya sea de Particionado de Clúster o
Clúster Jerárquico. Por ejemplo, un grupo de documentos que hablen sobre varios
protocolos de internet puede ser etiquetado como Protocolos de Internet.
Generalmente las etiquetas se obtienen producto de analizar el contenido de los
documentos pertenecientes al clúster. Una buena etiqueta no solo resume la idea
central de los documentos agrupados sino que los diferencia de los otros clústeres.

En muchas aplicaciones de Particionado de Clúster o Clúster Jerárquico,


particularmente en las tareas de análisis y en interfaces de usuario, los usuarios
humanos interactúan con clústeres. En tales trasfondos, debemos etiquetar grupos, a
fin de que los usuarios puedan ver de qué se trata un grupo. Los métodos de
etiquetado de clústeres pueden clasificarse en: Diferenciales e Internos.

Índice
1 Etiquetado Diferencial de Clúster
1.1 Algoritmo General
1.2 Información Mutua
1.3 Selección X2 o Chi-cuadrado
2 Etiquetado interno de clúster
2.1 Etiquetado de Centroides
2.2 Etiquetado de Títulos
2.3 Etiquetado de Conocimiento Externo
2.4 Etiquetado Jerárquico de Clúster
3 Enlaces externos
4 Referencias
Etiquetado Diferencial de Clúster
Selecciona las etiquetas de un clúster mediante la comparación de los términos en
un clúster con los términos que aparecen en otros clúster. Las técnicas utilizadas
para la selección de características (feature selection) en recuperación de
información también se puede aplicar al etiquetado diferencial de clúster, las más
utilizadas son información mutua y chi-cuadrado. Términos que tienen baja
frecuencia no son los mejores en la representación de todo el conjunto y se pueden
omitir en el etiquetado de un clúster. Al omitir los términos poco usuales y usando
una prueba diferencial, se pueden obtener mejores resultados en el etiquetado de
clústeres

Algoritmo General
De manera general los algoritmos basados en Etiquetado Diferencial de Clúster
siguen un patrón común que se basa en la selección de los k términos más útiles de
un clúster como etiqueta para este. Señalar aquí que la definición de más útiles es
la que hace particular un algoritmo respecto a otro. En el algoritmo general se
define A(t,c) como la medida de utilidad del término t para la clase c.

SelectTerms(C,k);
V ⃪ExtractTerms(C);
L ⃪[];
foreach t ϵ V do
A(t,c) ⃪ComputeUtility(t,c);
Append(L,< A(t,c),t >);
end
return TermsWithLargestValues(L,k);
Este algoritmo calcula una medida de utilidad A(t,C) para cada término t en el
clúster C y selecciona los k términos del clúster que tienen los valores más altos
de medida de utilidad A(t,C), todos los demás términos son descartados para
seleccionar la etiqueta de C. Precisamente los algoritmos información mutua y chi-
cuadrado test son variantes para calcular la utilidad A(t,c) de un término a un
clúster

Información Mutua
En el campo de las probabilidades la información mutua da una medida del grado de
dependencia entre dos variables aleatorias. La información mutua de dos variables X
y Y está definida como:

{\displaystyle I(X,Y)=\sum _{x\in X}\sum _{y\in Y}p(x,y)\log \left({\frac {p(x,y)}


{p_{1}(x)p_{2}(y)}}\right)\qquad (1)}{\displaystyle I(X,Y)=\sum _{x\in X}\sum
_{y\in Y}p(x,y)\log \left({\frac {p(x,y)}{p_{1}(x)p_{2}(y)}}\right)\qquad (1)}
donde p(x,y) es la función de distribución de la probabilidad conjunta de las dos
variables, p1(x) es la función de distribución de X y p2(y) es la función de
distribución de Y .En el caso que nos ocupa, el etiquetado de clústeres, la
variable X está asociada a la pertenencia de un documento a un clúster, y Y está
asociada a la presencia de un término en un documento seleccionado al azar. Ambas
variables pueden tomar valores {0,1}, en cuyo caso la ecuación puede ser reescrita
como:

{\displaystyle I(C,T)=\sum _{c\in 0,1}\sum _{t\in 0,1}p(C=c,T=t)\log \left({\frac


{p(C=c,T=t)}{p(C=c)p(T=t)}}\right)\qquad (2)}{\displaystyle I(C,T)=\sum _{c\in
0,1}\sum _{t\in 0,1}p(C=c,T=t)\log \left({\frac {p(C=c,T=t)}
{p(C=c)p(T=t)}}\right)\qquad (2)}
En este caso, p(C =1) representa la probabilidad de que un documento seleccionado
al azar pertenezca a un clúster en particular y p(C =0) la probabilidad de que no
pertenezca, de forma similar p(T =1) es la probabilidad de que un documento
seleccionado aleatoriamente contenga un término determinado y p(T =0) de que no lo
contenga, p(C,T) es la probabilidad de que dos de los sucesos descritos
anteriormente ocurran de manera simultánea, por ejemplo p(0,1) es la probabilidad
de que un documento no sea miembro del clúster c y contenga al término t .

Documentos en "comercio" Documentos que no están en "comercio"


Documentos que contienen"tarifa" 60 10,000
Documentos que no contienen "tarifa" 200 500,000
Total de documentos = (60 + 200 + 10,000 + 500,000) = 510,260
P (C = 1, T = 1) = 60/510,260
P (C = 1, T = 0) = 200/510,260
P (C = 0, T = 1) = 10,000/510,260
P (C = 0, T = 0) = 500,000/510,260
P (C = 1) = (# documentos en el clúster) / (total de documentos) = (60 + 200) /
510,260 = 260/510,260
P (C = 0) = (# de documentos fuera del clúster) / (total de documentos) = (10,000 +
500,000) / 510,260 = 510,000/510,260
P (T = 1) = (# de documentos que contienen el término) / (total de documentos) =
(60 + 10,000) / 510,260 = 10,060/510,260
P (T = 0) = (# de documentos que no contienen el término) / (total de documentos) =
(200 + 500,000) / 510,260 = 500,200/510,260
Sustituyendo los valores en la ecuación (2) y calculando nos queda que:
I(C,T) = 0.000280655
Podemos calcular una etiqueta para el clúster "comercio" calculando I(C,T) para
cada término y seleccionando los k que reporten los mayores valores de I.
Selección X2 o Chi-cuadrado
La prueba X2 puede ser usada para calcular la probabilidad de que la ocurrencia de
un evento cumpla las expectativas iniciales. En particular se usa para determinar
cuándo dos eventos probabilísticos A y B son estadísticamente independientes o sea
P(AB)=P(A)P(B).

{\displaystyle \chi ^{2}=\sum _{a\in A}\sum _{b\in B}{\frac {(O_{a,b}-E_{a,b})^{2}}


{E_{a,b}}}}{\displaystyle \chi ^{2}=\sum _{a\in A}\sum _{b\in B}{\frac {(O_{a,b}-
E_{a,b})^{2}}{E_{a,b}}}}

donde Oa,b es la frecuencia observada de a y b ocurriendo simultáneamente, y Ea,b


es la frecuencia con que se espera que ocurran.

Para el caso particular de etiquetado de clústeres , A se asocia a la pertenencia


de un documento a un clúster y B está asociada a la presencia de un término en un
documento. Ambas variables pueden tomar valores {0,1} y la ecuación anterior se
reescribe como:

{\displaystyle \chi ^{2}=\sum _{a\in 0,1}\sum _{b\in 0,1}{\frac {(O_{a,b}-


E_{a,b})^{2}}{E_{a,b}}}}{\displaystyle \chi ^{2}=\sum _{a\in 0,1}\sum _{b\in 0,1}
{\frac {(O_{a,b}-E_{a,b})^{2}}{E_{a,b}}}}

Por ejemplo: O1,0 es el número de documentos observados que se encuentran en un


clúster específico y que no contienen cierto término. Como hipótesis inicial se
asume que los dos eventos son independientes, por tanto la probabilidad de que
ambos ocurran se calcula multiplicando las probabilidades individuales:
E1,0 = N ∗ P(C =1) ∗ P(T =0)
siendo N es la cantidad de documentos en la colección.

Etiquetado interno de clúster


Etiquetado interno de clúster (Cluster-internal labeling) selecciona etiquetas que
solo dependen de los contenidos del clúster de interés. No se hace comparación
alguna con los otros clúster.El Etiquetado interno de clúster puede usar una
variedad de métodos, tales como encontrar términos que ocurran frecuentemente en el
centroide o encontrar el documento que queda más cercano al centroide.

Etiquetado de Centroides
Un modelo frecuentemente usado en el campo de la Recuperación de información es el
modelo de espacio vectorial, el cual representa documentos como vectores. Las
entradas en el vector corresponden a términos en el vocabulario. Los vectores
binarios tienen valores de 1 si el término está presente dentro de un documento
particular y 0 si está ausente. Muchos vectores hacen uso de pesos que reflejan la
importancia de un término en una colección de documentos. Para un particular
clúster de documentos, podemos calcular el centroide mediante encontrar la media
aritmética de todos los vectores de documentos. Si una entrada en el vector
centroide tiene un valor alto, entonces el término correspondiente ocurre
frecuentemente dentro del clúster. Una desventaja de usar Etiquetado de Centroides
(Centroid labeling) es que él puede escoger palabras como "place" y "word" que
tienen una alta frecuencia en un texto escrito, pero también poca relevancia para
los contenidos de un clúster particular.

Etiquetado de Títulos
Una alternativa para Etiquetado de Centroides es Etiquetado de Títulos (Title
Labeling). Aquí, encontramos el documento dentro del clúster que tiene la distancia
Euclidiana más pequeña hasta el centroide, y usamos su título como etiqueta para el
clúster. Una desventaja al usar los títulos de los documentos es que ellos proveen
información adicional que no estaría presente en una lista de términos. Sin
embargo, ellos además tienen el potencial para desencaminar al usuario, ya que un
documento podría ser no representativo de todo el clúster.
Etiquetado de Conocimiento Externo
El etiquetado de clústeres puede ser hecho indirectamente usando conocimiento
externo (external knowledge) tal como conocimiento pre-categorizado. En tales
métodos, un conjunto de importantes características textuales del clúster son
primero extraídas del clúster de documentos. Estas características pueden ser
usadas para recuperar los (pesados) K-mas_cercanos documentos categorizados de los
cuales pueden ser extraídas los candidatos para etiquetas de clúster. El paso final
envuelve el ranking de dichos candidatos. Métodos convenientes son aquellos que
están basados en un proceso de votado o de fusión el cual es determinado usando el
conjunto de documentos categorizados y las características originales del clúster.

Etiquetado Jerárquico de Clúster


Para el etiquetado jerárquico, surgen complicaciones adicionales en el etiquetado
de clúster. No solo necesitamos distinguir un nodo interno en el árbol de sus
hijos, sino también de su padre y los hijos de su padre. Los documentos en los
nodos hijos son por definición también miembros de su nodo padre, o sea no podemos
usar un método diferencial ingenuo para encontrar etiquetas que distingan al padre
de sus hijos. Sin embargo, un criterio más complejo, basado en una combinación de
frecuencia en el conjunto de la colección y prevalencia en un clúster dado, puede
determinar si un término es una etiqueta más informativa para un hijo o para un
nodo padre.
La organización jerárquica es popular porque representa la información a diferentes
niveles de detalle y es conveniente para la exploración interactiva. Al tope de la
jerarquía, la colección es organizada en unas pocas categorías generales: mientras
una persona desciende en la jerarquía, ella consigue más detalle sobre la cada vez
más específica categoría. Típicamente a cada documento le es asignado un descriptor
que describe al documento que el contiene. Una meta las técnicas con clúster
jerárquico es mejorar la habilidad de los usuarios para explorar la colección, así
que es muy importante que la jerarquía tenga buenos descriptores de clúster. Estos
descriptores pueden ser cualquiera de las etiquetas de categoría.
El Etiquetado Jerárquico de Clúster particiona una colección de documentos en un
número más pequeño de clústeres, y cada clúster es luego particionado en sub-
clústeres de manera recursiva. Los clústeres jerárquicos pueden ser construidos por
métodos aglomérativos que empiezan con cada documento en su propio clúster y luego
repetidamente agrupan clústeres similares en un clúster más abarcador, o por
métodos divisivos que empiezan con todos los documentos en un clúster y luego
repetidamente dividen cada clúster en sub-clústeres más detallados.
Cuando se etiquetan clústeres jerárquicos, uno asume la existencia de una jerarquía
de clústeres de documentos. La tarea es asignar un buen descriptor a cada nodo
clúster en la jerarquía. Los más comunes descriptores de clúster son o etiquetas
concisas, o listas de términos y frases. Por ejemplo, un clúster de documentos
sobre procesamiento de lenguaje natural puede ser descrito por la etiqueta
“procesamiento de lenguaje natural” o la lista de términos “etiqueta, texto,
lingüista, léxico, cuerpo, etiquetador, palabra, sintaxis, gramática.” Una lista de
términos es frecuentemente menos útil que una simple etiqueta de categoría, porque
requiere que el usuario infiera el concepto implicado por los términos. Sin
embargo, una lista de términos es la opción más común para etiquetar
automáticamente clústeres porque falla airosamente; una persona puede
frecuentemente inferir la descripción general incluso cuando un poco de términos
seleccionados son pobres opciones. Ha habido acercamientos a identificar etiquetas
de clúster desde distribución de palabras en la jerarquía. Popescul propuso usar la
prueba estadística χ2 para detector diferencia en la distribución de palabras a
través de la jerarquía. En cada nodo clúster en la jerarquía, empezando desde la
raíz, la prueba χ2 es usada para detectar un conjunto de palabras que es igualmente
probable de ocurrir en alguno de los sub-clústeres del nodo actual. Esas palabras
son consideradas términos no descriptivos para cada sub-clúster del nodo actual, y
por tanto son removidas de cada sub-clúster. Después de que la prueba χ2 es usada
para remover palabras no descriptivas de cada nodo clúster, el algoritmo etiqueta
cada clúster con la lista de las restantes palabras en ese nodo ranqueadas por la
frecuencia de la palabra.

Enlaces externos
Hierarchical Clustering
Automatically Labeling Hierarchical Clusters

Referencias
^ Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. Introduction to
Information Retrieval. Cambridge: Cambridge UP, 2008. Cluster Labeling. Stanford
Natural Language Processing Group. Web. 25 Nov. 2009. <http://nlp.stanford.edu/IR-
book/html/htmledition/cluster-labeling-1.html>.
^ Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. Introduction to
Information Retrieval. Cambridge: Cambridge UP, 2008. Mutual Information. Stanford
Natural Language Processing Group. Web. 25 Nov. 2009. <http://nlp.stanford.edu/IR-
book/html/htmledition/mutual-information-1.html>.
^ Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. Introduction to
Information Retrieval. Cambridge: Cambridge UP, 2008. Chi2 Feature Selection.
Stanford Natural Language Processing Group. Web. 25 Nov. 2009.
<http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-
selection-1.html>.
^ David Carmel, Haggai Roitman, Naama Zwerdling. Enhancing cluster labeling using
Wikipedia. SIGIR 2009: 139-146
Control de autoridades
Proyectos WikimediaWd Datos: Q1096936IdentificadoresMicrosoft Academic: 2777273560
Manning, Christopher D. (2007). An Introduction to Information Retrieval. Cambridge
University Press.
Menú de navegación
No has accedido
Discusión
Contribuciones
Crear una cuenta
Acceder
ArtículoDiscusión
LeerEditarVer historial
Buscar
Buscar en Wikipedia
Portada
Portal de la comunidad
Actualidad
Cambios recientes
Páginas nuevas
Página aleatoria
Ayuda
Donaciones
Notificar un error
Herramientas
Lo que enlaza aquí
Cambios en enlazadas
Subir archivo
Páginas especiales
Enlace permanente
Información de la página
Citar esta página
Elemento de Wikidata
Imprimir/exportar
Crear un libro
Descargar como PDF
Versión para imprimir
En otros idiomas
English
Editar enlaces
Esta página se editó por última vez el 22 jul 2021 a las 22:25.
El texto está disponible bajo la Licencia Creative Commons Atribución Compartir
Igual 3.0; pueden aplicarse cláusulas adicionales. Al usar este sitio, usted acepta
nuestros términos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una
organización sin ánimo de lucro.
Política de privacidadAcerca de WikipediaLimitación de responsabilidadVersión para
móvilesDesarrolladoresEstadísticasDeclaración de cookiesWikimedia FoundationPowered
by MediaWiki

También podría gustarte