Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ir a la navegaciónIr a la búsqueda
Este artículo o sección sobre informática necesita ser wikificado, por favor,
edítalo para que cumpla con las convenciones de estilo.
Este aviso fue puesto el 17 de diciembre de 2012.
El Etiquetado de Clúster está estrechamente relacionado con el agrupamiento de
documentos. Este proceso intenta seleccionar etiquetas descriptivas para los grupos
obtenidos a través de un algoritmo de clúster ya sea de Particionado de Clúster o
Clúster Jerárquico. Por ejemplo, un grupo de documentos que hablen sobre varios
protocolos de internet puede ser etiquetado como Protocolos de Internet.
Generalmente las etiquetas se obtienen producto de analizar el contenido de los
documentos pertenecientes al clúster. Una buena etiqueta no solo resume la idea
central de los documentos agrupados sino que los diferencia de los otros clústeres.
Índice
1 Etiquetado Diferencial de Clúster
1.1 Algoritmo General
1.2 Información Mutua
1.3 Selección X2 o Chi-cuadrado
2 Etiquetado interno de clúster
2.1 Etiquetado de Centroides
2.2 Etiquetado de Títulos
2.3 Etiquetado de Conocimiento Externo
2.4 Etiquetado Jerárquico de Clúster
3 Enlaces externos
4 Referencias
Etiquetado Diferencial de Clúster
Selecciona las etiquetas de un clúster mediante la comparación de los términos en
un clúster con los términos que aparecen en otros clúster. Las técnicas utilizadas
para la selección de características (feature selection) en recuperación de
información también se puede aplicar al etiquetado diferencial de clúster, las más
utilizadas son información mutua y chi-cuadrado. Términos que tienen baja
frecuencia no son los mejores en la representación de todo el conjunto y se pueden
omitir en el etiquetado de un clúster. Al omitir los términos poco usuales y usando
una prueba diferencial, se pueden obtener mejores resultados en el etiquetado de
clústeres
Algoritmo General
De manera general los algoritmos basados en Etiquetado Diferencial de Clúster
siguen un patrón común que se basa en la selección de los k términos más útiles de
un clúster como etiqueta para este. Señalar aquí que la definición de más útiles es
la que hace particular un algoritmo respecto a otro. En el algoritmo general se
define A(t,c) como la medida de utilidad del término t para la clase c.
SelectTerms(C,k);
V ⃪ExtractTerms(C);
L ⃪[];
foreach t ϵ V do
A(t,c) ⃪ComputeUtility(t,c);
Append(L,< A(t,c),t >);
end
return TermsWithLargestValues(L,k);
Este algoritmo calcula una medida de utilidad A(t,C) para cada término t en el
clúster C y selecciona los k términos del clúster que tienen los valores más altos
de medida de utilidad A(t,C), todos los demás términos son descartados para
seleccionar la etiqueta de C. Precisamente los algoritmos información mutua y chi-
cuadrado test son variantes para calcular la utilidad A(t,c) de un término a un
clúster
Información Mutua
En el campo de las probabilidades la información mutua da una medida del grado de
dependencia entre dos variables aleatorias. La información mutua de dos variables X
y Y está definida como:
Etiquetado de Centroides
Un modelo frecuentemente usado en el campo de la Recuperación de información es el
modelo de espacio vectorial, el cual representa documentos como vectores. Las
entradas en el vector corresponden a términos en el vocabulario. Los vectores
binarios tienen valores de 1 si el término está presente dentro de un documento
particular y 0 si está ausente. Muchos vectores hacen uso de pesos que reflejan la
importancia de un término en una colección de documentos. Para un particular
clúster de documentos, podemos calcular el centroide mediante encontrar la media
aritmética de todos los vectores de documentos. Si una entrada en el vector
centroide tiene un valor alto, entonces el término correspondiente ocurre
frecuentemente dentro del clúster. Una desventaja de usar Etiquetado de Centroides
(Centroid labeling) es que él puede escoger palabras como "place" y "word" que
tienen una alta frecuencia en un texto escrito, pero también poca relevancia para
los contenidos de un clúster particular.
Etiquetado de Títulos
Una alternativa para Etiquetado de Centroides es Etiquetado de Títulos (Title
Labeling). Aquí, encontramos el documento dentro del clúster que tiene la distancia
Euclidiana más pequeña hasta el centroide, y usamos su título como etiqueta para el
clúster. Una desventaja al usar los títulos de los documentos es que ellos proveen
información adicional que no estaría presente en una lista de términos. Sin
embargo, ellos además tienen el potencial para desencaminar al usuario, ya que un
documento podría ser no representativo de todo el clúster.
Etiquetado de Conocimiento Externo
El etiquetado de clústeres puede ser hecho indirectamente usando conocimiento
externo (external knowledge) tal como conocimiento pre-categorizado. En tales
métodos, un conjunto de importantes características textuales del clúster son
primero extraídas del clúster de documentos. Estas características pueden ser
usadas para recuperar los (pesados) K-mas_cercanos documentos categorizados de los
cuales pueden ser extraídas los candidatos para etiquetas de clúster. El paso final
envuelve el ranking de dichos candidatos. Métodos convenientes son aquellos que
están basados en un proceso de votado o de fusión el cual es determinado usando el
conjunto de documentos categorizados y las características originales del clúster.
Enlaces externos
Hierarchical Clustering
Automatically Labeling Hierarchical Clusters
Referencias
^ Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. Introduction to
Information Retrieval. Cambridge: Cambridge UP, 2008. Cluster Labeling. Stanford
Natural Language Processing Group. Web. 25 Nov. 2009. <http://nlp.stanford.edu/IR-
book/html/htmledition/cluster-labeling-1.html>.
^ Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. Introduction to
Information Retrieval. Cambridge: Cambridge UP, 2008. Mutual Information. Stanford
Natural Language Processing Group. Web. 25 Nov. 2009. <http://nlp.stanford.edu/IR-
book/html/htmledition/mutual-information-1.html>.
^ Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. Introduction to
Information Retrieval. Cambridge: Cambridge UP, 2008. Chi2 Feature Selection.
Stanford Natural Language Processing Group. Web. 25 Nov. 2009.
<http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-
selection-1.html>.
^ David Carmel, Haggai Roitman, Naama Zwerdling. Enhancing cluster labeling using
Wikipedia. SIGIR 2009: 139-146
Control de autoridades
Proyectos WikimediaWd Datos: Q1096936IdentificadoresMicrosoft Academic: 2777273560
Manning, Christopher D. (2007). An Introduction to Information Retrieval. Cambridge
University Press.
Menú de navegación
No has accedido
Discusión
Contribuciones
Crear una cuenta
Acceder
ArtículoDiscusión
LeerEditarVer historial
Buscar
Buscar en Wikipedia
Portada
Portal de la comunidad
Actualidad
Cambios recientes
Páginas nuevas
Página aleatoria
Ayuda
Donaciones
Notificar un error
Herramientas
Lo que enlaza aquí
Cambios en enlazadas
Subir archivo
Páginas especiales
Enlace permanente
Información de la página
Citar esta página
Elemento de Wikidata
Imprimir/exportar
Crear un libro
Descargar como PDF
Versión para imprimir
En otros idiomas
English
Editar enlaces
Esta página se editó por última vez el 22 jul 2021 a las 22:25.
El texto está disponible bajo la Licencia Creative Commons Atribución Compartir
Igual 3.0; pueden aplicarse cláusulas adicionales. Al usar este sitio, usted acepta
nuestros términos de uso y nuestra política de privacidad.
Wikipedia® es una marca registrada de la Fundación Wikimedia, Inc., una
organización sin ánimo de lucro.
Política de privacidadAcerca de WikipediaLimitación de responsabilidadVersión para
móvilesDesarrolladoresEstadísticasDeclaración de cookiesWikimedia FoundationPowered
by MediaWiki