Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clasificacion
Clasificacion
Clasicacin Automtica
1 / 23
Clasicacin Supervisada
tambin conocida como categorizacin
parte de la existencia de un conjunto de clases pre-establecidas
el objetivo es colocar cada documento en la clase que le corresponda
Clasicacion no supervisada
tambin llamada clustering
no hay clases preestablecidas
el propio sistema establece las clases o clusters de forma totalmente
automtica
Clasicacin Automtica
2 / 23
Clasicacin Supervisada
se parte de un conjunto de clases diseadas por personas previamente
el sistema debe asignar cada documento a la clase que le corresponda
Aplicaciones:
ltrado de documentos
routing o DSI
recuperacin mediante browsing
asignacin automtica de descriptores, encabezamientos de materias o
similares
Clasicacin Automtica
3 / 23
Clasicacin Supervisada
La mayora de los algoritmos parten la elaboracin de un modelo o
patrn para cada clase
Esta fase se conoce como entrenamiento
Necesita una coleccin de documentos ya clasicada manualmente
(coleccin de entrenamiento)
Requiere intervencin humana para la clasicacin de la coleccin de
entrenamiento y para la revisin y renamiento de resultado
Clasicacin Automtica
4 / 23
Clasicacin Automtica
5 / 23
Clasicacin Supervisada
El proceso de clasicacin consiste en estimar la similitud entre el
documento a clasicar y cada uno de los centroides
Sistemas que asignan cada documento a una sola clase
Sistemas que asignan un documento a varias clases
En sistemas con asignacin de clase nica el centroide ms similar indica a
qu clase hay que asignar el documento
En sistemas con asignacin de clases mltiples un umbral de similitud
indica a qu clases hay que asignar el documento
Clasicacin Automtica
6 / 23
Clasicacin Supervisada
Clasicacin Automtica
7 / 23
Naive Bayes
Rocchio
Vecino ms prximo
Knn
Clasicacin Automtica
8 / 23
Naive Bayes
tiene una base probabilstica
calcula la probabilidad de que un documento encaje en una clase a
partir de la probabilidad de que documentos que contengan
determinados trminos pertenezcan a esa clase
estas probabilidades de los trminos se estiman mediante los trminos
que aparecen en los documentos de entrenamiento
en la prctica considera solamente pesos binarios de esos trminos
es rpido y fcil de implementar
es ecaz
Clasicacin Automtica
9 / 23
Algoritmo de Rocchio
se basa en las mismas ideas utilizadas en la realimentacin por
relevancia
se contruyen vectores que tratan de representar cada clase a partir de
los documentos de entrenamiento
para el vector de cada clase:
los documentos de entrenamiento de esa clase se usan como ejemplos
positivos
los documentos de entrenamiento de las dems clases se usan como
ejemplos negativos
Clasicacin Automtica
10 / 23
Algoritmo de Rocchio
el vector representativo de una clase se construye sumando los pesos
de los trminos de los ejemplos positivos
de l se restan los pesos de los trminos de los ejemplos negativos
aplicando coecientes multiplicadores, es posible dar ms o menos
importancia a los ejemplos positivos o a los negativos
el resultado es un vector de trminos con pesos como el utilizado en el
modelo vectorial
para clasicar un nuevo documento, no hay ms que estimar la
similitud entre el vector de ese documento y los vectores de cada una
de las clases
Clasicacin Automtica
11 / 23
Clasicacin Automtica
12 / 23
Clasicacin Automtica
13 / 23
Clasicacin Automtica
14 / 23
Clasicacin Automtica
15 / 23
Clasicacin Automtica
16 / 23
Clustering
Clasicacin Automtica
17 / 23
Clustering
Tipos de clustering
Segn diversos criterios:
clusters planos vs. jerrquicos
clusters duros vs. fuzzy
clustering incremental vs. no incremental
basados en redes neuronales
basados en teora de grafos
Clasicacin Automtica
18 / 23
Clustering
Proceso general
Varias fases:
representacin de documentos
construccin de matriz de similitud
diversos algoritmos de clustering
Clasicacin Automtica
19 / 23
Clustering
Clasicacin Automtica
20 / 23
Clustering
Representacin de documentos y mtricas
requiere algn sistema que permita estimar entre
un documento y un cluster
single link:
la similitud mxima entre el documento y cada uno de los integrantes
del cluster
full link:
la similitud mnima entre el documento y cada uno de los integrantes
del cluster
average link:
la media de las similitudes entre documento y cada uno del cluster
dos clusters
single link:
la similitud mxima entre todos los pares posibles de documentos
full link:
la similitud mxima entre todos los pares posibles de documentos
average link:
la media de las similitudes entre todos los pares posibles
Clasicacin Automtica
21 / 23
Clustering
Clasicacin Automtica
22 / 23
Clustering
Clasicacin Automtica
23 / 23