Está en la página 1de 23

Clasicacin Automtica de Documentos

Carlos G. Figuerola, Jos Luis Alonso Berrocal, Angel F. Zazo


Universidad de Salamanca
Grupo REINA
http://reina.usal.es

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

1 / 23

Clasicacin Automtica de Documentos


Dos cosas diferentes:

Clasicacin Supervisada
tambin conocida como categorizacin
parte de la existencia de un conjunto de clases pre-establecidas
el objetivo es colocar cada documento en la clase que le corresponda

Clasicacion no supervisada
tambin llamada clustering
no hay clases preestablecidas
el propio sistema establece las clases o clusters de forma totalmente
automtica

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

2 / 23

Clasicacin Supervisada
se parte de un conjunto de clases diseadas por personas previamente
el sistema debe asignar cada documento a la clase que le corresponda

Aplicaciones:

ltrado de documentos
routing o DSI
recuperacin mediante browsing
asignacin automtica de descriptores, encabezamientos de materias o
similares

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

3 / 23

Clasicacin Supervisada
La mayora de los algoritmos parten la elaboracin de un modelo o
patrn para cada clase
Esta fase se conoce como entrenamiento
Necesita una coleccin de documentos ya clasicada manualmente
(coleccin de entrenamiento)
Requiere intervencin humana para la clasicacin de la coleccin de
entrenamiento y para la revisin y renamiento de resultado

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

4 / 23

Clasicacin Supervisada. Entrenamiento

Podemos verlo como la elaboracin de un centroide para cada clase.

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

5 / 23

Clasicacin Supervisada
El proceso de clasicacin consiste en estimar la similitud entre el
documento a clasicar y cada uno de los centroides
Sistemas que asignan cada documento a una sola clase
Sistemas que asignan un documento a varias clases
En sistemas con asignacin de clase nica el centroide ms similar indica a
qu clase hay que asignar el documento
En sistemas con asignacin de clases mltiples un umbral de similitud
indica a qu clases hay que asignar el documento

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

6 / 23

Clasicacin Supervisada

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

7 / 23

Clasicacin Supervisada. Algoritmos

Naive Bayes
Rocchio
Vecino ms prximo
Knn

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

8 / 23

Clasicacin Supervisada. Naive Bayes

Naive Bayes
tiene una base probabilstica
calcula la probabilidad de que un documento encaje en una clase a
partir de la probabilidad de que documentos que contengan
determinados trminos pertenezcan a esa clase
estas probabilidades de los trminos se estiman mediante los trminos
que aparecen en los documentos de entrenamiento
en la prctica considera solamente pesos binarios de esos trminos
es rpido y fcil de implementar
es ecaz

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

9 / 23

Clasicacin Supervisada. Rocchio

Algoritmo de Rocchio
se basa en las mismas ideas utilizadas en la realimentacin por
relevancia
se contruyen vectores que tratan de representar cada clase a partir de
los documentos de entrenamiento
para el vector de cada clase:
los documentos de entrenamiento de esa clase se usan como ejemplos
positivos
los documentos de entrenamiento de las dems clases se usan como
ejemplos negativos

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

10 / 23

Clasicacin Supervisada. Rocchio

Algoritmo de Rocchio
el vector representativo de una clase se construye sumando los pesos
de los trminos de los ejemplos positivos
de l se restan los pesos de los trminos de los ejemplos negativos
aplicando coecientes multiplicadores, es posible dar ms o menos
importancia a los ejemplos positivos o a los negativos
el resultado es un vector de trminos con pesos como el utilizado en el
modelo vectorial
para clasicar un nuevo documento, no hay ms que estimar la
similitud entre el vector de ese documento y los vectores de cada una
de las clases

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

11 / 23

Clasicacin Supervisada. Rocchio

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

12 / 23

Clasicacin Supervisada. Vecino Ms Prximo y KNN

Vecino ms prximo y Knn


la coleccin de entrenamiento se indiza mediante cualquier motor de
recuperacin
cuando se desea clasicar un nuevo documento, ste se utiliza como
una consulta en ese motor de recuperacin
la consulta se ejecuta contra la coleccin de entrenamiento. El
documento considerado como ms relevante nos indica la clase a la
que debe pertenecer el documento a clasicar
la variante K-nn consiste en considerar los K primeros documentos
ms relevantes en lugar del primero slo

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

13 / 23

Clasicacin Supervisada. Vecino Ms Prximo y KNN

Vecino ms prximo y Knn

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

14 / 23

Clasicacin Supervisada. Casos prcticos

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

15 / 23

Clasicacin No Supervisada. Clustering

aunque la teora se formula en aos 70, las aplicaciones reales datan


de la segunda mitad de los 90
Usos del clustering:
visualizacin de colecciones documentales
recuperacin de documentos anes
navegacin por colecciones documentales
desambiguacin de resultados de bsquedas convencionales

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

16 / 23

Clustering

agrupacin de documentos en clusters sin intervencin humana


los grupos o clusters deben maximizar cohesin externa
los clusters deben maximizar separacin externa

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

17 / 23

Clustering

Tipos de clustering
Segn diversos criterios:
clusters planos vs. jerrquicos
clusters duros vs. fuzzy
clustering incremental vs. no incremental
basados en redes neuronales
basados en teora de grafos

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

18 / 23

Clustering

Proceso general
Varias fases:
representacin de documentos
construccin de matriz de similitud
diversos algoritmos de clustering

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

19 / 23

Clustering

Representacin de documentos y mtricas


requiere algn sistema que permita estimar entre documentos

la distancia (euclidiana, Manhatan)


la similitud o asociacin: Coseno, coecientes de Dice, Jacqard

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

20 / 23

Clustering
Representacin de documentos y mtricas
requiere algn sistema que permita estimar entre
un documento y un cluster
single link:
la similitud mxima entre el documento y cada uno de los integrantes
del cluster
full link:
la similitud mnima entre el documento y cada uno de los integrantes
del cluster
average link:
la media de las similitudes entre documento y cada uno del cluster

dos clusters
single link:
la similitud mxima entre todos los pares posibles de documentos
full link:
la similitud mxima entre todos los pares posibles de documentos
average link:
la media de las similitudes entre todos los pares posibles

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

21 / 23

Clustering

Clusters Planos: algoritmo de paso nico


tomar el primer documento e iniciar con l un cluster
aadir a ese cluster todos los dems documentos similares al primero
tomar el siguiente documento de los restantes y aadirlo al cluster si
es similar a l
en caso contrario, inciar un nuevo cluster con l; aadir a ese cluster
los documentos restantes similares
proceder de la misma forma hasta que no haya ms documentos

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

22 / 23

Clustering

Clusters Planos: algoritmo k-means

Carlos G. Figuerola (Grupo REINA)

Clasicacin Automtica

23 / 23

También podría gustarte