Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El procedimiento del modelo de espacio vectorial se puede dividir en tres etapas. La primera
etapa es la indexación de documentos donde los términos que contienen contenido se
extraen del texto del documento. La segunda etapa es la ponderación de los términos
indexados para mejorar la recuperación de documentos relevantes para el usuario. La última
etapa clasifica el documento con respecto a la consulta según una medida de similitud.
Muchas de las palabras en un documento no describen el contenido, como los artículos y las
preposiciones. Al utilizar la indexación automática de documentos, las palabras no
significativas se eliminan del vector de documento, por lo que el documento solo se
representará por palabras que contengan contenido representativo. Esta indexación puede
basarse en la frecuencia de los términos, donde los términos que tienen tanto alta como baja
frecuencia dentro de un documento se consideran palabras funcionales. En la práctica, la
frecuencia de los términos ha sido difícil de implementar en la indexación automática. En su
lugar, el uso de una lista de detención que contiene palabras comunes para eliminar palabras
de alta frecuencia (stopwords) hace que el método de indexación sea dependiente del
idioma. En general, el 40-50% del número total de palabras en un documento se elimina con
la ayuda de una lista de detención.
2.-Ponderación de Términos
[1] http://cogsys.imm.dtu.dk/thor/projects/multimedia/textmining/node5.html