Está en la página 1de 2

MODELO DE ESPACIO VECTORIAL

La representación de un conjunto de documentos como vectores en un espacio común se


conoce como el modelo de espacio vectorial y es fundamental para una serie de operaciones
de recuperación de información, desde la puntuación de documentos en una consulta, así
como su clasificación y agrupamiento

El modelo de espacio vectorial (MEV) posibilita determinar la importancia de un termino en


un documento especifico y entiende que los documentos pueden expresarse en función de
unos vectores que recogen la frecuencia de aparición de los términos en los documentos.
Los términos que forman esa matriz serían términos no vacíos, es decir, dotados de algún
significado a la hora de recuperar información y por otro lado, estarían almacenados en
formato “stemmed” (reducidos los términos a una raíz común)

El procedimiento del modelo de espacio vectorial se puede dividir en tres etapas. La primera
etapa es la indexación de documentos donde los términos que contienen contenido se
extraen del texto del documento. La segunda etapa es la ponderación de los términos
indexados para mejorar la recuperación de documentos relevantes para el usuario. La última
etapa clasifica el documento con respecto a la consulta según una medida de similitud.

1.- Indexación de documentos

Muchas de las palabras en un documento no describen el contenido, como los artículos y las
preposiciones. Al utilizar la indexación automática de documentos, las palabras no
significativas se eliminan del vector de documento, por lo que el documento solo se
representará por palabras que contengan contenido representativo. Esta indexación puede
basarse en la frecuencia de los términos, donde los términos que tienen tanto alta como baja
frecuencia dentro de un documento se consideran palabras funcionales. En la práctica, la
frecuencia de los términos ha sido difícil de implementar en la indexación automática. En su
lugar, el uso de una lista de detención que contiene palabras comunes para eliminar palabras
de alta frecuencia (stopwords) hace que el método de indexación sea dependiente del
idioma. En general, el 40-50% del número total de palabras en un documento se elimina con
la ayuda de una lista de detención.

2.-Ponderación de Términos

La ponderación temporal se explica mediante el control de la exhaustividad y la especificidad


de la búsqueda, donde la exhaustividad está relacionada con el recuerdo y la especificidad
con la precisión. El término ponderación para el modelo de espacio vectorial se basa
completamente en estadísticas de un solo término. Hay tres factores principales para la
ponderación del término: factor de frecuencia del término, factor de frecuencia de
recopilación y factor de normalización de longitud. Estos tres factores se multiplican juntos
para obtener el peso del término resultante.

Un esquema de ponderación común para términos dentro de un documento es usar la


frecuencia de ocurrencia. El término frecuencia es algo descriptivo de contenido para los
documentos y generalmente se usa como base de un vector de documento ponderado.
También es posible utilizar un vector de documento binario, pero los resultados no han sido
tan buenos en comparación con la frecuencia de los términos cuando se usa el modelo de
espacio vectorial.

Se utilizan varios esquemas de ponderación para discriminar un documento del otro. En


general, este factor se denomina documento de frecuencia de recopilación. La mayoría de
ellos, suponen que la importancia de un término es proporcional al número de documento en
que aparece. Experimentalmente se ha demostrado que estos factores de discriminación del
documento conducen a una recuperación más efectiva, es decir, una mejora en la precisión y
la recuperación.

3.- Coeficientes de similitud

La similitud en los modelos de espacio vectorial se determina mediante el uso de coeficientes


asociativos basados en el producto interno del vector de documento y el vector de consulta,
donde la superposición de palabras indica similitud. El producto interno generalmente está
normalizado. La medida de similitud más popular es el coeficiente del coseno, que mide el
ángulo entre un vector de documento y el vector de consulta.

[1] http://cogsys.imm.dtu.dk/thor/projects/multimedia/textmining/node5.html

También podría gustarte