Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lucene 11
Lucene 11
Apndices tcnicos
en
los
sistemas
de
clasificacin,
se
basan
en
criterios
97
TOMO I
Apndices tcnicos
Consulta del
usuario
Documentos de
texto
Anlisis
Anlisis
Representacin
de Documentos
Representacin
de consulta
Clculo de
similitud
Documentos
recuperados
98
TOMO I
Apndices tcnicos
la obtencin de una
99
TOMO I
Apndices tcnicos
2. LUCENE
2.1. INTRODUCCIN
Lucene es una novedosa herramienta que permite tanto la indexacin
cmo la bsqueda de documentos. Creada bajo una metodologa orientada a
objetos e implementada completamente en Java, no se trata de una aplicacin
que pueda ser descargada, instalada y ejecutada sino de una API flexible, muy
potente y realmente fcil de utilizar, a travs de la cual se pueden aadir, con
pocos esfuerzos de programacin, capacidades de indexacin y bsqueda a
cualquier sistema que se est desarrollando.
100
TOMO I
Apndices tcnicos
2.2. CARACTERSTICAS
A continuacin se detallan algunas caractersticas que hacen de Lucene
una herramienta flexible y adaptable:
Indexacin incremental vs indexacin por lotes.
El trmino de indexacin por lotes se utiliza para referirse a aquellos
procesos de indexacin, en los cuales, una vez que ha sido creado el ndice para
un conjunto de documentos, el intentar aadir algunos documentos nuevos es
una tarea difcil por lo que se opta por reindexar todos los documentos de
nuevo. Sin embargo en la indexacin incremental se pueden aadir documentos
a un ndice ya creado con anterioridad de forma fcil. Lucene soporta ambos
tipos de indexacin.
Origen de datos.
Muchas herramientas de indexacin slo permiten indexar ficheros o
pginas web, lo que supone un serio inconveniente cuando se tiene que indexar
contenido almacenado en una base de datos. Lucene permite indexar tanto
101
TOMO I
Apndices tcnicos
Tcnica de indexacin.
Existen palabras tales como a, unos, el, la etc.
que
aaden poco
102
TOMO I
Apndices tcnicos
103
TOMO I
Apndices tcnicos
104
TOMO I
Apndices tcnicos
llevar
cabo
esta
operacin.
Para
cada
uno
de
los
105
TOMO I
Apndices tcnicos
A la hora de crear un objeto Field, tenemos que tener en cuenta una serie
de importantes consideraciones, ya que algunas de las decisiones que se tomen
en este punto afectarn en los posteriores procesos de bsqueda sobre el ndice.
Cuando creamos un objeto Field, aparte del nombre de dicho campo y de su
valor, debemos proporcionar tres valores booleanos adicionales que indican lo
siguiente:
106
TOMO I
Apndices tcnicos
Una vez construido el documento con los campos deseados, ste se aade
al ndice a travs del mtodo addDocument de IndexWriter. Esta clase ya ha
sido comentada para la operacin de creacin del ndice, pero en este caso se
utiliza para la manipulacin de uno ya creado. Cuando queremos abrir un
ndice para aadir documentos, al constructor de IndexWriter le pasamos el
nombre de dicho ndice, un objeto Analizer, y un valor booleano establecido a
false, para indicar que no estamos creando un ndice sino abriendo uno ya
existente.
107
TOMO I
Apndices tcnicos
108
TOMO I
Apndices tcnicos
por
sus
subclases,
como
por
ejemplo,
IndexSearcher,
109
TOMO I
Apndices tcnicos
Un trmino, indicando todos los documentos que contienen a
dicho trmino, o
Una Query anidada, encerrada entre parntesis.
110