Está en la página 1de 33

1

FUNDAMENTOS DE LA BSQUEDA Y OBTENCIN DE


INFORMACIN
rea de Documentacin. Facultad de Comunicacin - Univ. Pompeu Fabra
Prof. Llus Codina, Cristfol Rovira, Rafael Pedraza
ltima actualizacin: Enero 2013


0. Introduccin
La bsqueda de informacin es una de las actividades vitales del ser humano. No es
una actividad vinculada exclusivamente con Internet y ni siquiera es una actividad nueva. Es
tan antigua como la Humanidad. Lo que marca la diferencia con nuestro tiempo es la sper
abundancia de informacin, pero cuanta mayor oferta de informacin existe, ms necesarios
son los sistemas eficientes de bsqueda.
Como se argumentar ms adelante, existen adems determinados colectivos profesionales
que necesitan de manera muy especfica y muy intensa el uso de la bsqueda, entre los que
destacan los profesionales de la comunicacin social.
Lo cierto es que, actualmente disponemos tambin de una oferta realmente exuberante de
ellos, formando as un autntico ecosistema, con diferentes nichos y relaciones entre los
mismos.

1. LA BSQUEDA COMO SECTOR ECONMICO Y SOCIAL
La bsqueda, adems de ser una actividad y un campo de estudios, como estamos sealando,
es tambin un sector econmico (el cual a su vez est generando su propio campo de estudio,
la economa de la bsqueda).
Una actividad que practica a diario ms del noventa por ciento de los ciudadanos que
poseen una conexin a Internet, no poda escapar a la dimensin econmica. El sector ms
conocido es el de los buscadores de pgina web como Google o Yahoo, quienes obtienen sus
ingresos principalmente de la publicidad, procedente a su vez de la enorme audiencia que
acaparan las pginas de resultados de los buscadores. Pero hay otros modelos econmicos,
principalmente la suscripcin o el pago por acceso a la informacin. En este captulo,
consideraremos que los principales sectores de la bsqueda son los siguientes:
1. Motores de bsqueda
2. Bases de datos profesionales y acadmicas
3. Bancos de imgenes y vdeo
Ya hemos sealado que los motores de bsqueda generan actividad econmica alrededor
de la publicidad. Los otros dos sectores generan actividad econmica a travs de la venta de
informaciones: documentos, imgenes y vdeos. Todos ellos deben servir a distintos colectivos
de usuarios con diferentes necesidades de informacin, pero todos los sistemas de bsqueda
estn obligados a buscar la eficiencia y satisfacer de la forma ms adecuada las necesidades de
sus usuarios, so pena de perderlos, y con ellos, de perder su fuente de ingresos.
La eficiencia en los sistemas de informacin de cada uno de estos sectores depende
estrechamente de la adecuada comprensin de lo que aqu denominaremos el tringulo
informacional, el cual, a su vez se compone de:
1. Tipo de coleccin, es decir la clase de documentos que forman parte del sistema de
informacin. Las caractersticas de la coleccin incluyen aspectos como: mbito
temtico, formato, gnero, etc.
2. Usuarios. Los usuarios de cada sistema difieren muchsimo entre s. Las diferencias
vienen marcadas por demografa, formacin, intereses, puntos de vista, objetivos,
cultura, visin, etc.
3. Necesidades de informacin. Los colectivos de usuarios tienen tambin diferentes
necesidades de informacin. Un profesional del derecho, un profesional de la
comunicacin social o un acadmico de medicina o de la comunicacin social tienen
necesidades de informacin distintas no solamente en el sentido trivial de que
trabajan en mbitos distintos, sino en el sentido mucho ms profundo de que
necesitan interfaces de bsqueda con opciones especficas y formatos de presentacin
de resultados especficos.
Lo ms importante es que una adecuada comprensin de los tres elementos anteriores
debe manifestarse en las caractersticas que presentan los componentes bsicos de todo
sistema de informacin:
1. Formularios de bsqueda
2. Pgina de resultados
3. Modelo de registro.
Existe otra dimensin econmica y social del sector de la bsqueda que va ms all de
las cuentas de resultados de las empresas, y se refiere al efecto general que tiene en la buena
marcha de la economa de una nacin el hecho de que sus profesionales y acadmicos puedan
disfrutar (o no) de una buena infraestructura de sistemas de informacin.
Por ltimo cabe considerar que en los diversos sectores de la bsqueda como los que
consideraremos aqu es donde, en realidad, tiene la RI su mejor mbito de aplicacin (y el ms
exigente a la vez). Son sectores reales, por tanto, nada que ver con las situaciones de
laboratorio que a menudo se utilizan tanto en la RI ms experimental. Deben proporcionar
soluciones integrales a usuarios reales en el seno de empresas y actividades econmicas y
sociales reales, o sea.
En resumen: en los sectores de la bsqueda real como los que examinaremos a
continuacin, adems de buena algortmica se requieren maneras adecuadas de representar la
informacin, as como adecuadas interfaces de usuario, tanto para formular preguntas como
para presentar los resultados; pero para esto se requiere a la vez conocer las caractersticas de
sus necesidades de informacin. En lo que sigue, intentaremos presentar primero una visin
global de la bsqueda y despus las principales caractersticas especficas de cada sector, pero
antes necesitaremos comprender bien un aspecto que est detrs de todos y cada uno de
estos sectores: la informacin cognitiva.
2. CARACTERSTICAS GENERALES Y ESTRATEGIAS EN LA BSQUEDA DE
INFORMACIN COGNITIVA
Un aspecto muy importante de la bsqueda de informacin a los efectos que interesan
en este captulo es que, en general, tiene lugar en el contexto de la as llamada informacin
cognitiva. La segunda caracterstica es que se refiere a informacin registrada, esto es, a
documentos. Discutimos estos conceptos en los siguientes apartados.
2.1. Qu es la informacin cognitiva
Para explicar esta caracterstica es necesario tener en cuenta que, cuando hablamos de
informacin (registrada en algn soporte) podemos estar pensando indistintamente en
albarn o de una tesis doctoral, para mencionar dos extremos de una especie de continuum
imaginario de clases de informacin donde, en un extremos tenemos datos ms o menos bien
estructurados (como en un albarn o una factura) y en el otro conocimiento muy complejo
expresado en forma de discurso muy sofisticado (una tesis doctoral o un artculo de revista
cientfica), pasando por los casos ms cercanos al contexto de la comunicacin social como son
los distintos gneros de la produccin periodstica (noticias, reportajes, entrevistas, crnicas,
etc.) o la fotografa de hechos de actualidad o hechos noticiosos.
En el primer ejemplo estamos hablando de informacin administrativa, mientras que
en el segundo estamos hablando de informacin cognitiva, de verdadero conocimiento
expresado y registrado en un documento. En el primer tipo de documento (p.e. la factura) hay
algunos datos numricos o textuales que son fciles de representar en forma de tabla con
valores atmicos en cada celda (un nombre propio, una direccin, un nombre de producto,
etc). En el segundo tipo de documentos (como los de produccin periodstica), puede haber
datos factuales, pero sobre todo hay texto en forma de discurso razonado, exposicin de
teoras, razonamientos inductivos o deductivos, etc. El contenido de este segundo tipo de
documentos no puede ser reducido a una tabla con valores atmicos.
Este es uno de los motivos de que los sistemas de gestin de bases de datos
relacionales, basados en tablas con valores atmicos, no puedan gestionar bien documentos
cognitivos como los mencionados. Otros ejemplos de tales documentos son los artculos de
revistas, los informes tcnicos o cientficos de cualquier tipo, las informaciones periodsticas, la
documentacin de mantenimiento de equipos, las patentes, etc.
Hay dos caractersticas de la informacin cognitiva que hacen que necesite estrategias
especficas: en primer lugar a diferencia de las series o conjuntos de meros datos, ya sean
administrativos o de cualquier otra naturaleza la informacin cognitiva no es determinista. No
suele haber una sola respuesta a una pregunta, sino documentos e informaciones relacionados
con la pregunta, los cuales a su vez pueden generar nuevas preguntas, etc. En un sistema de
datos (de tipo determinista) la pregunta tpica consiste en obtener el valor de una variable y,
por tanto, solo puede haber una respuesta (si hubiera ms de una, tendramos un problema).
Por ejemplo, en un sistema de este tipo, si pregunto cul es la capital de Kenia, solo debo
obtener una respuesta (a saber, el nombre de la capital de Kenia, la bella ciudad de Nairobi).
En un sistema de informacin cognitiva (no determinista) una pregunta tpica es en
realidad una operacin de descubrimiento, y por tanto sin una respuesta nica. Por ejemplo, el
usuario de una base de datos acadmica puede estar interesado en encontrar estudios sobre
los mecanismos que generan inflacin en una economa y la forma de reducirla. No habr, ni
mucho menos, una respuesta compacta (como en el caso de la capital de Nairobi), sino una
lista de documentos con mayor o menor probabilidad de ser relevantes para su necesidad de
informacin.
En segundo lugar, tiene sentido acumularla y, de hecho los mejores sistemas de
informacin cognitiva son los que dan acceso a mayores colecciones de informacin
acumulada (otra cosa es que entonces necesitamos tambin las mejores opciones de filtrado y
ordenacin). Por seguir con el ejemplo, nuestro investigador que quiere estudiar los motivos
que generan inflacin en una economa se sentir feliz de saber que est consultando una base
de datos que acumula informacin retrospectiva de varios aos, y no solo los informes que se
han publicado en la ltima semana.
En cambio, lo menos probable es que el usuario interesado en conocer un dato (la
capital de Nairobi) est interesado en saber cmo ha ido evolucionando a lo largo de la
historia. Ciertamente, puede haber casos especiales, pero son exactamente esto: especiales y
no caracterizan de ninguna manera a los sistema deterministas.
De hecho, la RI, la tecnologa que est en la base de los sistemas de informacin
cognitivos es la nica que puede dar soporte a aplicaciones tan importantes como las bases de
datos cientficas o acadmicas, los buscadores de Internet, las hemerotecas y repositorios
digitales de la Web, los buscadores internos de sitios e Intranets, catlogo de bibliotecas,
portales de revistas, bases de datos de patentes, de tesis doctorales, etc. Esta clase de
sistemas de informacin cognitiva ha surgido histricamente como respuesta a las necesidades
de informacin de una amplia clase de comunidades de usuarios, que consideramos a
continuacin.
EJEMPLO 1
La tabla siguiente muestra tres ejemplos de informacin; uno administrativa y dos de
informacin cognitiva a travs de tres tipos de documentos y nos ayuda a comprender las
caractersticas de gestin de ambas de cara a su representacin y recuperacin, pero en
especial de esta ltima, que es el objeto de este captulo.
Tipo de documento Tipo de informacin Necesidades de gestin
Contrato de compra-venta Administrativa Asignar a una categora de un
cuadro de clasificacin.
No requiere palabras clave ni
descriptores. No requiere
metadatos.
Artculo de revista Cognitiva Asignar a una o varias
categoras temticas
mediante un sistema de
clasificacin.
Indizar mediante palabras
clave.
Imprescindibles metadatos
de diversos tipos.
No es imprescindible la
indexacin humana.
Reportaje fotogrfico sobre
hechos de actualidad
Cognitiva Asignar a una o varias
categoras temticas
mediante un sistema de
clasificacin.
Indizar mediante palabras
clave los elementos tanto los
elementos icnicos como los
conceptuales, tanto la
denotacin como la
connotacin.
Imprescindibles metadatos
de diversos tipos.
Es imprescindible la
indexacin humana.


2.2. La bsqueda de informacin en el ciclo de vida de un proyecto
Un rasgo comn a ciertas comunidades profesionales es que para desarrollar su
trabajo necesitan obtener informacin acadmica, cientfica o tcnica (ACT a partir de ahora).
Forman un grupo caracterstico, dentro del grupo ms amplio de profesiones
intensivas en informacin, que suele desarrollar su trabajo basndose principalmente en la
denominada informacin cognitiva (por contraste con la informacin factual, administrativa,
etc.). Una parte muy significativa de esta clase de comunidades son los profesionales de la
comunicacin social: periodistas, comunicadores, comuniclogos, etc.
Esto significa que nicamente pueden llevar a cabo su labor manejando informaciones
que estn de alguna forma certificadas o garantizadas mediante esquemas de
evaluacin comnmente aceptados (en general esquemas tipo peer review). La segunda
presin es una consecuencia lgica del primero: se espera de estos profesionales que
sean capaces de producir nuevas informaciones o nuevos conocimientos (a su vez
susceptibles de ser evaluados).
Las presiones anteriores generan necesidades paralelas. La primera consiste en
disponer de yacimientos de informacin donde poder acudir cuando necesitan nuevos
inputs de informacin de calidad para su trabajo (p.e. para una nueva investigacin). Este
acopio de informacin debe hacerse de forma continuada, y de poco servir si no se dispone
de medios para gestionarla de forma muy eficiente cada vez que debe ser (re)utilizada.
Pero la memoria humana necesita recurrir de forma sistemtica a instrumentos
auxiliares que se utilizan como memorias exosomticas. Estas informaciones, a veces
trabajosamente obtenidas, no sern memorizadas de forma indeleble sin recurrir a
herramientas de almacenamiento externas.
Aunque tendemos a retener conceptos, habilidades, teoras e ideas sin que se sepa de
ningn lmite claro para ello, en cambio no (necesariamente) tendemos a recordarlo todo a
nivel de detalle, ni a recordarlo justo en el momento en el que lo necesitamos; tampoco
acertamos siempre, ni mucho menos, en detectar las relaciones entre las informaciones
recopiladas y muchos menos los valores que asumen las variables con las que necesitamos
trabajar.
En definitiva: identificar en un momento determinado (T1) una informacin o un
conjunto de datos obtenidos a veces despus de un trabajo intenso de bsqueda en los
yacimientos a los que nos hemos referido, no garantiza que, en un momento posterior
(T2) acertemos a reutilizarlo.
Todo esto nos lleva a la segunda necesidad: sistemas para gestionar aquella
informacin valiosa que eventualmente deber actuar como input en los diferentes proyectos.
A diferencia de los yacimientos de informacin, que son de mbito social, estos sistemas han
de ser ante todo capaces de adaptarse a perfiles personales y eventualmente de grupo.
Por ltimo, los profesionales de la ATC necesitan divulgar su produccin. De nada le
sirve a un autor haber producido un gran trabajo acadmico, si no disponen de herramientas
para divulgarlo de forma eficiente en la era de la Web. De hecho, es una obligacin o una
responsabilidad legal para ciertos miembros de esta comunidad, como los profesores de
universidad, cuya carrera acadmica est ligada a su xito para divulgar su produccin
cientfica.

2.3. Componentes universales de los sistemas de bsqueda
Todo sistema de informacin documental, como indicamos en el primer apartado, se
sustenta en tres componentes:
1. Bsqueda simple y avanzada
2. Pgina de resultados
3. Modelo de registro
Ahora bien, estos tres componentes solamente tienen sentido a partir de un cuarto
componente, que en este caso es una coproduccin sistema y del usuario:
4. Ecuacin de bsqueda
2.3.1. Bsqueda simple
Habitualmente suelen presentarse por separado los formularios de bsqueda simple y
de bsqueda avanzada. La bsqueda simple, como es sabido, consiste en una caja donde
podemos entrar una o ms palabras y un botn para lanzar la bsqueda.
Respecto a la bsqueda simple, suelen considerarse una buena prctica que contemple
los cuatro aspectos siguientes:
1. El cuadro de bsqueda debe ser relativamente amplio, es decir, el usuario debera
poder ver la totalidad del texto que entra como argumento de bsqueda. La razn es
que se ha comprobado que los usuarios comenten ms errores si no pueden ver la
totalidad de los caracteres que han entrado. Como a veces hay que combinar diversos
elementos en la misma interfaz, suele ser habitual la necesidad de establecer un
compromiso. En este caso, se aconseja que admita hasta 30 caracteres, de acuerdo
con estudios de usabilidad como Nielsen y Loranger, 2006: 151)
2. El usuario debe poder utilizar indistintamente maysculas y minsculas, as como
caracteres acentuados o no. Por ejemplo, las siguientes variaciones deberan
proporcionar exactamente los mismos resultado:
camin
camion
CAMIN
CAMION
cAmiN
3. Los espacios en blanco entre palabras deben ser tratados como AND booleanos. De
este modo, una bsqueda como la siguiente: [camion trasporte] debe ser tratado
como si fuera la siguiente ecuacin booleana: [camin AND transporte] sin necesidad
de exigir conocimientos de lgica booleana al usuario de la bsqueda simple.
4. Por ltima, debe existir una indicacin clara de que hay otras opciones de bsqueda
mediante un enlace cercano a la caja de bsqueda (bsqueda avanzada).
El siguiente diagrama intenta ilustrar las recomendaciones anteriores:


Actividad 1
Intente determinar el nmero mximo de caracteres que permite el ancho del cuadro de
consultas del buscador propio del sitio web de dos medios de comunicacin de su eleccin.
Compare con el nmero mximo que permite la pgina principal de Google. Documente este
actividad con capturas de pantalla con un pie informativo.

2.3.2. Bsqueda avanzada
Por su parte, ha ido quedando bien establecido que los componentes mnimos de un
buen formulario de bsqueda avanzada, debe satisfacer los siguientes requerimientos:
1. No ser la primera opcin que se muestra al usuario. El motivo es que la bsqueda
avanzada debe reservarse a usuarios expertos o, al menos, motivados. Para usuarios
inexpertos (o no motivados), la bsqueda avanzada es intimidatoria, por un lado; y una
constante fuente de errores por otro debido a la posible (y frecuente) mala
comprensin de las opciones propias de la bsqueda avanzada.
2. Por su parte, los componentes habituales suelen ser:
a. Bsquedas parametrizadas: es decir, bsquedas por campos, por secciones o
categoras, por tipo de documento, etc.
b. Bsquedas con operadores lgicos: operadores AND, OR, NOT (ver ms
adelante el apartado dedicado a los operadores booleanos)
c. Bsqueda por frase: aplica un AND, reforzado con la exigencia de que no haya
ninguna palabra entre los trminos de bsqueda y que el orden sea el mismo
que la frase de bsqueda. Suele utilizarse la convencin de entrecomillar los
trminos de la frase. No obstante se considera una buena prctica presentar la
opcin de forma explcita en el formulario
d. Bsquedas de proximidad: suele utilizarse el operador NEAR entre dos
trminos de bsqueda para especificar el nmero mximo de palabras entre
ambos trminos.
e. Bsquedas combinadas: booleanas + parmetricas, por ejemplo.
f. Bsqueda por ndices: autores, ttulos, etc.
3. Opcin de ayuda. Debe haber una pgina de ayuda con informacin, consejos y
ejemplos de bsqueda
Opcionalmente, algunos sistemas permiten la bsqueda por tesauros o algn otro tipo de
lenguaje documental: clasificaciones, taxonomas, etc. En todo caso, cabe tener presente que
no todas las bsquedas avanzadas incluyen a la vez todas las opciones, en especial las opciones
2a a 2d., sino que pueden incluir alguna combinacin de dos o de tres de las opciones,
tpicamente, 2a + 2b, o 2a + 2b + 2d, etc.
Actividad 2
Compare las opciones de la bsqueda avanzada de libros de Google Books
(http://books.google.es/advanced_book_search?hl=es) y de WorlCat
(http://www.worldcat.org/advancedsearch). Haga alguna prueba usando palabras clave de
algn tema de su inters. Documente la actividad con capturas de pantalla comentadas.

2.3.4. Pgina de resultados
Esta pgina contiene la lista de los documentos o registros que satisfacen la ecuacin
de bsqueda. Los componentes de esta pgina pueden llegar a ser realmente extensos, sobre
todo en las bases de datos acadmicas o bibliogrficas, pero los ms habituales son los
siguientes:
1. Una fila superior donde aparece la palabra (o frase) de bsqueda y el nmero de
resultados obtenido.
2. Sugerencias de bsqueda: palabras con otro deletreo, sinnimos, trminos
relacionados, etc.
3. La lista de los resultados en s, con algunas indicaciones bsicas para cada resultado,
que suelen ser:
a. Ttulo del documentos
b. Breve descripcin del documento (entre una y tres lneas)
c. Propiedades del documento segn el caso (p.e. el tamao, el formato, la
fecha, etc.)
d. Un enlace al documento completo, si es el caso
e. Posibilidad de marcar todos o parte de los resultados para realizar acciones
posteriores. Tpicamente son las siguientes: imprimir, enviar por correo,
exportar (lo veremos ms adelante), recomendar y, por ltimo, guardar en el
espacio personal en sistemas que permiten la identificacin de usuarios.
4. Opciones de ordenacin. Al menos por los siguientes criterios: ttulo, fuente, autor,
orden cronolgico y grado de relevancia.
5. Opciones de exportacin. Generalmente, en el caso de bases de datos bibliogrficas,
exportacin a formatos de citacin e incluso exportacin directa a otras aplicaciones o
sistemas de informacin (p.e. editores de texto o bases de datos bibliogrficas
personales)
6. Historia de bsqueda con la posibilidad de combinar los conjuntos de resultados
anteriores mediante operadores booleanos
7. Pgina de ayuda con sugerencias para bsquedas con cero resultados
Como hemos sealado, a los componentes anteriores se puede unir an una larga lista de
opciones, por ejemplo, anlisis de citaciones de los documentos recuperados, posibilidad de
recibir avisos cada vez que se cite en el futuro ese documento en el futuro, etc.
Tal vez uno de los mejores ejemplos de una pgina de resultados plena de opciones pero
integradas de una forma muy usable, y no intimidatoria, sea la de Google. Tambin son
excelentes ejemplos de pginas resultados, los de las bases de datos acadmicas (como ISI
Web of Knowledge o Scopus).
Actividad 3
Haga una bsqueda para algn tema de su inters y compare las pginas de resultados de
Google y Bing. Intente determinar las diferencias principales entre ellas y cul de ellas presenta
un mayor nmero de opciones. Documente la actividad con capturas de pantalla comentadas.

3. Necesidades de informacin y lenguajes de bsqueda
El componente sin el cual ningn sistema de informacin tendra sentido es,
naturalmente, la pregunta que formula el usuario al sistema para obtener como retorno uno o
ms documentos razonablemente relevantes.
Tcnicamente, esta pregunta se denomina ecuacin de bsqueda. El motivo es que,
desde un punto de vista lgico una pregunta enviada a un sistema de informacin (query)
puede ser interpretada como una ecuacin, con la palabra (o frase) de bsqueda en el lado
izquierdo y el conjunto de documentos que satisfacen la ecuacin en el lado derecho. De este
modo:
EB = {dv}

EB significa Ecuacin de Bsqueda, y {dv} es el conjunto de los documentos
verdaderos, es decir, el conjunto de los documentos que satisfacen la ecuacin (los
resultados). Por su parte, la EB puede consistir en un trmino simple o en varios trminos
simples o compuestos relacionados con uno o ms operadores booleanos y con utilizacin de
parntesis, en su caso, para indicar sin ambigedad la prioridad de las operaciones. De este
modo:
(T1 Op T2) Op (T2 Op T3)

T1, T2, etc., representan palabras o frases de bsqueda y Op representa un operador
booleano. En general, uno de los siguientes: AND, OR NOT (AND NOT). A continuacin un
ejemplo de ecuacin de bsqueda relativamente compleja:
((Cine OR Televisin) AND (Legislacin OR Leyes) AND (Anuncios OR Publicidad)) NOT Estados
Unidos

Como esperamos que haya sido fcil deducir, los documentos relevantes que reclama
la ecuacin anterior seran exclusivamente aquellos que aportaran informacin sobre la
legislacin relacionada con el mundo del audiovisual y la publicidad, siempre que no tuvieran
relacin con Estados Unidos.
La manera en que diferentes sistemas de informacin, como motores de bsqueda y
bases de datos, permiten construir ecuaciones de bsqueda bien formadas, forma parte del
lenguaje de bsqueda del sistema, tambin llamado lenguaje de consulta. Este lenguaje se
compone de un conjunto de trminos (que suelen coincidir con nombre de campos), unos
operadores (suelen ser operadores booleanos y de proximidad) y unas reglas de sintaxis.

Para relacionar lo anterior con las necesidades de informacin de los usuarios es
conveniente concebir las funciones de un sistema de informacin como una clase de sistema
que se puede representar con el diagrama que mostramos a continuacin:


Ilustracin 1: Diagrama de un Sistema de Informacin documental
Podemos ver que un sistema documental (tal como un motor de bsqueda) acepta dos
clases de entradas: Documentos y Necesidades de Informacin. Los documentos en nuestro
caso son pginas web principalmente y las necesidades de informacin son las preguntas de los
internautas. La salida del sistema es una lista de sitios web que, presumiblemente, contienen
informacin capaz de satisfacer las necesidades de informacin del usuario, de aqu que la
salida se rotule con el (optimista) texto de Personas informadas. Naturalmente, si la primera
consulta no da buenos resultados, lo lgico es que el usuario (el internauta) haga algn intento
ms. Esto queda representado por la elipse rotulada con la palabra Control. Es decir, se supone
que el usuario examina la relevancia de los resultados y si no le satisfacen, reitera la pregunta
(usando otros trminos).

Durante aos, dcadas en realidad, el lenguaje de interrogacin por excelencia para
recuperar informacin estuvo basado en la lgica booleana, incluyendo a los motores de
bsqueda de primera generacin (como AltaVista o AlltheWeb, por ejemplo). Su importancia
ha decado en los ltimos aos debido a los modernos sistemas de clculo de relevancia.
Aunque en principio se trata de dos cosas diferentes, de facto, la calidad de los algoritmos de
relevancia hacen menos necesarios los conocimientos tcnicos por parte de los usuarios a la
hora de plantear preguntas de forma eficiente.

No obstante, la utilizacin de los lenguajes de bsqueda para permitir al usuario
expresar sin ambigedad sus necesidades de informacin sigue siendo necesaria en algunas
circunstancias. En primer lugar, la mayora de bases de datos la contemplan como nico modo
de realizar bsquedas que expresen de manera adecuada las necesidades del usuario. Es el
caso de aquellas bases de datos dnde hay texto insuficiente (o no lo hay en absoluto) en cada
documento (bases de datos referenciales y bancos de imgenes) para efectuar anlisis de
contenido y llevar a cabo inferencias sobre el tema y la relevancia de los documentos de forma
automtica. En tales circunstancias ni se puede confiar en la indexacin automtica como
nica forma de asignar descriptores o trminos de indexacin a los documentos ni se puede
confiar exclusivamente en clculos de relevancia automticos a la hora de ordenar los
resultados. En consecuencia, el lenguaje de interrogacin de cada sistema, tpicamente
implicando bsquedas booleanas y bsquedas parametrizadas (ver ms adelante), deviene un
factor crtico de xito, tanto para el propio sistema (como funcionalidad), como para el usuario
(como habilidad).


Lenguaje de interrogacin (query language) es un trmino tcnico heredado de las
primeras bases de datos que parece innecesariamente pedante. La razn es que actualmente
es trivial entrar uno o ms trminos en un buscador, lanzar una consulta y obtener con
facilidad algunos resultados relevantes. Que sean los mejores documentos o no, es decir, que
sean exactamente los ms relevantes, no podemos saberlo, pero al menos obtenemos
documentos relevantes sin necesidad de conocer nada parecido a un supuesto lenguaje de
interrogacin.

Sin embargo, para que esa operacin se haya vuelto tan simple ha debido darse un
gran desarrollo conceptual y tecnolgico, buena parte del cual se muestra en los diferentes
captulos de este libro. En el pasado, era necesario que el usuario explicitara de forma muy
detallada qu quera encontrar, en qu campos quera encontrarlo, cmo quera que fuera la
salida (es decir la respuesta), porqu campos quera que se ordenase la salida, etc. Un sistema
de bsqueda era tan bueno como su lenguaje de interrogacin. Aunque los documentos
estuvieran bien indizados, si el usuario no poda expresar con mxima precisin qu es lo que
quera, el sistema solamente proporcionaba una gran cantidad de ruido o simplemente cero
resultados (aunque en realidad hubiera informacin).

Como es fcil deducir por lo que hemos expuesto hasta aqu, el papel del lenguaje de
interrogacin es nada menos que transformar una necesidad de informacin que, por
definicin, es algo intangible, en una frmula bien formada que un robot (un motor de
bsqueda o una base de datos) pueda interpretar.

Los lenguajes de interrogacin se pueden expresar de forma directa si se conoce la
denominacin exacta de los componentes en el sistema de informacin en cuestin y su
sintaxis. No obstante, la mayora ha desarrollado interfaces de usuario alternativas que liberan
de la necesidad de ese conocimiento detallado a los usuarios finales.

3.1. Tipos de bsquedas

La cuestin es que, expresado de forma directa o utilizando formularios, la mayor parte
de buscadores y de bases de datos documentales actuales incluyen lenguajes de consulta que
incluyen los tipos de bsqueda que vamos a examinar a continuacin:

1. Simple
2. Frase
3. Booleana simple
4. Booleana compleja

Adems, existen las siguientes variaciones, que se pueden combinar con los anteriores:

1. Genrica
2. Parametrizada

Vamos a examinar tanto los tipos como las variaciones en las tablas siguientes:



Tipo Ejemplos Explicacin
Simple cine Busca la cadena de caracteres.
Frase John Ford Fuerza al sistema para que la cadena de caracteres
buscada sea exactamente como aparece entre las
comillas. En este caso, primero la palabra John,
despus un espacio en blanco y despus la palabra
Ford. Evita las falsas coordinaciones. Por ejemplo, la
pgina de alguien llamado John Smith que vende
coches de la marca Ford.
Booleana
simple
cine AND novela
cine OR novela
cine NOT novela
(esta ltima a veces
expresada de forma
ms precisa como:
cine AND NOT novela)
Principales operadores: AND, OR, NOT.
AND: exige que ambas palabras estn presentes en
el documento. En muchas bases de datos y motores
de bsqueda un espacio en blanco equivale a un
AND.
Por ejemplo, la bsqueda:
[cine novela]
es igual en Google que:
[cine AND novela]
OR: al menos una de las palabras debe estar
presente y tambin pueden estar presentes las dos.

NOT: la primera palabra debe estar presente,
siempre que no aparezca la segunda palabra. En este
caso, todos los documentos que tengan la palabra
cine, siempre que no tengan la palabra novela.
Booleana
compleja
(cine OR tv) AND
(novela OR teatro)
Combina tres o ms palabras clave con dos o ms
operadores booleanos. Los parntesis se pueden
utilizar para delimitar de forma exacta el orden y el
alcance de cada operador. En este caso: primero se
crea al conjunto 1 con todos los documentos que
tienen la palabra cine, la palabra tv o ambas.
Despus se crea el conjunto 2 con todos los
documentos que tienen la palabra novela, la
palabra teatro o ambas. Por ltimo, se combinan los
conjuntos 1 y 2 con el operador AND y se produce
como respuesta el conjunto 3 que contiene el
resultado final.
Tabla 1: Tipos de bsqueda

Adems de las bsquedas anteriores, los lenguajes de consulta de los motores ofrecen
una gran variedad de posibilidades que a veces tiene poco que ver con la recuperacin de
informacin clsica y ms bien responden a la idea de los sistemas de respuestas (como
Wolfram Alpha), segn la cual, en lugar de proporcionar una lista de documentos, los sistemas
de respuestas ofrecen directamente la respuesta. Por ejemplo, el lenguaje de interrogacin de
Google acta tambin como una calculadora aritmtica si entramos nmeros y operadores de
suma, resta, etc. (p.e. 9*670/8).

Otras caractersticas de estos lenguajes de consulta es que identifican determinadas
combinaciones de palabras clave (p.e. la palabra moneda cuando va seguida del nombre de
un pas) y ofrecen directamente la respuesta. Por ejemplos, si entramos la siguiente expresin
en la caja de bsqueda de Google:

moneda de Jordania

como respuesta tenemos:

Dinar jordano


en lugar de una lista de (solamente) documentos que tienen la expresin moneda de
Jordania.

Adems, podemos considerar, en los lenguajes de consulta actuales la posibilidad de
utilizar una serie de acotaciones, lo cual nos proporciona al menos variaciones de tipos de
bsquedas considerando aquellas que poseen o no poseen acotaciones. Las bsquedas
acotadas permiten expresar la necesidad de que, para que el documento se considere vlido,
la palabra clave debe aparecer en el ttulo, o bien que el formato del documento sea una hoja
de clculo, etc. En general, las bsquedas acotadas proporcionan una enorme precisin en la
respuesta all donde las bsquedas genricas tal vez arrojan mucho ruido.

Por ejemplo, es evidente que si hago una bsqueda genrica por el trmino cine
musical puedo obtener una gran cantidad de ruido. Si en cambio, exijo que el trmino est
presente en el ttulo, obtendr una lista de documentos mucho ms relevantes. Cada motor de
bsqueda dispone de una sintaxis y unas opciones determinadas para realizar esas
acotaciones, siendo Google con mucha diferencia el que presenta una mayor variedad.

Tabla 2: Las dos variaciones de bsqueda: genrica/parametrizada

Variacin Ejemplo Explicacin
Genrica Cine musical Busca la cadena de caracteres en cualquier lugar
del documento, en documentos de cualquier
fecha, en todos los formatos de documento, etc.
Parametrizada allintitle:cine musical
filetype:pdf
Busca la cadena de caracteres en el campo ttulo
(allintitle:cine) y solamente en documentos con
formato pdf (fileype:pdf). La sintaxis del ejemplo
es la de Google. Otros buscadores pueden utilizar
otras expresiones.
Tipos de parametrizaciones principales utilizadas
principalmente en bases de datos:
Por campos de propiedades semnticas del
documento (p.e. ttulo, resumen, palabras clave,
contenido, etc.)
Por fechas o rangos de fechas (p.e. ltimos 6
meses)
Por formato (p.e. pdf)
Por idioma (p.e. espaol)
Por dominio (en el caso de pginas web, p.e:
.com)

Las dos tablas anteriores resumen las caractersticas ms habituales en buscadores y
en bases de datos. Naturalmente pueden combinarse tipos de bsquedas con variaciones de
bsquedas (como ya hemos visto en los ejemplos).

El procesamiento suele ser fiable en bases de datos y muy poco fiable en buscadores:
algunas combinaciones particulares no funcionan bien, y los buscadores son reacios a hacer
explcitos esos problemas. Si ha habido una tendencia clara en los ltimos aos en este sentido
es que los motores de bsqueda parecen haberse desentendido de la obligacin de que sus
resultados respondan a una lgica matemtica. En teora podramos formular una bsqueda
booleana y combinarla con un tipo de documentos y un idioma determinado, pero en
demasiadas ocasiones los resultados no son consistentes.

En todo caso, la principal ventaja de las bsquedas booleanas es su capacidad para
expresar con casi total exactitud las caractersticas concretas de la necesidad de informacin
del usuario. La tabla siguiente compara una bsqueda con varios trminos expresada sin uso
de operadores booleanos explcitos (el buscador los combinar todos con un AND) y una
bsqueda expresada con operadores. En el primer caso se pierde totalmente la semntica de la
pregunta del usuario, mientras que en el segundo se traduce con toda exactitud. La necesidad
de informacin es la siguiente: cine y literatura para nios y adolescentes.


Tabla 3: Anatoma de una necesidad de informacin
Enunciado corto
(implcito)
cine y literatura para nios y adolescentes
Enunciado largo
(explcito)
cine tanto como literatura, ahora bien, siempre que tenga relacin o
bien con nios o bien con adolescentes o bien con ambos
Posible contexto de
uso
El usuario puede ser un educador o el programador de un canal de
televisin, o investigador sobre el tema, etc. interesado en encontrar
bibliografa sobre el tema de las pelculas y novelas recomendables
para nios y adolescentes.
Forma plausible de
expresin en
lenguaje real
Me gustara encontrar recomendaciones del tipo de cine y de
literatura que puedan ver o leer nios y adolescentes

Tabla 4: Interrogacin no booleana vs. booleana
Tipo de interrogacin Significado lgico
No booleana (es decir, sin
operadores explcitos)
cine literatura nios
adolescentes
Dado que los espacios en blanco
suelen interpretarse como
operadores AND, esta bsqueda
significara que estamos pidiendo
documentos que contengan todas y
cada una de las palabras. Ahora
bien, esto seguramente no capta la
necesidad real del usuario. Se
pierden de facto, por ejemplo,
documentos que traten solamente
de cine y de adolescentes. Tambin
los que traten solamente de cine y
de nios, etc.; puesto que pedimos
exactamente que todas, es decir, las
cuatro palabras estn presentes.
Booleana (con
operadores explcitos)
(cine OR literatura) AND
(nios OR adolescentes)
Puede captar exactamente la
necesidad de informacin del
usuario. Por ejemplo, un documento
sobre nios y literatura ser
recuperado, aunque no hable ni de
adolescentes ni de cine, etc., y esto
es exactamente lo que necesita el
usuario.


Como se puede ver, solamente la forma booleana puede expresar de forma adecuada
la semntica de algunas necesidades de informacin, esto es, solamente la frmula booleana
es capaz de evitar eventualmente tanto el ruido (informacin no deseada) como el silencio
(informacin no recuperada).

El principal inconveniente es que el lgebra booleana es, de facto, anti intuitiva y un
tanto intimidatoria para el usuario final. Por ejemplo, si revisamos la representacin de la
necesidad de informacin anterior:

cine y literatura para nios y adolescentes


algunos usuarios que se hubieran visto obligados a traducirla a una expresin booleana lo
hubieran hecho as:

cine AND literatura AND nios AND adolescentes

por el simple procedimiento de traducir todos los y gramaticales en AND lgicos (incluida la
expresin para), y que es obviamente incorrecta por las razones sealadas antes, pero que
vamos recordar de nuevo: se supone que no estamos interesados solo en documentos que
traten todos estos aspectos en el mismo documento; sino, literalmente en documentos que
traten o bien de nios y cine, o bien de nios y literatura, o bien de adolescentes y cine, o bien
de adolescentes y literatura, y ya sea por separado o conjuntamente.

Adicionalmente, debemos insistir en que, a diferencia de algunas bases de datos, los
buscadores Google, por ejemplo, nunca se han mostrado muy rigurosos con el procesamiento
de bsquedas booleanas. Adems, en motores de bsqueda, su utilidad ha quedado en
entredicho debido a dos factores: en primer lugar gracias a los sistemas de clculo de
relevancia de los motores que han minimizado la necesidad de expresar de forma tan estricta
las necesidades de informacin. En segundo lugar porque la enorme abundancia de
informacin de cualquier tipo hace cada vez menos importante recuperar todo lo que
responde a la ecuacin (la exhaustividad) y es cada vez ms importante la precisin. En algunos
sistemas la precisin se consigue, entre otras cosas, considerando ms relevantes los
documentos que contienen todos los trminos, aunque no se utilice lgica booleana, sino otros
modelos, como el vectorial o el probabilstico (ver captulo 3).

En el caso de la Web al usuario tpico que busca informacin por motivos de ocio o por
simple curiosidad no le importa ni mucho menos perder exhaustividad mientras que los 5 o 10
primeros documentos, que son los que estar dispuesto a examinar como mximo en
respuesta a su bsqueda, sean razonablemente relevantes y solucionen as (mejor o peor) su
problema de informacin.

Este es el motivo por el cual parece haber perdido peso no solamente el uso de las
bsquedas booleanas explcitas de cierta complejidad (recordemos que toda bsqueda de dos
o ms trminos lleva un AND booleano implcito), sino la misma necesidad de aprender la
sintaxis de un lenguaje de interrogacin o incluso la necesidad de acudir al sistema avanzado
de bsqueda.


Por otro lado, las bsquedas booleanas son imprescindible en contextos donde no
existe el documento completo (base de datos referenciales), donde el documento no es textual
(bases de datos multimedia) o donde no pueden aplicarse ordenaciones de relevancia basadas
en enlaces (bases de datos de texto completo). Lo mismo sucede en base de datos de
imgenes y video, donde el uso de bsquedas booleanas es imprescindible, dado que las
imgenes carecen de texto o tienen muy poco texto (un ttulo y unas palabras clave)
comparado con el documento completo. En las bases de datos de texto completo, el uso de
bsquedas booleanas puede ser til en funcin de la complejidad de la consulta y la calidad
relativa del sistema de relevancia de la base de datos.

Actividad 4
Nota: Prctica voluntaria dada su relativa complejidad. Intente prepare la bsqueda booleana
para la siguiente necesidad de informacin (la mostramos aqu tal como tpicamente la
expresara un usuario final): Necesitamos encontrar informacin sobre el sector audiovisual
en Espaa y Francia, en relacin con la produccin de documentales de ciencia y naturaleza. No
estamos interesados ni el sector de la publicidad ni en documentales de turismo. Datos para el
ejercicio: no usaremos variantes de lengua (todas las palabras clave en el mismo idioma) ni
parametrizaciones (no usaremos bsquedas por campos). En caso necesario, bastar con dos
sinnimos del mismo concepto. Son obligatorios los parntesis. Los operadores booleanos los
representaremos con maysculas y usaremos AND, OR, NOT.

4. La bsqueda de informacin en la Web

Los motores de bsqueda son los ms importantes sistemas de informacin
documental de nuestro tiempo. Desde mediados de la dcada, por lo menos, forman parte no
solo del paisaje de Internet de una manera que parece definitiva, sino que incluso es una de las
tecnologas que se han acabado imponiendo en las empresas para organizar la documentacin
interna.

Nadie imagina hoy la posibilidad de explotar la inmensa riqueza de la Web sin el auxilio
de los motores de bsqueda cuyas funciones no han dejado ni de aumentar ni de experimentar
cambios desde su temprana aparicin en los aos 90. De hecho, son los sistemas de
recuperacin de informacin que ms cambios han acumulado en los ltimos cinco aos. A
partir de ahora, los analizaremos en tanto sistemas de informacin documental.

4.1. Los motores de bsqueda

Hay al menos tres aspectos que marcan la diferencia de la bsqueda en la web en
relacin con otros entornos de la recuperacin de informacin, y son los siguientes:

1. La heterogeneidad del fondo documental: la Web en su conjunto
2. El spam en buscadores o la recuperacin con adversario (adversarial information
retrieval)
3. La hipertextualidad y el anlisis de enlaces
4.2. Heterogeneidad
La Web aport, literalmente el espacio de bsqueda ms heterogneo de la historia de
la humanidad: compuesto por documentos de todos los temas imaginables, sobre aspectos y
puntos de vista totalmente diversos, y publicados por parte de actores completamente
diversos, con intereses distintos, idiomas y culturas diferentes, etc., e insistimos, todo ellos en
un espacio de acceso unificado.
4.3. Recuperacin con adversario
Este es uno de los aspectos ms caractersticos de la Web actual y para el cual la RI
clsica no estaba en absoluto preparada. Se trata de lo que se denomina recuperacin de
informacin con adversario (Baeza-Yates, 2007).

En la Web, los autores de pginas y los administradores de sitios estn interesados en
conseguir que sus sitios queden bien posicionados en las pginas de resultados de los motores.
Una parte de esos autores y administradores carecen de escrpulos a la hora de perseguir sus
objetivos de posicionamiento. Con millones de sitios, aunque los administradores no ticos
fueran una minora, podramos estar hablando de miles y miles de sitios y decenas de miles de
pginas sin inters real copando los primeros puestos en las pginas de resultados de los
motores de bsqueda si stos siguieran usando tcnicas tan ingenuas como la que aplicaron
durante los aos 90.

Por lo tanto, por primera vez, los sistema de informacin (motores de bsqueda en
este caso) tuvieron que vrselas con una clase de documentos expresamente trucados para
aparecer en posiciones de relevancia. Por tanto, a las anteriores razones a favor de un clculo
de relevancia eficiente, se une esta peculiar caracterstica de la web. Dicho de otro modo: sea
cual sea el algoritmo de posicionamiento que utilice un motor de bsqueda debe ser inmune
(o al menos, relativamente inmune) a los intentos de manipulacin de los propios autores de
las pginas web y los administradores de documentos.

4.4. Hipertextualidad y anlisis de enlaces
Histricamente, la primera respuesta verdaderamente eficiente a todos los desafos
sealados los aport Google a finales de los noventa con un nuevo concepto: el anlisis de
enlaces (aunque entonces nadie lo llamaba todava as).

En concreto, la nueva idea que aport Google (mejor dicho, los fundadores de Google:
Sergei Brin y Larry Page) es la siguiente: en lugar de calcular la relevancia exclusivamente por
las caractersticas intrnsecas de la pgina, aadamos tambin caractersticas externas, en este
caso, consideremos las caractersticas de los enlaces de entrada que recibe una pgina.

Con estos dos conjuntos de datos: propiedades del documento (p.e., nmero de veces
que aparece la palabra clave en la pgina) ms propiedades de los enlaces de entrada (p.e.,
cuantos enlaces de entrada tiene la pgina), Google comenz a proporcionar una pgina de
resultados mucho ms eficiente. Tan eficiente, de hecho, que en cuestin de poco tiempo se
hizo con el dominio casi absoluto del mercado de las bsquedas, arrasando no solamente a sus
competidores, sino de paso a casi cualquier otra forma alternativa de buscar informacin en la
Web (por ejemplo, los directorios).

Como decimos, la aplicacin del anlisis de enlaces se ha revelado tan eficiente que
Google no volvi a tener autntica competencia hasta que sus competidores adoptaron su
clculo de relevancia para que tambin tuviera en cuenta el anlisis de enlaces.

En otros captulos de este libro se trata con mayor profundidad el anlisis de enlaces,
por lo que aqu haremos una presentacin a mil metros de altura. Grosso modo, se trata de
algo muy simple: una pgina es ms importante si recibe ms enlaces de entrada de otras
pginas que a su vez sean importantes por el hecho de recibir ellas mismas un nmero de
enlaces de entrada. A partir de aqu, la principal dificultad es de implementar un sistema de
anlisis que no entre en un bucle interminable dado el carcter recursivo del sistema de
medicin y los miles de millones de documentos de la Web.

Histricamente, han existido dos intentos de respuesta a las preguntas anteriores que,
adems, se produjeron casi al mismo tiempo: HITS (1997) y PageRank (1998). HITS es un
algoritmo desarrollado por el matemtico de la Universidad de Cornell Joan Kleinberg. Existe
una gran unanimidad en admirar el acierto conceptual de su propuesta, pero en reconocer a la
vez las dificultades prcticas para su implantacin, dado que requiere un gran tiempo de
cmputo. A grandes rasgos, HITS se basa en considerar dos grandes clases de sitios: hubs
(concentradores) y authorities. Un hub o concentrador es una pgina de la que salen
numerosos enlaces hacia otras pginas (probablemente) relacionadas temticamente. Una
authority o autoridad es una pgina que recibe muchos enlaces de entrada. Las mejores pgina
sern aquellas que sean o bien hubs o bien authorities y segn lo que est buscando el usuario
(o bien respuestas directas o bien referencias) preferir hubs o authorities, diferencia que la
pgina de resultados del motor de bsqueda puede resaltar.

La segunda respuesta, aparecida casi a la vez, fue la aportada por los fundadores de
Google Sergei Brin y Larry Page y se denomina, como ya sabemos, PageRank. En un artculo
seminal aparecido en 1998 presentaron la idea del algoritmo que, ante el desinters comercial
de los motores existentes en la poca y a los cuales intentaron vender sin xito, acabaran
implantando por su propia cuenta en el ao 2000 en su motor, Google. En su pgina para
webmasters, Google indica lo siguiente:

PageRank interpreta un enlace desde la pgina A a la pgina B como un voto para la pgina
B por parte de la pgina A. PageRank determina entonces la importancia de una pgina
por el nmero de votos que recibe. Tambin considera la importancia de cada pgina que
emite el voto, por lo que los votos de algunas pginas se consideran de mayor valor, dando
as a la pgina enlazada mayor valor. Las pginas ms importantes tienen un mayor
PageRank y aparecen en la parte superior de los resultados de bsqueda.


4.5. Bsqueda avanzada
Los motores presentan tambin sus opciones de bsqueda en dos planos o formas de
acceso: la bsqueda simple, utilizada por la inmensa mayora de los usuarios y la bsqueda
avanzada, cuya utilizacin es muy minoritaria. Sin embargo, la bsqueda avanzada ofrece
prestaciones cuyo conocimiento detallado merece la pena.

Las prisas de la vida cotidiana y el sentido de la urgencia (real o imaginario) que casi
todos experimentamos en nuestro trabajo diario hacen que la bsqueda simple sea, con
mucha diferencia la ms utilizada en los diferentes motores. Es tanta la diferencia de la
bsqueda simple sobre la avanzada que en algunos casos (Yahoo, Ask) es un tanto difcil
acceder a ella, sntoma claro de que la mayor parte de los usuarios la evitan, pues como es
sabido las interfaces de consulta de los motores de bsqueda estn diseadas a partir del
estudio de los hbitos de sus usuarios como no podra ser de otro modo.

Ahora bien, el hecho de que la bsqueda avanzada sea mucho menos utilizada no nos
dice nada en realidad sobre su utilidad, simplemente nos habla de la preferencia de los
usuarios por la simplicidad. Para ejecutar una bsqueda simple nicamente hemos de entrar la
palabra clave y hacer un clic en el botn de bsqueda.
Con la inmensa cantidad de informacin publicada en la Web es muy probable que
obtengamos alguna informacin, no necesariamente la mejor informacin, pero algo
obtenemos y posiblemente de cierta relevancia.
En contraste, para la bsqueda avanzada no solamente hemos de hacer un clic
adicional, cosa que no sera en principio ningn problema especial sino que debemos tomar
decisiones, cosa que va contra el principio fundamental de la usabilidad enunciado como no
me hagas pensar. No es extraa la preferencia de los usuarios por la bsqueda simple.
Ahora bien, utilizar la bsqueda avanzada aporta ventajas y, aunque resulte de una
gran obviedad recordarlo refuerza el hbito de utilizarla. A su vez, usar la bsqueda avanzada,
en ms de una ocasin puede marcar la diferencia entre una bsqueda fallida y una bsqueda
con xito. Mientras que esto puede parecer trivial en un contexto de ocio o de simple
curiosidad (buscamos informacin sobre nuestra actriz preferida o sentimos curiosidad por las
imgenes de la ltima carrera de Frmula 1) en un contexto profesional, la diferencia entre
xito y fracaso de una operacin de bsqueda es difcil de exagerar.
4.5.1. Componentes principales

Aunque cada buscador presenta un sistema propio, existen ciertas regularidades entre
ellos que permiten un anlisis comn. En este sentido, los componentes ms habituales se
pueden agrupar en tres secciones, pero en honor a Google, la ampliaremos a cuatro secciones
(la ltima solamente podemos obtenerla en Google de momento). Cabe advertir que no todos
los motores las tienen todas. Se trata de las siguientes:

1. Bsqueda booleana asistida
2. Bsqueda parametrizada o por campos:
a) Ttulo
b) Contenido de la pgina
c) URL
3. Filtros (propiedades del documento):
a) Idioma
b) Formato (pdf, word, etc.)
c) Fecha
d) Dominio
4. Minera de datos
1. Pginas similares

Bsqueda booleana
Esta clase de bsqueda (ver el punto 6.1.3) permite la combinacin de varios trminos
con los operadores lgicos AND, OR y NOT. Actualmente, en la mayor parte de los casos
solamente es posible usar bsquedas booleanas en modo asistido, es decir, entrando los
trminos en un formulario donde cada fila corresponde al uso de un operador.
El objetivo general de las bsquedas booleana es, por un lado, establecer con la mayor
precisin el sentido de la necesidad de informacin del usuario y, por otro, lanzar en una sola
operacin una bsqueda que de otro modo requerira varias operaciones.
Bsqueda parametrizada
El mayor beneficio de la bsqueda parametrizada o la bsqueda por campos consiste
en el incremento de precisin que es capaz de aportar, notablemente con el uso de campos de
fuerte valor semntico como ttulo, autor o resumen. Por ejemplo, una bsqueda simple
puede arrojar decenas de miles de resultados. Restringir la bsqueda a documentos que
tengan la palabra de clave en el ttulo puede proporcionar apenas unos cientos.
Otra posibilidad en el caso de los motores de bsqueda es buscar por el contenido de
la pgina. Puede parecer sorprendente la posibilidad de restringir una bsqueda al contenido
de la pgina (acaso no buscamos siempre en el contenido de la pgina?). La razn es que
cuando hacemos una bsqueda simple, muchos motores buscan no solamente en la pgina
sino tambin en los enlaces de entrada que recibe la pgina, es decir, en el texto que aparece
en la etiqueta <a> de los enlaces de entrada. Por ejemplo, si la pgina A es enlazada por la
pgina B mediante un enlace con el texto clicable que indica mascotas para nios, muchos
motores (entre ellos Google) consideran que la pgina A contiene de forma virtual las
palabras mascotas y nios y la pgina A aparecer en los resultados aunque en el cuerpo de la
misma no aparezca ninguna de esas palabras.
Filtros
La tercera opcin no es menos potente que la bsqueda por campos. En efecto, una de
las posibilidades ms tiles (y reveladoras) es filtrar resultados por el dominio. Esto significa lo
siguiente: el motor buscar documentos nicamente en el dominio indicado. Lo mejor de todo
es que suele admitarse cualquier nivel de dominio, por ejemplo, podemos restringir una
bsqueda a dominios .es (o .edu, .com, .es, .gov, etc.) o podemos restingir una bsqueda al
dominio upf.edu; o al dominio iula.upf.edu, etc.
Por ejemplo, una bsqueda por el trmino ontologas AND tesauros proporcion ms
varios miles de resultados. Sin embargo, si filtramos a pginas o documentos del dominio .edu
nos quedamos con decenas de documentos. Otros filtros habituales son el idioma y los rangos
de fechas (las ltimas 24 horas, 6 meses, un ao, etc.). El problema con este ltimo filtro es que
no corresponde exactamente a la fecha del documento, sino, dependiendo del buscador, o bien
a la fecha en la cual el documento ha sido incorporado por primera vez al ndice del buscador o
a la fecha del archivo.
Minera de datos
La minera de datos consiste en examinar grandes cantidades de informacin mediante
algoritmos determinados con el fin de encontrar regularidades que no son aparentes a simple
vista. Desde el punto de vista de las bsquedas, una de las operaciones ms productivas
posiblemente sea la de encontrar pginas similares entre s. La minera de datos permite
muchas otras opciones, pero los motores de bsqueda parecen especialmente celosos y parcos
en este apartado. La nica posibilidad que suelen ofrece es la ya anunciada de buscar pginas
similares a una dada. En el caso concreto de Google, la opcin de buscar pginas similares
consiste en lanzar una bsqueda con las palabras ms frecuentes de la pgina de partida.
5. Buscadores acadmicos

Ahora bien, los contenidos de la Web, no sin algo de razn, siempre han despertado
recelos en algunos sectores acadmicos y profesionales. Las preguntas y reflexiones que estos
sectores se solan (suelen) hacer son del siguiente tenor:
Quin controla la informacin que se publica en la Web?
Es fiable la informacin que encontramos a travs de los motores de bsqueda?
Se aplican a la Web los controles editoriales propios de las publicaciones impresas
que tanto han significado para el progreso de la ciencia?

Ciertamente, no faltan casos de fraudes o de manipulaciones ms o menos conocidos en el
mundo de la Web, como las falsas pginas de La Casa Blanca, la manipulacin de los resultados
de Google que hacen los spammers o practicantes poco escrupulosos del posicionamiento web
(el caso ms conocido es el llamado "Gooble bombing" que, al parecer ya ha sido erradicado
en parte por Google) y otros.
A lo anterior hay que sumar la dificultad para obtener resultados acadmicos o cientficos
cuando se utilizan trminos vinculados con el mundo del comercio o de la cultura popular. Por
ejemplo, para alguien interesado en la fisiologa del sueo le resultar muy difcil encontrar
informacin sobre la fase del sueo denominada Rapid Eye Movement y que se conoce
internacionalmente como REM, ya que si entra esa expresin en Google solamente encontrar
resultados vinculados con el grupo musical REM.
La misma dificultad se puede experimentar si tenemos una necesidad de informacin cuya
palabra clave coincide con temas discutidos en frums abiertos. Si lo que buscamos es
informacin solvente sobre el tema X, y se da la circunstancia de que, sobre ese mismo tema,
funciona algn foro, los resultados del buscador siempre nos llevarn a los mensajes de ese
foro.
Sin embargo, por muchas dudas que pueda crearnos, la Web ha llegado para quedarse y
para tener un impacto positivo y real en la difusin del conocimiento acadmico y cientfico.
Durante unos aos, ms o menos desde los noventa hasta nuestros das, una de las soluciones
consisti en desarrollar y promover directorios, portales y servicios de evaluacin, como
INTUTE ( www.intute.ac.uk). El problema es que los directorios y servicios similares apenas
pueden abarcar una parte nfima de los contenidos reales de la Web. La Web, incluyendo los
contenidos de tipo cientfico, crece a tal ritmo que es imposible que servicios basados
totalmente en el esfuerzo intelectual puedan abarcar ms que una fraccin de ellos. As que,
aqu tenemos una contradiccin que presenta diversas caras y que necesitaba ser resuelta.
5.1. Principales sistemas
Histricamente, la importante editorial Elsevier fue la primera en detectar que exista
una nueva necesidad de informacin y que, por tanto, se necesitaba una nueva clase de
sistemas de informacin. En concreto, un sistema que fuera capaz de indizar pginas web de
manera automtica, es decir, como lo hacen los motores convencionales como Google, pero
que fuera capaz de filtrar la informacin de manera que pudiera ser admitida y fiable para los
estrictos criterios del mundo acadmico.
Ese producto se llam Scirus (www.scirus.com) y, al parecer su xito despert
suficientes recelos en Google para que esta empresa intentara una operacin parecida, y as
tuvimos Google Scholar (scholar.google.com).
Adems, de los anteriores que, son con diferencia, los ms utilizados por el mundo
acadmico, hay una lista relativamente larga de otros buscadores centrados en el mismo
nicho. Algunos de los ms importantes son Science Research
(http://www.scienceresearch.com) y World Wide Science (http://worldwidescience.org). Estos
ltimos junto con algunos otros forman parte del portal de bsqueda cientfica DeepWeb
(http://www.deepwebtech.com).
La caracterstica principal de los dos sistemas primeros sistemas sealados (Google
Scholar y Scirus) es que, en lugar de recorrer todos los sitios web de forma indiscriminada
(como hacen los robots de los buscadores genricos) solamente indizan sitios web vinculados
con el mundo acadmico. Qu se entiende por "mundo acadmico" cambia en cada caso pero
en general se entiende sitios web de universidades (p.e. sitios con dominio .edu), sitios de
organismos de investigacin, de publicaciones acadmicas, repositorios cientficos, etc.
incluyendo sitios gubernamentales que publiquen informes y estudios.
En cambio, otros buscadores (como los indicados en segundo lugar, Science Research,
Deep Web, etc.) utilizan el sistema denominado bsqueda federada que consiste en enviar la
misma pregunta a centenares de bases de datos (p.e. Eric o Medline), portales (p.e. PLOS o
DOAJ) y repositorios cientficos (p.e. RePec, Arxiv). Es decir, en lugar de indizar de nuevo los
contenidos que ya estn indizados en otros sitios, lo que han hecho es desarrollar una
ingeniera que permite lo siguiente:
1. Lanzar la misma bsqueda a diversos sistemas como los sealados
2. Fusionar los resultados obtenidos de las diversas fuentes
3. Eliminar (tericamente) los duplicados
4. Confeccionar una nica pgina de resultados y ordenar (rankear) de nuevo
los resultados para ofrecerlos al usuario.
La cuestin es que, independientemente de la tecnologa utilizada (indexacin o
bsqueda federada), en general, este tipo de buscadores, a diferencia de los buscadores
genricos, presentan la siguiente tipologa de documentos como resultado de una bsqueda:
Tipo 1: Pginas web publicadas en sitios de instituciones acadmicas o cientficas
(p.e., sitios del tipo .edu)
Tipo 2: Artculos de publicaciones cientficas (p.e. publicaciones de tipo open acces,
pero tambin publicaciones de pago)
Tipo 3: Trabajos acadmicos: tesis doctorales, tesis de licenciatura o de final de
mster
Tipo 4: Documentos publicados en repositorios cientficos, tpicamente informes
tcnicos, resultados de investigacin, preprints, etc.
Tipo 5: Patentes
Tipo 6: Libros (monografas) de editoriales de cierto prestigio

Obviamente, los seis tipos de documentos anteriores se solapan entre ellos. Por
ejemplo, algunos repositorios incluyen tesis doctorales (aunque no todos); por no mencionar
que algunos repositorios han sido creados y estn mantenidos por universidades y se accede a
ellos a travs de su sitio web, etc.
En conclusin, esta clase de buscadores, muy poco utilizados por el gran pblico en
comparacin con los buscadores genricos, representan la forma ms fiable de utilizar la Web,
dada la alta garanta de los documentos y resultados obtenidos. Por ello, aunque muy poco
conocidos por otros colectivos, son de amplio uso por parte de acadmicos y profesores de
universidad.
6. BASES DE DATOS

Como es sabido, una base de datos es un sistema de informacin complejo formado
por, al menos, los siguientes elementos:

1. Un conjunto de registros, cada uno de los cuales describe a una entidad
mediante una combinacin de campos y de sistemas de metadatos
2. Un sistema de indexacin
3. Un sistema de consulta
4. Un sistema de ordenacin y presentacin de resultados


Adicionalmente, la base de datos puede contener documentos completos,
naturalmente, asociados al registro correspondiente. Lo que marca el punto de referencia
entre una base de datos y un buscador, por ejemplo, es el primer elemento. Los otros tres (del
2 al 4) son comunes a casi todos los sistemas de bsqueda y obtencin de informacin.

6.1. El concepto de registro

Un registro es la descripcin o representacin de una entidad. Como las entidades
tienen atributos, los registros se articulan en campos que sirven para representar esos
atributos. Por ejemplo, en la base de datos de datos inmobiliaria las entidades son viviendas o
inmuebles. Los campos del registro sern entonces las propiedades ms importantes del
inmueble como sus metros cuadrados, la ubicacin, precio, cargas legales, etc.

En el caso de las bases de datos de las que nos ocuparemos en este apartado, las
entidades suelen ser documentos, y los campos suelen ser propiedades de los mismos tales
como: ttulo, autor, palabras clave, resumen, fuente, etc. Parte de estos datos pueden
obtenerse directamente de los documentos mediante operaciones automticas de indexacin
tpicas de la RI, pero parte de ellos se asignan de forma manual, mediante inspeccin del
documento y su asignacin de descriptores (palabras clave normalizadas) obtenidos de un
lenguaje documental (p.e. un tesauro o una taxonoma).

La cuestin es que este conjunto de datos articulados en campos (dentro de registros
que pueden adquirir una cierta complejidad) constituyen una forma de metadatos. En las bases
de datos, la existencia de un sistema de metadatos formalizados constituye la diferencia
especfica a la que nos referamos antes en relacin a otros sistemas de bsqueda.

En el caso concreto de las bases de datos profesionales estos documentos pueden ser
informes econmicos, normas legales, patentes, noticias de diarios, transcripciones de
programas de radio, etc. En el caso de las bases de datos acadmicas o cientficas, suelen ser
artculos de publicaciones cientficas y actas de congresos.

Cuando este contenido consiste nicamente en metadatos (p.e. la descripcin de un
documento, pero no el documento en s), hablamos de bases de datos referenciales. Cuando
adems de un registro existen documentos completos asociados al mismo, hablamos de bases
de datos de documento completo o de bancos de datos.

Un punto muy importante es que el cruce de clase de documento con necesidades de
informacin de los usuarios debera generar un modelo de registro especfico, que a su vez
permitir las bsquedas paramtricas (o las impedir si no se tuvo en cuenta esta cuestin).

Por ejemplo, los usuarios de bases de datos acadmicas apreciarn poder buscar
documento publicados por personas que trabajen en cierta institucin (p.e. en determinada
universidad). Si el modelo de registro no previno la necesidad de registrar esta circunstancia
del autor de documento, despus esta clase de bsqueda ser imposible. Los ejemplos se
podran multiplicar. Los usuarios de un banco de imgenes a menudo buscarn fotografas por
el color dominante, o por el hecho de que no aparezcan ms de dos personas, etc.


6.2. Bases de datos profesionales


Esta clase de bases de datos se dirige a usuarios de diversos perfiles profesionales que
necesitan utilizar informacin que no puede encontrarse habitualmente o no puede
encontrarse fcilmente mediante sistemas abiertos como los buscadores. A veces se trata de
documentacin publicada en mbitos muy dispersos. Entonces las bases de datos aportan
valor proporcionando un lugar unificado donde localizar esta clase de informacin. En otras
ocasiones se trata de informaciones que se han publicado originalmente en formatos impresos
y que solamente estn disponibles en formato digital a travs de servicios especiales de
suscripcin.
Entre las bases de datos profesionales ms utilizadas estn las bases de datos de
informacin econmica, las bases de datos legislativas y, en e sector especfico de la
comunicacin social, las bases de datos de prensa, sin pretender agotar aqu la casustica.
Un ejemplo de bases de datos profesional, que rene a la vez informacin legislativa,
econmica y de prensa es LexisNexis, a su vez una de las bases de datos ms importantes del
mundo. Otra importante base de datos del mismo sector (informacin econmica e
informacin de prensa) es Factiva. En Espaa, adems contamos con MyNews tambin en el
sector de las bases de datos de prensa.
Otros sectores, como el sector de la educacin y la salud cuenta a su vez con sendos
ejemplos de grandes bases de datos, como son Eric (educacin) y Medline (medicina y ciencias
de la vida) utilizadas en todo el mundo por decenas de miles o por cientos de miles de usuarios
de todo el mundo. Naturalmente, la lista de bases de datos es casi tan extensa como como lo
es la lista de grandes sectores de la economa desde la salud hasta la cinematografa pasando
por el derecho.
6.3. Bsqueda avanzada
Una vez ms, la confluencia de tipo de coleccin, colectivo de usuarios y necesidades
de informacin marcan las caractersticas de la bsqueda avanzada en esta clase de servicios
de informacin.
Las caractersticas comunes a las bases de datos profesionales y acadmicas presentan
dos caractersticas: en primer lugar tienden a desplegar el mayor nmero de opciones
comunes a las bsquedas avanzadas genricas. En segundo lugar, suelen estar relacionadas,
como no poda ser de otro modo, con la posibilidad de realizar bsquedas de grano fino en
relacin a las caractersticas de los documentos. Entre las ms importantes, adems del
conjunto amplio de las bsquedas avanzadas generales, como ya hemos sealado, debemos
destacar las siguientes por lo que hace a las bsquedas paramtricas:
1. Por nombre de autor, generalmente con desambiguacin en caso de coincidencia
de nombres de autores coincidentes
2. Por institucin, es decir, por artculos publicados por miembros de una
determinada universidad, por ejemplo
3. Por palabras clave asignadas de manera automtica o intelectual
4. Por resumen, ya sea generado por el autor del artculo o aadido por el productor
de la base de datos
5. Por fecha de publicacin, no del documento como tal, sino del artculo en la
versin impresa de la revista.
6. Posibilidad de utilizar de forma directa la sintaxis del lenguaje de bsqueda
mediante lnea de comandos, una opcin que sera impensable en los sistemas
dirigidos al gran pblico. El motivo es que las bases de datos suelen contar con
usuarios profesionales especialmente adiestrados que prestan servicios a terceros.
Adicionalmente, suelen permitir las siguientes clases de filtrado:
7. Bsquedas por seleccin de la fuente, de la lengua de los documentos y/o por su
procedencia geogrfica
8. Bsqueda en base a anlisis de citaciones.

7. LA BSQUEDA MULTIMEDIA

Adems de la bsqueda de documentos, una de las grandes necesidades de un amplio
grupo de sectores profesionales es la obtencin de imgenes. Cabe sealar que los motores de
bsqueda no son una solucin vlida para un uso profesional por diversas razones: en primer
lugar por los derechos de autor y de propiedad intelectual. En realidad, este primer problema
ya invalida el uso de motores de bsqueda siempre que estemos hablando de usos
profesionales, pero hay al menos otros tres que se suman y que sealamos a continuacin.
En segundo lugar, por los derechos del modelo, es decir, de la persona o personas que
aparecen en las imgenes, especialmente si stas se van a utilizar con fines creativos o
publicitarios o si son menores de edad (en todos los casos).
En tercer lugar, por la escasa calidad de las imgenes, en cuarto lugar por la
imposibilidad material de acceder a imgenes histricas o simplemente de cierta antigedad y,
quinta y ltima, por la imposibilidad de efectuar bsquedas con los criterios que necesitan los
profesionales, por ejemplo, que la imagen tenga un determinado color dominante, o que sea
de una orientacin determinada (p.e. vertical) o que en ella aparezcan tres personas y que
estn corriendo, etc.
Por tanto, los nicos sistemas que pueden utilizar los profesionales de la comunicacin
son los siguientes:
1. Bancos de imgenes comerciales
2. Repositorios y archivos con imgenes de dominio pblico (p.e. licencias Creative
Commons)

Desde el punto de vista de su explotacin y uso legal, las imgenes tienen poco que ver
con los documentos convencionales. Para entender algunas caractersticas de esta clase de
bases de datos hay que entender la segmentacin de su mercado de usuarios y los tipos de
licencias con las cuales se pueden utilizar las imgenes.
En principio, hay dos grandes segmentos de usuarios en el campo de la imagen que se
denominan sector creativo y sector editorial respectivamente, y que vamos a considerar a
continuacin.
Sector creativo
Dentro del sector creativo encontramos a los siguientes tipos de profesionales o empresas:
Diseadores grficos
Publicidad y relaciones pblicas
Departamentos de comunicacin de empresas y organismos de la Administracin
Creativos del sector audiovisual: fotgrafos, realizadores, etc.

A su vez, las imgenes de este sector presentan estas caractersticas:
Suelen expresar conceptos e ideas ms que hechos concretos o puntuales
Tienen una excelente factura grfica y una calidad impecable
No estn necesariamente ubicadas ni en un lugar ni en una fecha concreta

Sector editorial
Dentro del sector editorial encontramos a los siguientes tipos de profesionales o
empresas:
Prensa, diaria y no diaria (p.e. semanarios)
Editoriales de libros (temticos, p.e. Arte, o manuales de texto de cualquier
disciplina)
Informativos de actualidad en televisin
Realizadores de documentales, etc.

Por su parte, las caractersticas de la imagen editorial son las siguientes:
Son relativas a hechos de actualidad o que lo fueron en su momento (p.e. el
intento de golpe de estado en Espaa de 1981; triunfo de Fernando Alonso en
la Frmula 1 en 2007, etc.). Para decirlo de otro modo, la imagen editorial es
sinnimo de fotoperiodismo.
Por la razn anterior, estn siempre vinculadas a un lugar y a una fecha (p.e.
Pars, Mayo del 68; manifestacin estudiantes anti-Bolonia en Barcelona en
febrero del 2009, etc.)
No siempre son de calidad, aunque su valor testimonial puede obviar este
problema en muchas ocasiones

Naturalmente, hay siempre usos cruzados. Por ejemplo, un creativo publicitario puede
necesitar imgenes del Mayo del 68 para un anuncio dirigido a personas de espritu rebelde; el
reportaje de un peridico diario sobre hbitos de vida sana puede necesitar imgenes con
capacidad para transmitir estos conceptos y no tanto imgenes periodsticas, etc.
Licencias
En general, hay dos grandes tipos de licencia de uso, que se denominan Derechos
protegidos (Right Managed) y Libre de derechos (Royalty Free). Ninguno de los dos implica
que la imagen sea gratuita: en ambos casos hay que pagar una determinada cantidad. Lo que
cambia es la clase de uso que puede hacerse de la imagen por la que se ha hecho el
desembolso.
Derechos protegidos
En el caso de las imgenes del tipo Derechos protegidos, lo que se obtiene es la
exclusividad para el uso de la imagen en unas condiciones determinadas, tpicamente durante
un tiempo determinado y en un mbito geogrfico determinado.
Por ejemplo, un medio de comunicacin puede adquirir la licencia de uso de una
imagen durante un mes como portada de revista de una publicacin mensual de mbito
espaol. Este uso tendr un precio, por ejemplo, 200 euros. Fuera de ese uso, el medio no
puede usar la imagen. No puede volver a publicarla nunca ms, ni puede publicarla en paralelo
en una revista del mismo grupo en Francia, por ejemplo (salvo si vuelve a pagar otra licencia,
claro).
Libre de derechos
Las imgenes adquiridas bajo una licencia Royalty Free (o Libre de derechos) se pueden
utilizar, en cambio, sin prcticamente ninguna restriccin ni lmites temporales o geogrficos.
Deben leerse atentamente, sin embargo, las restricciones especficas de uso de cada imagen
antes de adquirirlas porque hay casustica en este terreno. Incluso, en determinados, casos, las
imgenes libres de derechos se pueden modificar y publicar como parte de una obra derivada.
En general, lo que no puede hacerse (como en la licencia anterior) es redistribuir la
imagen a terceros y mucho menos a cambio de alguna prestacin econmica.

Creative Commons
Finalmente, hay un tercer tipo de licencia que es gratuita. Se denomina Creative
Commons (CC). Las imgenes con licencia de uso CC se pueden copiar y distribuir libremente
sin contraprestacin econmica, pero siempre bajo algn tipo de restricciones.
La restriccin genrica es la atribucin. Atribucin significa que quin copie o
publique la imagen debe atribuirla a su autor, es decir, debe mencionar el nombre del
fotgrafo.
Otras restricciones pueden referirse a que no est disponible para usos comerciales
(dicho de otro modo, no para campaas de publicidad, por ejemplo) as como a la prohibicin
de crear obras derivadas.
7.2. Bancos de imgenes y vdeo
En el mundo anglosajn el sector de los bancos de imgenes y vdeo se conoce como
stock photography o stock footage (algo as como fotografa almacenada y tomas
almacenadas), trminos que se opones al de fotografa o vdeo de encargo. El motivo es que
la primera es la fotografa o el vdeo que se utiliza en lugar de encargar expresamente a un
fotgrafo o a un realizador que tome las imgenes. Por ejemplo, si una publicacin impresa
espaola, digamos un semanario sobre viajes, necesita ilustrar un reportaje escrito sobre un
pas africano, tiene al menos dos opciones: desplazar a uno de sus fotgrafos o adquirir las
imgenes directamente de un banco. Igualmente, si el productor de un film necesita un plano
areo de alguna regin de frica, puede encargar la filmacin o puede adquirir un clip de vdeo
con la filmacin de un banco de vdeos.
Por tanto, este sector de la bsqueda es posible porque los bancos de imgenes y
vdeo orientados a un pblico profesional proporcionan acceso a enormes colecciones de
fotografas e ilustraciones. Los ms importantes a nivel internacional son Getty Images
(www.gettyimages.com) y Corbis (www.corbis.com), ambos con importantes divisiones de fims
y vdeo. Un tercer banco de vdeo (sin fotografas) es el de la televisin estatal inglesa,
denominado BCC Motion Gallery (http://www.bbcmotiongallery.com). En Espaa uno de los
bancos de imgenes ms importantes y con amplia proyeccin internacional es AGE Fotosotck
(http://www.agefotostock.com).
En cualquier caso, adems de los mencionados existen decenas de bancos de imgenes
de mayor o menor tamao dentro del denominado sector Microstock, regido por el low cost,
pero con colecciones normalmente centradas en la fotografa (sin vdeo), con imgenes menos
exclusivas y con un menor (o ningn) contenido editorial (en el sitio mantenido por este autor,
http://bit.ly/docaudio, puede consultarse un amplio directorio de esta clase de bancos de
imgenes y vdeo).
7.3. Repositorios Creative Commons
Desde hace unos aos, en la bsqueda de imagen se dispone de archivos o repositorios
en la web con colecciones de imgenes que se pueden utilizar bajo alguna variedad de licencia
Creative Commons.
Gracias a este tipo de licencias, si el autor de una obra (p.e. una fotografa) realmente
est dispuesto a cederla sin contrapartidas econmicas, dispone ahora de un instrumento que
le permite expresar esto con claridad y sin ambigedades.
Aunque hay varias formas de buscar imgenes con licencia CC, una de las ms
eficientes, como intenta mostrar la imagen anterior es usando las opciones de bsqueda
avanzada de Flickr (http://www.flickr.com/search/advanced/), seleccionando la opcin CC y, si
es el caso, alguna de las dos subopciones adicionales disponibles (con uso comercial y con obra
derivada).
Otra posibilidad es utilizar el buscador de la fundacin Creative Commons
(http://search.creativecommons.org/) o activando la opcin correspondiente en la bsqueda
avanzada.
7.3.1. Bsquedas avanzadas
Las necesidades de bsqueda avanzada de esta clase de sistemas difieren bastante de
las de los sistemas documentales convencionales. Aunque se utilizan tambin las bsquedas
parametrizadas y las bsquedas booleanas, hay diferencias sustanciales que se presentan a
continuacin.
En primer lugar, la imagen en s misma no es indizable, al menos no de forma
conceptual, como s lo es, en cambio, un documento convencional que incluya un apartado
textual ms o menos amplio. Ciertamente existen sistemas de indexacin automtica de
imgenes (ver captulo correspondiente en esta misma obra) que pueden derivar cierta
propiedades de la imagen de forma automtica, como colores, formas dominantes, texturas,
etc. Pero ningn sistema automtico puede deducir (al menos hasta ahora) que una fotografa
con un nio y la bandera de un pas connota y, por tanto, puede indizarse con el trmino
nacionalismo.
Lo anterior nos indica ya una de las necesidades de bsqueda bsicas que deben
cubrir los formularios de bsqueda un banco de imagen o vdeo, y que, al menos, son las
siguientes:
1. Elementos icnicos presentes en la imagen (p.e., nio, bandera)
2. Elementos conceptuales, tanto denotados, como connotados (p.e.
infancia, nacionalismo, etc.)
3. Propiedades de la imagen (color, blanco y negro, etc.)
4. Orientacin de la imagen (vertical, horizontal, etc.)
5. Caractersticas tcnicas de la imagen (dimensiones, tamao, etc.)
6. Caractersticas legales (tipo de licencia, permiso del modelo, etc.)
7. Caractersticas de la toma (lugar, fecha, interior, exterior, etc.)

Por ltimo, dadas las necesidades de los usuarios de estos sistemas, la bsqueda
avanzada suele proporcionar la siguiente pareja de posibilidades adicionales:

7. Especificar que no aparezcan personas en la imagen (suele utilizarse el
descriptor nadie).
8. Si hay personas, entonces poder especificar el nmero de personas que
aparecen (suelen utilizarse los descriptores una, dos, tres, ms de
tres, multitud).

8. Bibliografa bsica
Battelle, John. 2006. Buscar: Cmo google y sus rivales han revolucionado los mercados y
transformado nuestra cultura. Barcelona: Urano. Una obra muy til para conocer y apreciar el
impacto de la bsqueda como actividad econmica y social.
Morville, Peter, and Jeffery Callender. 2010. Search patterns. Sebastopol (CA): O'Reilly. Una de
las obras ms inteligentes y completes sobre la usabilidad aplicada a las interfaces de usuario,
con un enfoque muy divulgativo.
Nielsen, Jakob, and Hoa Loranger. 2006. Usabilidad: Prioridad en el diseo web. Madrid: Anaya.
Una obra clsica de la Usabilidad que dedica un captulo completo (captulo 5) a la usabilidad
de las interfaces de bsqueda.
8.1. Para saber ms
Codina, Llus. SEO y visibilidad web (Directorio y diagrama interactivo). 2012 Acceso:
http://bit.ly/lcodinaSEO.
Codina, Llus, Mari Carmen Marcos, Rafael Pedraza. 2009. Web semntica y sistemas de
informacin documental. Gijn: Trea
Hearst, Marti A. 2009. Search user interfaces. Cambridge: Cambridge University Press.
Thurow, Shari, and Nick Musica. 2009. When search meets web usability. Berkeley: New Riders.


No se permite la reproduccin ni distribucin de este documento. Forma de citacin: < Llus Codina.
Fundamentos de la bsqueda y obtencin de informacin. Barcelona, rea de Documentacin. Facultad
de Comunicacin. Documento reprografiado, 2012 >

También podría gustarte