INFORMACIN rea de Documentacin. Facultad de Comunicacin - Univ. Pompeu Fabra Prof. Llus Codina, Cristfol Rovira, Rafael Pedraza ltima actualizacin: Enero 2013
0. Introduccin La bsqueda de informacin es una de las actividades vitales del ser humano. No es una actividad vinculada exclusivamente con Internet y ni siquiera es una actividad nueva. Es tan antigua como la Humanidad. Lo que marca la diferencia con nuestro tiempo es la sper abundancia de informacin, pero cuanta mayor oferta de informacin existe, ms necesarios son los sistemas eficientes de bsqueda. Como se argumentar ms adelante, existen adems determinados colectivos profesionales que necesitan de manera muy especfica y muy intensa el uso de la bsqueda, entre los que destacan los profesionales de la comunicacin social. Lo cierto es que, actualmente disponemos tambin de una oferta realmente exuberante de ellos, formando as un autntico ecosistema, con diferentes nichos y relaciones entre los mismos.
1. LA BSQUEDA COMO SECTOR ECONMICO Y SOCIAL La bsqueda, adems de ser una actividad y un campo de estudios, como estamos sealando, es tambin un sector econmico (el cual a su vez est generando su propio campo de estudio, la economa de la bsqueda). Una actividad que practica a diario ms del noventa por ciento de los ciudadanos que poseen una conexin a Internet, no poda escapar a la dimensin econmica. El sector ms conocido es el de los buscadores de pgina web como Google o Yahoo, quienes obtienen sus ingresos principalmente de la publicidad, procedente a su vez de la enorme audiencia que acaparan las pginas de resultados de los buscadores. Pero hay otros modelos econmicos, principalmente la suscripcin o el pago por acceso a la informacin. En este captulo, consideraremos que los principales sectores de la bsqueda son los siguientes: 1. Motores de bsqueda 2. Bases de datos profesionales y acadmicas 3. Bancos de imgenes y vdeo Ya hemos sealado que los motores de bsqueda generan actividad econmica alrededor de la publicidad. Los otros dos sectores generan actividad econmica a travs de la venta de informaciones: documentos, imgenes y vdeos. Todos ellos deben servir a distintos colectivos de usuarios con diferentes necesidades de informacin, pero todos los sistemas de bsqueda estn obligados a buscar la eficiencia y satisfacer de la forma ms adecuada las necesidades de sus usuarios, so pena de perderlos, y con ellos, de perder su fuente de ingresos. La eficiencia en los sistemas de informacin de cada uno de estos sectores depende estrechamente de la adecuada comprensin de lo que aqu denominaremos el tringulo informacional, el cual, a su vez se compone de: 1. Tipo de coleccin, es decir la clase de documentos que forman parte del sistema de informacin. Las caractersticas de la coleccin incluyen aspectos como: mbito temtico, formato, gnero, etc. 2. Usuarios. Los usuarios de cada sistema difieren muchsimo entre s. Las diferencias vienen marcadas por demografa, formacin, intereses, puntos de vista, objetivos, cultura, visin, etc. 3. Necesidades de informacin. Los colectivos de usuarios tienen tambin diferentes necesidades de informacin. Un profesional del derecho, un profesional de la comunicacin social o un acadmico de medicina o de la comunicacin social tienen necesidades de informacin distintas no solamente en el sentido trivial de que trabajan en mbitos distintos, sino en el sentido mucho ms profundo de que necesitan interfaces de bsqueda con opciones especficas y formatos de presentacin de resultados especficos. Lo ms importante es que una adecuada comprensin de los tres elementos anteriores debe manifestarse en las caractersticas que presentan los componentes bsicos de todo sistema de informacin: 1. Formularios de bsqueda 2. Pgina de resultados 3. Modelo de registro. Existe otra dimensin econmica y social del sector de la bsqueda que va ms all de las cuentas de resultados de las empresas, y se refiere al efecto general que tiene en la buena marcha de la economa de una nacin el hecho de que sus profesionales y acadmicos puedan disfrutar (o no) de una buena infraestructura de sistemas de informacin. Por ltimo cabe considerar que en los diversos sectores de la bsqueda como los que consideraremos aqu es donde, en realidad, tiene la RI su mejor mbito de aplicacin (y el ms exigente a la vez). Son sectores reales, por tanto, nada que ver con las situaciones de laboratorio que a menudo se utilizan tanto en la RI ms experimental. Deben proporcionar soluciones integrales a usuarios reales en el seno de empresas y actividades econmicas y sociales reales, o sea. En resumen: en los sectores de la bsqueda real como los que examinaremos a continuacin, adems de buena algortmica se requieren maneras adecuadas de representar la informacin, as como adecuadas interfaces de usuario, tanto para formular preguntas como para presentar los resultados; pero para esto se requiere a la vez conocer las caractersticas de sus necesidades de informacin. En lo que sigue, intentaremos presentar primero una visin global de la bsqueda y despus las principales caractersticas especficas de cada sector, pero antes necesitaremos comprender bien un aspecto que est detrs de todos y cada uno de estos sectores: la informacin cognitiva. 2. CARACTERSTICAS GENERALES Y ESTRATEGIAS EN LA BSQUEDA DE INFORMACIN COGNITIVA Un aspecto muy importante de la bsqueda de informacin a los efectos que interesan en este captulo es que, en general, tiene lugar en el contexto de la as llamada informacin cognitiva. La segunda caracterstica es que se refiere a informacin registrada, esto es, a documentos. Discutimos estos conceptos en los siguientes apartados. 2.1. Qu es la informacin cognitiva Para explicar esta caracterstica es necesario tener en cuenta que, cuando hablamos de informacin (registrada en algn soporte) podemos estar pensando indistintamente en albarn o de una tesis doctoral, para mencionar dos extremos de una especie de continuum imaginario de clases de informacin donde, en un extremos tenemos datos ms o menos bien estructurados (como en un albarn o una factura) y en el otro conocimiento muy complejo expresado en forma de discurso muy sofisticado (una tesis doctoral o un artculo de revista cientfica), pasando por los casos ms cercanos al contexto de la comunicacin social como son los distintos gneros de la produccin periodstica (noticias, reportajes, entrevistas, crnicas, etc.) o la fotografa de hechos de actualidad o hechos noticiosos. En el primer ejemplo estamos hablando de informacin administrativa, mientras que en el segundo estamos hablando de informacin cognitiva, de verdadero conocimiento expresado y registrado en un documento. En el primer tipo de documento (p.e. la factura) hay algunos datos numricos o textuales que son fciles de representar en forma de tabla con valores atmicos en cada celda (un nombre propio, una direccin, un nombre de producto, etc). En el segundo tipo de documentos (como los de produccin periodstica), puede haber datos factuales, pero sobre todo hay texto en forma de discurso razonado, exposicin de teoras, razonamientos inductivos o deductivos, etc. El contenido de este segundo tipo de documentos no puede ser reducido a una tabla con valores atmicos. Este es uno de los motivos de que los sistemas de gestin de bases de datos relacionales, basados en tablas con valores atmicos, no puedan gestionar bien documentos cognitivos como los mencionados. Otros ejemplos de tales documentos son los artculos de revistas, los informes tcnicos o cientficos de cualquier tipo, las informaciones periodsticas, la documentacin de mantenimiento de equipos, las patentes, etc. Hay dos caractersticas de la informacin cognitiva que hacen que necesite estrategias especficas: en primer lugar a diferencia de las series o conjuntos de meros datos, ya sean administrativos o de cualquier otra naturaleza la informacin cognitiva no es determinista. No suele haber una sola respuesta a una pregunta, sino documentos e informaciones relacionados con la pregunta, los cuales a su vez pueden generar nuevas preguntas, etc. En un sistema de datos (de tipo determinista) la pregunta tpica consiste en obtener el valor de una variable y, por tanto, solo puede haber una respuesta (si hubiera ms de una, tendramos un problema). Por ejemplo, en un sistema de este tipo, si pregunto cul es la capital de Kenia, solo debo obtener una respuesta (a saber, el nombre de la capital de Kenia, la bella ciudad de Nairobi). En un sistema de informacin cognitiva (no determinista) una pregunta tpica es en realidad una operacin de descubrimiento, y por tanto sin una respuesta nica. Por ejemplo, el usuario de una base de datos acadmica puede estar interesado en encontrar estudios sobre los mecanismos que generan inflacin en una economa y la forma de reducirla. No habr, ni mucho menos, una respuesta compacta (como en el caso de la capital de Nairobi), sino una lista de documentos con mayor o menor probabilidad de ser relevantes para su necesidad de informacin. En segundo lugar, tiene sentido acumularla y, de hecho los mejores sistemas de informacin cognitiva son los que dan acceso a mayores colecciones de informacin acumulada (otra cosa es que entonces necesitamos tambin las mejores opciones de filtrado y ordenacin). Por seguir con el ejemplo, nuestro investigador que quiere estudiar los motivos que generan inflacin en una economa se sentir feliz de saber que est consultando una base de datos que acumula informacin retrospectiva de varios aos, y no solo los informes que se han publicado en la ltima semana. En cambio, lo menos probable es que el usuario interesado en conocer un dato (la capital de Nairobi) est interesado en saber cmo ha ido evolucionando a lo largo de la historia. Ciertamente, puede haber casos especiales, pero son exactamente esto: especiales y no caracterizan de ninguna manera a los sistema deterministas. De hecho, la RI, la tecnologa que est en la base de los sistemas de informacin cognitivos es la nica que puede dar soporte a aplicaciones tan importantes como las bases de datos cientficas o acadmicas, los buscadores de Internet, las hemerotecas y repositorios digitales de la Web, los buscadores internos de sitios e Intranets, catlogo de bibliotecas, portales de revistas, bases de datos de patentes, de tesis doctorales, etc. Esta clase de sistemas de informacin cognitiva ha surgido histricamente como respuesta a las necesidades de informacin de una amplia clase de comunidades de usuarios, que consideramos a continuacin. EJEMPLO 1 La tabla siguiente muestra tres ejemplos de informacin; uno administrativa y dos de informacin cognitiva a travs de tres tipos de documentos y nos ayuda a comprender las caractersticas de gestin de ambas de cara a su representacin y recuperacin, pero en especial de esta ltima, que es el objeto de este captulo. Tipo de documento Tipo de informacin Necesidades de gestin Contrato de compra-venta Administrativa Asignar a una categora de un cuadro de clasificacin. No requiere palabras clave ni descriptores. No requiere metadatos. Artculo de revista Cognitiva Asignar a una o varias categoras temticas mediante un sistema de clasificacin. Indizar mediante palabras clave. Imprescindibles metadatos de diversos tipos. No es imprescindible la indexacin humana. Reportaje fotogrfico sobre hechos de actualidad Cognitiva Asignar a una o varias categoras temticas mediante un sistema de clasificacin. Indizar mediante palabras clave los elementos tanto los elementos icnicos como los conceptuales, tanto la denotacin como la connotacin. Imprescindibles metadatos de diversos tipos. Es imprescindible la indexacin humana.
2.2. La bsqueda de informacin en el ciclo de vida de un proyecto Un rasgo comn a ciertas comunidades profesionales es que para desarrollar su trabajo necesitan obtener informacin acadmica, cientfica o tcnica (ACT a partir de ahora). Forman un grupo caracterstico, dentro del grupo ms amplio de profesiones intensivas en informacin, que suele desarrollar su trabajo basndose principalmente en la denominada informacin cognitiva (por contraste con la informacin factual, administrativa, etc.). Una parte muy significativa de esta clase de comunidades son los profesionales de la comunicacin social: periodistas, comunicadores, comuniclogos, etc. Esto significa que nicamente pueden llevar a cabo su labor manejando informaciones que estn de alguna forma certificadas o garantizadas mediante esquemas de evaluacin comnmente aceptados (en general esquemas tipo peer review). La segunda presin es una consecuencia lgica del primero: se espera de estos profesionales que sean capaces de producir nuevas informaciones o nuevos conocimientos (a su vez susceptibles de ser evaluados). Las presiones anteriores generan necesidades paralelas. La primera consiste en disponer de yacimientos de informacin donde poder acudir cuando necesitan nuevos inputs de informacin de calidad para su trabajo (p.e. para una nueva investigacin). Este acopio de informacin debe hacerse de forma continuada, y de poco servir si no se dispone de medios para gestionarla de forma muy eficiente cada vez que debe ser (re)utilizada. Pero la memoria humana necesita recurrir de forma sistemtica a instrumentos auxiliares que se utilizan como memorias exosomticas. Estas informaciones, a veces trabajosamente obtenidas, no sern memorizadas de forma indeleble sin recurrir a herramientas de almacenamiento externas. Aunque tendemos a retener conceptos, habilidades, teoras e ideas sin que se sepa de ningn lmite claro para ello, en cambio no (necesariamente) tendemos a recordarlo todo a nivel de detalle, ni a recordarlo justo en el momento en el que lo necesitamos; tampoco acertamos siempre, ni mucho menos, en detectar las relaciones entre las informaciones recopiladas y muchos menos los valores que asumen las variables con las que necesitamos trabajar. En definitiva: identificar en un momento determinado (T1) una informacin o un conjunto de datos obtenidos a veces despus de un trabajo intenso de bsqueda en los yacimientos a los que nos hemos referido, no garantiza que, en un momento posterior (T2) acertemos a reutilizarlo. Todo esto nos lleva a la segunda necesidad: sistemas para gestionar aquella informacin valiosa que eventualmente deber actuar como input en los diferentes proyectos. A diferencia de los yacimientos de informacin, que son de mbito social, estos sistemas han de ser ante todo capaces de adaptarse a perfiles personales y eventualmente de grupo. Por ltimo, los profesionales de la ATC necesitan divulgar su produccin. De nada le sirve a un autor haber producido un gran trabajo acadmico, si no disponen de herramientas para divulgarlo de forma eficiente en la era de la Web. De hecho, es una obligacin o una responsabilidad legal para ciertos miembros de esta comunidad, como los profesores de universidad, cuya carrera acadmica est ligada a su xito para divulgar su produccin cientfica.
2.3. Componentes universales de los sistemas de bsqueda Todo sistema de informacin documental, como indicamos en el primer apartado, se sustenta en tres componentes: 1. Bsqueda simple y avanzada 2. Pgina de resultados 3. Modelo de registro Ahora bien, estos tres componentes solamente tienen sentido a partir de un cuarto componente, que en este caso es una coproduccin sistema y del usuario: 4. Ecuacin de bsqueda 2.3.1. Bsqueda simple Habitualmente suelen presentarse por separado los formularios de bsqueda simple y de bsqueda avanzada. La bsqueda simple, como es sabido, consiste en una caja donde podemos entrar una o ms palabras y un botn para lanzar la bsqueda. Respecto a la bsqueda simple, suelen considerarse una buena prctica que contemple los cuatro aspectos siguientes: 1. El cuadro de bsqueda debe ser relativamente amplio, es decir, el usuario debera poder ver la totalidad del texto que entra como argumento de bsqueda. La razn es que se ha comprobado que los usuarios comenten ms errores si no pueden ver la totalidad de los caracteres que han entrado. Como a veces hay que combinar diversos elementos en la misma interfaz, suele ser habitual la necesidad de establecer un compromiso. En este caso, se aconseja que admita hasta 30 caracteres, de acuerdo con estudios de usabilidad como Nielsen y Loranger, 2006: 151) 2. El usuario debe poder utilizar indistintamente maysculas y minsculas, as como caracteres acentuados o no. Por ejemplo, las siguientes variaciones deberan proporcionar exactamente los mismos resultado: camin camion CAMIN CAMION cAmiN 3. Los espacios en blanco entre palabras deben ser tratados como AND booleanos. De este modo, una bsqueda como la siguiente: [camion trasporte] debe ser tratado como si fuera la siguiente ecuacin booleana: [camin AND transporte] sin necesidad de exigir conocimientos de lgica booleana al usuario de la bsqueda simple. 4. Por ltima, debe existir una indicacin clara de que hay otras opciones de bsqueda mediante un enlace cercano a la caja de bsqueda (bsqueda avanzada). El siguiente diagrama intenta ilustrar las recomendaciones anteriores:
Actividad 1 Intente determinar el nmero mximo de caracteres que permite el ancho del cuadro de consultas del buscador propio del sitio web de dos medios de comunicacin de su eleccin. Compare con el nmero mximo que permite la pgina principal de Google. Documente este actividad con capturas de pantalla con un pie informativo.
2.3.2. Bsqueda avanzada Por su parte, ha ido quedando bien establecido que los componentes mnimos de un buen formulario de bsqueda avanzada, debe satisfacer los siguientes requerimientos: 1. No ser la primera opcin que se muestra al usuario. El motivo es que la bsqueda avanzada debe reservarse a usuarios expertos o, al menos, motivados. Para usuarios inexpertos (o no motivados), la bsqueda avanzada es intimidatoria, por un lado; y una constante fuente de errores por otro debido a la posible (y frecuente) mala comprensin de las opciones propias de la bsqueda avanzada. 2. Por su parte, los componentes habituales suelen ser: a. Bsquedas parametrizadas: es decir, bsquedas por campos, por secciones o categoras, por tipo de documento, etc. b. Bsquedas con operadores lgicos: operadores AND, OR, NOT (ver ms adelante el apartado dedicado a los operadores booleanos) c. Bsqueda por frase: aplica un AND, reforzado con la exigencia de que no haya ninguna palabra entre los trminos de bsqueda y que el orden sea el mismo que la frase de bsqueda. Suele utilizarse la convencin de entrecomillar los trminos de la frase. No obstante se considera una buena prctica presentar la opcin de forma explcita en el formulario d. Bsquedas de proximidad: suele utilizarse el operador NEAR entre dos trminos de bsqueda para especificar el nmero mximo de palabras entre ambos trminos. e. Bsquedas combinadas: booleanas + parmetricas, por ejemplo. f. Bsqueda por ndices: autores, ttulos, etc. 3. Opcin de ayuda. Debe haber una pgina de ayuda con informacin, consejos y ejemplos de bsqueda Opcionalmente, algunos sistemas permiten la bsqueda por tesauros o algn otro tipo de lenguaje documental: clasificaciones, taxonomas, etc. En todo caso, cabe tener presente que no todas las bsquedas avanzadas incluyen a la vez todas las opciones, en especial las opciones 2a a 2d., sino que pueden incluir alguna combinacin de dos o de tres de las opciones, tpicamente, 2a + 2b, o 2a + 2b + 2d, etc. Actividad 2 Compare las opciones de la bsqueda avanzada de libros de Google Books (http://books.google.es/advanced_book_search?hl=es) y de WorlCat (http://www.worldcat.org/advancedsearch). Haga alguna prueba usando palabras clave de algn tema de su inters. Documente la actividad con capturas de pantalla comentadas.
2.3.4. Pgina de resultados Esta pgina contiene la lista de los documentos o registros que satisfacen la ecuacin de bsqueda. Los componentes de esta pgina pueden llegar a ser realmente extensos, sobre todo en las bases de datos acadmicas o bibliogrficas, pero los ms habituales son los siguientes: 1. Una fila superior donde aparece la palabra (o frase) de bsqueda y el nmero de resultados obtenido. 2. Sugerencias de bsqueda: palabras con otro deletreo, sinnimos, trminos relacionados, etc. 3. La lista de los resultados en s, con algunas indicaciones bsicas para cada resultado, que suelen ser: a. Ttulo del documentos b. Breve descripcin del documento (entre una y tres lneas) c. Propiedades del documento segn el caso (p.e. el tamao, el formato, la fecha, etc.) d. Un enlace al documento completo, si es el caso e. Posibilidad de marcar todos o parte de los resultados para realizar acciones posteriores. Tpicamente son las siguientes: imprimir, enviar por correo, exportar (lo veremos ms adelante), recomendar y, por ltimo, guardar en el espacio personal en sistemas que permiten la identificacin de usuarios. 4. Opciones de ordenacin. Al menos por los siguientes criterios: ttulo, fuente, autor, orden cronolgico y grado de relevancia. 5. Opciones de exportacin. Generalmente, en el caso de bases de datos bibliogrficas, exportacin a formatos de citacin e incluso exportacin directa a otras aplicaciones o sistemas de informacin (p.e. editores de texto o bases de datos bibliogrficas personales) 6. Historia de bsqueda con la posibilidad de combinar los conjuntos de resultados anteriores mediante operadores booleanos 7. Pgina de ayuda con sugerencias para bsquedas con cero resultados Como hemos sealado, a los componentes anteriores se puede unir an una larga lista de opciones, por ejemplo, anlisis de citaciones de los documentos recuperados, posibilidad de recibir avisos cada vez que se cite en el futuro ese documento en el futuro, etc. Tal vez uno de los mejores ejemplos de una pgina de resultados plena de opciones pero integradas de una forma muy usable, y no intimidatoria, sea la de Google. Tambin son excelentes ejemplos de pginas resultados, los de las bases de datos acadmicas (como ISI Web of Knowledge o Scopus). Actividad 3 Haga una bsqueda para algn tema de su inters y compare las pginas de resultados de Google y Bing. Intente determinar las diferencias principales entre ellas y cul de ellas presenta un mayor nmero de opciones. Documente la actividad con capturas de pantalla comentadas.
3. Necesidades de informacin y lenguajes de bsqueda El componente sin el cual ningn sistema de informacin tendra sentido es, naturalmente, la pregunta que formula el usuario al sistema para obtener como retorno uno o ms documentos razonablemente relevantes. Tcnicamente, esta pregunta se denomina ecuacin de bsqueda. El motivo es que, desde un punto de vista lgico una pregunta enviada a un sistema de informacin (query) puede ser interpretada como una ecuacin, con la palabra (o frase) de bsqueda en el lado izquierdo y el conjunto de documentos que satisfacen la ecuacin en el lado derecho. De este modo: EB = {dv}
EB significa Ecuacin de Bsqueda, y {dv} es el conjunto de los documentos verdaderos, es decir, el conjunto de los documentos que satisfacen la ecuacin (los resultados). Por su parte, la EB puede consistir en un trmino simple o en varios trminos simples o compuestos relacionados con uno o ms operadores booleanos y con utilizacin de parntesis, en su caso, para indicar sin ambigedad la prioridad de las operaciones. De este modo: (T1 Op T2) Op (T2 Op T3)
T1, T2, etc., representan palabras o frases de bsqueda y Op representa un operador booleano. En general, uno de los siguientes: AND, OR NOT (AND NOT). A continuacin un ejemplo de ecuacin de bsqueda relativamente compleja: ((Cine OR Televisin) AND (Legislacin OR Leyes) AND (Anuncios OR Publicidad)) NOT Estados Unidos
Como esperamos que haya sido fcil deducir, los documentos relevantes que reclama la ecuacin anterior seran exclusivamente aquellos que aportaran informacin sobre la legislacin relacionada con el mundo del audiovisual y la publicidad, siempre que no tuvieran relacin con Estados Unidos. La manera en que diferentes sistemas de informacin, como motores de bsqueda y bases de datos, permiten construir ecuaciones de bsqueda bien formadas, forma parte del lenguaje de bsqueda del sistema, tambin llamado lenguaje de consulta. Este lenguaje se compone de un conjunto de trminos (que suelen coincidir con nombre de campos), unos operadores (suelen ser operadores booleanos y de proximidad) y unas reglas de sintaxis.
Para relacionar lo anterior con las necesidades de informacin de los usuarios es conveniente concebir las funciones de un sistema de informacin como una clase de sistema que se puede representar con el diagrama que mostramos a continuacin:
Ilustracin 1: Diagrama de un Sistema de Informacin documental Podemos ver que un sistema documental (tal como un motor de bsqueda) acepta dos clases de entradas: Documentos y Necesidades de Informacin. Los documentos en nuestro caso son pginas web principalmente y las necesidades de informacin son las preguntas de los internautas. La salida del sistema es una lista de sitios web que, presumiblemente, contienen informacin capaz de satisfacer las necesidades de informacin del usuario, de aqu que la salida se rotule con el (optimista) texto de Personas informadas. Naturalmente, si la primera consulta no da buenos resultados, lo lgico es que el usuario (el internauta) haga algn intento ms. Esto queda representado por la elipse rotulada con la palabra Control. Es decir, se supone que el usuario examina la relevancia de los resultados y si no le satisfacen, reitera la pregunta (usando otros trminos).
Durante aos, dcadas en realidad, el lenguaje de interrogacin por excelencia para recuperar informacin estuvo basado en la lgica booleana, incluyendo a los motores de bsqueda de primera generacin (como AltaVista o AlltheWeb, por ejemplo). Su importancia ha decado en los ltimos aos debido a los modernos sistemas de clculo de relevancia. Aunque en principio se trata de dos cosas diferentes, de facto, la calidad de los algoritmos de relevancia hacen menos necesarios los conocimientos tcnicos por parte de los usuarios a la hora de plantear preguntas de forma eficiente.
No obstante, la utilizacin de los lenguajes de bsqueda para permitir al usuario expresar sin ambigedad sus necesidades de informacin sigue siendo necesaria en algunas circunstancias. En primer lugar, la mayora de bases de datos la contemplan como nico modo de realizar bsquedas que expresen de manera adecuada las necesidades del usuario. Es el caso de aquellas bases de datos dnde hay texto insuficiente (o no lo hay en absoluto) en cada documento (bases de datos referenciales y bancos de imgenes) para efectuar anlisis de contenido y llevar a cabo inferencias sobre el tema y la relevancia de los documentos de forma automtica. En tales circunstancias ni se puede confiar en la indexacin automtica como nica forma de asignar descriptores o trminos de indexacin a los documentos ni se puede confiar exclusivamente en clculos de relevancia automticos a la hora de ordenar los resultados. En consecuencia, el lenguaje de interrogacin de cada sistema, tpicamente implicando bsquedas booleanas y bsquedas parametrizadas (ver ms adelante), deviene un factor crtico de xito, tanto para el propio sistema (como funcionalidad), como para el usuario (como habilidad).
Lenguaje de interrogacin (query language) es un trmino tcnico heredado de las primeras bases de datos que parece innecesariamente pedante. La razn es que actualmente es trivial entrar uno o ms trminos en un buscador, lanzar una consulta y obtener con facilidad algunos resultados relevantes. Que sean los mejores documentos o no, es decir, que sean exactamente los ms relevantes, no podemos saberlo, pero al menos obtenemos documentos relevantes sin necesidad de conocer nada parecido a un supuesto lenguaje de interrogacin.
Sin embargo, para que esa operacin se haya vuelto tan simple ha debido darse un gran desarrollo conceptual y tecnolgico, buena parte del cual se muestra en los diferentes captulos de este libro. En el pasado, era necesario que el usuario explicitara de forma muy detallada qu quera encontrar, en qu campos quera encontrarlo, cmo quera que fuera la salida (es decir la respuesta), porqu campos quera que se ordenase la salida, etc. Un sistema de bsqueda era tan bueno como su lenguaje de interrogacin. Aunque los documentos estuvieran bien indizados, si el usuario no poda expresar con mxima precisin qu es lo que quera, el sistema solamente proporcionaba una gran cantidad de ruido o simplemente cero resultados (aunque en realidad hubiera informacin).
Como es fcil deducir por lo que hemos expuesto hasta aqu, el papel del lenguaje de interrogacin es nada menos que transformar una necesidad de informacin que, por definicin, es algo intangible, en una frmula bien formada que un robot (un motor de bsqueda o una base de datos) pueda interpretar.
Los lenguajes de interrogacin se pueden expresar de forma directa si se conoce la denominacin exacta de los componentes en el sistema de informacin en cuestin y su sintaxis. No obstante, la mayora ha desarrollado interfaces de usuario alternativas que liberan de la necesidad de ese conocimiento detallado a los usuarios finales.
3.1. Tipos de bsquedas
La cuestin es que, expresado de forma directa o utilizando formularios, la mayor parte de buscadores y de bases de datos documentales actuales incluyen lenguajes de consulta que incluyen los tipos de bsqueda que vamos a examinar a continuacin:
Adems, existen las siguientes variaciones, que se pueden combinar con los anteriores:
1. Genrica 2. Parametrizada
Vamos a examinar tanto los tipos como las variaciones en las tablas siguientes:
Tipo Ejemplos Explicacin Simple cine Busca la cadena de caracteres. Frase John Ford Fuerza al sistema para que la cadena de caracteres buscada sea exactamente como aparece entre las comillas. En este caso, primero la palabra John, despus un espacio en blanco y despus la palabra Ford. Evita las falsas coordinaciones. Por ejemplo, la pgina de alguien llamado John Smith que vende coches de la marca Ford. Booleana simple cine AND novela cine OR novela cine NOT novela (esta ltima a veces expresada de forma ms precisa como: cine AND NOT novela) Principales operadores: AND, OR, NOT. AND: exige que ambas palabras estn presentes en el documento. En muchas bases de datos y motores de bsqueda un espacio en blanco equivale a un AND. Por ejemplo, la bsqueda: [cine novela] es igual en Google que: [cine AND novela] OR: al menos una de las palabras debe estar presente y tambin pueden estar presentes las dos.
NOT: la primera palabra debe estar presente, siempre que no aparezca la segunda palabra. En este caso, todos los documentos que tengan la palabra cine, siempre que no tengan la palabra novela. Booleana compleja (cine OR tv) AND (novela OR teatro) Combina tres o ms palabras clave con dos o ms operadores booleanos. Los parntesis se pueden utilizar para delimitar de forma exacta el orden y el alcance de cada operador. En este caso: primero se crea al conjunto 1 con todos los documentos que tienen la palabra cine, la palabra tv o ambas. Despus se crea el conjunto 2 con todos los documentos que tienen la palabra novela, la palabra teatro o ambas. Por ltimo, se combinan los conjuntos 1 y 2 con el operador AND y se produce como respuesta el conjunto 3 que contiene el resultado final. Tabla 1: Tipos de bsqueda
Adems de las bsquedas anteriores, los lenguajes de consulta de los motores ofrecen una gran variedad de posibilidades que a veces tiene poco que ver con la recuperacin de informacin clsica y ms bien responden a la idea de los sistemas de respuestas (como Wolfram Alpha), segn la cual, en lugar de proporcionar una lista de documentos, los sistemas de respuestas ofrecen directamente la respuesta. Por ejemplo, el lenguaje de interrogacin de Google acta tambin como una calculadora aritmtica si entramos nmeros y operadores de suma, resta, etc. (p.e. 9*670/8).
Otras caractersticas de estos lenguajes de consulta es que identifican determinadas combinaciones de palabras clave (p.e. la palabra moneda cuando va seguida del nombre de un pas) y ofrecen directamente la respuesta. Por ejemplos, si entramos la siguiente expresin en la caja de bsqueda de Google:
moneda de Jordania
como respuesta tenemos:
Dinar jordano
en lugar de una lista de (solamente) documentos que tienen la expresin moneda de Jordania.
Adems, podemos considerar, en los lenguajes de consulta actuales la posibilidad de utilizar una serie de acotaciones, lo cual nos proporciona al menos variaciones de tipos de bsquedas considerando aquellas que poseen o no poseen acotaciones. Las bsquedas acotadas permiten expresar la necesidad de que, para que el documento se considere vlido, la palabra clave debe aparecer en el ttulo, o bien que el formato del documento sea una hoja de clculo, etc. En general, las bsquedas acotadas proporcionan una enorme precisin en la respuesta all donde las bsquedas genricas tal vez arrojan mucho ruido.
Por ejemplo, es evidente que si hago una bsqueda genrica por el trmino cine musical puedo obtener una gran cantidad de ruido. Si en cambio, exijo que el trmino est presente en el ttulo, obtendr una lista de documentos mucho ms relevantes. Cada motor de bsqueda dispone de una sintaxis y unas opciones determinadas para realizar esas acotaciones, siendo Google con mucha diferencia el que presenta una mayor variedad.
Tabla 2: Las dos variaciones de bsqueda: genrica/parametrizada
Variacin Ejemplo Explicacin Genrica Cine musical Busca la cadena de caracteres en cualquier lugar del documento, en documentos de cualquier fecha, en todos los formatos de documento, etc. Parametrizada allintitle:cine musical filetype:pdf Busca la cadena de caracteres en el campo ttulo (allintitle:cine) y solamente en documentos con formato pdf (fileype:pdf). La sintaxis del ejemplo es la de Google. Otros buscadores pueden utilizar otras expresiones. Tipos de parametrizaciones principales utilizadas principalmente en bases de datos: Por campos de propiedades semnticas del documento (p.e. ttulo, resumen, palabras clave, contenido, etc.) Por fechas o rangos de fechas (p.e. ltimos 6 meses) Por formato (p.e. pdf) Por idioma (p.e. espaol) Por dominio (en el caso de pginas web, p.e: .com)
Las dos tablas anteriores resumen las caractersticas ms habituales en buscadores y en bases de datos. Naturalmente pueden combinarse tipos de bsquedas con variaciones de bsquedas (como ya hemos visto en los ejemplos).
El procesamiento suele ser fiable en bases de datos y muy poco fiable en buscadores: algunas combinaciones particulares no funcionan bien, y los buscadores son reacios a hacer explcitos esos problemas. Si ha habido una tendencia clara en los ltimos aos en este sentido es que los motores de bsqueda parecen haberse desentendido de la obligacin de que sus resultados respondan a una lgica matemtica. En teora podramos formular una bsqueda booleana y combinarla con un tipo de documentos y un idioma determinado, pero en demasiadas ocasiones los resultados no son consistentes.
En todo caso, la principal ventaja de las bsquedas booleanas es su capacidad para expresar con casi total exactitud las caractersticas concretas de la necesidad de informacin del usuario. La tabla siguiente compara una bsqueda con varios trminos expresada sin uso de operadores booleanos explcitos (el buscador los combinar todos con un AND) y una bsqueda expresada con operadores. En el primer caso se pierde totalmente la semntica de la pregunta del usuario, mientras que en el segundo se traduce con toda exactitud. La necesidad de informacin es la siguiente: cine y literatura para nios y adolescentes.
Tabla 3: Anatoma de una necesidad de informacin Enunciado corto (implcito) cine y literatura para nios y adolescentes Enunciado largo (explcito) cine tanto como literatura, ahora bien, siempre que tenga relacin o bien con nios o bien con adolescentes o bien con ambos Posible contexto de uso El usuario puede ser un educador o el programador de un canal de televisin, o investigador sobre el tema, etc. interesado en encontrar bibliografa sobre el tema de las pelculas y novelas recomendables para nios y adolescentes. Forma plausible de expresin en lenguaje real Me gustara encontrar recomendaciones del tipo de cine y de literatura que puedan ver o leer nios y adolescentes
Tabla 4: Interrogacin no booleana vs. booleana Tipo de interrogacin Significado lgico No booleana (es decir, sin operadores explcitos) cine literatura nios adolescentes Dado que los espacios en blanco suelen interpretarse como operadores AND, esta bsqueda significara que estamos pidiendo documentos que contengan todas y cada una de las palabras. Ahora bien, esto seguramente no capta la necesidad real del usuario. Se pierden de facto, por ejemplo, documentos que traten solamente de cine y de adolescentes. Tambin los que traten solamente de cine y de nios, etc.; puesto que pedimos exactamente que todas, es decir, las cuatro palabras estn presentes. Booleana (con operadores explcitos) (cine OR literatura) AND (nios OR adolescentes) Puede captar exactamente la necesidad de informacin del usuario. Por ejemplo, un documento sobre nios y literatura ser recuperado, aunque no hable ni de adolescentes ni de cine, etc., y esto es exactamente lo que necesita el usuario.
Como se puede ver, solamente la forma booleana puede expresar de forma adecuada la semntica de algunas necesidades de informacin, esto es, solamente la frmula booleana es capaz de evitar eventualmente tanto el ruido (informacin no deseada) como el silencio (informacin no recuperada).
El principal inconveniente es que el lgebra booleana es, de facto, anti intuitiva y un tanto intimidatoria para el usuario final. Por ejemplo, si revisamos la representacin de la necesidad de informacin anterior:
cine y literatura para nios y adolescentes
algunos usuarios que se hubieran visto obligados a traducirla a una expresin booleana lo hubieran hecho as:
cine AND literatura AND nios AND adolescentes
por el simple procedimiento de traducir todos los y gramaticales en AND lgicos (incluida la expresin para), y que es obviamente incorrecta por las razones sealadas antes, pero que vamos recordar de nuevo: se supone que no estamos interesados solo en documentos que traten todos estos aspectos en el mismo documento; sino, literalmente en documentos que traten o bien de nios y cine, o bien de nios y literatura, o bien de adolescentes y cine, o bien de adolescentes y literatura, y ya sea por separado o conjuntamente.
Adicionalmente, debemos insistir en que, a diferencia de algunas bases de datos, los buscadores Google, por ejemplo, nunca se han mostrado muy rigurosos con el procesamiento de bsquedas booleanas. Adems, en motores de bsqueda, su utilidad ha quedado en entredicho debido a dos factores: en primer lugar gracias a los sistemas de clculo de relevancia de los motores que han minimizado la necesidad de expresar de forma tan estricta las necesidades de informacin. En segundo lugar porque la enorme abundancia de informacin de cualquier tipo hace cada vez menos importante recuperar todo lo que responde a la ecuacin (la exhaustividad) y es cada vez ms importante la precisin. En algunos sistemas la precisin se consigue, entre otras cosas, considerando ms relevantes los documentos que contienen todos los trminos, aunque no se utilice lgica booleana, sino otros modelos, como el vectorial o el probabilstico (ver captulo 3).
En el caso de la Web al usuario tpico que busca informacin por motivos de ocio o por simple curiosidad no le importa ni mucho menos perder exhaustividad mientras que los 5 o 10 primeros documentos, que son los que estar dispuesto a examinar como mximo en respuesta a su bsqueda, sean razonablemente relevantes y solucionen as (mejor o peor) su problema de informacin.
Este es el motivo por el cual parece haber perdido peso no solamente el uso de las bsquedas booleanas explcitas de cierta complejidad (recordemos que toda bsqueda de dos o ms trminos lleva un AND booleano implcito), sino la misma necesidad de aprender la sintaxis de un lenguaje de interrogacin o incluso la necesidad de acudir al sistema avanzado de bsqueda.
Por otro lado, las bsquedas booleanas son imprescindible en contextos donde no existe el documento completo (base de datos referenciales), donde el documento no es textual (bases de datos multimedia) o donde no pueden aplicarse ordenaciones de relevancia basadas en enlaces (bases de datos de texto completo). Lo mismo sucede en base de datos de imgenes y video, donde el uso de bsquedas booleanas es imprescindible, dado que las imgenes carecen de texto o tienen muy poco texto (un ttulo y unas palabras clave) comparado con el documento completo. En las bases de datos de texto completo, el uso de bsquedas booleanas puede ser til en funcin de la complejidad de la consulta y la calidad relativa del sistema de relevancia de la base de datos.
Actividad 4 Nota: Prctica voluntaria dada su relativa complejidad. Intente prepare la bsqueda booleana para la siguiente necesidad de informacin (la mostramos aqu tal como tpicamente la expresara un usuario final): Necesitamos encontrar informacin sobre el sector audiovisual en Espaa y Francia, en relacin con la produccin de documentales de ciencia y naturaleza. No estamos interesados ni el sector de la publicidad ni en documentales de turismo. Datos para el ejercicio: no usaremos variantes de lengua (todas las palabras clave en el mismo idioma) ni parametrizaciones (no usaremos bsquedas por campos). En caso necesario, bastar con dos sinnimos del mismo concepto. Son obligatorios los parntesis. Los operadores booleanos los representaremos con maysculas y usaremos AND, OR, NOT.
4. La bsqueda de informacin en la Web
Los motores de bsqueda son los ms importantes sistemas de informacin documental de nuestro tiempo. Desde mediados de la dcada, por lo menos, forman parte no solo del paisaje de Internet de una manera que parece definitiva, sino que incluso es una de las tecnologas que se han acabado imponiendo en las empresas para organizar la documentacin interna.
Nadie imagina hoy la posibilidad de explotar la inmensa riqueza de la Web sin el auxilio de los motores de bsqueda cuyas funciones no han dejado ni de aumentar ni de experimentar cambios desde su temprana aparicin en los aos 90. De hecho, son los sistemas de recuperacin de informacin que ms cambios han acumulado en los ltimos cinco aos. A partir de ahora, los analizaremos en tanto sistemas de informacin documental.
4.1. Los motores de bsqueda
Hay al menos tres aspectos que marcan la diferencia de la bsqueda en la web en relacin con otros entornos de la recuperacin de informacin, y son los siguientes:
1. La heterogeneidad del fondo documental: la Web en su conjunto 2. El spam en buscadores o la recuperacin con adversario (adversarial information retrieval) 3. La hipertextualidad y el anlisis de enlaces 4.2. Heterogeneidad La Web aport, literalmente el espacio de bsqueda ms heterogneo de la historia de la humanidad: compuesto por documentos de todos los temas imaginables, sobre aspectos y puntos de vista totalmente diversos, y publicados por parte de actores completamente diversos, con intereses distintos, idiomas y culturas diferentes, etc., e insistimos, todo ellos en un espacio de acceso unificado. 4.3. Recuperacin con adversario Este es uno de los aspectos ms caractersticos de la Web actual y para el cual la RI clsica no estaba en absoluto preparada. Se trata de lo que se denomina recuperacin de informacin con adversario (Baeza-Yates, 2007).
En la Web, los autores de pginas y los administradores de sitios estn interesados en conseguir que sus sitios queden bien posicionados en las pginas de resultados de los motores. Una parte de esos autores y administradores carecen de escrpulos a la hora de perseguir sus objetivos de posicionamiento. Con millones de sitios, aunque los administradores no ticos fueran una minora, podramos estar hablando de miles y miles de sitios y decenas de miles de pginas sin inters real copando los primeros puestos en las pginas de resultados de los motores de bsqueda si stos siguieran usando tcnicas tan ingenuas como la que aplicaron durante los aos 90.
Por lo tanto, por primera vez, los sistema de informacin (motores de bsqueda en este caso) tuvieron que vrselas con una clase de documentos expresamente trucados para aparecer en posiciones de relevancia. Por tanto, a las anteriores razones a favor de un clculo de relevancia eficiente, se une esta peculiar caracterstica de la web. Dicho de otro modo: sea cual sea el algoritmo de posicionamiento que utilice un motor de bsqueda debe ser inmune (o al menos, relativamente inmune) a los intentos de manipulacin de los propios autores de las pginas web y los administradores de documentos.
4.4. Hipertextualidad y anlisis de enlaces Histricamente, la primera respuesta verdaderamente eficiente a todos los desafos sealados los aport Google a finales de los noventa con un nuevo concepto: el anlisis de enlaces (aunque entonces nadie lo llamaba todava as).
En concreto, la nueva idea que aport Google (mejor dicho, los fundadores de Google: Sergei Brin y Larry Page) es la siguiente: en lugar de calcular la relevancia exclusivamente por las caractersticas intrnsecas de la pgina, aadamos tambin caractersticas externas, en este caso, consideremos las caractersticas de los enlaces de entrada que recibe una pgina.
Con estos dos conjuntos de datos: propiedades del documento (p.e., nmero de veces que aparece la palabra clave en la pgina) ms propiedades de los enlaces de entrada (p.e., cuantos enlaces de entrada tiene la pgina), Google comenz a proporcionar una pgina de resultados mucho ms eficiente. Tan eficiente, de hecho, que en cuestin de poco tiempo se hizo con el dominio casi absoluto del mercado de las bsquedas, arrasando no solamente a sus competidores, sino de paso a casi cualquier otra forma alternativa de buscar informacin en la Web (por ejemplo, los directorios).
Como decimos, la aplicacin del anlisis de enlaces se ha revelado tan eficiente que Google no volvi a tener autntica competencia hasta que sus competidores adoptaron su clculo de relevancia para que tambin tuviera en cuenta el anlisis de enlaces.
En otros captulos de este libro se trata con mayor profundidad el anlisis de enlaces, por lo que aqu haremos una presentacin a mil metros de altura. Grosso modo, se trata de algo muy simple: una pgina es ms importante si recibe ms enlaces de entrada de otras pginas que a su vez sean importantes por el hecho de recibir ellas mismas un nmero de enlaces de entrada. A partir de aqu, la principal dificultad es de implementar un sistema de anlisis que no entre en un bucle interminable dado el carcter recursivo del sistema de medicin y los miles de millones de documentos de la Web.
Histricamente, han existido dos intentos de respuesta a las preguntas anteriores que, adems, se produjeron casi al mismo tiempo: HITS (1997) y PageRank (1998). HITS es un algoritmo desarrollado por el matemtico de la Universidad de Cornell Joan Kleinberg. Existe una gran unanimidad en admirar el acierto conceptual de su propuesta, pero en reconocer a la vez las dificultades prcticas para su implantacin, dado que requiere un gran tiempo de cmputo. A grandes rasgos, HITS se basa en considerar dos grandes clases de sitios: hubs (concentradores) y authorities. Un hub o concentrador es una pgina de la que salen numerosos enlaces hacia otras pginas (probablemente) relacionadas temticamente. Una authority o autoridad es una pgina que recibe muchos enlaces de entrada. Las mejores pgina sern aquellas que sean o bien hubs o bien authorities y segn lo que est buscando el usuario (o bien respuestas directas o bien referencias) preferir hubs o authorities, diferencia que la pgina de resultados del motor de bsqueda puede resaltar.
La segunda respuesta, aparecida casi a la vez, fue la aportada por los fundadores de Google Sergei Brin y Larry Page y se denomina, como ya sabemos, PageRank. En un artculo seminal aparecido en 1998 presentaron la idea del algoritmo que, ante el desinters comercial de los motores existentes en la poca y a los cuales intentaron vender sin xito, acabaran implantando por su propia cuenta en el ao 2000 en su motor, Google. En su pgina para webmasters, Google indica lo siguiente:
PageRank interpreta un enlace desde la pgina A a la pgina B como un voto para la pgina B por parte de la pgina A. PageRank determina entonces la importancia de una pgina por el nmero de votos que recibe. Tambin considera la importancia de cada pgina que emite el voto, por lo que los votos de algunas pginas se consideran de mayor valor, dando as a la pgina enlazada mayor valor. Las pginas ms importantes tienen un mayor PageRank y aparecen en la parte superior de los resultados de bsqueda.
4.5. Bsqueda avanzada Los motores presentan tambin sus opciones de bsqueda en dos planos o formas de acceso: la bsqueda simple, utilizada por la inmensa mayora de los usuarios y la bsqueda avanzada, cuya utilizacin es muy minoritaria. Sin embargo, la bsqueda avanzada ofrece prestaciones cuyo conocimiento detallado merece la pena.
Las prisas de la vida cotidiana y el sentido de la urgencia (real o imaginario) que casi todos experimentamos en nuestro trabajo diario hacen que la bsqueda simple sea, con mucha diferencia la ms utilizada en los diferentes motores. Es tanta la diferencia de la bsqueda simple sobre la avanzada que en algunos casos (Yahoo, Ask) es un tanto difcil acceder a ella, sntoma claro de que la mayor parte de los usuarios la evitan, pues como es sabido las interfaces de consulta de los motores de bsqueda estn diseadas a partir del estudio de los hbitos de sus usuarios como no podra ser de otro modo.
Ahora bien, el hecho de que la bsqueda avanzada sea mucho menos utilizada no nos dice nada en realidad sobre su utilidad, simplemente nos habla de la preferencia de los usuarios por la simplicidad. Para ejecutar una bsqueda simple nicamente hemos de entrar la palabra clave y hacer un clic en el botn de bsqueda. Con la inmensa cantidad de informacin publicada en la Web es muy probable que obtengamos alguna informacin, no necesariamente la mejor informacin, pero algo obtenemos y posiblemente de cierta relevancia. En contraste, para la bsqueda avanzada no solamente hemos de hacer un clic adicional, cosa que no sera en principio ningn problema especial sino que debemos tomar decisiones, cosa que va contra el principio fundamental de la usabilidad enunciado como no me hagas pensar. No es extraa la preferencia de los usuarios por la bsqueda simple. Ahora bien, utilizar la bsqueda avanzada aporta ventajas y, aunque resulte de una gran obviedad recordarlo refuerza el hbito de utilizarla. A su vez, usar la bsqueda avanzada, en ms de una ocasin puede marcar la diferencia entre una bsqueda fallida y una bsqueda con xito. Mientras que esto puede parecer trivial en un contexto de ocio o de simple curiosidad (buscamos informacin sobre nuestra actriz preferida o sentimos curiosidad por las imgenes de la ltima carrera de Frmula 1) en un contexto profesional, la diferencia entre xito y fracaso de una operacin de bsqueda es difcil de exagerar. 4.5.1. Componentes principales
Aunque cada buscador presenta un sistema propio, existen ciertas regularidades entre ellos que permiten un anlisis comn. En este sentido, los componentes ms habituales se pueden agrupar en tres secciones, pero en honor a Google, la ampliaremos a cuatro secciones (la ltima solamente podemos obtenerla en Google de momento). Cabe advertir que no todos los motores las tienen todas. Se trata de las siguientes:
1. Bsqueda booleana asistida 2. Bsqueda parametrizada o por campos: a) Ttulo b) Contenido de la pgina c) URL 3. Filtros (propiedades del documento): a) Idioma b) Formato (pdf, word, etc.) c) Fecha d) Dominio 4. Minera de datos 1. Pginas similares
Bsqueda booleana Esta clase de bsqueda (ver el punto 6.1.3) permite la combinacin de varios trminos con los operadores lgicos AND, OR y NOT. Actualmente, en la mayor parte de los casos solamente es posible usar bsquedas booleanas en modo asistido, es decir, entrando los trminos en un formulario donde cada fila corresponde al uso de un operador. El objetivo general de las bsquedas booleana es, por un lado, establecer con la mayor precisin el sentido de la necesidad de informacin del usuario y, por otro, lanzar en una sola operacin una bsqueda que de otro modo requerira varias operaciones. Bsqueda parametrizada El mayor beneficio de la bsqueda parametrizada o la bsqueda por campos consiste en el incremento de precisin que es capaz de aportar, notablemente con el uso de campos de fuerte valor semntico como ttulo, autor o resumen. Por ejemplo, una bsqueda simple puede arrojar decenas de miles de resultados. Restringir la bsqueda a documentos que tengan la palabra de clave en el ttulo puede proporcionar apenas unos cientos. Otra posibilidad en el caso de los motores de bsqueda es buscar por el contenido de la pgina. Puede parecer sorprendente la posibilidad de restringir una bsqueda al contenido de la pgina (acaso no buscamos siempre en el contenido de la pgina?). La razn es que cuando hacemos una bsqueda simple, muchos motores buscan no solamente en la pgina sino tambin en los enlaces de entrada que recibe la pgina, es decir, en el texto que aparece en la etiqueta <a> de los enlaces de entrada. Por ejemplo, si la pgina A es enlazada por la pgina B mediante un enlace con el texto clicable que indica mascotas para nios, muchos motores (entre ellos Google) consideran que la pgina A contiene de forma virtual las palabras mascotas y nios y la pgina A aparecer en los resultados aunque en el cuerpo de la misma no aparezca ninguna de esas palabras. Filtros La tercera opcin no es menos potente que la bsqueda por campos. En efecto, una de las posibilidades ms tiles (y reveladoras) es filtrar resultados por el dominio. Esto significa lo siguiente: el motor buscar documentos nicamente en el dominio indicado. Lo mejor de todo es que suele admitarse cualquier nivel de dominio, por ejemplo, podemos restringir una bsqueda a dominios .es (o .edu, .com, .es, .gov, etc.) o podemos restingir una bsqueda al dominio upf.edu; o al dominio iula.upf.edu, etc. Por ejemplo, una bsqueda por el trmino ontologas AND tesauros proporcion ms varios miles de resultados. Sin embargo, si filtramos a pginas o documentos del dominio .edu nos quedamos con decenas de documentos. Otros filtros habituales son el idioma y los rangos de fechas (las ltimas 24 horas, 6 meses, un ao, etc.). El problema con este ltimo filtro es que no corresponde exactamente a la fecha del documento, sino, dependiendo del buscador, o bien a la fecha en la cual el documento ha sido incorporado por primera vez al ndice del buscador o a la fecha del archivo. Minera de datos La minera de datos consiste en examinar grandes cantidades de informacin mediante algoritmos determinados con el fin de encontrar regularidades que no son aparentes a simple vista. Desde el punto de vista de las bsquedas, una de las operaciones ms productivas posiblemente sea la de encontrar pginas similares entre s. La minera de datos permite muchas otras opciones, pero los motores de bsqueda parecen especialmente celosos y parcos en este apartado. La nica posibilidad que suelen ofrece es la ya anunciada de buscar pginas similares a una dada. En el caso concreto de Google, la opcin de buscar pginas similares consiste en lanzar una bsqueda con las palabras ms frecuentes de la pgina de partida. 5. Buscadores acadmicos
Ahora bien, los contenidos de la Web, no sin algo de razn, siempre han despertado recelos en algunos sectores acadmicos y profesionales. Las preguntas y reflexiones que estos sectores se solan (suelen) hacer son del siguiente tenor: Quin controla la informacin que se publica en la Web? Es fiable la informacin que encontramos a travs de los motores de bsqueda? Se aplican a la Web los controles editoriales propios de las publicaciones impresas que tanto han significado para el progreso de la ciencia?
Ciertamente, no faltan casos de fraudes o de manipulaciones ms o menos conocidos en el mundo de la Web, como las falsas pginas de La Casa Blanca, la manipulacin de los resultados de Google que hacen los spammers o practicantes poco escrupulosos del posicionamiento web (el caso ms conocido es el llamado "Gooble bombing" que, al parecer ya ha sido erradicado en parte por Google) y otros. A lo anterior hay que sumar la dificultad para obtener resultados acadmicos o cientficos cuando se utilizan trminos vinculados con el mundo del comercio o de la cultura popular. Por ejemplo, para alguien interesado en la fisiologa del sueo le resultar muy difcil encontrar informacin sobre la fase del sueo denominada Rapid Eye Movement y que se conoce internacionalmente como REM, ya que si entra esa expresin en Google solamente encontrar resultados vinculados con el grupo musical REM. La misma dificultad se puede experimentar si tenemos una necesidad de informacin cuya palabra clave coincide con temas discutidos en frums abiertos. Si lo que buscamos es informacin solvente sobre el tema X, y se da la circunstancia de que, sobre ese mismo tema, funciona algn foro, los resultados del buscador siempre nos llevarn a los mensajes de ese foro. Sin embargo, por muchas dudas que pueda crearnos, la Web ha llegado para quedarse y para tener un impacto positivo y real en la difusin del conocimiento acadmico y cientfico. Durante unos aos, ms o menos desde los noventa hasta nuestros das, una de las soluciones consisti en desarrollar y promover directorios, portales y servicios de evaluacin, como INTUTE ( www.intute.ac.uk). El problema es que los directorios y servicios similares apenas pueden abarcar una parte nfima de los contenidos reales de la Web. La Web, incluyendo los contenidos de tipo cientfico, crece a tal ritmo que es imposible que servicios basados totalmente en el esfuerzo intelectual puedan abarcar ms que una fraccin de ellos. As que, aqu tenemos una contradiccin que presenta diversas caras y que necesitaba ser resuelta. 5.1. Principales sistemas Histricamente, la importante editorial Elsevier fue la primera en detectar que exista una nueva necesidad de informacin y que, por tanto, se necesitaba una nueva clase de sistemas de informacin. En concreto, un sistema que fuera capaz de indizar pginas web de manera automtica, es decir, como lo hacen los motores convencionales como Google, pero que fuera capaz de filtrar la informacin de manera que pudiera ser admitida y fiable para los estrictos criterios del mundo acadmico. Ese producto se llam Scirus (www.scirus.com) y, al parecer su xito despert suficientes recelos en Google para que esta empresa intentara una operacin parecida, y as tuvimos Google Scholar (scholar.google.com). Adems, de los anteriores que, son con diferencia, los ms utilizados por el mundo acadmico, hay una lista relativamente larga de otros buscadores centrados en el mismo nicho. Algunos de los ms importantes son Science Research (http://www.scienceresearch.com) y World Wide Science (http://worldwidescience.org). Estos ltimos junto con algunos otros forman parte del portal de bsqueda cientfica DeepWeb (http://www.deepwebtech.com). La caracterstica principal de los dos sistemas primeros sistemas sealados (Google Scholar y Scirus) es que, en lugar de recorrer todos los sitios web de forma indiscriminada (como hacen los robots de los buscadores genricos) solamente indizan sitios web vinculados con el mundo acadmico. Qu se entiende por "mundo acadmico" cambia en cada caso pero en general se entiende sitios web de universidades (p.e. sitios con dominio .edu), sitios de organismos de investigacin, de publicaciones acadmicas, repositorios cientficos, etc. incluyendo sitios gubernamentales que publiquen informes y estudios. En cambio, otros buscadores (como los indicados en segundo lugar, Science Research, Deep Web, etc.) utilizan el sistema denominado bsqueda federada que consiste en enviar la misma pregunta a centenares de bases de datos (p.e. Eric o Medline), portales (p.e. PLOS o DOAJ) y repositorios cientficos (p.e. RePec, Arxiv). Es decir, en lugar de indizar de nuevo los contenidos que ya estn indizados en otros sitios, lo que han hecho es desarrollar una ingeniera que permite lo siguiente: 1. Lanzar la misma bsqueda a diversos sistemas como los sealados 2. Fusionar los resultados obtenidos de las diversas fuentes 3. Eliminar (tericamente) los duplicados 4. Confeccionar una nica pgina de resultados y ordenar (rankear) de nuevo los resultados para ofrecerlos al usuario. La cuestin es que, independientemente de la tecnologa utilizada (indexacin o bsqueda federada), en general, este tipo de buscadores, a diferencia de los buscadores genricos, presentan la siguiente tipologa de documentos como resultado de una bsqueda: Tipo 1: Pginas web publicadas en sitios de instituciones acadmicas o cientficas (p.e., sitios del tipo .edu) Tipo 2: Artculos de publicaciones cientficas (p.e. publicaciones de tipo open acces, pero tambin publicaciones de pago) Tipo 3: Trabajos acadmicos: tesis doctorales, tesis de licenciatura o de final de mster Tipo 4: Documentos publicados en repositorios cientficos, tpicamente informes tcnicos, resultados de investigacin, preprints, etc. Tipo 5: Patentes Tipo 6: Libros (monografas) de editoriales de cierto prestigio
Obviamente, los seis tipos de documentos anteriores se solapan entre ellos. Por ejemplo, algunos repositorios incluyen tesis doctorales (aunque no todos); por no mencionar que algunos repositorios han sido creados y estn mantenidos por universidades y se accede a ellos a travs de su sitio web, etc. En conclusin, esta clase de buscadores, muy poco utilizados por el gran pblico en comparacin con los buscadores genricos, representan la forma ms fiable de utilizar la Web, dada la alta garanta de los documentos y resultados obtenidos. Por ello, aunque muy poco conocidos por otros colectivos, son de amplio uso por parte de acadmicos y profesores de universidad. 6. BASES DE DATOS
Como es sabido, una base de datos es un sistema de informacin complejo formado por, al menos, los siguientes elementos:
1. Un conjunto de registros, cada uno de los cuales describe a una entidad mediante una combinacin de campos y de sistemas de metadatos 2. Un sistema de indexacin 3. Un sistema de consulta 4. Un sistema de ordenacin y presentacin de resultados
Adicionalmente, la base de datos puede contener documentos completos, naturalmente, asociados al registro correspondiente. Lo que marca el punto de referencia entre una base de datos y un buscador, por ejemplo, es el primer elemento. Los otros tres (del 2 al 4) son comunes a casi todos los sistemas de bsqueda y obtencin de informacin.
6.1. El concepto de registro
Un registro es la descripcin o representacin de una entidad. Como las entidades tienen atributos, los registros se articulan en campos que sirven para representar esos atributos. Por ejemplo, en la base de datos de datos inmobiliaria las entidades son viviendas o inmuebles. Los campos del registro sern entonces las propiedades ms importantes del inmueble como sus metros cuadrados, la ubicacin, precio, cargas legales, etc.
En el caso de las bases de datos de las que nos ocuparemos en este apartado, las entidades suelen ser documentos, y los campos suelen ser propiedades de los mismos tales como: ttulo, autor, palabras clave, resumen, fuente, etc. Parte de estos datos pueden obtenerse directamente de los documentos mediante operaciones automticas de indexacin tpicas de la RI, pero parte de ellos se asignan de forma manual, mediante inspeccin del documento y su asignacin de descriptores (palabras clave normalizadas) obtenidos de un lenguaje documental (p.e. un tesauro o una taxonoma).
La cuestin es que este conjunto de datos articulados en campos (dentro de registros que pueden adquirir una cierta complejidad) constituyen una forma de metadatos. En las bases de datos, la existencia de un sistema de metadatos formalizados constituye la diferencia especfica a la que nos referamos antes en relacin a otros sistemas de bsqueda.
En el caso concreto de las bases de datos profesionales estos documentos pueden ser informes econmicos, normas legales, patentes, noticias de diarios, transcripciones de programas de radio, etc. En el caso de las bases de datos acadmicas o cientficas, suelen ser artculos de publicaciones cientficas y actas de congresos.
Cuando este contenido consiste nicamente en metadatos (p.e. la descripcin de un documento, pero no el documento en s), hablamos de bases de datos referenciales. Cuando adems de un registro existen documentos completos asociados al mismo, hablamos de bases de datos de documento completo o de bancos de datos.
Un punto muy importante es que el cruce de clase de documento con necesidades de informacin de los usuarios debera generar un modelo de registro especfico, que a su vez permitir las bsquedas paramtricas (o las impedir si no se tuvo en cuenta esta cuestin).
Por ejemplo, los usuarios de bases de datos acadmicas apreciarn poder buscar documento publicados por personas que trabajen en cierta institucin (p.e. en determinada universidad). Si el modelo de registro no previno la necesidad de registrar esta circunstancia del autor de documento, despus esta clase de bsqueda ser imposible. Los ejemplos se podran multiplicar. Los usuarios de un banco de imgenes a menudo buscarn fotografas por el color dominante, o por el hecho de que no aparezcan ms de dos personas, etc.
6.2. Bases de datos profesionales
Esta clase de bases de datos se dirige a usuarios de diversos perfiles profesionales que necesitan utilizar informacin que no puede encontrarse habitualmente o no puede encontrarse fcilmente mediante sistemas abiertos como los buscadores. A veces se trata de documentacin publicada en mbitos muy dispersos. Entonces las bases de datos aportan valor proporcionando un lugar unificado donde localizar esta clase de informacin. En otras ocasiones se trata de informaciones que se han publicado originalmente en formatos impresos y que solamente estn disponibles en formato digital a travs de servicios especiales de suscripcin. Entre las bases de datos profesionales ms utilizadas estn las bases de datos de informacin econmica, las bases de datos legislativas y, en e sector especfico de la comunicacin social, las bases de datos de prensa, sin pretender agotar aqu la casustica. Un ejemplo de bases de datos profesional, que rene a la vez informacin legislativa, econmica y de prensa es LexisNexis, a su vez una de las bases de datos ms importantes del mundo. Otra importante base de datos del mismo sector (informacin econmica e informacin de prensa) es Factiva. En Espaa, adems contamos con MyNews tambin en el sector de las bases de datos de prensa. Otros sectores, como el sector de la educacin y la salud cuenta a su vez con sendos ejemplos de grandes bases de datos, como son Eric (educacin) y Medline (medicina y ciencias de la vida) utilizadas en todo el mundo por decenas de miles o por cientos de miles de usuarios de todo el mundo. Naturalmente, la lista de bases de datos es casi tan extensa como como lo es la lista de grandes sectores de la economa desde la salud hasta la cinematografa pasando por el derecho. 6.3. Bsqueda avanzada Una vez ms, la confluencia de tipo de coleccin, colectivo de usuarios y necesidades de informacin marcan las caractersticas de la bsqueda avanzada en esta clase de servicios de informacin. Las caractersticas comunes a las bases de datos profesionales y acadmicas presentan dos caractersticas: en primer lugar tienden a desplegar el mayor nmero de opciones comunes a las bsquedas avanzadas genricas. En segundo lugar, suelen estar relacionadas, como no poda ser de otro modo, con la posibilidad de realizar bsquedas de grano fino en relacin a las caractersticas de los documentos. Entre las ms importantes, adems del conjunto amplio de las bsquedas avanzadas generales, como ya hemos sealado, debemos destacar las siguientes por lo que hace a las bsquedas paramtricas: 1. Por nombre de autor, generalmente con desambiguacin en caso de coincidencia de nombres de autores coincidentes 2. Por institucin, es decir, por artculos publicados por miembros de una determinada universidad, por ejemplo 3. Por palabras clave asignadas de manera automtica o intelectual 4. Por resumen, ya sea generado por el autor del artculo o aadido por el productor de la base de datos 5. Por fecha de publicacin, no del documento como tal, sino del artculo en la versin impresa de la revista. 6. Posibilidad de utilizar de forma directa la sintaxis del lenguaje de bsqueda mediante lnea de comandos, una opcin que sera impensable en los sistemas dirigidos al gran pblico. El motivo es que las bases de datos suelen contar con usuarios profesionales especialmente adiestrados que prestan servicios a terceros. Adicionalmente, suelen permitir las siguientes clases de filtrado: 7. Bsquedas por seleccin de la fuente, de la lengua de los documentos y/o por su procedencia geogrfica 8. Bsqueda en base a anlisis de citaciones.
7. LA BSQUEDA MULTIMEDIA
Adems de la bsqueda de documentos, una de las grandes necesidades de un amplio grupo de sectores profesionales es la obtencin de imgenes. Cabe sealar que los motores de bsqueda no son una solucin vlida para un uso profesional por diversas razones: en primer lugar por los derechos de autor y de propiedad intelectual. En realidad, este primer problema ya invalida el uso de motores de bsqueda siempre que estemos hablando de usos profesionales, pero hay al menos otros tres que se suman y que sealamos a continuacin. En segundo lugar, por los derechos del modelo, es decir, de la persona o personas que aparecen en las imgenes, especialmente si stas se van a utilizar con fines creativos o publicitarios o si son menores de edad (en todos los casos). En tercer lugar, por la escasa calidad de las imgenes, en cuarto lugar por la imposibilidad material de acceder a imgenes histricas o simplemente de cierta antigedad y, quinta y ltima, por la imposibilidad de efectuar bsquedas con los criterios que necesitan los profesionales, por ejemplo, que la imagen tenga un determinado color dominante, o que sea de una orientacin determinada (p.e. vertical) o que en ella aparezcan tres personas y que estn corriendo, etc. Por tanto, los nicos sistemas que pueden utilizar los profesionales de la comunicacin son los siguientes: 1. Bancos de imgenes comerciales 2. Repositorios y archivos con imgenes de dominio pblico (p.e. licencias Creative Commons)
Desde el punto de vista de su explotacin y uso legal, las imgenes tienen poco que ver con los documentos convencionales. Para entender algunas caractersticas de esta clase de bases de datos hay que entender la segmentacin de su mercado de usuarios y los tipos de licencias con las cuales se pueden utilizar las imgenes. En principio, hay dos grandes segmentos de usuarios en el campo de la imagen que se denominan sector creativo y sector editorial respectivamente, y que vamos a considerar a continuacin. Sector creativo Dentro del sector creativo encontramos a los siguientes tipos de profesionales o empresas: Diseadores grficos Publicidad y relaciones pblicas Departamentos de comunicacin de empresas y organismos de la Administracin Creativos del sector audiovisual: fotgrafos, realizadores, etc.
A su vez, las imgenes de este sector presentan estas caractersticas: Suelen expresar conceptos e ideas ms que hechos concretos o puntuales Tienen una excelente factura grfica y una calidad impecable No estn necesariamente ubicadas ni en un lugar ni en una fecha concreta
Sector editorial Dentro del sector editorial encontramos a los siguientes tipos de profesionales o empresas: Prensa, diaria y no diaria (p.e. semanarios) Editoriales de libros (temticos, p.e. Arte, o manuales de texto de cualquier disciplina) Informativos de actualidad en televisin Realizadores de documentales, etc.
Por su parte, las caractersticas de la imagen editorial son las siguientes: Son relativas a hechos de actualidad o que lo fueron en su momento (p.e. el intento de golpe de estado en Espaa de 1981; triunfo de Fernando Alonso en la Frmula 1 en 2007, etc.). Para decirlo de otro modo, la imagen editorial es sinnimo de fotoperiodismo. Por la razn anterior, estn siempre vinculadas a un lugar y a una fecha (p.e. Pars, Mayo del 68; manifestacin estudiantes anti-Bolonia en Barcelona en febrero del 2009, etc.) No siempre son de calidad, aunque su valor testimonial puede obviar este problema en muchas ocasiones
Naturalmente, hay siempre usos cruzados. Por ejemplo, un creativo publicitario puede necesitar imgenes del Mayo del 68 para un anuncio dirigido a personas de espritu rebelde; el reportaje de un peridico diario sobre hbitos de vida sana puede necesitar imgenes con capacidad para transmitir estos conceptos y no tanto imgenes periodsticas, etc. Licencias En general, hay dos grandes tipos de licencia de uso, que se denominan Derechos protegidos (Right Managed) y Libre de derechos (Royalty Free). Ninguno de los dos implica que la imagen sea gratuita: en ambos casos hay que pagar una determinada cantidad. Lo que cambia es la clase de uso que puede hacerse de la imagen por la que se ha hecho el desembolso. Derechos protegidos En el caso de las imgenes del tipo Derechos protegidos, lo que se obtiene es la exclusividad para el uso de la imagen en unas condiciones determinadas, tpicamente durante un tiempo determinado y en un mbito geogrfico determinado. Por ejemplo, un medio de comunicacin puede adquirir la licencia de uso de una imagen durante un mes como portada de revista de una publicacin mensual de mbito espaol. Este uso tendr un precio, por ejemplo, 200 euros. Fuera de ese uso, el medio no puede usar la imagen. No puede volver a publicarla nunca ms, ni puede publicarla en paralelo en una revista del mismo grupo en Francia, por ejemplo (salvo si vuelve a pagar otra licencia, claro). Libre de derechos Las imgenes adquiridas bajo una licencia Royalty Free (o Libre de derechos) se pueden utilizar, en cambio, sin prcticamente ninguna restriccin ni lmites temporales o geogrficos. Deben leerse atentamente, sin embargo, las restricciones especficas de uso de cada imagen antes de adquirirlas porque hay casustica en este terreno. Incluso, en determinados, casos, las imgenes libres de derechos se pueden modificar y publicar como parte de una obra derivada. En general, lo que no puede hacerse (como en la licencia anterior) es redistribuir la imagen a terceros y mucho menos a cambio de alguna prestacin econmica.
Creative Commons Finalmente, hay un tercer tipo de licencia que es gratuita. Se denomina Creative Commons (CC). Las imgenes con licencia de uso CC se pueden copiar y distribuir libremente sin contraprestacin econmica, pero siempre bajo algn tipo de restricciones. La restriccin genrica es la atribucin. Atribucin significa que quin copie o publique la imagen debe atribuirla a su autor, es decir, debe mencionar el nombre del fotgrafo. Otras restricciones pueden referirse a que no est disponible para usos comerciales (dicho de otro modo, no para campaas de publicidad, por ejemplo) as como a la prohibicin de crear obras derivadas. 7.2. Bancos de imgenes y vdeo En el mundo anglosajn el sector de los bancos de imgenes y vdeo se conoce como stock photography o stock footage (algo as como fotografa almacenada y tomas almacenadas), trminos que se opones al de fotografa o vdeo de encargo. El motivo es que la primera es la fotografa o el vdeo que se utiliza en lugar de encargar expresamente a un fotgrafo o a un realizador que tome las imgenes. Por ejemplo, si una publicacin impresa espaola, digamos un semanario sobre viajes, necesita ilustrar un reportaje escrito sobre un pas africano, tiene al menos dos opciones: desplazar a uno de sus fotgrafos o adquirir las imgenes directamente de un banco. Igualmente, si el productor de un film necesita un plano areo de alguna regin de frica, puede encargar la filmacin o puede adquirir un clip de vdeo con la filmacin de un banco de vdeos. Por tanto, este sector de la bsqueda es posible porque los bancos de imgenes y vdeo orientados a un pblico profesional proporcionan acceso a enormes colecciones de fotografas e ilustraciones. Los ms importantes a nivel internacional son Getty Images (www.gettyimages.com) y Corbis (www.corbis.com), ambos con importantes divisiones de fims y vdeo. Un tercer banco de vdeo (sin fotografas) es el de la televisin estatal inglesa, denominado BCC Motion Gallery (http://www.bbcmotiongallery.com). En Espaa uno de los bancos de imgenes ms importantes y con amplia proyeccin internacional es AGE Fotosotck (http://www.agefotostock.com). En cualquier caso, adems de los mencionados existen decenas de bancos de imgenes de mayor o menor tamao dentro del denominado sector Microstock, regido por el low cost, pero con colecciones normalmente centradas en la fotografa (sin vdeo), con imgenes menos exclusivas y con un menor (o ningn) contenido editorial (en el sitio mantenido por este autor, http://bit.ly/docaudio, puede consultarse un amplio directorio de esta clase de bancos de imgenes y vdeo). 7.3. Repositorios Creative Commons Desde hace unos aos, en la bsqueda de imagen se dispone de archivos o repositorios en la web con colecciones de imgenes que se pueden utilizar bajo alguna variedad de licencia Creative Commons. Gracias a este tipo de licencias, si el autor de una obra (p.e. una fotografa) realmente est dispuesto a cederla sin contrapartidas econmicas, dispone ahora de un instrumento que le permite expresar esto con claridad y sin ambigedades. Aunque hay varias formas de buscar imgenes con licencia CC, una de las ms eficientes, como intenta mostrar la imagen anterior es usando las opciones de bsqueda avanzada de Flickr (http://www.flickr.com/search/advanced/), seleccionando la opcin CC y, si es el caso, alguna de las dos subopciones adicionales disponibles (con uso comercial y con obra derivada). Otra posibilidad es utilizar el buscador de la fundacin Creative Commons (http://search.creativecommons.org/) o activando la opcin correspondiente en la bsqueda avanzada. 7.3.1. Bsquedas avanzadas Las necesidades de bsqueda avanzada de esta clase de sistemas difieren bastante de las de los sistemas documentales convencionales. Aunque se utilizan tambin las bsquedas parametrizadas y las bsquedas booleanas, hay diferencias sustanciales que se presentan a continuacin. En primer lugar, la imagen en s misma no es indizable, al menos no de forma conceptual, como s lo es, en cambio, un documento convencional que incluya un apartado textual ms o menos amplio. Ciertamente existen sistemas de indexacin automtica de imgenes (ver captulo correspondiente en esta misma obra) que pueden derivar cierta propiedades de la imagen de forma automtica, como colores, formas dominantes, texturas, etc. Pero ningn sistema automtico puede deducir (al menos hasta ahora) que una fotografa con un nio y la bandera de un pas connota y, por tanto, puede indizarse con el trmino nacionalismo. Lo anterior nos indica ya una de las necesidades de bsqueda bsicas que deben cubrir los formularios de bsqueda un banco de imagen o vdeo, y que, al menos, son las siguientes: 1. Elementos icnicos presentes en la imagen (p.e., nio, bandera) 2. Elementos conceptuales, tanto denotados, como connotados (p.e. infancia, nacionalismo, etc.) 3. Propiedades de la imagen (color, blanco y negro, etc.) 4. Orientacin de la imagen (vertical, horizontal, etc.) 5. Caractersticas tcnicas de la imagen (dimensiones, tamao, etc.) 6. Caractersticas legales (tipo de licencia, permiso del modelo, etc.) 7. Caractersticas de la toma (lugar, fecha, interior, exterior, etc.)
Por ltimo, dadas las necesidades de los usuarios de estos sistemas, la bsqueda avanzada suele proporcionar la siguiente pareja de posibilidades adicionales:
7. Especificar que no aparezcan personas en la imagen (suele utilizarse el descriptor nadie). 8. Si hay personas, entonces poder especificar el nmero de personas que aparecen (suelen utilizarse los descriptores una, dos, tres, ms de tres, multitud).
8. Bibliografa bsica Battelle, John. 2006. Buscar: Cmo google y sus rivales han revolucionado los mercados y transformado nuestra cultura. Barcelona: Urano. Una obra muy til para conocer y apreciar el impacto de la bsqueda como actividad econmica y social. Morville, Peter, and Jeffery Callender. 2010. Search patterns. Sebastopol (CA): O'Reilly. Una de las obras ms inteligentes y completes sobre la usabilidad aplicada a las interfaces de usuario, con un enfoque muy divulgativo. Nielsen, Jakob, and Hoa Loranger. 2006. Usabilidad: Prioridad en el diseo web. Madrid: Anaya. Una obra clsica de la Usabilidad que dedica un captulo completo (captulo 5) a la usabilidad de las interfaces de bsqueda. 8.1. Para saber ms Codina, Llus. SEO y visibilidad web (Directorio y diagrama interactivo). 2012 Acceso: http://bit.ly/lcodinaSEO. Codina, Llus, Mari Carmen Marcos, Rafael Pedraza. 2009. Web semntica y sistemas de informacin documental. Gijn: Trea Hearst, Marti A. 2009. Search user interfaces. Cambridge: Cambridge University Press. Thurow, Shari, and Nick Musica. 2009. When search meets web usability. Berkeley: New Riders.
No se permite la reproduccin ni distribucin de este documento. Forma de citacin: < Llus Codina. Fundamentos de la bsqueda y obtencin de informacin. Barcelona, rea de Documentacin. Facultad de Comunicacin. Documento reprografiado, 2012 >