Está en la página 1de 7

Herramientas para la búsqueda virtual en Internet: Motores de Búsqueda.

Los motores de búsqueda son el punto de partida de un usuario que esté buscando algo en Internet, pues responde a una búsqueda que se hace en el
formulario de búsqueda y emiten un listado de sitios que es la elaboración de las palabras solicitadas en el formulario. Estas palabras están sometidas a
un algoritmo.

El listado puede ser ordenado según la importancia que el motor le da a los sitios electrónicos. Esta fase se define como “ranking” y es la llave del éxito
de un motor de búsqueda. Hoy, el motor más popular y utilizado es Google, que utiliza un mecanismo de análisis de las páginas (ranking) y se ha
convertido en una de las más importantes herramientas de Internet.

Existen tres tipos de buscadores:


• Motores de búsqueda o buscadores
• Directorios Índices, (catálogos que agrupan sus enlaces por categorías)
• Sistemas Mixtos: motores de búsqueda que tienen un directorio, además de su motor de búsqueda.

Los Motores de búsqueda requieren muchos recursos para su funcionamiento. Recorren las páginas recopilando información sobre los contenidos de
las páginas, principalmente el texto que en ellas aparece. Cuando buscamos una información en los motores, ellos consultan su base de datos, con la
información que han recogido de las páginas, y nos la presentan clasificados por su relevancia. De la Web, los buscadores pueden almacenar desde la
página de entrada, a todas las páginas de la Web. Depende de los gustos del buscador, y la consideración de importancia que tenga la Web para ellos.

Si buscamos una palabra, por ejemplo “computadoras”, en los resultados que nos ofrecerá el motor de búsqueda aparecerán páginas que contengan
esta palabra en alguna parte de su texto. Cada cierto tiempo, los motores revisan la red, para actualizar los contenidos de su base de datos, por lo que
no es poco común que los resultados de la búsqueda no estén actualizados, de forma que la información o la página no exista.

Los motores de búsqueda tienen una colección de programas simples y potentes con diferentes cometidos. Se suelen dividir en tres partes. Los
programas que exploran la red (motores de búsqueda), los que construyen la base de datos y los que utiliza el usuario, el programa que explora la base
de datos. La relevancia o el orden de presentación de los resultados de la consulta viene determinada por diversos factores que dependen de cada
buscador. El tráfico, puede ser uno de ellos. El tipo de página electrónica y la información que contienen son otros dos factores importantes, debido al
análisis que realizan del contexto. Ejemplos de Motores de búsqueda: Google, Altavista, Hotbot, Lycos

Ayuda para utilizar los motores de búsqueda


Todos los motores de búsqueda incluyen instrucciones sobre cómo efectuar la búsqueda en su base de datos. Para consultarla, deberemos buscar en
un enlace que se llama ayuda o Help.

Ejemplo de Motores de búsqueda:


Google utiliza métodos poderosos, rápidos y fáciles para encontrar la información disponible más relevante. La compañía ha recibido numerosos
premios incluyendo el 2000 Webby y People's Voice Award por mejor Tecnología; Mejor Motor de Búsqueda del Internet de Yahoo! Internet Life; entre
otros. Un número creciente de compañías, incluyendo Netscape Netcenter, subsidiaria de AOL, Washingtonpost.com y Red Hat, confían en Google para
la provisión de Motor de búsqueda para sus Websites. Google es una compañía privada, con su oficina central en Mountain View, California. Su
dirección de Internet en México es: http://www.google.com.mx/

AltaVista es la principal empresa proveedora de fuente de conocimiento a través de sus motores de búsqueda. Construyendo sobre su robusta
tecnología patentada, Alta Vista nos da acceso al vasto Internet para proveer acceso a la información más relevante, incluyendo: Páginas electrónicas,
noticias, audio y video en vivo e información para la comunidad. AltaVista ofrece servicios innovadores como la Búsqueda Multidimensional. AltaVista
Raging Search (www.raging.com) de AltaVista, AltaVista Shopping.com, AltaVista Live! portal personalizado y 2 Servicio de Internet gratuito AltaVista.
AltaVista tiene sus oficinas centrales en Palo Alto, California. Su dirección de Internet es: http://www.altavista.com/

Fundada en 1995, Lycos Inc. es una empresa líder en medios de Internet, propietaria del Network Lycos, uno de los sitios más visitados en el Internet,
llegando a uno de cada dos usuarios de Internet en los EEUU. El Network Lycos está compuesto de Lycos.com, Tripod, WhoWhere, Angelfire, MailCity,
HotBot, HotWired, Wired News, Webmonkey, Sonique, Quote, Gamesville, Lycos Zone y Matchmaker. Su oficina central está en Boston,
Massachussett., Lycos Inc. es líder global de Internet con importante presencia en Estados Unidos, Europa, Asia, Canadá y América Latina. Su
dirección en Internet es: http://www.hotbot.com/

Bases de datos
Es el conjunto de datos o registros bibliográficos organizados en contenido y formatos normalizados, que se almacena en una computadora, en forma
legible por la máquina. Hay gran cantidad de programas manejadores de bases de datos, la selección depende de varios factores:
Tipo de base de datos (información numérica o bibliográfica) Ámbito geográfico donde opera el sistema // Presupuesto disponible // Una forma de
localizar la información contenida en Internet será a través de las secciones de referencia de las bibliotecas virtuales o en bases de datos que recopilan
una gran parte de recursos que exploran Internet.

CARACTERÍSTICAS DEL FUNCIONAMIENTO DE LOS MOTORES DE BÚSQUEDA


CARACTERÍSTICAS DE RASTREO (CRAWLING)
Es importante conocer la forma como los crawlers actuarán sobre las páginas que rastrean, ya que de ello depende el éxito del registro completo del
sitio y alcanzar una buena clasificación. •Rastreo profundo: el motor de búsqueda lista muchas páginas de un sitio, aún si no están explícitamente
registradas en él. •Soporte de marcos: es una característica que permite a los motores de búsqueda seguir los enlaces a través de los marcos (frames).
•Mapas de imágenes: son enlaces a otras páginas a través de imágenes. •Robots.txt: es un archivo de texto que permite indicar que páginas no deben
ser indexadas en el sitio. •Meta índice robot: tiene el mismo objetivo que el robots.txt, pero este es una instrucción del código HTML de la página.
•Rastreo por enlaces de popularidad: la popularidad de una página se detecta analizando cuantos enlaces existen hacia otra página. Los motores de
búsqueda usan esa característica para determinar que páginas deben incluir en el índice de su base de datos, aunque esto no necesariamente indica
que obtendrán una buena clasificación. •Aprende por frecuencia: el motor de búsqueda aprende con qué frecuencia se modifican las páginas, para
estimar el tiempo en el que volverá a visitarlas el crawler. •Inclusión pagada: muestra si el motor de búsqueda ofrece un programa donde se pueda
pagar para garantizar que las páginas de un sitio se incluyan en el índice. Esto no es lo mismo que colocación pagada, la cual además de la inclusión
en el índice, garantiza una posición en particular en relación a un término de búsqueda.

CARACTERÍSTICAS DE INDEXACIÓN
Las características de indexación indican lo que se indexa cuando el motor de búsqueda rastrea la página. •Texto completo: indexan todo el texto visible
en el cuerpo de la página, aunque algunos no indexan algunas palabras (stop words) o las excluyen por parecer spam. •Stop words: algunos motores
de búsqueda omiten palabras cuando indexan la página o al menos no las consideran durante la consulta. Estas palabras son excluidas para ahorrar
espacio o aumentar la rapidez de búsqueda, ya que son palabras que aparentan ser spam. •Meta descripción y meta palabras claves: son meta índices
que describen el contenido de la página y los términos con los que se le asocia para la búsqueda. •Texto alternativo y comentarios: el texto alternativo
es aquel que se asocia con una imagen para describirla brevemente, el texto alternativo es parte del lenguaje HTML. Los comentarios suelen ser una
anotación sobre la página y son un tipo de meta índice.

CARACTERÍSTICAS DE CLASIFICACIÓN
La mayoría de los motores de búsqueda usan la ubicación y la frecuencia de las palabras claves en las páginas como la base de clasificación en
respuesta a una consulta. Además pueden ser relevantes algunos factores que estimulan la clasificación, tales como: •Estímulo de clasificación por
meta índices: algunos motores de búsqueda suelen dar un estímulo a las páginas que contienen meta índices si coinciden con los términos de
búsqueda. •Estímulo de clasificación por enlaces de popularidad: los motores de búsqueda pueden determinar la popularidad de una página por el
número de enlaces que existen a ella desde otras páginas. •Estímulo de clasificación por aciertos directos: es un sistema que mide las preferencias de
los usuarios sobre la lista de resultados que le presentan para refinar la relevancia de la clasificación.

CARACTERÍSTICAS DE SPAM
El spam es el uso de técnicas para obtener una mejor clasificación, estas técnicas están prohibidas por la mayoría de los motores de búsqueda, ya que
atentan contra la eficiencia de sus algoritmos. •Meta refrescante: algunos propietarios de sitios crean páginas objetivo (target pages) que
automáticamente conducen a los visitantes a diferentes páginas dentro del sitio. El índice meta refrescante es una de las formas de hacerlo. Algunos
motores de búsqueda no indexarán páginas con un rango de meta refrescantes alto, o redireccionadas. •Texto Invisible: es la técnica de colocar texto
en una página del mismo color que el fondo, haciéndolo invisible a la vista humana. •Texto pequeño: es una técnica que coloca texto sobre una página
en un tamaño de fuente muy pequeño. Las páginas donde predomina el texto pequeño se confunden con spam, o en su defecto no se indexa el texto
pequeño.

Definición de página web


Se conoce como página web al documento que forma parte de un sitio web y que suele contar con enlaces (también conocidos como hipervínculos o
links) para facilitar la navegación entre los contenidos.

Las páginas web están desarrolladas con lenguajes de marcado como el HTML, que pueden ser interpretados por los navegadores. De esta forma, las
páginas pueden presentar información en distintos formatos (texto, imágenes, sonidos, videos, animaciones), estar asociadas a datos de estilo o contar
con aplicaciones interactivas.

Entre las múltiples características que tiene una página web y que sirven para identificarla se encuentran las siguientes: cuenta con información textual
y también con material de tipo audiovisual, está dotada de un diseño atractivo, está optimizada y ejerce como la tarjeta de presentación de una
empresa, una persona o un profesional concreto.

En los últimos años, dado el avance y presencia que tiene Internet en nuestras vidas, muchas son las empresas que se han puesto en marcha y han
creado su página web. Y es que han descubierto que la misma les sirve para darse a conocer al mundo, para conseguir captar nuevos clientes y, por
tanto, para mejorar sus resultados económicos.

En este sentido, es importante saber que para poder conseguir que dicho espacio en la Red sea absolutamente efectivo y permita alcanzar los citados
objetivos hay que tener en cuenta una serie de criterios fundamentales:

Tiene que tener un diseño atractivo para poder llamar la atención del usuario y conseguir que navegue por ella. En este sentido, ese atractivo se
conseguirá ofreciendo información de calidad así como materiales de diversa índole tales como animaciones, vídeos, imágenes…

Es vital que se realice con ella las consabidas tareas de estrategia SEO y de optimización. Sólo de esa manera se logrará que la misma sea visible y
conocida.

Tiene que incluir enlaces tanto a distintos apartados de la misma página web como a otros espacios que pueden resultar de gran interés para el usuario.
Debe ser fácilmente navegable. Sólo de esta manera se conseguirá que el internauta vuelva a visitarla.
Es posible distinguir entre las páginas web estáticas (cuyos contenidos son predeterminados) y las páginas web dinámicas (que generan contenidos al
momento de solicitar información a un servidor de web a través de lenguajes interpretados como JavaScript).

Un conjunto de páginas web, por lo tanto, forman un sitio web. Las páginas suelen estar reunidas bajo un dominio común para que el sitio en cuestión
sea accesible desde una misma dirección en Internet.
La inmensa totalidad de páginas que forman los sitios web dan lugar a lo que se conoce como World Wide Web, Web, Red o, simplemente, Internet,
que es el universo virtual donde está reunida la información digital del ciberespacio.

Por ejemplo: NBA.com es el sitio oficial de la National Basketball Association (NBA). Su dirección o URL es http://www.nba.com. Dentro de este
megasitio, existe una gran cantidad de páginas web. Cada equipo tiene su propio sitio, que a su vez alberga las páginas web de cada uno de los
jugadores de la liga. Las noticias, las estadísticas y la información multimedia también ocupan varias páginas dentro de NBA.com.

PÁGINAS WEB PERSONALES


Las páginas web personales son la opción ideal para profesionales autónomos, candidatos políticos y cualquier otro individuo con miras a ofrecer sus
servicios profesionales. Este tipo de páginas web se caracterizan porque resaltan las actividades, trabajos y logros realizados más sobresalientes de
una persona en particular, es como una carta de presentación de tu perfil profesional o un curriculum virtual disponible para quienes les pueda interesar.

LAS VENTAJAS DE CONTAR CON UNA WEB PERSONAL SON:


·Le brinda a tus clientes o interesados una percepción de seguridad, firmeza y estatus. ·Tendrás un portafolio actualizado de tus obras más
sobresalientes a nivel profesional. ·Fácil actualización y manejo de la información que desees publicar. ·Formulario de contactos online. ·Estarás entre
las búsquedas que miles de personas o empresas realizan diariamente en busca de los servicios que tú también ofreces.

LAS PÁGINAS WEB PERSONALES SON IDEALES PARA:


·Candidatos Políticos. ·Profesionales y Autónomos. ·Médicos. ·Oftalmólogos. ·Artistas. ·Artesanos. ·Abogados. ·Agentes Inmobiliarios. ·Corredores de
Seguros. ·Fotógrafos. ·Periodistas. ·Diseñadores. ¿Cómo crear una página web personal? Si tienes una idea de negocio, eres una persona conocida o
bien tienes algo que comunicar, lo ideal es que te crees una página web para poder informar desde ese medio a un público inmenso y en minutos lo que
desees. A través de tu propio sitio web podrás comunicar lo que quieras al mundo entero. Hoy revisar nuestro correo electrónico es casi una necesidad.
Disponer de nuestro celular para conectarnos a Internet y revisar nuestras cuentas en las redes sociales también es primordial. Por esto, si sientes la
necesidad de comunicar lo que piensas o dar a conocer información lo ideal es que te crees una página web personal. Las plataformas pueden ser de
carácter personal o profesional. En cualquier caso, los sitios en Internet te permiten difundir lo que quieras a un público desperdigado en todo el mundo
y las 24 horas del día los 365 días del año. Si estás pensando en crearte un espacio en el mundo virtual, puedes valerte de ciertas herramientas que te
ayudarán a crear tu web. A continuación, mencionaremos diez de ellas, publicadas en el portal Unadocenade.

1. ABOUT.ME Para crearte una web personal aquí debes tener una cuenta con un correo electrónico y luego elegir el diseño de tu sitio usando alguna
fotografía o bien alguno de los diseños predeterminados.
2. IT'S MY URLS Es muy similar a la anterior aunque, a diferencia de ella, ésta te permite acceder a algunas estadísticas sobre el funcionamiento de tu
perfil.
3. FLAVORS.ME En este caso, si bien el servicio para crearte la web es gratuito, si quieres ingresar más de cinco redes sociales debes pagar.
4. VIZIFY Para crearte una cuenta debes ingresar tu correo pero, hasta entonces, funciona por invitación.
5. GOOGLE+ En el artículo aseguran que es un buen medio en el que puedes cargar una foto, personalizar tu portada y completar los datos que
desees.
6. CUTTINGS.ME Aseguran que es una herramienta especialmente útil para diseñadores o fotógrafos que quieran subir todos sus trabajos.
7. MARKETYOU Te permite unir allí tus cuentas de las redes sociales aunque hay quienes critican que el sitio se cuelga con frecuencia.
8. FACEBOOK Puedes configurarlo como un sitio abierto o como página y cargar lo que desees en tu espacio.
9. XEEME Aunque hay expertos que reconocen que es la única opción que posibilita la integración de todas las redes sociales, suelen criticar su diseño
desordenado.
10. BLOG Este medio te ofrece grandes libertades, subir banners sin limitantes así como también enlaces.

Motores de búsqueda de información científica y académica

1. Introducción
Existe más de una contradicción cuando se unen en la misma frase las palabras "web" y "ciencia". Por un lado, los contenidos de la Web, no sin algo de
razón, siempre han despertado recelos en sectores académicos y profesionales:
1. ¿Quién controla la información que se publica en la Web?
2. ¿Hasta qué punto es fiable la información que encontramos a través de los motores de búsqueda?
3. ¿Se aplican a la Web los controles editoriales propios de las publicaciones impresas que tanto han significado para el progreso de la ciencia?
Ciertamente, no faltan casos de fraudes o de manipulaciones más o menos conocidos en el mundo de la Web, tales como las falsas páginas de La
Casa Blanca, la manipulación de los resultados de los motores de búsqueda que hacen los practicantes poco escrupulosos del posicionamiento web (el
caso más conocido es el llamado "Gooble bombing" que ha sido erradicado por Google solo muy recientemente). Lo anterior ha generado cosas como
la reciente prohibición, por parte de una universidad norteamericana, de que sus estudiantes citen la Wikipedia como fuente para sus trabajos
académicos.
A todo ello hay que sumar la dificultad para obtener resultados académicos o científicos cuando se utilizan términos que tienen la misma forma (pero
distinto significado) que otros términos propios del comercio o de la cultura popular. Por ejemplo, a alguien muy interesado en la fisiología del sueño le
resultará muy difícil encontrar información sobre la fase del sueño denominada Rapid Eye Movement y que se conoce internacionalmente como REM,
ya que si entra esa expresión en Google solamente encontrará resultados vinculados con el grupo musical REM. La palabra clave "Dolly" proporciona
otro buen ejemplo: si alguien está interesado en clonación y quiere informarse sobre el famoso experimento de clonación de la oveja Dolly, es probable
que en un motor de búsqueda como Google solamente encuentre información sobre la cantante Dolly Parton.

Lo misma dificultad se puede experimentar si tenemos una necesidad de información cuya palabra clave coincide con palabras presentes en temas
discutidos en fórums de Internet. Por ejemplo, si alguien interesado en encontrar información sobre tarjetas gráficas utiliza palabras clave como ATI o
NVIDIA, lo último que encontrará serán análisis técnicos o artículos científicos; en cambio obtendrá toneladas de los típicamente caóticos mensajes en
foros de discusión y e interminables listas de precio en sitios como e-Bay.

Sin embargo, pese a todas las dudas, la Web no solamente ha llegado para quedarse, sino para tener también un impacto positivo y real en la difusión
del conocimiento académico y científico. Durante años, más o menos desde los noventa hasta nuestros días, una de las soluciones que buscó el mundo
académico a esta contradicción consistió en desarrollar y promover directorios, portales y servicios de evaluación, como INTUTE (www.intute.ac.uk).

Con el enorme crecimiento que Internet ha experimentado dese el entonces. el problema que plantean los servicios de información creados y
mantenidos "a mano" es que apenas pueden abarcar una parte ínfima de los contenidos reales de la Web. De manera, que la contradicción seguía sin
resolverse.
 
2. Motores académicos
Históricamente, la importante editorial Elsevier fue la primera en detectar que existía una nueva necesidad de información académica en la Web y que,
por tanto, se necesitaba una nueva clase de sistemas de información para la Web. En concreto, Elsevier concibió un sistema capaz de indizar páginas
web de manera automática, es decir, tal como lo hacen los motores convencionales, pero que fuera capaz de filtrar la información de manera que
pudiera ser admisible y fiable para los estrictos criterios del mundo académico.

Ese producto se llamó Scirus (www.scirus.com) y, al parecer su éxito despertó suficientes recelos en Google para que esta empresa intentara una
operación parecida, y así tuvimos unos pocos años después Google Scholar (scholar.google.com).

Por imitación (y para suerte del mundo académico) Microsoft no quiso ser menos y, desde inicios del 2007 contamos con un nuevo contendiente en este
apasionante campo: Live Search Academic (academic.live.com).

La característica principal de los tres sistemas es que solamente indizan sitios web vinculados con el mundo académico. Qué se entiende por "mundo
académico" cambia en cada caso. La perspectiva que combina, a la vez, rigor y máxima amplitud corresponde sin duda a Scirus. La perspectiva que se
ciñe con el máximo rigor, pero en esta caso a costa de la amplitud, corresponde a Live Search Academic y, en alguna posición intermedia, se encuentra
Google Scholar.

Con el fin de poder presentar una comparativa entre los tres motores, proponemos la siguiente tipología de documentos académicos:
1. Tipo 1: Páginas web y documentos de todo tipo (word, ppt, etc.) publicados en sitios de instituciones académicas o científicas (p.e., sitios del
tipo.edu).
2. Tipo 2: Artículos de publicaciones científicas tipo peer review , ya se trate de publicaciones open acces,o de publicaciones de pago.
3. Tipo 3: Trabajos académicos tales como tesis doctorales o tesis de licenciatura.
4. Tipo 4: Documentos depositados en repositorios científicos (e-prints) ya sean pre-pirnts, post-prints, materiales didácticos, etc.
5. Tipo 5: Patentes
6. Tipo 6: Libros (monografías)

Los seis tipos de documentos anteriores se solapan entre ellos. Por ejemplo, algunos repositorios incluyen tesis doctorales (aunque no todos); algunos
repositorios han sido creados por asociaciones científicas o por agencias gubernamentales, pero otros creados y mantenidos por universidades y se
accede a ellos a través de su sitio web, etc. Pese a todo, la distribución anterior nos será útil aquí para situar en contexto a los motores de búsqueda
académicos.
A partir de la clasificación anterior, podemos establecer una tabla como la siguiente para presentar una comparativa de los tres sistemas anteriores en
relación la clase de documentos que incluyen (o sea, en relación a sus "inputs"):
 
Sistema Tipo 1 Tipo 2 Tipo 3 Tipo 4 Tipo 5 Tipo 6

Scirus x x x x x .

Live Search Academic . x . . . .

Google Scholar x x x x . x
Como se puede observar, de los seis tipos posibles, Scirus y Google Scholar tienen 5 de ellos (aunque no coincidentes): Scirus no tiene libros y, por su
parte, Google no tiene patentes. Live tiene solamente uno, mientras que el Tipo 2 (revistas científicas) es, como parece lógico si se mira bien, el único
común a los tres motores. En lo que sigue presentaremos con un poco más de detalle cada uno de los tres motores.
 
2.1. Scirus
Ilustración 1: La austera pero potente y eficaz pantalla principal de Scirus
 
2.1.1. Contexto
El motor de búsqueda Scirus es, como ya se ha apuntado antes, una creación de la importante editorial de revistas científicas holandesa Elsevier
(www.elsevier.com) que es parte, a su vez, del gigante editorial anglo-holandés Reed-Elsevier (www.reed-elsevier.com), editor de libros y revistas y
productor de bases de datos como Lexis-Nexis.

La cuestión es que Elsevier parece haber comprendido muy bien importantísimo papel que la Web está jugando en la distribución de información
académica y dispone de otras dos grandes bases de datos (en este caso y a diferencia de los motores que analizaremos aquí, dirigidas a su utilización
en el contexto de bibliotecas universitarias): Science Direct (www.sciencedirect.com) y Scopus (www.scopus).

Scirus fue fundado en el año 2001 y, poco a poco ha ido ampliando su campo de acción incorporando sucesivamente nuevas fuentes hasta convertirse
en un auténtico gigante y en el más completo sistema de los tres (Google Scholar y Windows Live). En un análisis realizado a finales del año 2006
(Jacsó, 2006) se constató que contenía más de 300 millones de documentos (empezó con 50 millones en 2001, de manera que ha multiplicado su
contenido por seis desde entonces). Otros dos análisis previos (Giustini y Barksy, 2005; Doldi y Bratengeyer, 2005) confirmaron en su momento que
Scirus era, con mucha diferencia más completo que Google Scholar (no existía Live en 2005) por lo que hacía a repositorios científicos del tipo
American Physical Society o PubMed.
 2.1.2. Inputs
Los inputs de Scirus, es decir, el origen de los documentos que incluye en sus índices son los siguientes (nos guiamos por la propia categorizació de
Scirus):
1. Artículos de revistas: principalmente, publicaciones académicas de la propia editorial Elsevier (unos 2.000 títulos) más un amplio grupo de
publicaciones de tipo open access. Son los documentos que Scirus agrupa bajo la denominación Journal Sources en su página de resultados y la
opción del mismo nombre que se puede marcar o desmarcar en su formulario de búsqueda.
2. Repositorios institucionales o académicos: este apartado incluye repositorios como el de la NASA sobre astronomía o el de la biblioteca de la
Cornell University sobre ciencias (física, informática, biología y matemáticas), hasta un total (en teoría) de 18 repositorios, entre los que debemos
destacar, además de los mencionados, el de tesis doctorales de la red internacional NDLTD y el de patentes de Lexis-Nexis que incluye patentes de
Estados Unidos, Japón y Europa. Decimos "en teoría" porque las pruebas demuestran que en realidad utiliza más repositorios, por ejemplo, hemos
podido comprobar que utiliza también E-LIS, un repositorio sobre Bibliteconomía-Documentación que no aparece en la lista "oficial" de fuentes de
Scirus. Esta clase de documentos está señala por Scirus bajo la denominación Preferred Web Sources.
3. Páginas y documentos publicados en sitios web: en este caso se trata excusivamente de servidores de universidades, de instituciones académicas
o de departamentos o institutos de I+D de algunas empresas. Desde el punto de vista del dominio, se trata mayoritariamente de sitios del tipo.edu,
ac.uk,.gov, etc. Este grupo se identifica en Scirus como Other Web Sources.
 
2.2. Google Scholar

Ilustración 2: La súper austera interfaz de Google Scholar


 
2.2.1. Contexto
A estas alturas es difícil presentar a Google. Ha sido la empresa que ha revolucionado de tal manera la búsqueda en la Web que incluso ha acabado
afectando a los hábitos de navegación. Por ejemplo, la mayoría de los internautas ya no utiliza los Preferidos del navegador: prefiere entrar el nombre
de la web en la más famosa caja de búsqueda de la historia. Muchos tampoco entran ya una URL completa si ésta en medianamente complicada.
Prefirieren entrar una parte del nombre de la web sabiendo que Google les llevará a ella, probablemente en el primer resultado. Ha empujado a los
directorios generalistas, como Yahoo o Dmoz, prácticamente a la clandestinidad y ha barrido a los centenares de directorios nacionales e
internacionales que existían antes del 2000. La influencia de Google se ha dejado sentir también en el primer modelo de negocio que ha sido capaz de
generar beneficios en la Web: su sistema de anuncios AdWord y AdSense, imitado también por sus competidores.
Por último, prácticamente han creado (u obligado a desarrollar, según se mire) una rama de la matemática: el análisis de enlaces. Lo cierto es que son
muchas cosas las que Google ha aportado a la Web. La cuestión es que, en su búsqueda incesante de nuevas actividades (siempre pensado en
reforzar su modelo de negocio, no lo olvidemos), desde hace dos años Google se decidió a entrar en el mercado de los motores académicos y lanzó
Google Scholar (Google Académico) con algunas ideas (relativamente) nuevas. La más importante, sin duda, la de llevar a la Web el análisis de
citaciones (por eso decimos que era una idea relativamente nueva).
 
2.2.2. Inputs
De acuerdo con la documentación oficial (y como es fácil comprobar con un simple test) los inputs de Google Scholar consisten en lo siguiente:
1. Artículos de revistas: en este caso se trata de artículos de las editoriales académicas que han aceptado formar parte del programa de Google
Scholar. En una línea secretista que comienza a ser demasiado característica de Google, no existe una documentación pública (al menos este
analista no la ha encontrado) que detalle qué editoriales son en concreto. Mediante pruebas sucesivas es fácil ver que hay una amplia
representación de ellas, pero naturalmente, esto no substituye la buena práctica que consistiría en ir publicando periódicamente qué editoriales
están en el programa de Google Scholar.
2. Libros: al igual que en el caso anterior, se trata de editoriales que han aceptado formar parte de los contenidos de Google Scholar, en este caso,
editoriales de libros. Tampoco disponemos de forma pública de una lista de tales editoriales. En todo caso, lo anterior es solamente una de las
variedades de esta entrada. La segunda consiste en acuerdos con bibliotecas para obras cuyo derecho de autor haya caducado por haber
transcurrido más de los X años que cada legislación (la europea, la norteamericana, etc.) establece después de la muerte del autor para que la obra
pueda pasar a dominio público. En general, cabe señalar que, en el caso que alguno de los resultados de Scholar sea un libro, el sistema nos
remitirá a Google Books para su examen. No obstante, entendemos que debemos incluimos aquí esta categoría documental porque está integrada
en las búsquedas de Scholar.

3. Sitios Web : Al igual que Scirus, incluye documentos y páginas de sitios web vinculados con el mundo académico. La documentación oficial de
Scholar no explica cómo seleccionan estos sitios. Es posible deducir, no obstante, que debe utilizar un sistema similar al de Scirus, a saber, indizar
sitio del tipo.edu, etc., sin perjuicio que tengan una lista de URL (sitios) de partida para analizar y a partir de los cuales encuentren otros, etc. En
esta categoría, Google Scholar incluye también repositorios de e-prints como los mencionados a propósito de Scirus.

El principal problema de Google Scholar es que no facilita ninguna información precisa sobre sus fuentes concretas. No tenemos una lista ni de
editoriales ni de repositorios, ni tampoco una estimación sobre el número de sitios que indizan o sobre el número de documentos que contiene. En su
lado positivo, podemos señalar que ha construido su propio índice de impacto, basado en citaciones que se aplica a todos los resultados. De forma que
respresenta algo así como la alternativa económica al índice ISI (con muchas menos prestaciones, al menos por el momento).
 
2.3. Live Search Academic
 
Ilustración 3: Live Search presenta la única interfaz en el mundo de la búsqueda en la Web que no intenta imitar la de Google
 
2.3.1. Contexto
Microsoft (la compañía propietaria de Live Search) tiene una curiosa historia con la Web: casi siempre llega tarde, pero acaba dominando todo o parte
del sector. Les sucedió con los navegadores, con el correo electrónico y les ha sucedido con las búsquedas en la Web. Les ha vuelto a suceder con las
búsquedas para objetivos académicos, es decir, en este caso se cumple solamente la primer parte: han llegado tarde. Lo que no sabemos es si
acabarán dominado una buena parte del sector, como consiguieron hacer en el caso de los navegadores.

En todo caso, Microsoft es la única empresa del mercado informático que dispone de capacidad tecnológica y financiera suficiente para plantear un
desafío creíble al lider actual de las búsquedas generalistas en la web (Google), por un lado, y al líder de las búsquedas académicas por otro (Scirus).
Solamente una incomprensible lista de fracasos anteriores de Microsoft en este campo hace difícil pensar en su liderazgo a medio plazo, pese a los
medios de que dispone.
 
2.3.2. Inputs
En el caso de Live Academic, la lista de inputs es simple: artículos de revistas académicas procedentes de diversas editoriales y sociedades científicas
¿Cuáles son estas estas revistas participantes? Por suerte, Live Academics es algo más transparente que Google en este aspecto y proporciona una la
lista de lo que denominan " participating publishers ". En esta lista aparecen publicaciones como: ACM, Blackwell, Elsevier, Nature, Springer-Verlag y
así hasta poco más de cincuenta " publishers ". Lo que sucede es que uno solo de estos "publishers" edita hasta 2000 títuos distintos. Lo que no indica
aquí Live Academic es cuàntos títulos de estas editoriales incluye, es decir, si incluye todas sus publicaciones o solamente una parte. Las pruebas
muestran que, al menos por el momento solo incluye una parte, y no muy amplia, de los títulos de estas editoriales. La lista también también demuestra
que su lista no incluye editoriales fuera del ámbito anglosajón. Ciertamente, una búsqueda usando palabras clave en castellano arroja algún resultado,
pero siempre corresponde al hecho de que alguna editorial no española, como Elsevier haya publicado alguna vez, casi por casualidad, algún
documento en castellano. Nada que ver con el hecho de incluir, por ejemplo, las publicaciones del CSIC o de cualquier otro editor español (en lengua
castellana o en cualquier otra lengua)

Si Microsoft piensa tomar en serio su nuevo motor de búsqueda no hay duda que deberá ampliar su lista de "publishers" a varias bandas: editoriales de
otros países, pero también mayor número de títulos de cada editorial.
 
3. Conclusiones
Hay evidencias de que la difusión y, si se nos permite, la promoción del conocimiento, actividad característica de la Documentación, está entrando en
una nueva era. Hasta hace poco, la Web había demostrado de sobras su formidable capacidad para actuar como un agente de primer orden en la
difusión de la comunicación y de la cultura. Faltaba el elemento de la ciencia y de la información académica.

Contrasta este giro de los motores de búsqueda hacia el mundo académico con su "desentendimiento" del proyecto de la Web Semántica que lleva a
cabo el WWW Consortium con un amplio apoyo de instituciones científicas de todo el mundo. No deja de ser curioso que, en esta nueva etapa que está
abriendo los motores ninguno de los tres actores (Google, Elsevier, Microsoft) haya considerado incluir alguno de los aspectos de la Web semántica,
tales como el uso de ontologías. Tal vez se trate de iniciativas ambas demasiado tempranas como para que puedan pensar en unirse. Probablemente,
será necesario que antes maduren cada una de ellas por separado antes de que puedan pensar siquiera en unir esfuerzos. Aún así, es un pena la
mutua ignorancia en la que parecen vivir la Web semántica por un lado y los motores de búsqueda por otro.
En todo caso, estas novedades en la búsqueda auguran una nueva etapa en la forma en la cual se gestionará y se difundirán los conocimientos
científicos. De momento, las evidencias son muy prometedoras. Corresponde a los documentalistas-bibliotecarios seguir jugando, pero ahora de
acuerdo al nuevo esquema de la Web, el imprescindible papel promotor del conocimiento que nos ha sido siempre tan característico.

También podría gustarte