Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Participantes:
Ing. Miguel A. Arreola, Director Proyecto Biblioteca Digital Ing. Cuauhtemoc Durn, Preparatoria Eugenio Garza Sada Ing. Alejandro Garza, Centro de Informacin-Biblioteca Campus Monterrey Dr. David Garza, Centro de Investigacin en Informtica Lic. Rosa L. Gmez, Centro de Informacin-Biblioteca Campus Monterrey Ing. Claudio Ramrez, VITI Ing. Marta Sordia, Centro de Investigacin en Informtica Ing. Ramn E. Zayas, Preparatoria Eugenio Garza Sada
1 de 31
ndice
1 INTRODUCCIN A LA BIBLIOTECA DIGITAL DEL TEC .................................................... 3 1.1 1.2 2 VISIN DE LA BIBLIOTECA DIGITAL DE DOCUMENTOS TEC .......................................................... 3 ORGANIZACIN DE LA BDT ....................................................................................................... 5
UNA VISITA A LA BIBLIOTECA DIGITAL DEL TEC............................................................. 6 2.1 2.2 2.3 2.4 2.5 PORTAL ..................................................................................................................................... 6 PERFIL PERSONAL ...................................................................................................................... 7 AGENTES ................................................................................................................................... 8 COLECCIONES ............................................................................................................................ 9 BSQUEDAS ............................................................................................................................ 10
CONTENIDO ............................................................................................................................... 11 3.1 3.2 3.3 3.4 DOCUMENTO DIGITAL .............................................................................................................. 12 DOCUMENTOS ORIGINALES....................................................................................................... 14 PROCESOS PARA INGRESAR MATERIAL ...................................................................................... 15 REPOSITORIOS ......................................................................................................................... 15
SELECCIN DE DOCUMENTOS.............................................................................................. 16 4.1 4.2 4.3 4.4 REQUERIMIENTOS DE PUBLICACIN .......................................................................................... 16 PROCESO DE SELECCIN ........................................................................................................... 16 MTODOS DE RECOLECCIN DE INFORMACIN .......................................................................... 17 COSTOS DE SELECCIN ............................................................................................................. 20
ADMINISTRACIN DE COLECCIONES................................................................................. 20 5.1 5.2 5.3 5.4 DEFINICIN ............................................................................................................................. 20 PERFIL DEL ADMINISTRADOR .................................................................................................... 21 ESTNDARES PARA LA ADMINISTRACIN .................................................................................. 21 COSTOS DE ADMINISTRACIN ................................................................................................... 22
CAPTURA .................................................................................................................................... 22 6.1 6.2 6.3 6.4 DEFINICIN ............................................................................................................................. 22 PERFIL DEL CAPTURISTA........................................................................................................... 23 ESTNDARES PARA LA CAPTURA .............................................................................................. 23 COSTOS ................................................................................................................................... 25
2 de 31
CATALOGACIN....................................................................................................................... 25 7.1 7.2 7.3 7.4 DEFINICIN ............................................................................................................................. 25 PERFIL DEL CATALOGADOR ...................................................................................................... 26 ESTNDARES PARA LA CATALOGACIN..................................................................................... 26 COSTOS DE CATALOGACIN ..................................................................................................... 28
ANEXOS....................................................................................................................................... 29 8.1 8.2 ANEXO A: METADATOS ........................................................................................................... 29 ANEXO C: FUNCIN DE PRIORIDAD ........................................................................................... 29
BIBLIOGRAFA .......................................................................................................................... 31
1Se realiz en 1998 un estudio en el Campus Monterrey del ITESM donde se contactaron distintos departamentos, y se les entrevist para determinar que materiales generados en el ITESM requieren y ofrecen para sus labores diarias. De aqui se determin que colecciones de documentos pasaran (inicialmente) a formar parte de la BDT. 2 Un site (o pgina de web) es coleccin de documentos publicados en Internet sobre algn tema o representando una persona o entidad.
3 de 31
Contenga informacin digital cuyo orgen sea papel, fotografas, video, audio o en representacin de objetos como piezas arqueolgicas, pinturas, etc. Elimine barreras geogrficas o temporales uniendo grupos de trabajo (como grupos de una clase de distintos Campus, o permitiendo consultas a material de aos pasados de un mismo curso). Sea la fuente de informacin completa y confiable para sedes y campus virtuales.
En resumen, se visualiza que la BDT ofrecer acceso unificado a todo el material relevante producido por el ITESM de una manera rpida que active su explotacin. 1.1.1 Herramientas Las herramientas que se ofrecern al usuario de la BDT para lograr esto son: Un portal donde el usuario tendr un punto privado de entrada a la BDT, personalizado segn sus necesidades. Una herramienta de bsqueda la cual permita usar lenguaje natural (por ejemplo "dame todos los artculos sobre los borregos salvajes desde 1990") la cual incorpore el perfil personal del usuario para aminorar resultados irrelevantes. Un ambiente homogneo para la navegacin, sin requerir aprender distintos mtodos de bsqueda y navegacin. Agentes o robots que informan al usuario de cambios y documentos nuevos en la BDT. Acceso global que permita a miembros del ITESM su uso desde cualquier lugar del mundo. Mtodos de pago en lnea para el cobro automatizado de documentos con costo. Las herramientas pueden ser o no independientes entre s. Por ejemplo, se puede ofrecer un ambiente de navegacin sin tener un portal y/o sin el uso de agentes, de manera cada herramienta puede ser desarrollada y liberada independientemente. Sin embargo, puede ser que algunas compartan los mismos requerimientos de infraestructura tecnolgica. 1.1.2 Infraestructura tecnolgica La infraestructura tecnolgica requerida para implantar las herramientas incluye: Redes de alto desempeo (ya existentes en el Sistema Tec). Servidores para el almacenamiento, procesamiento y entrega de informacin (repositorios). Software para administracin de documentos, conversin de formatos electrnicos, indizado y bsqueda electrnica, entrega y visualizacin, control de acceso, replicacin de repositorios, etc. Ligas entre sistemas existentes y los de la BDT (Banner, LearningSpace, Unicornio, Innopac). Hardware para la digitalizacin de documentos existentes en papel. 1.1.3 Recurso humano El recurso humano requerido para el desarrollo y funcionamiento de la BDT incluye: Equipos de soporte para la infraestructura tecnolgica. Generadores de documentos, quienes deben cumplir con los requerimientos para su publicacin en la BDT. Capturistas y correctores de documentos (digitalizado y/o conversin a un formato estndar). Catalogadores de documentos, para asignar temas, autores y aos de publicacin. Administradores de colecciones de documentos, quienes vigilan el crecimiento de sus colecciones, y verifican las consultas realizadas sobre los mismos. Comit para determinar polticas de adquisicin, catalogacin y publicacin de los documentos para la BDT. Comit para determinar formatos estndar electrnicos a utilizar en toda la BDT. Comit para determinar control de autoridades en nombres, clasificacin, etc. atribuidos a documentos. Grupos que realizan la adquisicin de nuevas colecciones documentos a incluir en la BDT. Asesores para los usuarios que necesiten ayuda tcnica y temtica.
4 de 31
Grupo legal para adquisicin y proteccin de derechos de autor de documentos adquiridos y publicados, respectivamente.
Retos iniciales a superar El principal obstculo para la implantacin de la BDT es la cantidad de personas que deben ser involucradas, ya que se requiere que para su crecimiento y mejora continua exista un compromiso con los generadores actuales de documentos para cumplir con la lineamientos a establecer. Deben establecerse decisiones que afectan a todo el proyecto, como la tecnologa, vocabularios, nomenclatura, etc. los cuales se estn desarrollando. Deben integrarse equipos de personas completamente nuevos para comenzar a trabajar en su construccin. Deben renovarse los procesos de publicacin actuales para maximizar la cantidad, calidad y actualidad de informacin disponible al Sistema ITESM a travs de la BDT. Debe impulsarse la coparticipacin con instituciones u organismos extranjeros de la misma lnea, para lograr una sinergia en el proyecto. Por ejemplo, la publicacin de pginas de WWW con informacin oficial deber ser registrada en la BDT para evitar los actuales problemas, como: imagen y diseo desigual, dificultad en localizacin de las pginas deseadas, ligas muertas, y ms.
Contenido
figura 1.1 Grandes reas de la BDT La navegacin es donde el usuario interacta con la informacin (o el contenido). Aqu se encuentra el portal, la herramienta de bsqueda, los agentes, etc. En el captulo 2, Una visita a la BDT, podr verse un ejemplo hipottico de como sera la navegacin por la BDT. El contenido se refiere a los documentos y metadatos (datos sobre los mismos documentos) incluidos dentro de la BDT. Los metadatos son semejantes a una ficha bibliogrfica, la cual incluye datos como el autor, ttulo, temas, etc. de cada documento. El rea de soporte incluye todos los procesos y lineamientos desde la generacin de un documento, su ingreso a la BDT, y hasta el seguimiento de su utilizacin una vez dentro de la BDT. Esta es el rea ms compleja. Cada rea de la BDT requiere de tecnologa, grupos de trabajo y el diseo de procesos para su construccin. Debido a que la navegacin es el punto de contacto para el usuario con la BDT, se comenzar por describir esa rea para que el lector mejor comprenda la operacin final de la BDT, a travs de una demostracin hipottica.
5 de 31
2.1 Portal
El portal es un rea privada para cada usuario donde se ofrecen recursos de informacin de su inters, a travs de una definicin personal de sus preferencias. Por ejemplo, un alumno tiene un portal el cual automticamente incluye materiales relevantes a sus cursos, temas actuales de investigacin, etc. Un ejemplo del portal de un alumno se muestra en esta figura:
figura 2.1 Ejemplo de un Portal para un alumno Esta interfase est disponible slo despus de que el usuario se identifica a la BDT. En este caso, se incluye informacin sobre los cursos de este alumno en el rea Tus clases, ligas a ms informacin sobre el usuario en Tu informacin, y el estado de bsquedas realizadas por agentes, que son robots configurados por el usuario para hacer tareas repetitivas de bsqueda en un espacio definido de tiempo (en Status de tu agente). Adicionalmente, existe un rea de mensajes relacionados con la BDT, indicada por el mensaje en la parte superior de la pantalla, Alertas. Aqu se muestra un ejemplo.
6 de 31
figura 2.2. Alertas para un usuario Esta rea es una carpeta de correo electrnico donde se le avisa al usuario sobre tareas finalizadas por sus agentes (aqu se trata de un Recolector de internet), nuevos recursos que pueden ser de inters para el usuario (el aviso enviado aqu por Biblioteca), y mensajes de personas que trabajan, publican y mantienen informacin en la BDT (en este caso, Adriana Quiones).
Cursa la carrera de ISE (Ingeniero en Sistemas Electrnicos), 3er semestre, y actualmente toma 6 cursos. ... Uno de esos cursos es "Laboratorio de Control", que trata sobre la aplicacin de la electrnica para el control digital de procesos (manufactura, etc). Este curso, "Laboratorio de Control", tiene asignados temas especficos como Libro "Designing with ICs" Electrnica, Control Documentos automatizado de procesos, Libro "Designing with ICs" Automatizacin, Circuitos ... Digitales, Microprocesadores, etc. Por lo tanto, como al alumno le es de Artculo: "CNN provides war coverage" inters todo aquello que contribuya a cumplir con sus cursos, su perfil automticamente toma como sus temas de inters Electrnica y Control automatizado de figura 2.3 Relacin entre perfil procesos, entre otros (los de sus otras clases, los asignados a su carrera, etc). personal y metadatos.
Temas Apoyos
Tema: "Circuitos digitales" Tema: "Control de procesos"
Temas
Alta en BD: 23-ene-1999 Autor: Sedgewick, J.D. Editor: Wiley Publishing Editado en: may-1998
Tema: "Electrnica"
Los temas asignados al curso vienen de los materiales de apoyo y bibliografa asignados al curso. Por ejemplo, si el curso tiene como bibliografa el libro "Designing with ICs", el cual en el catlogo de la
7 de 31
Biblioteca tiene los temas Electrnica y Circuitos Digitales, entonces esos temas sern asignados a los temas del curso automticamente. El perfil de un alumno que lleve este curso incluye, entonces, tendr los temas del curso, que provienen a su vez de los de su bibliografa. El perfil del usuario tambin conoce cules son los temas frecuentados por ste de manera que bsquedas subsecuentes den menos relevancia a documentos con temas no relacionados con bsquedas recientes. A travs de este entrenamiento el agente podr recolectar un perfil comn para alumnos de cierta carrera, posiblemente de cierto semestre, que podrn ser mejorados a travs de su uso continuo.
2.3 Agentes
Un agente es un mdulo de software configurado por un usuario, el cual realiza operaciones para descubrir informacin til automticamente. Como ejemplo, aqu se muestran tres tareas asignadas al agente de un usuario.
figura 2.4 Status de un agente El status del agente muestra el progreso de las tres tareas, las cuales comprenden: Una tarea de bsqueda a la cual se le han asignado palabras clave a buscar en la BDT. Actualmente lleva 2 das y 10 horas funcionando, habiendo cubierto un 50% de los documentos de la BDT. El usuario puede determinar un lmite de tiempo o un lmite de resultados obtenidos para que el agente sepa cuando terminar esta tarea. El notificador de grupo de discusin est observando los grupos de discusin para encontrar referencias a las palabras clave vendo y stereo, y reporta cuantas veces se han encontrado estas palabras juntas. Es posible que el usuario est buscando alguien que le venda un aparato de CDs para su apartamento. El recolector de Internet est navegando la red usando los principales buscadores de Internet para ubicar material que tenga el material definido por las palabras. Posiblemente el usuario determine que esta tarea se realice por la madrugada cuando el trfico del Internet sea bajo. Los agentes se basan en las palabras otorgadas por el usuario para determinar que es lo que debe buscar, sin embargo, tambin se basa en el perfil personal del usuario para eliminar documentos que pudiesen ser menos relevantes para el usuario. Por ejemplo, una bsqueda del alumno de ISE (a quien el sistema conoce le interesa documentos relacionados con electrnica) por la palabra chip causar que se eliminen resultados referentes a potato chips, wood chips, etc. y se encaminar ms al termino sinnimo de microchip. Un ejemplo se muestra aqu:
8 de 31
figura 2.5 Ajuste de vocabulario segn perfil del usuario Otro tipo de agentes que podran existir seran aquellos que buscan usuarios que estn interesados en alguna informacin; lograran hacer una especie de target marketing entontrando la clientela adecuada para el producto. Un caso sera que la Biblioteca tuviese un agente que busque usuarios interesados en nuevas adquisiciones de materiales, o nuevas suscripciones a revistas o a bases de datos, etc. para notificarles de su existencia. Esto posibilita el mercadeo automtico o semiautomtico de informacin producida por el Tecnolgico.
2.4 Colecciones
Una coleccin desde el punto de vista de navegacin es una agrupacin de documentos con rasgos similares. Por ejemplo, documentos con temas iguales o similares, documentos con un mismo autor, etc. La coleccin se define segn uno o ms rasgos para ofrecer una coleccin de documentos que pueden estar en distintos puntos en la red, que pudieron haber sido publicados por separado o por distintos autores, etc. Algunos ejemplos de colecciones, con sus rasgos comunes entre parntesis: Tesis de Maestra en Administracin de la Informacin (misma fuente, tipo de documento y temas). Todos los nmeros de la Revista Integratec (mismo editor y medio). Versiones digitales de libros incunables o nicos de la Biblioteca Cervantina y Coleccin Ignacio Bernal (mismo tipo de documento). Conferencias ofrecidas en el Sistema ITESM sobre el tema de educacin (mismo tema y tipo de documento). Documentos sobre el rea de manufactura (mismo tema). Programas de estudio de todos los Campus, carreras, y programas de desarrollo (mismo tema). Una coleccin puede contener distintos tipos de documentos. Por ejemplo, una coleccin de documentos sobre el rea de manufactura puede incluir artculos de revistas del ITESM, pginas de Internet mantenidas por maestros o centros de investigacin, tesis, libros, etc. Un mismo documento puede pertenecer a distintas colecciones. Por ejemplo, una tesis de la Maestra en Administracin de la Informacin puede aparecer en una coleccin de tesis adems como parte de la coleccin de documentos sobre el rea de manufactura si esa tesis trata temas afines. Aqu se muestra un ejemplo de una coleccin de documentos de una misma rea; en este caso, temas relacionados con Ciencia y Tecnologa.
9 de 31
figura 2.6 Coleccin de documentos para un rea del conocimiento En este caso, se ha definido una coleccin virtual de documentos los cuales provienen de distintas fuentes, pero que comparten los rasgos definidos para esta coleccin (en la seccin Dentro de esta rea). En este caso slo se definen materias, aunque una coleccin podra definirse como que contiene solo cierto tipo de documentos, o que provienen de ciertos tipos de autores, o que abarcan un rango de aos de publicacin.
2.5 Bsquedas
La herramienta de bsqueda tiene capacidad de abarcar todo el contenido de la BDT o slo los documentos de esta coleccin en cada bsqueda. Incluso se puede limitar de manera ms profunda en el botn ms opciones. He aqu un ejemplo de ambos:
figura 2.7 Campo de bsqueda figura 2.8 Opciones de bsqueda Aqu se pueden seleccionar solo algunos tipos de documentos donde buscar. Es posible determinar que las bsquedas slo abarquen porciones de documentos, como el autor, el ttulo, o el contenido.
10 de 31
Por ejemplo, realizar una bsqueda dentro de la coleccin de Ciencia y Tecnologa por las palabras "sistema telefnico" podra producir una lista de resultados similar a esta:
figura 2.9 Ejemplo de resultados de una bsqueda Aqu se incluyen referencias a distintos grupos de documentos que a su vez pertenecen a otras colecciones. Sin embargo, aqu solo se abarcan documentos que cumplen con los requisitos de bsqueda dados por el usuario y adems cumplen con los rasgos definidos por la coleccin de Ciencia y Tecnologa (por ejemplo, nunca aparecera una tesis sobre el arte en el siglo XII en estos resultados, a menos que en sus temas asignados se incluyera uno relacionado con ciencia y tecnologa). En este caso, los resultados de la coleccin de tesis incluye tesis que vienen de distintos Campus. La consulta a los documentos finales (realizada seleccionando el elemento de la lista) podra resultar en la transferencia de un documento desde alguno de los Campus hasta la computadora del usuario, o posiblemente de un lugar geogrficamente ms cercano al usuario de un repositorio que contiene una copia de ese documento.
3 CONTENIDO
Un documento es un objeto que ilustra sobre algn hecho. El contenido de la BDT son documentos digitales que provienen de documentos originales, los cuales estn organizados en colecciones de acuerdo a un estndar de metadatos y clasificacin, y tienen un formato digital estndar y estn almacenados en repositorios de documentos, y son usados y administrados por grupos de usuarios. En esta figura se muestra el proceso para alimentar un repositorio de documentos digitales, desde la generacin de documentos, pasando por su seleccin, digitalizado y clasificacin, hasta que son colocados en el repositorio.
11 de 31
Tema: "Electrnica"
...
clasificacin digitalizacin conversin seleccin
un documento original
Tesis: "Anlisis de Agentes Inteligentes" Artculo: "The Plus side of Web advertising"
Generacin de documentos
figura 3.1 Pasos para que un documento llegue a la BDT Primero se comenzar describiendo el resultado deseado (documento digital) y posteriormente, los pasos necesarios para tener un conjunto de stos en un repositorio.
a-z
registro de metadatos
documento digital
figura 3.2 Relacin entre documentos y metadatos Los documentos originales de donde provienen estos documentos digitales son aquellos que proceden de cualquiera de estos medios: Archivos originales en formato electrnico, como archivos de procesadores de palabras, hojas de clculo, repositorios de mensajes electrnicos como correo, etc. Estos pueden incluso ser formatos electrnicos para representar documentos del mundo real (como los que se presentan a continuacin). Libros o folletos que constan de una o ms pginas de informacin principalmente textual sobre papel, como libros, tesis, folletos y otros. Fotografas, posters, mapas, etc. que contienen informacin grfica bidimensional. Objetos que tienen caractersticas tridimensionales como pinturas, estatuas, esculturas, edificios, etc. Grabaciones sonoras ya sea musicales o de voz, como entrevistas, representaciones artsticas, etc. Grabaciones audiovisuales como videos o pelculas. La captura y conversin de estos formatos se discute en breve en la seccin X.X Un ejemplo de un documento digital visualizado por un usuario, en este caso una pgina de un libro, se muestra a continuacin:
12 de 31
figura 3.3 Un documento digital visto por un usuario 3.1.1 Metadatos Los metadatos son informacin sobre los datos representados por el mismo documento, de manera similar a lo que es una ficha bibliogrfica para un libro; el libro es el documento y los metadatos es lo escrito en la ficha (autor, ttulo, ao de edicin, etc.) [Heery,96]. El objetivo de los metadatos en la BDT es facilitar el descubrimiento y navegacin de la informacin al usuario final, como se ha observado en el captulo 2. Los metadatos son un concepto clave para la efectividad de la BDT ya que sin ellos es muy difcil unir repositorios de informacin con distintos orgenes. Para la BDT se han determinado tres grupos de metadatos a incluir en el registro de metadatos que acompaa cada documento: metadatos de catalogacin, metadatos del artculo, y metadatos de control de acceso.
?A-Z ? ?
metadatos de catalogacin
figura 3.4 Partes de un registro de metadatos Los metadatos en la BDT debern ser definidos en algn formato estndar de definicin de metadatos de manera: Que sea fcil la conversin a otro formato de metadatos, para asegurar la transferencia de los metadatos asignados a documentos entre distintas entidades organizaciones del ITESM, as como con organizaciones externas al Instituto. [Day,98] Que permita la descripcin de los medios contemplados para inclusin en la BDT (libros, objetos, grabaciones sonoras y audiovisuales, etc.) Que sea fcil la actualizacin o extensin del formato de metadatos para incluir casos no contemplados en las primeras fases de implantacin de la BDT.
13 de 31
El Dublin Core es un conjunto de 15 elementos de metadatos para facilitar primordialmente el encontrar recursos en el WWW [DC, 97]. Se ha escogido este juego de metadatos para este proyecto pues aparte de cumplir los requerimientos descritos arriba, tambin: Tiene soporte del W3C (World Wide Web Consortium), el OCLC (Online Computer Library Center) y otras organizaciones de prestigio en el campo. Ofrece una descripcin razonable sin ser exhaustiva, logrando un punto medio de tiempo de catalogacin vs. cantidad de registros catalogados. Adems de la definicin de metadatos, se requiere un conjunto de vocabulario estndar de clasificacin a utilizar para llenar estos campos de metadatos. Este es discutido en otra seccin. Un ejemplo de como se podran ver los metadatos del documento se muestra aqu, incluyendo datos adicionales como el tamao del archivo, el formato del archivo, y una miniatura de la primera pgina.
figura 3.5 Ejemplo de metadatos del documento vistos por un usuario Entre los metadatos de cada documento estn: ttulo, autor, temas, resumen, editorial, contribuyentes, formato, fecha, folio/identificador, lenguaje, relacin, cobertura, control de acceso y estadsticas de uso. 3.1.2 Formato digital estndar Los documentos digitales que forman la BDT se almacenarn con uno de varios formatos digitales estndar el cual es la codificacin (o formato) de la informacin digital la cual mantiene la representacin del documento digital (por ejemplo, algunos formatos podran ser archivos HTML, PDF, Postscript, Microsoft Word, etc.) Para su seleccin, deben cumplir con estas caractersticas: Deben ser usado ampliamente en la industria. Deben ser abierto o soportado por distintos productos y/o empresas. Deben tener un futuro claro en su desarrollo. Deben interoperar con las tecnologas a usarse en el resto de la BDT (indizadores, buscadores, navegadores).
14 de 31
catalogador
?A-Z ? ?
registro de metadatos repositorio de metadatos
capturista
a-z
??
a-z a-z
administrador
a-z
clasificadores
figura 3.6 Metadatos alimentados a un repositorio Los procesos para ingresar documentos digitales a la BDT son: Seleccin, donde se decide cuales documentos pasarn a formar parte de la BDT una vez que cumplen una serie de lineamientos. Administracin, donde existe un encargado de una coleccin de documentos, quien sigue el proceso y determina una porcin de los metadatos a asignarle. Captura, donde se convierte el documento que origina en papel (o en un archivo electrnico) a un formato digital estndar usado en toda la BDT. Catalogacin, donde se determinan datos sobre el documento, como autor(es), ttulo(s), tema(s), fecha de edicin, etc. partiendo de un vocabulario controlado (donde, por ejemplo, se determina que INEGI se escribir siempre "Instituto Nacional de Estadstica Geogrfica e Informtica"). Estos procesos se describen con mayor detalle en las secciones 4, 5, 6 y 7.
3.4 Repositorios
Existen repositorios de informacin distribuidos, los cuales contienen una o ms colecciones de documentos o metadatos. Se definen dos tipos de repositorios: Repositorios de metadatos: lugares donde se mantienen los metadatos de los documentos digitales. Repositorios de documentos: son lugares donde se publican y almacenan las versiones completas de los documentos digitales. Los repositorios tienen estas caractersticas: Pueden mantener almacenadas distintas versiones de cada documento. Pueden ser replicados para ofrecer mltiples puntos de acceso a la misma informacin. Siguen un riguroso control de aseguramiento de la informacin, a travs de respaldos y medidas en contra de fallos. Pueden ser independientes entre s. Tienen grupos responsables asignados para crear y actualizar la informacin contenida en ellos.
15 de 31
Cada repositorio tambin tiene un ndice de su contenido, por ejemplo, sabe en cuales documentos se editaron en cierto ao, en cuales documentos aparece la palabra "bioqumica", etc. El ndice trabaja de cerca con los metadatos de todos los documentos contenidos en el repositorio para formar una va rpida que permite al usuario llegar rpidamente a la informacin deseada a travs de una bsqueda.
4 SELECCIN DE DOCUMENTOS
***ESTA SECCION NO EST TERMINADA***
La seleccin de documentos es la primera fase para publicar un documento original a la BDT como un documento digital, como se muestra a continuacin.
clasificacin
digitalizacin conversin
seleccin
16 de 31
Se recolecta informacin basndose en entrevistas realizadas con departamentos que generan y demandan informacin generada dentro del Sistema ITESM, y propuestas generadas por departamentos generadores de informacin para la inclusin de sus acervos o documentos en la BDT. La entrevistas y propuestas son descritas ms adelante. Posteriormente a la recoleccin de la informacin, se hace una relacin de la informacin generada, con las siguientes herramientas: Funcin de prioridad. Analizando la informacin obtenida de las entrevistas o propuestas, se alimentan los datos cuantificables en una funcin la cual otorga una calificacin con la cual se puede comparar el peso o relativa importancia entre los distintos materiales candidatos. Esta funcin se describe ms adelante. [Anexo C] Diagrama del flujo de informacin. Aqu se interrelacionan la oferta/demanda de informacin entre las diversas entidades organizacionales. Esto facilitar la identificacin del origen y cantidad de informacin, que ayudarn a identificar los departamentos claves a incluir en las colecciones digitales inicialmente. Matriz de prioridades. Es una tabla donde se clasifica la totalidad de materiales bajo revisin para su inclusin en la BDT, de manera que se puede distinguir, por reas o caractersticas, que materiales estn prximos a incluirse. Por ejemplo: se elaboran listas de materiales ya digitalizados ordenados por su evaluacin relativa de la funcin de peso, como en la tabla que se muestra en la fig. 4.2.
Prioridad 1
Categora Rango 0-10
Prioridad 2
Rango 10-15
Prioridad 3
Rango 15-20
figura 4.2 Ejemplo de Matriz de prioridades Identificacin de postulados de la Misin. Esta es una matriz a travs de la cual se intenta definir con que puntos de la misin se relaciona una coleccin de documentos, para asignarle un peso cuantificable relativo a otros documentos. El intentar conseguir una relacin cuantificable entre el contenido o misin de un documento (o coleccin) y la Misin del Sistema ITESM actualmente es una calificacin ad hoc, debido al rango posible de opiniones sobre el impacto exacto de la existencia de dichos documentos sobre la vida diaria del Instituto. Actualmente se investigan estas posibilidades: Asignar un mayor peso, mientras a ms programas de la Misin del ITESM hacia el 2005 apoye un documento. El que apoye o no es un trmino vago; simplemente se toma en cuenta que el documento sirva en algn momento para llevar a cabo el programa. Asignar un mayor peso, mientras mayor sea la cantidad de valores (los que se desean inculcar a los futuros graduados) que la existencia de un documento puede o podra apoyar en dado momento, ya sea directamente sobre los alumnos, o indirectamente a travs de los profesores. Consenso general de un comit de seleccin. El comit de seleccin encargado de evaluar toda esta informacin podr, adems de contar con la informacin provista por estas herramientas, hacer aportaciones cualitativas que ayudan a la seleccin de los documentos basndose en datos no incluidos en el proceso de recoleccin de informacin.
17 de 31
Realizacin de entrevistas iniciales con unidades organizacionales del Sistema ITESM, a modo de descubrir su oferta y demanda de informacin actual para evaluar la publicacin de documentos que contengan esa informacin en la BDT. Llamados semestrales o solicitudes de propuestas a los generadores de documentos actualmente en la BDT, para que stos propongan nuevos documentos a publicar en la BDT.
4.3.1 Entrevistas Las entrevistas son sesiones realizadas entre un grupo de miembros del Comit de Adquisiciones de la BDT y un grupo de personas miembros de la unidad organizacional responsable de la informacin. En estas sesiones se intenta determinar: Oferta de informacin del grupo; incluyendo el medio original de los documentos, mercado meta, periodicidad, caducidad, uso actual, etc. Necesidades/demanda de informacin del grupo; incluyendo puntos de concentracin del material, fin de uso, sensibilidad al retraso en su obtencin, grupos interesados, etc. Esta informacin se compara con los requerimientos de publicacin mencionados arriba, para determinar su inclusin en la BDT. Para la entrevista se cuenta con un cuestionario, cuyo formato es una matriz de preguntas de los materiales de informacin creados y demandados por el departamento a entrevistar, as como para obtener opiniones personales de los entrevistados sobre posibles reas de oportunidad. Est diseado para identificar distintos factores de los materiales, entre ellos: Nombre, definicin y alcance. Perfil del mercado meta actual y potencial. Grado de digitalizacin para su proceso edicin, as como para la versin final. Tiraje y distribucin geogrfica para los no-digitales, estadsticas de uso de los digitales. El cuestionario se muestra en la seccin de anexos. [Anexo B]
4.3.1.1 Pasos a realizar antes de la entrevista
Seleccin de entrevistados: Escoger la persona o grupos de personas que participan en las actividades de un departamento, con previa recomendacin de directivos del rea. Se recomienda encuestar solamente a una persona o a lo sumo 3 por sesin. Convocar: Enviar la peticin de entrevista por e-mail, telfono, etc. a las personas a entrevistar. Definir da, hora, lugar y el tiempo que consumir la entrevista (aproximadamente 1.5 horas). Contar con equipo y consumibles: contar con 2 copias del cuestionario, un videocassette, y una cmara de video con tripi.
Realizacin de la entrevista
4.3.1.2
A. De ser 2 o ms entrevistadores, colocar equipo de grabacin simultneamente al paso B Colocar cmara a 2m del entrevistado, y apuntar a este. De ser un grupo grande, es preferible capturar el audio de todos con cercana de la cmara en lugar de colocar todos dentro del video. No es necesario mover la cmara durante la entrevista, a menos que sea clave. Mostrar los documentos u objetos de los que se habla a la cmara cuando sea posible, para tener referencia de ellos. B. Presentacin de entrevistadores, introduccin al proyecto y descripcin de resultados buscados (5-7 minutos). Identificacin del entrevistador y asistente, por su nombre y procedencia (llevar identificacin visible). Explicar el objetivo del proyecto y su alcance, el uso que se har de la informacin que se obtenga, pequeos ejemplos de la informacin que se desea obtener. Explicar que en las dos primeras partes de la entrevista, slo se consideran los materiales generados y demandados por el departamento, cuyos clientes y generadores son parte del ITESM, y de preferencia tengan un pblico potencial grande. Mencionar que la tercera parte de la entrevista no tiene estas restricciones.
18 de 31
Enfatizar que la charla ser solamente sobre materiales existentes actualmente, con la excepcin de la ultima parte donde se pueden incluir materiales por publicarse o que aun no existen (como los "no hay...", "quisiera que hubiera...", "hace tiempo haba...", "por qu no...", etc.) Explicar que se buscan respuestas de materiales puntuales generados o demandados (ej.: "Folletos informativos sobre el SIDA"), explicando que en cada etapa se harn preguntas que ampliarn e identificarn a cada uno. Se recomienda comenzar la grabacin en video de la entrevista en este punto. C. Entrevista (60 minutos) Habr dos personas, el encuestador y el gua quien verificar que se estn cubriendo los puntos necesarios, y sugerir posibles preguntas a la entrevista, en la medida de lo posible es recomendable llevar doble registro escrito. Las secciones de la entrevista son: I) materiales ofrecidos por el departamento, II) materiales demandados por el departamento, III) transformaciones y opiniones Procedimiento para secciones I y II: 1. Se enumeran los materiales puntualmente (ej.: "Folletos informativos sobre el SIDA") en grupos de tres o cuatro, deteniendo al entrevistado una vez acumulada esa cantidad. Identificar los materiales por nombre o frase corta que le caracterice totalmente para nuestro control de registro. 2. Explicar que ahora se harn preguntas, cada una se contestara para ese grupo de materiales. 3. Hacer las preguntas; donde puedan existir distintas respuestas (ej.: si un documento se distribuye en folleto y tambin por el WWW) hacer preguntas para los casos posibles. 4. Las respuestas que no se obtengan en el momento, pedir referencia de alguien que las pueda contestar. 5. Una vez terminadas las preguntas de este grupo de materiales, pedir la enumeracin de otro grupo, repitiendo desde el paso 1. Debe considerarse el lmite de tiempo; podra ser necesario pasar a la siguiente seccin. 6. Cuando el entrevistado decide que no hay ms materiales de relevancia para la entrevista, se repiten los nombres de los materiales vistos, y se continua con la siguiente seccin. Procedimiento para la seccin III: 1. Transformaciones del departamento: Preguntar sobre transformaciones documentadas en el departamento. De no contar con ninguna, pedir referencia de quien es la persona con ms experiencia que tiene esos conocimientos. 2. Opinin de materiales ofrecidos y materiales demandados que deben estar en la BDT . Se pueden incluir materiales discutidos en las secciones I y II, materiales en proceso de publicarse, o cosas que no existen todava. D. Despedida con un saludo de agradecimiento y convenir que se le llamar en unos das ms, slo si se necesita aclarar algn detalle.
4.3.1.3 Recomendaciones para la entrevista
Claridad: Cuando el entrevistado responda las preguntas, el entrevistador debe repetir la idea captada para asegurar la calidad de la entrevista. Interrupciones: Si en algn punto de la entrevista el entrevistado recuerda algn material importante, detener la entrevista, anotar solo el nombre para el siguiente grupo de preguntas, y continuar con las preguntas donde se dejaron. Tiempo: Es importante recordar que las personas que se entrevistan tienen tiempo limitado. Se debe ser puntual y breve para la entrevista.
Despus de la entrevista
4.3.1.4
Conseguir datos faltantes: Hacer llamadas telefnicas a las personas entrevistadas (o a las referencias dadas) para obtener los datos faltantes durante la entrevista. Revisin de datos: Revisin del video y el registro en papel de la entrevista, para corregir puntos donde haya diferencias en los datos escritos. Agradecimiento: Enviar un mensaje por correo electrnico de agradecimiento a los entrevistados.
19 de 31
4.3.2 Solicitudes de propuestas Las solicitudes de propuestas sern realizadas por el comit de seleccin, de manera semestral, para obtener reas de oportunidad para la inclusin de nuevas colecciones de documentos dentro de la BDT. Las propuestas realizadas por los departamentos debern contener la informacin solicitada por el comit, principalmente el llenado del cuestionario por quienes seran los administradores de las colecciones de documentos candidatas a ser publicadas. Las solicitudes se envan por correo electrnico a los administradores actuales de las colecciones incluidas en la BDT, as como por medios masivos internos actuales.
5 ADMINISTRACIN DE COLECCIONES
***ESTA SECCION NO EST TERMINADA*** Una vez que una coleccin se selecciona para formar parte de la BDT, debe existir un responsable de la versin digital de la misma.
5.1 Definicin
Por administracin se entiende el mantenimiento de una coleccin por un administrador. Este es el guardin de una o ms colecciones de documentos digitales en la BDT, quien coordina las actividades a realizar para preservar, crecer y asegurar la calidad de la coleccin, apoyndose en los distintos grupos o individuos designados por l para realizar la captura y clasificacin de estos documentos. El administrador: Permite o niega el acceso de distintos grupos a los documentos o metadatos de la coleccin ya sea para lectura, creacin o modificacin. Realiza la alta o baja de documentos individuales de las colecciones digitales. Obtiene y evala estadsticas de uso de los documentos de sus colecciones para tomar decisiones. El administrador de la coleccin captura metadatos de control de acceso para determinar las restricciones para la consulta de los documentos publicados entre los grupos de usuarios de la BDT. Esto incluye determinar si el documento esta disponible o no en ese momento. Adicionalmente, impone controles de acceso sobre los metadatos asociados, designando que usuarios tienen permisos de alta, cambios y consulta sobre esta informacin. Los controles de acceso se almacenan dentro del mismo registro de metadatos, como se muestra en la fig. 5.1.
catalogador
?A-Z ? ?
titulo, materias, nombre de coleccin... id del documento, color, medio original, tamao... catalogadores designados capturistas designados dueo/administrador lectores finales...
capturista
administrador clasificadores
registro de metadatos
20 de 31
21 de 31
de un original identificable por los esquemas URL, ISSN, o ISBN. Ejemplo: un abstract del artculo en el URL http://umi.com/2381 tendra DC.Relation.IsDerivedFrom = "(SCHEME=URL) http://umi.com/2381". DC.Relation.IsMemberOf Apunta a una coleccin o artculo de la cual es parte este documento. Los esquemas son URL, ISBN e ISSN. Ejemplo: si este documento es el artculo de una revista, entonces DC.Relation.IsMemberOf sera el ISSN de esa revista, o su URL (o ambos si es posible). DC.Relation.IsCriticalReviewOf Apunta al documento del cual este es una resea o crtica. Existen los tres esquemas URL, ISBN e ISSN. Ejemplo: si este documento critica la obra "La Iliada" que tiene el ISBN 88888888, DC.Relation.IsCriticalReviewOf contiene "(SCHEME=ISBN) 88888888". DC.Rights Apunta a un documento que contiene la informacin de proteccin de derechos de autor de este documento. Por ejemplo: DC.Rights = "(SCHEME=URL) http://cnn.com/copyright.html"
6 CAPTURA
***ESTA SECCION NO EST TERMINADA***
6.1 Definicin
La captura de documentos es la segunda fase para publicar un documento original a la BDT como un documento digital, como se muestra a continuacin.
clasificacin
digitalizacin conversin
seleccin
22 de 31
Para fines de la BDT, se definen dos procesos de captura para contar con un documento digital final consultable en la Biblioteca Digital, el digitalizado y la traduccin. Digitalizado se define como se define como la transformacin de un documento del mundo real y tangible a una representacin digital del mismo. Documentos que existen en un medio distinto al electrnico debern seguir un proceso de digitalizado para convertir su formato original del mundo real a una representacin electrnica del mismo. Traduccin: la conversin de un documento almacenado digitalmente a un documento digital original, se debe convertir a un formato digital estndar predefinido para su almacenamiento. La traduccin a los formatos digitales estndar vara segn el tipo de informacin que se representa en los formatos originales. Simplemente se debe de realizar la conversin adecuada con ciertas herramientas de software.
23 de 31
d) Grabaciones sonoras: estas sern capturadas en formatos computacionales de 16 bits, usando dos canales (stereo) cuando sean usados por el original. La frecuencia de captura debe ser mayor o igual a la respuesta en frecuencia para el medio original (44.1 kHz para CD, 22 kHz para audiocassette, etc.) La informacin se deber capturar a un nivel de volumen apropiado para aprovechar la capacidad completa de la onda digital, amplificando o reduciendo si es necesario el volumen de la obra original. De ser posible, y donde no modifique el original, separar un programa u obra en secciones de no mas de 15 minutos cada una. e) Grabaciones audiovisuales debern capturarse en un formato estndar (MPEG-2 o mayor), con la mayor fidelidad posible para minimizar la distorsin introducida durante la compresin. El nivel de audio deber maximizarse para cada segmento digitalizado para mejorar la respuesta de seal a ruido (signal-to-noise ratio). 6.3.2 Formatos digitales estndar para el almacenamiento de los documentos a) Textos como libros, artculos, peridicos, etc. El formato vara segn el caso, dependiendo si tienen un diseo de pgina preestablecido y es difcil su conversin a HTML Pginas de WWW: HTML (Hypertext Markup Language) visible en un navegador versin 4 en adelante (Netscape Navigator o Microsoft Internet Explorer). Usar GIFs y JPEGs como imgenes, y asegurar compatibilidad con la mayor cantidad de browsers (minimizando el uso de Java, asegurando el funcionamiento de JavaScript, etc.) Archivos de diseo de pgina o digitalizacines de libros, etc: PDF (Portable Document Format) de Adobe. Usar versin 3.0, crear "thumbnails" para todas las pginas y escalar grficas a un nivel adecuado para impresin al convertir. Procesar por Adobe Capture en el lenguaje original del texto para poder realizar indizado y bsquedas subsecuentes de texto completo. Determinar permisos de impresin y modificacin dentro de la aplicacin, segn el nivel de seguridad deseado. b) Fotografas, posters, mapas, etc. que contienen informacin grfica bidimensional. Archivos de dibujo estructurado: Usar PDF. Realizar proceso de Adobe Capture para realizar reconocimiento de caracteres sobre reas posibles. Otros: Formato TIFF simultneamente con JPEG para el resto. El TIFF debe tener la mayor resolucin posible (menos de 200 DPI) , y ser almacenado con compresin sin prdidas (como LZW). El JPEG debe producirse del archivo TIFF original, y ser una versin con dimensiones de 1000 pixeles (ancho o alto) mximo, y una versin de 250 pixeles mximo (al 25% del tamao) para su presentacin preliminar. La calidad del JPEG debe ser 80% para la primera, y 50% para la segunda. c) Objetos que tienen caractersticas tridimensionales como pinturas, estatuas, esculturas, edificios, etc. Objetos fsicos: Definir 2 o ms ngulos para tomar fotografas al objeto, y seguir procesos ya descritos para capturar estas fotografas. Archivos electrnicos que representan objetos tridimensionales: deben almacenarse como archivos para Autocad (DXF) versin XXX??, simultneamente con una representacin en VRML para presentacin preliminar. d) Grabaciones sonoras ya sea musicales o de voz, como entrevistas, representaciones artsticas, etc. Simultneamente almacenar como WAV de 16 bits (stereo donde es posible), y en dos formatos de RealAudio (para velocidades de 56kbps y 21kbps). La frecuencia de muestreo del WAV depende de la fuente: usar 44.1kHz para CDs y videos originales, y 22.1kHz para grabaciones de audiocassettes o videos caseros, donde la respuesta en frecuencia y nitidez del audio sea de bajo nivel. e) Grabaciones audiovisuales como video, pelcula, etc. Simultneamente almacenar en MPEG-II y en dos formatos de RealVideo (para velocidades de red de 56kbps y 21kbps). De ser posible, y donde no modifique el original, separar un programa u obra en secciones de no mas de 15 minutos cada una (solo para el MPEG, para reducir la carga de la red). Donde sea posible, encodificar texto proporcionado por sistemas de Close-Caption o de una transcripcin del programa dentro del formato MPEG o como RealText. 6.3.3 Vocabulario de metadatos del artculo Los metadatos de artculo a capturar son:
24 de 31
DC.Format5 Escoger entre los formatos definidos como los formatos digitales estndar, y utilizar la notacin de MIME (Multimedia Internet Mail Extensions), como image/jpeg o application/pdf. DC.Identifier6 Scheme [none]: Se asigna un identificador nico, un folio de dgitos a cada artculo. El sistema lo debe proveer automticamente al alimentar el documento al repositorio, y debe existir para todo recurso en la BDT. Scheme URL: URL de un recurso, si es que se trata de una pgina de WWW. Scheme ISBN: El ISBN si se trata de un libro o publicacin registrada. Las publicaciones del ITESM que pueden contar con un ISBN deben tramitarlo.
6.4 Costos
Debido al grado de especializacin requerido por los capturistas, as como el costo del hardware y software para el proceso, se recomienda: Centralizar el hardware y software en un centro de acopio para minimizar su tiempo muerto. Contar con un staff de capturistas con el perfil descrito, en cantidad adecuada a la demanda de captura. Contar con uno o ms coordinadores de tiempo completo para brindar soporte y asesora durante la operacin del centro de acopio, quienes conozcan a fondo todos los procesos de captura, que cuenten con el perfil descrito.
***ESTA SECCION NO EST TERMINADA***
7 CATALOGACIN
***ESTA SECCION NO EST TERMINADA***
7.1 Definicin
La catalogacin es, como se muestra aqu, el tercer paso para convertir un documento original en uno digital utilizable en la BDT.
catalogacin
digitalizacin conversin
seleccin
25 de 31
26 de 31
Scheme LCSH: Encabezamientos de materia en ingls, de los Library of Congress Subject Headings7. Scheme EMB: Encabezamientos de materia en espaol, de la Lista de Encabezamientos de Materia para las Bibliotecas [Madrid, 87]. Scheme LCC: Nmero de clasificacin Library of Congress Classification8 para documentos que ya cuentan con ste (como documentos ya clasificados en bibliotecas), o de ser posible usar el nmero LCC de la obra de la cual se deriva esta.
Un ejemplo de un conjunto de metadatos DC.Subject para un documento podra ser este: DC.Subject ="economa, Amrica Latina, Estadstica, comercio, negocios" DC.Subject ="(SCHEME=EMBP) Condiciones Econmicas--Amrica Latina" DC.Subject ="(SCHEME=LCSH) Economic Conditions--Latin Amrica" DC.Subject ="(SCHEME=LCC) HC 125 .A4365 1993-" DC.Description Se debe incluir un resumen (por lo menos 15 palabras) en espaol del contenido o, de ser posible, transcribir el primer prrafo del captulo introductorio de la obra (eliminando el formato, manteniendo diacrticos). DC.Language Scheme Z39.539: Usar este cdigo de tres letras como es especificado en NISO Z39.53. Por ejemplo, DC.Language = "(SCHEME=Z39.53) SPA" para espaol. Scheme Computer: se refiere a un lenguaje computacional, como C, Pascal, etc. Actualmente este esquema es experimental [**].
La obtencin de estos metadatos depende de varios factores. Se han contemplado estos casos: A) El documento ya esta catalogado En casos donde el documento digital a catalogar es una versin ntegra de un documento existente en papel, video, etc. el cual ya se encuentra catalogado dentro de una de las bibliotecas del ITESM (o en alguna otra biblioteca) procede lo siguiente:
De existir catalogacin en distintas fuentes, obtener aquella considerada la ms confiable. Verificar esa catalogacin contra el catlogo de autoridades 10de la BDT, para eliminar inconsistencias (como el uso de "Economa" vs. "Condiciones Econmicas"). La clasificacin LCC se transcribe tal cual de la misma fuente. Se aaden los metadatos que no estn en los catlogos actuales, como DC.Subject con palabras clave, y DC.Description.
B) El documento es un fragmento de uno que ya est catalogado En casos donde el documento a catalogar es parte de otro que lo incluye-- al cual llamaremos padre-donde el padre del mismo ya est catalogado en alguna biblioteca, la catalogacin del documento hereda la catalogacin del padre. Ejemplo: donde el documento a catalogar es un slo artculo de una revista la cual ya est catalogada en algn lugar.
Se obtienen los temas del padre como si ste fuese catalogado para la BDT, y se colocan como temas del documento (el hijo) a catalogar. Se cataloga el hijo por s solo, y los temas asignados se colocan como registros adicionales de DC.Subject. Se nota en el campo DC.Relation.IsMemberOf que este documento es miembro o parte de otro documento.
C) El documento pertenece a un grupo de documentos cuales ya estn catalogados Si el documento es parte de una coleccin, serie, etc. de documentos (hermanos) los cuales ya estn catalogados, entonces no necesariamente el documento hereda la catalogacin de sus hermanos. Sin
7Seleccione opcin "Subject" en http://lcweb2.loc.gov/resdev/ess/browse.html 8Seleccione opcin "Classification Number" en http://lcweb2.loc.gov/resdev/ess/browse.html 9http://www.oasis-open.org/cover/nisoLang3-1994.html 10 El catlogo de autoridades se discute en ??????????
27 de 31
embargo, cuando existe una catalogacin para el grupo como un conjunto, en ese caso cada documento del grupo hereda la catalogacin atribuida al grupo. D) El documento no tiene catalogacin previa ni relacin con uno catalogado En este caso, debe realizarse la catalogacin independiente de este documento. Es posible, sin embargo, partir de documentos muy similares al que se est catalogando para determinar los campos de DC.Subject, sin olvidar la verificacin contra el catlogo de autoridades de la BDT.
28 de 31
8 ANEXOS
8.1 Anexo A: Metadatos
8.1.1 Juego de metadatos Los formatos de metadatos que se han investigado son estos, divididos por extensin en su capacidad de descripcin ([DC, 97] , [Heery,96], [Heery,Powell y Day, 98] y [Xu, 97]). Conjuntos simples de metadatos: el Dublin Core e IAFA (Internet Anonymous FTP Archive) contienen pocos campos de descripcin de los recursos que representan. Conjuntos complejos de metadatos: el cdigo MARC (MAchine Readable Catalogue) y los TEI Headers (Text Encoding Initiative Headers): proveen informacin altamente estructurada y extensa de recursos electrnicos e impresos. Tambin se recomienda que el formato para encapsular los metadatos sea el XML para compatibilidad y expansibilidad futura (existe un esfuerzo por el LC para elaborar un DTD (Document Type Description) para SGML/XML que describe al formato MARC con lenguaje XML, por ejemplo [LC, 98]). Dado que existe un esfuerzo por la W3C para estandarizar los metadatos asignados a recursos de WWW que incluye el Dublin Core y otros, con un encapsulado en XML (llamada RDF o Resource Descriptor Format), se investigar el utilizar este estndar para la BDT. 8.1.2 Materias autorizadas Como los esfuerzos de catalogacin con el Dublin Core usan el LCSH (Library of Congress Subject Headings) como vocabulario de catalogacin en los campos de DC.Subject, se recomienda usar algn anlogo del LCSH en lenguaje espaol para este campo. Existe la opcin de usar tales traducciones como la Lista de Encabezamientos de Materia para las Bibliotecas [Madrid, 87], aunque se recomienda usar una versin en lenguaje espaol mas actualizada y congruente con las costumbres latinoamericanas. Se recomienda usar los encabezamientos originales en ingls simultneamente para contar con un punto autoritario de referencia para el futuro. Una traduccin del LCSH es el vocabulario que se usa en las Bibliotecas del Sistema ITESM. Sin embargo, las traducciones en ocasiones no parten de una fuente autoritaria comn, habiendo diferencias entre catalogacin de los mismos ttulos. Posiblemente, se puede tomar un corpus de encabezamientos de materia traducidos que sea relativamente confiable, como es el caso del CIB del Campus Monterrey, donde hay registros traducidos confiablemente que originaron de registros del LC11 (como aquellos catalogados con ayuda del producto Bibliofile) y fueron traducidos por personal experto en el CIB Monterrey. Como se observa en el captulo 7.3.1, en la BDT los metadatos a asignar como parte de la catalogacin en el campos DC.Subject incluyen las versiones en ingls y espaol de los cada encabezamiento de materia.
29 de 31
basndose en una calificacin numrica que resulta de la aplicacin de la funcin a cada uno de los documentos catalogados. Simplemente, aquellos documentos con una calificacin mayor son los que se seleccionan primero para ser seleccionados, digitalizados, catalogados, y finalmente, formar parte de la BDT. La funcin que jerarquiza la prioridad de seleccin de los materiales es la siguiente: F1=[(Al*X1 + Ma*X2 + Adm*X3 + Ex*X4) + (GDU*(GDU+X5))+(GDA*(GDA+X6))+(SP/No.Max.P)] El significado de los factores es: X1 a X6: constantes a definir segn los pesos deseados (ver tabla, abajo). Al: los alumnos usan este recurso (valores 0,1) Ma: los maestros usan este recurso (0,1) Adm: los administrativos (empleados y directivos) usan este recurso (0,1) Ex: ex-alumnos usan este recurso (0,1) GDU: Grado de Digitalizacin Usadaaquella del documento final que es distribuido masivamente. (0,1 o 2, donde 0 es en papel, 1 es en un formato electrnico intermedio no disponible en Internet, y 2 es sobre el WWW en alguno de los formatos digitales estndar deseados). GDA: Grado de Digitalizacin Almacenadocomo se usa internamente antes de su distribucin. (0,1 o 2, igual que en GDU). SP ?? No. Max. P: ?????????????? Para ello, se hace un primer acercamiento a la seleccin de materiales de la siguiente manera: (ver Matriz de Prioridades) Como primer intento, se gener la funcin en los siguientes rdenes de prioridades y factores de peso. SP= 35; X5 = 12.5, X6 = 12.5 (GD Total = 25); X1 = 20; X2 = 15; X3 = 3; X4 = 2 As pues la tabla que a continuacin describe el comportamiento de las prioridades y sus factores de peso tiene significado por s misma debido a que el enfoque a cada uno de ellos es distinto.
Mejor adaptacin 5. Lugar
Funcin
Factores de prioridad
SP = 40; X1 = 20; X5 = 10, X6= 10 (GD Total = 20); X2 = 15; X3 =3; X4 = 2 SP= 35; X5 = 12.5, X6 = 12.5 (GD Total = 25); X1 = 20; X2 = 15; X3 = 3; X4 = 2
F1
F2
Los factores tienen como caracterstica dar mayor peso en primer lugar a los programas, en segundo al grado de digitalizacin, y tercero, al alumno. Como consecuencia de ello se observa mxima concordancia con la seleccin sugerida.
1er. Lugar
F3
F4
SP = 30; X5 = 15, X6 = 15 (GD Total Los factores tienen como caracterstica dar mayor peso en primer lugar el grado de = 30); X1 = 20; digitalizacin, en segundo a los programas, y tercero, al alumno. Como X2= 15; X3 = 3; X4= 2 consecuencia de ello se observa una mediana concordancia con la seleccin sugerida. X5 = 21,X6 = 14 (GD Total Los factores tienen como caracterstica dar mayor peso en primer lugar el grado de = 35); X2 = 25; SP = 20; X1 = 15; X3 digitalizacin, en segundo a los maestros, y tercero, a los programas. Como = 3; X4 = 2 consecuencia de ello se tiene una mediana concordancia con la seleccin sugerida. X1 = 35; X5 = 15, X6= 10 (GD Total Los factores tienen como caracterstica dar mayor peso en primer lugar al alumno, = 25); X2 = 20; en segundo el grado de digitalizacin, y tercero, a los maestros. Como SP = 15; X3 = 3; X4 = 2 consecuencia de ello se tiene una segunda ms alta concordancia con la seleccin sugerida. X1 = 35; X5 = 15, X6 = 10 (GDU Los factores tienen como caracterstica dar mayor peso en primer lugar al alumno, Total = 25); X2 = 15; en segundo el grado de digitalizacin, y tercero, a los maestros y programas. SP = 15; X3 = 3; X4 = 2 Como consecuencia de ello se tiene una mediana concordancia con la seleccin sugerida.
3er. Lugar
4. Lugar
2. Lugar
F5
3er. Lugar
F6
30 de 31
tabla 8.1 Pesos probados con la funcin para obtener resultado deseado En conclusin se observ en este primer acercamiento a la funcin, que los puntos ms relevantes para la seleccin de documentos para su digitalizacin son: alumnos, grado de digitalizacin y maestros o programas.
9 BIBLIOGRAFA
[Heery,96] Review of Metadata Formats. Rachel Heery (October 1996). (http://www.ukoln.ac.uk/metadata/review) [Day, 98] Mapping between metadata formats. Michael Day, UK Office for Library and Information Networking (Noviembre 1998). (http://www.ukoln.ac.uk/metadata/interoperability/) [Heery,Powell y Day, 98] Metadata. Rachel Heery, Andy Powell and Michael Day (Septiembre 1997). (http://www.ukoln.ac.uk/metadata/publications/libs-75.html) [LC, 98] MARC DTD: Background and Development. Library of Congress Network Development and MARC Standards Office (Mayo 1998). (http://lcweb.loc.gov/marc/marcdtd/marcdtdback.html) [DC, 97] Dublin Core Element Set: Reference Description. OCLC (Octubre 1997). (http://www.purl.org/DC/about/element_set.htm) [Xu, 97] Metadata Conversion and the Library OPAC. Amanda Xu, MIT (1997). (http://web.mit.edu/waynej/www/xu.htm) [Madrid, 87] Lista de Encabezamientos de Materia para las Bibliotecas Pblicas. Ministerio de Cultura, Madrid. (Z 695 .L773 1987) [Columbia, 98] Selection Criteria for Digital Imaging Projects. Columbia University Libraries, EE.UU. (http://www.columbia.edu/cu/libraries/digital/criteria.htm)
31 de 31