Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Con el rápido aumento de todos los tipos de recursos de información administrados por las bibliotecas en las últimas
décadas, la capacidad de la comunidad de catalogación y metadatos para describir esos recursos ha sido muy tensa.
Además, la realidad de los presupuestos de biblioteca estancados y en disminución ha impedido que la comunidad
bibliotecaria aborde este problema con el aumento de personal concomitante. Sin embargo, la capacidad de las
bibliotecas para hacer accesibles los recursos de información a sus comunidades de usuarios sigue siendo una
preocupación central. Por lo tanto, existe una necesidad crítica de idear formas eficientes y rentables de crear registros
bibliográficos para que los usuarios puedan encontrar, identificar y obtener los recursos de información que necesitan.
Un enfoque prometedor para administrar la cantidad cada vez mayor de información es con herramientas
semiautomáticas de generación de metadatos. Herramientas semiautomáticas de generación de metadatos concierne
al uso de software para crear registros de metadatos con diversos grados de supervisión de un especialista humano.1
En su forma ideal, las herramientas semiautomáticas de generación de metadatos son capaces de extraer información
de recursos de información estructurados y no estructurados de todo tipo y crear metadatos de calidad que no solo
facilita la creación de registros bibliográficos, sino también la interoperabilidad semántica, un factor crítico para el
intercambio de recursos y el descubrimiento en el entorno de red. Mediante el uso de herramientas semiautomáticas
de generación de metadatos, la comunidad bibliotecaria tiene el potencial de abordar muchos problemas relacionados
con el aumento de los recursos de información, la presión sobre el presupuesto de la biblioteca, la necesidad de crear
registros de metadatos interoperables de alta calidad y, en última instancia, la provisión efectiva de recursos de
información para los usuarios.
Hay muchos beneficios potenciales para la generación de metadatos semiautomática. El primero es la escalabilidad.
Debido a la cantidad de recursos de información y la naturaleza costosa y lenta de la generación manual de metadatos,
2 es cada vez más evidente que simplemente no hay suficientes profesionales de la información disponibles para
satisfacer las necesidades de generación de metadatos de la comunidad bibliotecaria. Por otro lado, la generación
semiautomática de metadatos ofrece la promesa de utilizar altos niveles de potencia de cálculo para gestionar grandes
cantidades de recursos de información. Además de la escalabilidad, la generación semiautomática de metadatos
también ofrece un posible ahorro de costos a través de una disminución en el tiempo requerido para crear registros
efectivos. Además, el ahorro de tiempo permitiría a los profesionales de la información centrarse en tareas que son
más conceptualmente exigentes y, por lo tanto, no adecuadas para la generación automática. Finalmente, dado que
las computadoras pueden realizar tareas repetitivas con relativa consistencia en comparación con sus contrapartes
humanas, la generación automática de metadatos promete la capacidad de crear registros más consistentes. Un
aumento potencial en la coherencia de los registros de metadatos de calidad, a su vez, aumentaría el potencial de
interoperabilidad y, por lo tanto, el acceso a los recursos de información en general. Por lo tanto, la generación de
metadatos semiautomática ofrece el potencial de no solo facilitar las demandas de descripción de recursos en la
comunidad de la biblioteca, sino también mejorar el descubrimiento de recursos para sus usuarios.
Con este fin, se realizó una revisión crítica de la literatura en relación con las herramientas semiautomáticas
de generación de metadatos publicadas entre 2004 y 2014. Se realizaron búsquedas en bases de datos como
Resúmenes de Bibliotecas y Ciencias de la Información y en Resúmenes de Bibliotecas, Ciencias de la
Información y Tecnología y se identificaron los artículos correspondientes mediante la revisión de títulos y
resúmenes. Debido a que el problema de crear herramientas viables para la generación automática confiable
de metadatos no es un problema limitado a la biblioteca y las profesiones de la ciencia de la información, 4
búsquedas de bases de datos se expandieron para incluir las bases de datos pertinentes a la ciencia de la
computación, incluyendo Proquest Computing , y Ciencia Aplicada y Tecnología. Las palabras clave, como
"generación automática de metadatos", "extracción de metadatos", "herramientas de metadatos" y "minería de
textos", incluidos sus tallos, se usaron para explorar las bases de datos. Además de la búsqueda de palabras
clave, también se identificaron artículos relevantes dentro de las secciones de referencia de artículos que ya se
consideraban pertinentes para el enfoque de la encuesta, así como a través de la expansión de listas de
resultados mediante la aplicación de términos relevantes aplicados a los artículos pertinentes. Para garantizar
que se revisaron los desarrollos más recientes y más confiables en los metadatos automáticos, se emplearon
varios filtros, como el intervalo de fechas y la revisión por pares. Una vez que se identificaron las herramientas,
se probaron sus capacidades (cuando fue posible), se notaron sus características y se determinaron los
desarrollos generales.
El resto del artículo proporciona una descripción general de las principales técnicas desarrolladas para la
generación semiautomática de metadatos y una revisión de las herramientas de generación de metadatos de
código abierto que las emplean. Se describen los desafíos y las barreras actuales para la implementación de
herramientas de metadatos semiautomáticos, así como sugerencias para desarrollos futuros que pueden ayudar
a los profesionales de la información con la integración de herramientas semiautomáticas dentro del flujo de
trabajo diario de los departamentos de servicios técnicos.
Dentro de esta dicotomía de métodos de extracción, hay varias otras técnicas más específicas que los
investigadores han desarrollado para la generación semiautomática de metadatos. Polfreman et al. identificó
seis técnicas adicionales que se han desarrollado a lo largo de los años: recolección de metaetiquetas,
extracción de contenido, indexación automática, extracción de texto y datos, autoexpresión de datos
extrínsecos generación y etiquetado social.6 Aunque la última técnica no es propiamente una técnica de
generación de metadatos semiautomática porque se usa para generar metadatos con un mínimo de intervención
requerida por los profesionales de metadatos, se puede ver como un modo posible para racionalizar la proceso
de creación de metadatos.
Tanto Greenberg como Polfreman proporcionan caracterizaciones completas y de alto nivel de las técnicas
empleadas en las herramientas de generación de metadatos semiautomáticas actuales. Sin embargo, no se
aborda una evaluación de estas técnicas en el contexto de una amplia encuesta de las herramientas mismas y
una enumeración exhaustiva de las herramientas actualmente disponibles. Por lo tanto, aunque estas técnicas
serán examinadas para el resto de esta sección, sirven simplemente como un marco a través del cual este
estudio proporciona un análisis actual y exhaustivo de las herramientas disponibles para su uso en la actualidad.
Cada sección proporciona una descripción general de la técnica relevante, una discusión de la investigación
más reciente relacionada con ella y las herramientas que emplean esa técnica.
Las tablas incluidas en cada sección proporcionan listas de herramientas de generación de metadatos
semiautomáticas (N = 39) evaluadas en el curso de esta encuesta. La información presentada en las tablas está
diseñada para proporcionar una caracterización de cada herramienta: su nombre, su ubicación en línea, la (s)
técnica (s) utilizada (s) para generar metadatos y una breve descripción de las funciones y características de la
herramienta. Solo se incluyen aquellas herramientas que actualmente están disponibles para su descarga o para
su uso como servicios web en el momento de redactar este documento. Además, las herramientas enumeradas
no se han limitado estrictamente a las aplicaciones de generación de metadatos, sino que también incluyen
algún software del sistema de gestión de contenido (CMSS), ya que generalmente proporcionan algún tipo de
extracción de metadatos semiautomática. Normalmente, los CMSS son capaces de extraer metadatos técnicos,
así como datos que pueden encontrarse en las metaetiquetas de recursos de información, como el nombre del
archivo, y usar esa información como título de un registro.
Meta-Extracción de etiquetas
La extracción de metaetiquetas es un proceso informático mediante el cual los valores de los campos de
metadatos se identifican y completan a través de un examen de las etiquetas de metadatos dentro de un
documento o adjuntas a él. En otras palabras, es una forma de recolección de metadatos y, posiblemente,
conversión de esos metadatos en otros formatos. MarcEdit, la herramienta semiautomática más utilizada para
la generación de metadatos en las bibliotecas de EE. UU., 7 es un ejemplo de esta técnica. MarcEdit
esencialmente recolecta metadatos del protocolo de la iniciativa Open Archives Initiative for Metadata
Harvesting (OAI - PMH) y ofrece al usuario la oportunidad de convertir esos registros a una variedad de
formatos, incluida la catalogación legible por máquina (MARC), MAchine - Readable Catalogación en XML
(MARC XML), Metadata Object Description Schema (MODS) y Encoded Archival Description (EAD).
También ofrece la capacidad de convertir registros de cualquiera de los formatos compatibles a cualquiera de
los otros formatos admitidos.
Otros ejemplos de esta técnica son el editor de servicios web - Metadatos Dublin Core Converter y Firefox
Dublin Core Viewer Extension. Ambos programas buscan archivos HTML en la web y convierten la
información que se encuentra en las metaetiquetas HTML en elementos Dublin Core. En los casos de MarcEdit
y Editor - Converter Dublin Core, a los usuarios se les presenta la información convertida en una interfaz que permite
al usuario editar o refinar los datos.
La Figura 1 proporciona una ilustración de los metadatos extraídos de la página principal de New York Times
utilizando Editor - Converter Dublin Core, mientras que la figura 2 ofrece una ilustración del editor que proporciona
este servicio web.
Figura 1. Captura de pantalla de los metadatos Dublin Core extraídos usando el editor - Converter Dublin Core.
Figura 2. Captura de pantalla de Editor - Herramienta convertidor Dublin Core Editing (solo ocho de los dieciséis
campos son visibles en esta captura de pantalla).
Quizás la mayor debilidad de este tipo de herramienta es que depende por completo de la calidad de los metadatos
de los programas. Esto se puede ver más fácilmente en la figura anterior por la falta de valores para varios campos
Dublin Core para el sitio web The New York Times.
Los programas que solo emplean la técnica de recolección de metaetiquetas no pueden inferir valores para elementos
de metadatos que aún no están poblados en la fuente.
La Tabla 1 enumera las herramientas que admiten la recolección de metaetiquetas, ya sea como la única técnica o
como uno de los conjuntos de técnicas utilizadas para generar metadatos a partir de los recursos. De las treinta y nueve
herramientas evaluadas para este estudio, diecinueve admiten la recolección de metaetiquetas.
A harvester of OAI--‐PMH
http://sourceforge.net/projects/ariadn compliant records which can be
Ariadne
meta--‐tag harvester converted to various other
Harvester ekps/files/?source=navbar
schema such as Learning Object
Metadata (LOM).
Extracción de contenido
La extracción de contenido es una forma de extracción de metadatos mediante la cual se utilizan diversas técnicas de
computación para extraer información del propio recurso de información. En otras palabras, estas técnicas no se basan
en la identificación de metadatos relevantes para la población de valores de metadatos. Un ejemplo de esta técnica es
la aplicación Kea, un programa desarrollado en la Biblioteca Digital de Nueva Zelanda que utiliza aprendizaje
automático, frecuencia de término - frecuencia inversa de documento (TF.IDF) y técnicas de primera aparición para
identificar y asignar frases clave de la texto completo de documentos.8 La principal ventaja de este tipo de técnica es
que la extracción de metadatos puede realizarse independientemente de la calidad de los metadatos asociados con
cualquier recurso de información dado. Otro ejemplo de una herramienta que utiliza esta técnica es Open Text
Summarizer, un programa de código abierto que ofrece la capacidad de leer un texto y extraer oraciones importantes
para crear un resumen y asignar palabras clave. La Figura 3 proporciona una captura de pantalla de cómo se vería un
texto resumido utilizando Open Text Summarizer.
Otra forma de esta técnica a menudo se basa en la estructura predecible de ciertos tipos de documentos para
identificar valores candidatos para elementos de metadatos. Por ejemplo, debido al formato confiable de los artículos
de investigación académica, que generalmente incluyen secciones de título, autor, resumen, introducción, conclusión
y referencia de maneras predecibles, este formato puede ser explotado por máquinas para extraer los valores de
metadatos de ellos. Varios proyectos han podido explotar esta técnica en combinación con algoritmos de aprendizaje
automático para extraer diversas formas de metadatos.
Por ejemplo, en el proyecto Randkte, se utilizó el software de reconocimiento óptico de caracteres para escanear una
gran cantidad de documentos legales a partir de los cuales, debido a la regularidad de los documentos.
estructura, metadatos estructurales como capítulo, sección y número de página podrían ser extraídos.9 En contraste,
el proyecto de Kovacevic utilizó la estructura predecible de artículos académicos, convirtiendo documentos de PDF a
archivos HTML conservando los detalles de formateo y algoritmos de clasificación usados para extraer metadatos con
respecto al título, autor, resumen y palabras clave, entre otros elementos.10
La Tabla 2 enumera las herramientas que admiten la extracción de contenido, ya sea como la única técnica o como una
de un conjunto de técnicas utilizadas para generar metadatos a partir de los recursos. De las treinta y nueve
herramientas evaluadas para este estudio, veinte herramientas respaldan alguna forma de extracción de contenido.
General
Architecture
content extractor; Natural language processor and
for Text http://gate.ac.uk/overview.html
automatic indexer; information extractor.
Engineering
(GATE)
Analyzes the full texts of
resources and extracts
keyphrases. Keyphrases can also
http://www.nzdl.org/Kea/index_old content extractor;
Kea be mapped to customized
.html#download automatic indexer
ontologies or controlled
vocabularies for subject term
assignment.
Used to build a metadata
generator for Silverlight and
Desktop CLR projects, MetaGen
http://www.codeproject.com/Articles can be used as a replacement for
content extractor;
MetaGen /41910/MetaGen-‐A-‐project static reflection (expression
automatic indexer
-‐metadata-‐generator-‐for-‐Visual-‐St trees), reflection (walking the
stack), and various other means
for deriving the name of a
property, method, or field.
Open--‐source string--‐parsing
http://wing.comp.nus.edu.sg/parsCit/ package for the extraction of
ParsCit content extractor
#ws reference information from
scholarly articles.
Indización automática
Del mismo modo que la extracción de contenido, la indexación automática implica el uso de aprendizaje automático y
algoritmos basados en reglas para extraer valores de metadatos de los propios recursos de información, en lugar de
confiar en el contenido de las metaetiquetas aplicadas a los recursos. Sin embargo, esta técnica también implica el
mapeo de términos de metadatos extraídos a vocabularios controlados tales como los Encabezamientos de temas de
la Biblioteca del Congreso (LCSH), el Tesauro de nombres geográficos de Getty (TGN) o el Archivo de autoridad de
nombres de la Biblioteca del Congreso (LCNAF). a ontologías específicas de dominio o desarrolladas localmente. Por lo
tanto, en esta técnica, los investigadores usan algoritmos de clasificación y agrupamiento para extraer metadatos
relevantes de los textos. Término - estadísticas de frecuencia o IF.IDF, que determina la probabilidad de aplicabilidad
de la palabra clave a través de su frecuencia relativa dentro de un determinado documento en comparación con su
infrecuencia relativa en documentos relacionados, se utilizan comúnmente en esta técnica.
Proyectos como la herramienta de control de autoridad de nombre automático de la Universidad John Hopkins
(ANAC) utilizan esta técnica para extraer los nombres de los compositores dentro de sus colecciones de partituras y
asignar la forma autorizada de esos nombres en base a comparaciones con LCNAF.11 Erbs et al. también use esta
técnica para extraer frases clave de documentos educativos alemanes que luego se usan para asignar términos de
índice, lo que aumenta el grado en que los documentos relacionados se colocan dentro del repositorio y la
consistencia de la aplicación del término de la materia.
La Tabla 3 enumera las herramientas que admiten la indexación automática, ya sea como la única técnica o como
una de un conjunto de técnicas utilizadas para generar metadatos a partir de los recursos. De las treinta y nueve
herramientas evaluadas para este estudio, siete herramientas admiten alguna forma de indexación automática.
Los dos métodos mencionados anteriormente, la extracción de contenido y la indexación automática, se basan en
técnicas de extracción de texto y datos para la extracción automática de metadatos. En otras palabras, los métodos
anteriores utilizan algoritmos de aprendizaje automático, análisis estadístico de frecuencias de términos, técnicas de
agrupación o técnicas que examinan la frecuencia de utilización de términos entre documentos en oposición al uso de
vocabularios controlados, y técnicas de clasificación, o técnicas que explotar la estructura convencional de
documentos, para la generación semiautomática de metadatos. Debido a la complejidad de estas técnicas, pocas
herramientas se han desarrollado completamente para su aplicación dentro de la configuración de la biblioteca del
mundo real. Por el contrario, la mayoría de los usos de estas técnicas se han desarrollado para resolver los problemas
de la generación automática de metadatos en el contexto de proyectos de investigación específicos.
Hay dos razones para esto. Una es que, como muchos investigadores han señalado, la efectividad de las
técnicas de aprendizaje automático depende de la calidad y cantidad de los datos de entrenamiento utilizados
para enseñar el sistema.13, 14, 15 Debido a la cantidad y diversidad de los dominios temáticos, así como al
corte variedad de formatos de documentos, muchas aplicaciones están diseñadas para abordar las necesidades
de metadatos de dominios temáticos muy específicos y tipos de documentos muy específicos. Este es un punto
que Kovacevic et al. afirman que las técnicas de aprendizaje automático generalmente funcionan mejor para
documentos de un tipo similar, como trabajos de investigación.16 Otro tema, especialmente en lo que se refiere
a la indexación automática, es el hecho de que, como señala Gardner, los vocabularios controlados como el
LCSH también lo son Es una estructura compleja y diversa que se aplicará a través de medios
semiautomáticos.17 Aunque algunas herramientas de código abierto como Data Fountains han hecho esfuerzos
para superar esta complejidad, los proyectos como este son la excepción y no la regla. Estos problemas indican
la dificultad con el desarrollo de sofisticadas herramientas semiautomáticas de generación de metadatos que
tienen una aplicabilidad general en una amplia gama de dominios temáticos y tipos de formatos. Sin embargo,
para que las herramientas semiautomáticas de generación de metadatos se conviertan en una realidad para la
comunidad bibliotecaria, tal complejidad tendrá que superarse.
Sin embargo, hay algunas herramientas que tienen una aplicabilidad más amplia o que se pueden personalizar
para satisfacer las necesidades locales. Por ejemplo, el extractor de frases clave de Kea ofrece la opción de
construir localmente o aplicar ontologías disponibles que pueden usarse para refinar el proceso de extracción.
Quizás la más prometedora de todas es la suite de herramientas Data Fountains antes mencionada desarrollada
por la Universidad de California. El conjunto de Data Fountains incorpora casi todas las técnicas de metadatos
semiautomáticas descritas en este estudio, incluidas la sofisticada extracción de contenido y las funciones de
indexación automática. También proporciona varias formas de personalizar el conjunto para satisfacer las
necesidades locales.
Autogeneración de Datos Extrínsecos
La autogeneración de datos extrínsecos es el proceso de extraer metadatos sobre un recurso de información
que no está contenido dentro del recurso. La autogeneración de datos extrínsecos puede implicar la extracción
de metadatos técnicos, como el formato y el tamaño del archivo, pero también puede incluir la extracción de
características más complejas, como el nivel de grado de un recurso educativo o la audiencia prevista para un
documento. El proceso de extracción de metadatos técnicos es quizás un área de generación de metadatos
semiautomática que se encuentra en un alto estado de desarrollo, incluido en la mayoría de los CMSS como
Dspace, 18 y otras herramientas más sofisticadas como JHove de Harvard, que puede reconocer al menos
7twelve tipos diferentes de formatos de archivos textuales, de audio y visuales.19 Por otro lado, el problema
de generar semiautomáticamente otros tipos de metadatos extrínsecos, como el nivel de grado, es de los más
difíciles de resolver.
Como Leibbrandt et al. En su análisis del uso de mecanismos de inteligencia artificial para generar metadatos
temáticos para un repositorio de materiales educativos en Education Services Australia, la extracción de
metadatos extrínsecos como el nivel de grado fue mucho más difícil que la extracción de palabras clave debido
a la falta de información que rodea el contexto de un recurso dentro del recurso mismo.20 Esta dificultad
también se puede ver en la ausencia de herramientas que respalden la extracción de datos extrínsecos más allá
de aquellos que están recolectando metadatos que se han creado manualmente o extrayendo metadatos
técnicos.
La Tabla 4 enumera las herramientas que soportan la autogeneración de datos extrínsecos, ya sea como técnica
única o como parte de un conjunto de técnicas utilizadas para generar metadatos a partir de los recursos. De
las treinta y nueve herramientas evaluadas para este estudio, trece herramientas respaldan alguna forma de
autogeneración de datos extrínsecos.
Etiquetado social
El etiquetado social ahora es una forma familiar de generación de metadatos por temas aunque, como se mencionó
anteriormente, no es propiamente una forma de generación automática de metadatos. Sin embargo, debido al costo
relativamente bajo en la generación y mantenimiento de metadatos a través del etiquetado social y su actual
popularidad generalizada, algunos proyectos han intentado utilizar dichos datos para mejorar los repositorios. Por
ejemplo, Linstaedt et al. utilice sofisticados programas de computadora para analizar imágenes fijas encontradas en
Flickr y luego use este análisis para procesar nuevas imágenes y para propagar etiquetas de usuario relevantes a esas
imágenes.21
En un ejemplo un poco más complicado, Liu y Qin emplean técnicas de aprendizaje automático para procesar y asignar
metadatos inicialmente, incluidos los términos temáticos, a un repositorio de documentos relacionados con la
profesión de ciencias de la computación.22 Sin embargo, este proyecto de prueba de concepto también permite a los
usuarios para editar los campos de los metadatos una vez establecidos. Las etiquetas editadas por el usuario son luego
reprocesadas por el sistema con la esperanza de mejorar los mecanismos de aprendizaje automático de la base de
datos, creando un tipo de circuito de retroalimentación para el sistema. Específicamente, las etiquetas mejoradas son
utilizadas por el sistema para sugerir y asignar términos temáticos para nuevos documentos, así como para mejorar la
descripción del tema de los documentos existentes dentro del repositorio. Aunque estos dos ejemplos proporcionan
instancias de reprocesamiento sofisticado de los metadatos de etiquetas sociales, estas capacidades no parecen estar
presentes en las herramientas de código abierto en este momento. Sin embargo, muchos CMSS ofrecen capacidades
de etiquetado social como Omeka. Estas capacidades de etiquetado social pueden ofrecer un medio para mejorar el
acceso de los sujetos a las explotaciones.
La Tabla 5 a continuación enumera las herramientas que soportan el etiquetado social ya sea como la única técnica o
como uno de los conjuntos de técnicas utilizadas para generar metadatos a partir de los recursos. De las treinta y nueve
herramientas evaluadas para este estudio, dos herramientas respaldan alguna forma de etiquetado social.
Automatically extracts
meta--‐tag harvester;
technical information
http://www.dspace.org/ extrinsic auto--‐
Dspace regarding file format and size.
generator; social
Can also extract some
tagging
information from meta--‐tags.
Se requieren conocimientos importantes de C ++, Python y Java para implementar estos sistemas correctamente. El
alto grado de conocimiento técnico necesario para implementar estas herramientas significa que muchas bibliotecas
y otras instituciones pueden no tener recursos para comenzar a implementarlas, y mucho menos incorporarlas a los
flujos de trabajo diarios del proceso de creación de metadatos. Además, este alto grado de experiencia técnica puede
requerir que las bibliotecas busquen asistencia fuera de la biblioteca. En otras palabras, los bibliotecarios pueden
necesitar construir fuertes relaciones de colaboración con aquellos que tienen las habilidades técnicas, la experiencia
y las credenciales para implementar y mantener estas herramientas complicadas. Como Vellucci et al. Nota con
respecto a su desarrollo de Metadata Education and Research Information Commons (MERIC), un centro de
intercambio de metadatos de materiales educativos relacionados con los metadatos, asociaciones elaboradas y
multidisciplinarias deben establecerse firmemente para el éxito final de tales proyectos, incluyendo el apoyo sostenido
a los más altos niveles de administración.23 Este tipo de asociaciones puede ser difícil de establecer y mantener para
la implementación sostenida de herramientas complicadas.
Además, el desarrollo sostenible de herramientas, especialmente en lo que respecta a la financiación necesaria para
el desarrollo continuo de aplicaciones de fuente abierta, parece ser una barrera importante para la implementación.
Por ejemplo, en el momento de escribir estas líneas, muchas de las herramientas que se promocionaban en la literatura
como las más prometedoras, como DC Dot, Reggie y DescribeThis, ya no están disponibles para su implementación.
Más allá del hecho de que la interrupción perjudica la adopción potencial y el desarrollo continuo de herramientas
semiautomáticas dentro de la biblioteca del mundo real y otras configuraciones de información, también existe el
problema de que las configuraciones que de hecho han adoptado herramientas pueden perder el soporte técnico de
un desarrollador central y comunidad de usuarios. Por lo tanto, la interrupción puede resultar en mayores tasas de
obsolescencia de la herramienta y aumentar los gastos potenciales de las bibliotecas que han implementado y luego
deben cambiar las aplicaciones.
Finalmente, la aplicación de herramientas de metadatos semiautomáticos sigue siendo relativamente no probada en
escenarios del mundo real. Como Polfreman et al. Nota: la mayoría de las pruebas de herramientas automáticas de
generación de metadatos tienen varios problemas, incluidos pequeños tamaños de muestra, alcance limitado de los
dominios del proyecto y experimentos que carecen de verdadera objetividad porque los sistemas generalmente son
probados por sus creadores.24 Por estas razones, las bibliotecas y otras instituciones pueden ser reacios a expandir
los recursos necesarios para implementar e integrar completamente una herramienta complicada, prometedora, pero
finalmente no probada, dentro de los flujos de trabajo ya tensos de sus procesos.
CONCLUSIÓN
Las herramientas de generación de metadatos semiautomáticas tienen la promesa de ayudar a los profesionales de la
información a administrar cantidades y tipos de recursos de información cada vez mayores. Utilizando un software que
puede crear registros de metadatos de forma consistente y eficiente, las herramientas semiautomáticas de generación
de metadatos potencialmente ofrecen ahorros significativos en costos y tiempo. Sin embargo, la integración total de
estas herramientas en los flujos de trabajo diarios de las bibliotecas y otras configuraciones de información sigue
siendo difícil de alcanzar.
Por ejemplo, aunque se han desarrollado muchas herramientas que han abordado muchos de los aspectos más
complicados de la generación semiautomática de metadatos, incluida la extracción de información relacionada con
áreas conceptualmente difíciles de descripción bibliográfica como términos de materia, descripciones de recursos
abiertas y asignación de palabras clave, muchas de estas herramientas son relevantes solo a nivel de proyecto y no son
aplicables a los contextos más amplios que necesitan las bibliotecas. En otras palabras, la matriz actual de herramientas
existe para resolver problemas experimentales, pero no se ha desarrollado hasta el punto de que la comunidad
bibliotecaria pueda implementarla de manera significativa.
Quizás la mayor área de dificultad radica en el hecho de que la mayoría de las herramientas solo abordan parte del
problema de la generación semiautomática de metadatos, proporcionando soluciones para la generación
semiautomática de uno o algunos elementos bibliográficos pero no de todos los elementos del rango. Esto significa
que para que las bibliotecas realmente tengan un conjunto completo de herramientas para la generación
semiautomática de registros de metadatos, se necesitarán importantes esfuerzos locales para integrar las diversas
herramientas en un todo funcional. Combine este problema con la inestabilidad del desarrollo y mantenimiento de
herramientas, y parece que la comunidad bibliotecaria puede carecer de incentivos para invertir recursos ya de por sí
escasos y limitados en la adopción de estas herramientas.
Por lo tanto, parece que se deberán tomar varios pasos antes de que la comunidad bibliotecaria pueda considerar
seriamente la incorporación de herramientas semiautomáticas de generación de metadatos dentro de sus flujos de
trabajo diarios. En primer lugar, parece que la integración de estas diversas herramientas en un conjunto coherente
de aplicaciones es probablemente el siguiente paso en el desarrollo de la generación de metadatos semiautomática
viable. Dado que la mayoría de las bibliotecas pequeñas probablemente no cuentan con los recursos necesarios para
integrar estas herramientas dispares, y mucho menos incorporarlas dentro de los sistemas de bibliotecas existentes,
se necesitará un único paquete de herramientas simplemente desde la perspectiva de los recursos. En segundo lugar,
teniendo en cuenta el alto nivel de experiencia técnica necesaria para implementar la gama actual de herramientas, el
conjunto integrado de herramientas debe lograrse de tal manera que se fomente la implementación, la utilización y el
mantenimiento con un mínimo de conocimientos técnicos. Por ejemplo, si se pudiera desarrollar un conjunto integrado
de herramientas que funcionaran en una amplia gama de dominios temáticos y tipos de formatos, el conjunto podría
ser similar al CMSS actualmente empleado por muchas bibliotecas. Además, con un conjunto de herramientas que son
relativamente fáciles de usar, la adaptación probablemente aumentaría. Esto podría dar como resultado una
comunidad estable de usuarios que fomentaría un mayor desarrollo de las herramientas de manera sostenible. Un
conjunto de herramientas completo y relativamente fácil de implementar podría fomentar la realización de pruebas
independientes de esas herramientas. La prueba independiente de las herramientas semiautomáticas es necesaria
para proporcionar una base objetiva para la evaluación de herramientas y un mayor desarrollo.
Por último, el diseño de flujos de trabajo automatizados adaptados al dominio del tema y los tipos de recursos parece
ser un paso esencial para integrar herramientas semiautomáticas de generación de metadatos en la creación de
metadatos. Dichos flujos de trabajo pueden delinear elementos de datos que pueden generarse mediante el extractor
automático de metaetiquetas a partir de elementos de datos que deben ser redefinidos y creados manualmente por
profesionales de catalogación y metadatos. Para desarrollar, maximizar y mantener flujos de trabajo de generación de
metadatos semiautomáticos, el apoyo administrativo para las finanzas, los recursos humanos y la capacitación es
crítico.
Por lo tanto, aunque muchos de los aspectos técnicos de la generación semiautomática de metadatos están en camino
de ser resueltos, existen muchas otras barreras que podrían limitar la adopción. Además, estas barreras pueden tener
una influencia negativa en el desarrollo continuo y sostenible de herramientas semiautomáticas de generación de
metadatos. Sin embargo, existe una necesidad crítica de que la comunidad bibliotecaria encuentre la forma de
gestionar la reciente explosión de datos e información de manera rentable y eficiente. La generación semiautomática
de metadatos tiene la promesa de hacer justamente eso.
ACKNOWLEDGEMENT
This study was supported by the Institute of Museum and Library Services.
REFERENCES
1. Jane Greenberg, Kristina Spurgin, and Abe Crystal, “Final Report for the AMeGA (AutoZmatic
2. Sue Ann Gardner, “Cresting Toward the Sea Change,” Library Resources & Technical Services
56, no. 2 (2012): 64–79, http://dx.doi.org/10.5860/lrts.56n2.64.
3. For details, see Jung--‐ran Park and Caimei Lu, “Application of Semi--‐Automatic Metadata
Generation in Libraries: Types, Tools, and Techniques,” Library & Information Science
Research 31, no. 4 (2009): 225–31, http://dx.doi.org/10.1016/j.lisr.2009.05.002.
4. Erik Mitchell, “Trending Tech Services: Programmatic Tools and the Implications of
Automation in the Next Generation of Metadata,” Technical Services Quarterly 30, no. 3 (2013):
296–10, http://dx.doi.org/10.1080/07317131.2013.785802.
6. Malcolm Polfreman, Vanda Broughton, and Andrew Wilson, “Metadata Generation for
Resource Discovery,” JISC, 2008,
http://www.jisc.ac.uk/whatwedo/programmes/resourcediscovery/autometgen.aspx.
10. Aleksandar Kovačević et al.,“Automatic Extraction of Metadata from Scientific Publications for
CRIS Systems.” Electronic Library and Information Systems 45, no. 4 (2011): 376–96,
http://dx.doi.org/10.1108/00330331111182094.
11. Mark Patton et al., “Toward a Metadata Generation Framework: A Case Study at Johns Hopkins
University,” D--‐Lib Magazine 10, no. 11 (2004),
http://www.dlib.org/dlib/november04/choudhury/11choudhury.html.
12. Nicolai Erbs, Iryna Gurevych, and Marc Rittberger, “Bringing Order to Digital Libraries: From
Keyphrase Extraction to Index Term Assignment.” D--‐Lib Magazine 19, no. 9/10 (2013),
http://www.dlib.org/dlib/september13/erbs/09erbs.html.
13. Polfreman, Broughton, and Wilson, “Metadata Generation for Resource Discovery.”
15. Xiaozhong Liu and Jian Qin, “An Interactive Metadata Model for Structural, Descriptive, and
Referential Representation of Scholarly Output,” Journal of the Association for Information
Science & Technology 65, no. 5 (2014): 964–83, http://dx.doi.org/10.1002/asi.23007.
16. Kovačević et al., “Automatic Extraction of Metadata from Scientific Publications for CRIS
Systems.”
18. Mary Kurtz, “Dublin Core, Dspace, and a Brief Analysis of Three University Repositories,”
Information Technology & Libraries 29, no. 1 (2010): 40–46,
http://dx.doi.org/10.6017/ital.v29i1.3157.
20. Richard Leibbrandt et al., “Smart Collections: Can Artificial Intelligence Tools and Techniques
Assist with Discovering, Evaluating and Tagging Digital Learning Resources?” International
Association of School Librarianship: Selected Papers from the Annual Conference (2010).
21. Stefanie Lindstaedt et al., “Automatic Image Annotation Using Visual Content and
Folksonomies,” Multimedia Tools & Applications 42, no. 1 (2009): 97–113,
http://dx.doi.org/10.1007/s11042--‐008--‐0247--‐7.
23. Sherry Vellucci, Ingrid Hsieh--‐Yee, and William Moen, “The Metadata Education and Research
Information Commons (MERIC): A Collaborative Teaching and Research Initiative,” Education
for Information 25, no. 3/4 (2007): 169–78.
24. Polfreman, Broughton, and Wilson, “Metadata Generation for Resource Discovery.”
Copyright of Information Technology & Libraries is the property of American Library
Association and its content may not be copied or emailed to multiple sites or posted to a
listserv without the copyright holder's express written permission. However, users may
print, download, or email articles for individual use.