Metadatos 1 Traducido

INTRODUCCIÓN
Con el rápido aumento de todos los tipos de recursos de información administrados por las bibliotecas en las últimas
décadas, la capacidad de la comunidad de catalogación y metadatos para describir esos recursos ha sido muy tensa.
Además, la realidad de los presupuestos de biblioteca estancados y en disminución ha impedido que la comunidad
bibliotecaria aborde este problema con el aumento de personal concomitante. Sin embargo, la capacidad de las
bibliotecas para hacer accesibles los recursos de información a sus comunidades de usuarios sigue siendo una
preocupación central. Por lo tanto, existe una necesidad crítica de idear formas eficientes y rentables de crear registros
bibliográficos para que los usuarios puedan encontrar, identificar y obtener los recursos de información que necesitan.
Un enfoque prometedor para administrar la cantidad cada vez mayor de información es con herramientas
semiautomáticas de generación de metadatos. Herramientas semiautomáticas de generación de metadatos concierne
al uso de software para crear registros de metadatos con diversos grados de supervisión de un especialista humano.1
En su forma ideal, las herramientas semiautomáticas de generación de metadatos son capaces de extraer información
de recursos de información estructurados y no estructurados de todo tipo y crear metadatos de calidad que no solo
facilita la creación de registros bibliográficos, sino también la interoperabilidad semántica, un factor crítico para el
intercambio de recursos y el descubrimiento en el entorno de red. Mediante el uso de herramientas semiautomáticas
de generación de metadatos, la comunidad bibliotecaria tiene el potencial de abordar muchos problemas relacionados
con el aumento de los recursos de información, la presión sobre el presupuesto de la biblioteca, la necesidad de crear
registros de metadatos interoperables de alta calidad y, en última instancia, la provisión efectiva de recursos de
información para los usuarios.
Hay muchos beneficios potenciales para la generación de metadatos semiautomática. El primero es la escalabilidad.
Debido a la cantidad de recursos de información y la naturaleza costosa y lenta de la generación manual de metadatos,
2 es cada vez más evidente que simplemente no hay suficientes profesionales de la información disponibles para
satisfacer las necesidades de generación de metadatos de la comunidad bibliotecaria. Por otro lado, la generación
semiautomática de metadatos ofrece la promesa de utilizar altos niveles de potencia de cálculo para gestionar grandes
cantidades de recursos de información. Además de la escalabilidad, la generación semiautomática de metadatos
también ofrece un posible ahorro de costos a través de una disminución en el tiempo requerido para crear registros
efectivos. Además, el ahorro de tiempo permitiría a los profesionales de la información centrarse en tareas que son
más conceptualmente exigentes y, por lo tanto, no adecuadas para la generación automática. Finalmente, dado que
las computadoras pueden realizar tareas repetitivas con relativa consistencia en comparación con sus contrapartes
humanas, la generación automática de metadatos promete la capacidad de crear registros más consistentes. Un
aumento potencial en la coherencia de los registros de metadatos de calidad, a su vez, aumentaría el potencial de
interoperabilidad y, por lo tanto, el acceso a los recursos de información en general. Por lo tanto, la generación de
metadatos semiautomática ofrece el potencial de no solo facilitar las demandas de descripción de recursos en la
comunidad de la biblioteca, sino también mejorar el descubrimiento de recursos para sus usuarios.
OBJETIVOS DEL ESTUDIO
La evaluación del panorama actual de las herramientas semiautomáticas de generación de metadatos es

particularmente importante teniendo en cuenta el rápido desarrollo de repositorios digitales y la reciente explosión
de datos e información. La utilización de la generación semiautomática de metadatos es fundamental para abordar
dichos cambios ambientales y puede ser inevitable en el futuro, considerando la operación costosa y compleja de la
creación manual de metadatos. Aunque existen estudios experimentales prometedores que explotan diversos
métodos y fuentes para la generación semiautomática de metadatos, 3 se ha desarrollado, implementado o mejorado
la falta de estudios que evalúen y evalúen la gama de herramientas. Para abordar tales necesidades, este estudio tiene
como objetivo examinar el panorama actual de las herramientas semiautomáticas de generación de metadatos a la
vez que proporciona un análisis evaluativo de sus técnicas, características y funciones. El estudio se centra
principalmente en herramientas de código abierto que pueden utilizarse fácilmente en bibliotecas y otras instituciones
de memoria. El estudio también destaca algunos de los desafíos que aún enfrenta el continuo desarrollo de
herramientas semiautomáticas y las barreras actuales a su incorporación a los flujos de trabajo diarios para la
organización y gestión de la información. También se discuten las direcciones futuras para el posterior
desarrollo de herramientas.
Con este fin, se realizó una revisión crítica de la literatura en relación con las herramientas semiautomáticas
de generación de metadatos publicadas entre 2004 y 2014. Se realizaron búsquedas en bases de datos como
Resúmenes de Bibliotecas y Ciencias de la Información y en Resúmenes de Bibliotecas, Ciencias de la
Información y Tecnología y se identificaron los artículos correspondientes mediante la revisión de títulos y
resúmenes. Debido a que el problema de crear herramientas viables para la generación automática confiable
de metadatos no es un problema limitado a la biblioteca y las profesiones de la ciencia de la información, 4
búsquedas de bases de datos se expandieron para incluir las bases de datos pertinentes a la ciencia de la
computación, incluyendo Proquest Computing , y Ciencia Aplicada y Tecnología. Las palabras clave, como
"generación automática de metadatos", "extracción de metadatos", "herramientas de metadatos" y "minería de
textos", incluidos sus tallos, se usaron para explorar las bases de datos. Además de la búsqueda de palabras
clave, también se identificaron artículos relevantes dentro de las secciones de referencia de artículos que ya se
consideraban pertinentes para el enfoque de la encuesta, así como a través de la expansión de listas de
resultados mediante la aplicación de términos relevantes aplicados a los artículos pertinentes. Para garantizar
que se revisaron los desarrollos más recientes y más confiables en los metadatos automáticos, se emplearon
varios filtros, como el intervalo de fechas y la revisión por pares. Una vez que se identificaron las herramientas,
se probaron sus capacidades (cuando fue posible), se notaron sus características y se determinaron los
desarrollos generales.
El resto del artículo proporciona una descripción general de las principales técnicas desarrolladas para la
generación semiautomática de metadatos y una revisión de las herramientas de generación de metadatos de
código abierto que las emplean. Se describen los desafíos y las barreras actuales para la implementación de
herramientas de metadatos semiautomáticos, así como sugerencias para desarrollos futuros que pueden ayudar
a los profesionales de la información con la integración de herramientas semiautomáticas dentro del flujo de
trabajo diario de los departamentos de servicios técnicos.
Técnicas actuales para la generación automática de metadatos

A diferencia de la generación manual de metadatos, la generación semiautomática de metadatos se basa en
métodos de máquina para ayudar o completar el proceso de creación de metadatos. Greenberg distinguió entre
dos métodos de generación automática de metadatos: extracción de metadatos y recolección de metadatos.5
La extracción de metadatos en general emplea técnicas automáticas de indexación y recuperación de
información para generar metadatos estructurados utilizando el contenido original de los recursos. Por otro
lado, la recolección de metadatos se refiere a una técnica para recopilar automáticamente metadatos de
repositorios individuales en los que los metadatos se han producido mediante enfoques semiautomáticos o
manuales. Los metadatos recolectados se pueden almacenar en un repositorio central para la recuperación
futura de recursos.
Dentro de esta dicotomía de métodos de extracción, hay varias otras técnicas más específicas que los
investigadores han desarrollado para la generación semiautomática de metadatos. Polfreman et al. identificó
seis técnicas adicionales que se han desarrollado a lo largo de los años: recolección de metaetiquetas,
extracción de contenido, indexación automática, extracción de texto y datos, autoexpresión de datos
extrínsecos generación y etiquetado social.6 Aunque la última técnica no es propiamente una técnica de
generación de metadatos semiautomática porque se usa para generar metadatos con un mínimo de intervención
requerida por los profesionales de metadatos, se puede ver como un modo posible para racionalizar la proceso
de creación de metadatos.
Tanto Greenberg como Polfreman proporcionan caracterizaciones completas y de alto nivel de las técnicas
empleadas en las herramientas de generación de metadatos semiautomáticas actuales. Sin embargo, no se
aborda una evaluación de estas técnicas en el contexto de una amplia encuesta de las herramientas mismas y
una enumeración exhaustiva de las herramientas actualmente disponibles. Por lo tanto, aunque estas técnicas
serán examinadas para el resto de esta sección, sirven simplemente como un marco a través del cual este
estudio proporciona un análisis actual y exhaustivo de las herramientas disponibles para su uso en la actualidad.
Cada sección proporciona una descripción general de la técnica relevante, una discusión de la investigación
más reciente relacionada con ella y las herramientas que emplean esa técnica.
Las tablas incluidas en cada sección proporcionan listas de herramientas de generación de metadatos
semiautomáticas (N = 39) evaluadas en el curso de esta encuesta. La información presentada en las tablas está
diseñada para proporcionar una caracterización de cada herramienta: su nombre, su ubicación en línea, la (s)
técnica (s) utilizada (s) para generar metadatos y una breve descripción de las funciones y características de la
herramienta. Solo se incluyen aquellas herramientas que actualmente están disponibles para su descarga o para
su uso como servicios web en el momento de redactar este documento. Además, las herramientas enumeradas
no se han limitado estrictamente a las aplicaciones de generación de metadatos, sino que también incluyen
algún software del sistema de gestión de contenido (CMSS), ya que generalmente proporcionan algún tipo de
extracción de metadatos semiautomática. Normalmente, los CMSS son capaces de extraer metadatos técnicos,
así como datos que pueden encontrarse en las metaetiquetas de recursos de información, como el nombre del
archivo, y usar esa información como título de un registro.
Meta-Extracción de etiquetas
La extracción de metaetiquetas es un proceso informático mediante el cual los valores de los campos de
metadatos se identifican y completan a través de un examen de las etiquetas de metadatos dentro de un
documento o adjuntas a él. En otras palabras, es una forma de recolección de metadatos y, posiblemente,
conversión de esos metadatos en otros formatos. MarcEdit, la herramienta semiautomática más utilizada para
la generación de metadatos en las bibliotecas de EE. UU., 7 es un ejemplo de esta técnica. MarcEdit
esencialmente recolecta metadatos del protocolo de la iniciativa Open Archives Initiative for Metadata
Harvesting (OAI - PMH) y ofrece al usuario la oportunidad de convertir esos registros a una variedad de
formatos, incluida la catalogación legible por máquina (MARC), MAchine - Readable Catalogación en XML
(MARC XML), Metadata Object Description Schema (MODS) y Encoded Archival Description (EAD).
También ofrece la capacidad de convertir registros de cualquiera de los formatos compatibles a cualquiera de
los otros formatos admitidos.
Otros ejemplos de esta técnica son el editor de servicios web - Metadatos Dublin Core Converter y Firefox
Dublin Core Viewer Extension. Ambos programas buscan archivos HTML en la web y convierten la
información que se encuentra en las metaetiquetas HTML en elementos Dublin Core. En los casos de MarcEdit
y Editor - Converter Dublin Core, a los usuarios se les presenta la información convertida en una interfaz que permite
al usuario editar o refinar los datos.
La Figura 1 proporciona una ilustración de los metadatos extraídos de la página principal de New York Times
utilizando Editor - Converter Dublin Core, mientras que la figura 2 ofrece una ilustración del editor que proporciona
este servicio web.
Figura 1. Captura de pantalla de los metadatos Dublin Core extraídos usando el editor - Converter Dublin Core.
Figura 2. Captura de pantalla de Editor - Herramienta convertidor Dublin Core Editing (solo ocho de los dieciséis
campos son visibles en esta captura de pantalla).
Quizás la mayor debilidad de este tipo de herramienta es que depende por completo de la calidad de los metadatos
de los programas. Esto se puede ver más fácilmente en la figura anterior por la falta de valores para varios campos
Dublin Core para el sitio web The New York Times.
Los programas que solo emplean la técnica de recolección de metaetiquetas no pueden inferir valores para elementos
de metadatos que aún no están poblados en la fuente.
La Tabla 1 enumera las herramientas que admiten la recolección de metaetiquetas, ya sea como la única técnica o
como uno de los conjuntos de técnicas utilizadas para generar metadatos a partir de los recursos. De las treinta y nueve
herramientas evaluadas para este estudio, diecinueve admiten la recolección de metaetiquetas.
HERRAMIENTAS LOCALIZACIÓN TECNICAS FUNCIONES / CARACTERISTICAS

A utility that can automatically
ANVL/ERC convert records in the ANVL
Kernel Metadata http://search.cpan.org/~jak/File-‐ format into other formats such as
meta--‐tag harvester
Conversion ANVL/anvl XML, JSON (JavaScript Object
Toolkit Notation), Turtle or Plain, among
others.
Apache POI provides basic text
extraction for all project
content extractor;
supported file formats. In
Apache POI – meta--‐tag harvester;
http://poi.apache.org/download.html addition to the (plain) text,
Text Extractor extrinsic auto--‐
Apache POI can access the
generator
metadata associated with a given
file, such as title and author.
content extractor; Built on Apache POI, the Apache
meta--‐tag harvester; Tika toolkit detects and extracts
Apache Tika http://tika.apache.org/
extrinsic auto--‐ metadata and text content from
generator various documents.
A harvester of OAI--‐PMH
http://sourceforge.net/projects/ariadn compliant records which can be
Ariadne
meta--‐tag harvester converted to various other
Harvester ekps/files/?source=navbar
schema such as Learning Object
Metadata (LOM).
BIBFRAME offers a number of

tools for the conversion of
http://www.loc.gov/bibframe/implem MARCXML documents to
BIBFRAME Tools meta--‐tag harvester
entation/ BIBFRAME documents. Web
service and downloadable
software are both available.
Scans HTML documents and first

extracts information contained in
content extractor; meta--‐tags. If information is
automatic indexer; unavailable in meta--‐tags, the
Data Fountains http://datafountains.ucr.edu/ meta--‐tag harvester; program will use other
extrinsic auto--‐ techniques to assign values.
generator Includes a focused web crawler
that can target websites
concerning a specific subject.
Transforms data collected via

Dublin Core Meta http://sourceforge.net/projects/dcmet
meta--‐tag harvester different methods into Dublin
Toolkit atoolkit/files/?source=navbar
Core (DC) compatible metadata.
meta--‐tag harvester; Automatically extracts technical
extrinsic auto--‐ information regarding file format
Dspace http://www.dspace.org/
generator; social and size. Can also extract some
tagging information from meta--‐tags.
Editor--‐Converter meta--‐tag harvester; Scans HTML documents,
http://www.library.kr.ua/dc/dcedituni
Dublin Core extrinsic auto--‐ harvesting metadata from tags
e.html
Metadata generator and converting them to DC.
Embedded content extractor;

EMET is a tool designed to
Metadata http://www.artstor.org/global/g-‐ meta--‐tag harvester; extract metadata embedded in
Extraction Tool html/download-‐emet-‐public.html extrinsic auto--‐ JPEG and TIFF files.
(EMET) generator
Scans HTML documents,
Firefox Dublin meta--‐tag harvester;
http://www.splintered.co.uk/experime harvesting metadata from tags
Core Viewer extrinsic auto--‐
nts/73/ and displaying them in Dublin
Extension generator Core.
Harvests OAI--‐PMH compliant
MarcEdit http://marcedit.reeset.net/ meta--‐tag harvester data and converts it to various
formats including DC and MARC.
Permits customizable extraction
Metatag
http://meta-‐tag-‐ features, harvesting meta--‐tags as
Extractor meta--‐tag harvester
extractor.software.informer.com/ well as contact information from
Software
websites.
http://old.isn-‐ Can convert manually entered
My Meta Maker meta--‐tag harvester
oldenburg.de/services/mmm/ data into DC.
Generates Dublin Core and
http://www.webposible.com/utilidade Resource Description Framework
Photo RDF--‐Gen meta--‐tag harvester
s/photo_rdf_generator_en.html (RDF) output from manually
entered input.
Scripting tool in Python language
PyMarc https://github.com/edsu/pymarc meta--‐tag harvester for the batch processing of MARC
records, similar to MarcEdit.
Automatically extracts various
meta--‐tag harvester; elements for documents
http://www.hull.ac.uk/esig/repomman content extractor; uploaded to Fedora such as
RepoMMan
/index.html extrinsic auto--‐ author, title, description, and key
generator words, among others. Results are
presented to user for review.
A machine--‐to--‐machine
http://www.sherpa.ac.uk/romeo/api.h Application Program Interface
SHERPA/RoMEO meta--‐tag harvester (API) that permits the automatic
tml
look--‐up and importation of
publishers and journals.
Permits the targeted searching of
URL and Metatag
http://www.metatagextractor.com/ meta--‐tag harvester websites and extracts URLs and
Extractor
meta--‐tags from those sites.
Tabla 1. Herramientas semiautomáticas que admiten la recolección de metadatos.
Extracción de contenido
La extracción de contenido es una forma de extracción de metadatos mediante la cual se utilizan diversas técnicas de
computación para extraer información del propio recurso de información. En otras palabras, estas técnicas no se basan
en la identificación de metadatos relevantes para la población de valores de metadatos. Un ejemplo de esta técnica es
la aplicación Kea, un programa desarrollado en la Biblioteca Digital de Nueva Zelanda que utiliza aprendizaje
automático, frecuencia de término - frecuencia inversa de documento (TF.IDF) y técnicas de primera aparición para
identificar y asignar frases clave de la texto completo de documentos.8 La principal ventaja de este tipo de técnica es
que la extracción de metadatos puede realizarse independientemente de la calidad de los metadatos asociados con
cualquier recurso de información dado. Otro ejemplo de una herramienta que utiliza esta técnica es Open Text
Summarizer, un programa de código abierto que ofrece la capacidad de leer un texto y extraer oraciones importantes
para crear un resumen y asignar palabras clave. La Figura 3 proporciona una captura de pantalla de cómo se vería un
texto resumido utilizando Open Text Summarizer.
Figura 3. Resumen de texto abierto: ejemplo de resumen de texto.
Otra forma de esta técnica a menudo se basa en la estructura predecible de ciertos tipos de documentos para
identificar valores candidatos para elementos de metadatos. Por ejemplo, debido al formato confiable de los artículos
de investigación académica, que generalmente incluyen secciones de título, autor, resumen, introducción, conclusión
y referencia de maneras predecibles, este formato puede ser explotado por máquinas para extraer los valores de
metadatos de ellos. Varios proyectos han podido explotar esta técnica en combinación con algoritmos de aprendizaje
automático para extraer diversas formas de metadatos.
Por ejemplo, en el proyecto Randkte, se utilizó el software de reconocimiento óptico de caracteres para escanear una
gran cantidad de documentos legales a partir de los cuales, debido a la regularidad de los documentos.
estructura, metadatos estructurales como capítulo, sección y número de página podrían ser extraídos.9 En contraste,
el proyecto de Kovacevic utilizó la estructura predecible de artículos académicos, convirtiendo documentos de PDF a
archivos HTML conservando los detalles de formateo y algoritmos de clasificación usados para extraer metadatos con
respecto al título, autor, resumen y palabras clave, entre otros elementos.10
La Tabla 2 enumera las herramientas que admiten la extracción de contenido, ya sea como la única técnica o como una
de un conjunto de técnicas utilizadas para generar metadatos a partir de los recursos. De las treinta y nueve
herramientas evaluadas para este estudio, veinte herramientas respaldan alguna forma de extracción de contenido.
Tool Name Location Techniques Functions/Features

Apache POI provides basic text
extraction for all project
content extractor;
supported file formats. In
Apache POI— meta--‐tag harvester;
http://poi.apache.org/download.html addition to the (plain) text,
Text Extractor extrinsic auto--‐
Apache POI can access the
generator
metadata associated with a given
file, such as title and author.
Extracts semantic metadata from

Apache content extractor;
https://stanbol.apache.org/ PDF and text files. Can apply
Standol automatic indexer
extracted terms to ontologies.
content extractor; Built on Apache POI, the Apache

Apache Tika http://tika.apache.org/
Biblio Citation http://search.cpan.org/~mjewell/ A set of modules for citation

content extractor
Parser Biblio-‐Citation-‐Parser-‐1.10/ parsing.
CatMDEdit allows the automatic
creation of metadata for
collections of related resources,
in particular spatial series that
CatMDEdit http://catmdedit.sourceforge.net/ content extractor arise as a result of the
fragmentation of geometric
resources into datasets of
manageable size and similar
scale.
This web service returns Digital
http://www.crossref.org/
CrossRef content extractor Object Identifiers for inputted
SimpleTextQuery/
references.
Scans HTML documents and first
extracts information contained in
content extractor; meta--‐tags. If information is
automatic indexer; unavailable in meta--‐tags, the
Data
http://datafountains.ucr.edu/ meta--‐tag harvester; program will use other
Fountains
extrinsic auto--‐ techniques to assign values.
generator Includes a focused web crawler
that can target websites
concerning a specific subject.
Embedded content extractor;

EMET is a tool designed to extract
Metadata http://www.artstor.org/global/g meta--‐tag harvester;
metadata embedded in JPEG and
Extraction -‐html/download-‐emet-‐public.html extrinsic auto--‐
TIFF files.
Tool (EMET) generator
Free parsing tool for the
extraction of reference
FreeCite http://freecite.library.brown.edu/ content extractor
information. Can be downloaded
or used as a web service.
General
Architecture
content extractor; Natural language processor and
for Text http://gate.ac.uk/overview.html
automatic indexer; information extractor.
Engineering
(GATE)
Analyzes the full texts of
resources and extracts
keyphrases. Keyphrases can also
http://www.nzdl.org/Kea/index_old content extractor;
Kea be mapped to customized
.html#download automatic indexer
ontologies or controlled
vocabularies for subject term
assignment.
Used to build a metadata
generator for Silverlight and
Desktop CLR projects, MetaGen
http://www.codeproject.com/Articles can be used as a replacement for
content extractor;
MetaGen /41910/MetaGen-‐A-‐project static reflection (expression
automatic indexer
-‐metadata-‐generator-‐for-‐Visual-‐St trees), reflection (walking the
stack), and various other means
for deriving the name of a
property, method, or field.
A plugin that automatically

generates description and
http://extensions.joomla.org/ keyword meta--‐tags by pulling
MetaGenerator extensions/site-‐management/seo-‐a content extractor text from joomla content. With
-‐metadata/meta-‐data/11038 this plugin you can also control
some title options and add URL
meta--‐tags.
Assists user with annotation of

websites that are Semantic Web--‐
http://projects.semwebcentral.org/ compliant. May now include a
Ont--‐O- ‐Mat content extractor
projects/ontomat/ feature that automatically
suggests portions of the website
to annotate.
Extracts pertinent sentences from

Open Text
http://libots.sourceforge.net/ content extractor a resource to build a free text
Summarizer
description.
Open--‐source string--‐parsing
http://wing.comp.nus.edu.sg/parsCit/ package for the extraction of
ParsCit content extractor
#ws reference information from
scholarly articles.
Automatically extracts various

meta--‐tag harvester; elements for documents
http://www.hull.ac.uk/esig/ content extractor; uploaded to Fedora such as
RepoMMan
repomman/index.html extrinsic auto--‐ author, title, description, and key
generator words, among others. Results are
Simple A suite of tools that is able to
Automatic automatically extract metadata
content extractor;
Metadata http://hmdb.cs.kuleuven.be/amg/ elements such as key phrase and
extrinsic auto--‐
Generation Download.php language from documents as well
generator
Interface as from the context in which a
(SamgI) document exists.
Extracts keywords from texts

http://www.nactem.ac.uk/software/ through C--‐value analysis and
Termine content extractor Acromine, an acronym identifier
termine/
and dictionary. Available as free
web service for academic use.
The Content Analysis Web

Service detects entities/concepts,
categories, and relationships
within unstructured content. It
Yahoo Content https://developer.yahoo.com/ content extractor; ranks those detected
Analysis API contentanalysis/ automatic indexer entities/concepts by their overall
relevance, resolves those if
possible into Wikipedia pages,
and annotates tags with relevant
metadata.
Tabla 2. Herramientas semiautomáticas que admiten la extracción de contenido
Indización automática
Del mismo modo que la extracción de contenido, la indexación automática implica el uso de aprendizaje automático y
algoritmos basados en reglas para extraer valores de metadatos de los propios recursos de información, en lugar de
confiar en el contenido de las metaetiquetas aplicadas a los recursos. Sin embargo, esta técnica también implica el
mapeo de términos de metadatos extraídos a vocabularios controlados tales como los Encabezamientos de temas de
la Biblioteca del Congreso (LCSH), el Tesauro de nombres geográficos de Getty (TGN) o el Archivo de autoridad de
nombres de la Biblioteca del Congreso (LCNAF). a ontologías específicas de dominio o desarrolladas localmente. Por lo
tanto, en esta técnica, los investigadores usan algoritmos de clasificación y agrupamiento para extraer metadatos
relevantes de los textos. Término - estadísticas de frecuencia o IF.IDF, que determina la probabilidad de aplicabilidad
de la palabra clave a través de su frecuencia relativa dentro de un determinado documento en comparación con su
infrecuencia relativa en documentos relacionados, se utilizan comúnmente en esta técnica.
Proyectos como la herramienta de control de autoridad de nombre automático de la Universidad John Hopkins
(ANAC) utilizan esta técnica para extraer los nombres de los compositores dentro de sus colecciones de partituras y
asignar la forma autorizada de esos nombres en base a comparaciones con LCNAF.11 Erbs et al. también use esta
técnica para extraer frases clave de documentos educativos alemanes que luego se usan para asignar términos de
índice, lo que aumenta el grado en que los documentos relacionados se colocan dentro del repositorio y la
consistencia de la aplicación del término de la materia.
La Tabla 3 enumera las herramientas que admiten la indexación automática, ya sea como la única técnica o como
una de un conjunto de técnicas utilizadas para generar metadatos a partir de los recursos. De las treinta y nueve
herramientas evaluadas para este estudio, siete herramientas admiten alguna forma de indexación automática.

Apache POI— http://poi.apache.org/download.html content extractor; Apache POI provides basic text
Text Extractor meta--‐tag harvester; extraction for all project
extrinsic auto--‐ supported file formats. In addition
generator to the (plain) text, Apache POI can
access the metadata associated
with a given file, such as title and
author.
Apache Tika http://tika.apache.org/ content extractor; Built on Apache POI, the Apache
Data http://datafountains.ucr.edu/ content extractor; Scans HTML documents and first
Fountains automatic indexer; extracts information contained in
meta--‐tag harvester; meta--‐tags. If information is
extrinsic auto--‐ unavailable in meta--‐tags, the
generator program will use other techniques
to assign values. Includes a
focused web crawler that can
target websites concerning a
specific subject.
Digital Record http://www.nationalarchives.gov.uk/ extrinsic auto--‐ DROID is a software tool
Object information-‐management/manage generator developed by the National
Identification -‐information/preserving-‐digital Archives to perform automated
(DROID) -‐records/droid/ batch identification of file formats.
Dspace http://www.dspace.org/ meta--‐tag harvester; Automatically extracts technical

generator and size. Can also extract some
information from meta--‐tags.
Editor--‐ http://www.library.kr.ua/dc/ meta--‐tag harvester; Scans HTML documents,

Converter dceditunie.html extrinsic auto--‐ harvesting metadata from tags
Dublin Core generator and converting them to Dublin
Metadata Core.
Embedded http://www.artstor.org/global/g content extractor; EMET is a tool designed to extract

Metadata -‐html/download-‐emet-‐public.html meta--‐tag harvester; metadata embedded in JPEG and
Extraction extrinsic auto--‐ TIFF files.
Firefox Dublin http://www.splintered.co.uk/ meta--‐tag harvester; Scans HTML documents,
Core Viewer experiments/73/ extrinsic auto--‐ harvesting metadata from tags
Extension generator and displaying them to Dublin
Core.
JHove http://jhove.sourceforge.net/ extrinsic auto--‐ Extracts metadata regarding file
#implementation generator format and size as well as
validating the structure of the
identified file format.
National http://meta-‐extractor extrinsic auto--‐ Developed by the National Library
Library of .sourceforge.net/ generator of New Zealand to
New programmatically extract
Zealand— preservation metadata from a
Metadata range of file formats like PDF
Extraction documents, image files, sound
Tool files, Microsoft Office documents,
and others.
Omeka http://omeka.org/ extrinsic auto--‐ Automatically extracts technical
generator; social information regarding file format
tagging and size.
RepoMMan http://www.hull.ac.uk/esig/ meta--‐tag harvester; Automatically extracts various
repomman/index.html content extractor; elements for documents uploaded
extrinsic auto--‐ to Fedora such as author, title,
generator description, and key words,
among others. Results are
Simple http://hmdb.cs.kuleuven.be/amg/ content extractor; A suite of tools that is able to
Automatic Download.php extrinsic auto--‐ automatically extract metadata
Metadata generator elements such as keyphrase and
Generation language from documents as well
Tabla 3. Herramientas semiautomáticas que admiten la indexación automática
Minería de texto y datos
Los dos métodos mencionados anteriormente, la extracción de contenido y la indexación automática, se basan en
técnicas de extracción de texto y datos para la extracción automática de metadatos. En otras palabras, los métodos
anteriores utilizan algoritmos de aprendizaje automático, análisis estadístico de frecuencias de términos, técnicas de
agrupación o técnicas que examinan la frecuencia de utilización de términos entre documentos en oposición al uso de
vocabularios controlados, y técnicas de clasificación, o técnicas que explotar la estructura convencional de
documentos, para la generación semiautomática de metadatos. Debido a la complejidad de estas técnicas, pocas
herramientas se han desarrollado completamente para su aplicación dentro de la configuración de la biblioteca del
mundo real. Por el contrario, la mayoría de los usos de estas técnicas se han desarrollado para resolver los problemas
de la generación automática de metadatos en el contexto de proyectos de investigación específicos.
Hay dos razones para esto. Una es que, como muchos investigadores han señalado, la efectividad de las
técnicas de aprendizaje automático depende de la calidad y cantidad de los datos de entrenamiento utilizados
para enseñar el sistema.13, 14, 15 Debido a la cantidad y diversidad de los dominios temáticos, así como al
corte variedad de formatos de documentos, muchas aplicaciones están diseñadas para abordar las necesidades
de metadatos de dominios temáticos muy específicos y tipos de documentos muy específicos. Este es un punto
que Kovacevic et al. afirman que las técnicas de aprendizaje automático generalmente funcionan mejor para
documentos de un tipo similar, como trabajos de investigación.16 Otro tema, especialmente en lo que se refiere
a la indexación automática, es el hecho de que, como señala Gardner, los vocabularios controlados como el
LCSH también lo son Es una estructura compleja y diversa que se aplicará a través de medios
semiautomáticos.17 Aunque algunas herramientas de código abierto como Data Fountains han hecho esfuerzos
para superar esta complejidad, los proyectos como este son la excepción y no la regla. Estos problemas indican
la dificultad con el desarrollo de sofisticadas herramientas semiautomáticas de generación de metadatos que
tienen una aplicabilidad general en una amplia gama de dominios temáticos y tipos de formatos. Sin embargo,
para que las herramientas semiautomáticas de generación de metadatos se conviertan en una realidad para la
comunidad bibliotecaria, tal complejidad tendrá que superarse.
Sin embargo, hay algunas herramientas que tienen una aplicabilidad más amplia o que se pueden personalizar
para satisfacer las necesidades locales. Por ejemplo, el extractor de frases clave de Kea ofrece la opción de
construir localmente o aplicar ontologías disponibles que pueden usarse para refinar el proceso de extracción.
Quizás la más prometedora de todas es la suite de herramientas Data Fountains antes mencionada desarrollada
por la Universidad de California. El conjunto de Data Fountains incorpora casi todas las técnicas de metadatos
semiautomáticas descritas en este estudio, incluidas la sofisticada extracción de contenido y las funciones de
indexación automática. También proporciona varias formas de personalizar el conjunto para satisfacer las
necesidades locales.
Autogeneración de Datos Extrínsecos
La autogeneración de datos extrínsecos es el proceso de extraer metadatos sobre un recurso de información
que no está contenido dentro del recurso. La autogeneración de datos extrínsecos puede implicar la extracción
de metadatos técnicos, como el formato y el tamaño del archivo, pero también puede incluir la extracción de
características más complejas, como el nivel de grado de un recurso educativo o la audiencia prevista para un
documento. El proceso de extracción de metadatos técnicos es quizás un área de generación de metadatos
semiautomática que se encuentra en un alto estado de desarrollo, incluido en la mayoría de los CMSS como
Dspace, 18 y otras herramientas más sofisticadas como JHove de Harvard, que puede reconocer al menos
7twelve tipos diferentes de formatos de archivos textuales, de audio y visuales.19 Por otro lado, el problema
de generar semiautomáticamente otros tipos de metadatos extrínsecos, como el nivel de grado, es de los más
difíciles de resolver.
Como Leibbrandt et al. En su análisis del uso de mecanismos de inteligencia artificial para generar metadatos
temáticos para un repositorio de materiales educativos en Education Services Australia, la extracción de
metadatos extrínsecos como el nivel de grado fue mucho más difícil que la extracción de palabras clave debido
a la falta de información que rodea el contexto de un recurso dentro del recurso mismo.20 Esta dificultad
también se puede ver en la ausencia de herramientas que respalden la extracción de datos extrínsecos más allá
de aquellos que están recolectando metadatos que se han creado manualmente o extrayendo metadatos
técnicos.
La Tabla 4 enumera las herramientas que soportan la autogeneración de datos extrínsecos, ya sea como técnica
única o como parte de un conjunto de técnicas utilizadas para generar metadatos a partir de los recursos. De
las treinta y nueve herramientas evaluadas para este estudio, trece herramientas respaldan alguna forma de
autogeneración de datos extrínsecos.

Apache POI— http://poi.apache.org/download.html content extractor; Apache POI provides basic text
Text Extractor meta--‐tag harvester; extraction for all project
extrinsic auto--‐ supported file formats. In addition
generator to the (plain) text, Apache POI can
access the metadata associated
with a given file, such as title and
author.
Apache Tika http://tika.apache.org/ content extractor; Built on Apache POI, the Apache
Data http://datafountains.ucr.edu/ content extractor; Scans HTML documents and first
Fountains automatic indexer; extracts information contained in
meta--‐tag harvester; meta--‐tags. If information is
extrinsic auto--‐ unavailable in meta--‐tags, the
generator program will use other techniques
to assign values. Includes a
focused web crawler that can
target websites concerning a
specific subject.
Digital Record http://www.nationalarchives.gov.uk/ extrinsic auto--‐ DROID is a software tool
Object information-‐management/manage generator developed by the National
Identification -‐information/preserving-‐digital Archives to perform automated
(DROID) -‐records/droid/ batch identification of file formats.
Dspace http://www.dspace.org/ meta--‐tag harvester; Automatically extracts technical

generator and size. Can also extract some
Editor--‐ http://www.library.kr.ua/dc/ meta--‐tag harvester; Scans HTML documents,
Converter dceditunie.html extrinsic auto--‐ harvesting metadata from tags
Dublin Core generator and converting them to Dublin
Metadata Core.
Embedded http://www.artstor.org/global/g content extractor; EMET is a tool designed to extract
Metadata -‐html/download-‐emet-‐public.html meta--‐tag harvester; metadata embedded in JPEG and
Extraction extrinsic auto--‐ TIFF files.
Firefox Dublin http://www.splintered.co.uk/ meta--‐tag harvester; Scans HTML documents,
Core Viewer experiments/73/ extrinsic auto--‐ harvesting metadata from tags
Extension generator and displaying them to Dublin
Core.
JHove http://jhove.sourceforge.net/ extrinsic auto--‐ Extracts metadata regarding file
#implementation generator format and size as well as

validating the structure of the
identified file format.
National http://meta-‐extractor extrinsic auto--‐ Developed by the National Library
Library of .sourceforge.net/ generator of New Zealand to
New programmatically extract
Zealand— preservation metadata from a
Metadata range of file formats like PDF
Extraction documents, image files, sound
Tool files, Microsoft Office documents,
and others.
Omeka http://omeka.org/ extrinsic auto--‐ Automatically extracts technical
generator; social information regarding file format
tagging and size.
RepoMMan http://www.hull.ac.uk/esig/ meta--‐tag harvester; Automatically extracts various
repomman/index.html content extractor; elements for documents uploaded
extrinsic auto--‐ to Fedora such as author, title,
generator description, and key words,
among others. Results are
Simple http://hmdb.cs.kuleuven.be/amg/ content extractor; A suite of tools that is able to
Automatic Download.php extrinsic auto--‐ automatically extract metadata
Metadata generator elements such as keyphrase and
Generation language from documents as well
Tabla 4. Herramientas semiautomáticas que admiten autogeneración de datos extrínsecos.
Etiquetado social
El etiquetado social ahora es una forma familiar de generación de metadatos por temas aunque, como se mencionó
anteriormente, no es propiamente una forma de generación automática de metadatos. Sin embargo, debido al costo
relativamente bajo en la generación y mantenimiento de metadatos a través del etiquetado social y su actual
popularidad generalizada, algunos proyectos han intentado utilizar dichos datos para mejorar los repositorios. Por
ejemplo, Linstaedt et al. utilice sofisticados programas de computadora para analizar imágenes fijas encontradas en
Flickr y luego use este análisis para procesar nuevas imágenes y para propagar etiquetas de usuario relevantes a esas
imágenes.21
En un ejemplo un poco más complicado, Liu y Qin emplean técnicas de aprendizaje automático para procesar y asignar
metadatos inicialmente, incluidos los términos temáticos, a un repositorio de documentos relacionados con la
profesión de ciencias de la computación.22 Sin embargo, este proyecto de prueba de concepto también permite a los
usuarios para editar los campos de los metadatos una vez establecidos. Las etiquetas editadas por el usuario son luego
reprocesadas por el sistema con la esperanza de mejorar los mecanismos de aprendizaje automático de la base de
datos, creando un tipo de circuito de retroalimentación para el sistema. Específicamente, las etiquetas mejoradas son
utilizadas por el sistema para sugerir y asignar términos temáticos para nuevos documentos, así como para mejorar la
descripción del tema de los documentos existentes dentro del repositorio. Aunque estos dos ejemplos proporcionan
instancias de reprocesamiento sofisticado de los metadatos de etiquetas sociales, estas capacidades no parecen estar
presentes en las herramientas de código abierto en este momento. Sin embargo, muchos CMSS ofrecen capacidades
de etiquetado social como Omeka. Estas capacidades de etiquetado social pueden ofrecer un medio para mejorar el
acceso de los sujetos a las explotaciones.
La Tabla 5 a continuación enumera las herramientas que soportan el etiquetado social ya sea como la única técnica o
como uno de los conjuntos de técnicas utilizadas para generar metadatos a partir de los recursos. De las treinta y nueve
herramientas evaluadas para este estudio, dos herramientas respaldan alguna forma de etiquetado social.
Automatically extracts
meta--‐tag harvester;
technical information
http://www.dspace.org/ extrinsic auto--‐
Dspace regarding file format and size.
generator; social
Can also extract some
tagging
extrinsic auto--‐ Automatically extracts

Omeka http://omeka.org/ generator; social technical information
tagging regarding file format and size.
Tabla 5. Herramientas semiautomáticas que admiten etiquetado social.
Desafíos para la implementación

Aunque las herramientas semiautomáticas de generación de metadatos ofrecen muchos beneficios, especialmente en
lo que respecta a la racionalización del proceso de creación de metadatos, existen importantes barreras para la
adopción e implementación generalizadas de estas herramientas. Un problema con las herramientas semiautomáticas
de generación de metadatos es que muchas se desarrollan localmente para abordar las necesidades específicas de un
proyecto determinado o como parte de la investigación académica. Este entorno local altamente enfocado para el
desarrollo significa que la aplicabilidad general de las herramientas se ve potencialmente disminuida. El contexto local
también puede dificultar la adopción generalizada de aplicaciones que darían lugar a comunidades fuertes de usuarios
de aplicaciones y proporcionar un mayor soporte para el desarrollo de aplicaciones en un contexto de fuente abierta.
Debido a la naturaleza altamente específica de muchas herramientas actuales, su relevancia para los procesos del
mundo real de creación de metadatos dentro del contexto más amplio de las diversas necesidades de gestión de
información de las bibliotecas no se tiene en cuenta.
Además, muchas herramientas se centran en resolver uno o, como máximo, algunos problemas de generación de
metadatos. Por ejemplo, la aplicación Kea está diseñada para usar técnicas de aprendizaje automático con el único
propósito de extraer palabras clave, el Resumen de texto abierto está limitado a extracciones automáticas de
descripciones de resumen y palabras clave, y Editor Converter Dublin Core está diseñado para extraer información en
HTML Meta - etiquetas y asignarlos a los elementos Dublin Core. Debido al desarrollo gradual de las herramientas de
generación semiautomáticas, cualquier paquete integral de herramientas requerirá los esfuerzos significativos del
implementador para coordinar las aplicaciones seleccionadas y producir resultados en un solo resultado. Esto es, por
decir lo menos, una tarea desalentadora.
Además, se requiere un alto grado de habilidad técnica para implementar estas herramientas complejas. Muchas de
las herramientas más sofisticadas utilizadas para generar metadatos de forma semiautomática, como Data Fountains,
Kea y Apache Stanbol, requieren competencia en una variedad de lenguajes de programación.
Se requieren conocimientos importantes de C ++, Python y Java para implementar estos sistemas correctamente. El
alto grado de conocimiento técnico necesario para implementar estas herramientas significa que muchas bibliotecas
y otras instituciones pueden no tener recursos para comenzar a implementarlas, y mucho menos incorporarlas a los
flujos de trabajo diarios del proceso de creación de metadatos. Además, este alto grado de experiencia técnica puede
requerir que las bibliotecas busquen asistencia fuera de la biblioteca. En otras palabras, los bibliotecarios pueden
necesitar construir fuertes relaciones de colaboración con aquellos que tienen las habilidades técnicas, la experiencia
y las credenciales para implementar y mantener estas herramientas complicadas. Como Vellucci et al. Nota con
respecto a su desarrollo de Metadata Education and Research Information Commons (MERIC), un centro de
intercambio de metadatos de materiales educativos relacionados con los metadatos, asociaciones elaboradas y
multidisciplinarias deben establecerse firmemente para el éxito final de tales proyectos, incluyendo el apoyo sostenido
a los más altos niveles de administración.23 Este tipo de asociaciones puede ser difícil de establecer y mantener para
la implementación sostenida de herramientas complicadas.
Además, el desarrollo sostenible de herramientas, especialmente en lo que respecta a la financiación necesaria para
el desarrollo continuo de aplicaciones de fuente abierta, parece ser una barrera importante para la implementación.
Por ejemplo, en el momento de escribir estas líneas, muchas de las herramientas que se promocionaban en la literatura
como las más prometedoras, como DC Dot, Reggie y DescribeThis, ya no están disponibles para su implementación.
Más allá del hecho de que la interrupción perjudica la adopción potencial y el desarrollo continuo de herramientas
semiautomáticas dentro de la biblioteca del mundo real y otras configuraciones de información, también existe el
problema de que las configuraciones que de hecho han adoptado herramientas pueden perder el soporte técnico de
un desarrollador central y comunidad de usuarios. Por lo tanto, la interrupción puede resultar en mayores tasas de
obsolescencia de la herramienta y aumentar los gastos potenciales de las bibliotecas que han implementado y luego
deben cambiar las aplicaciones.
Finalmente, la aplicación de herramientas de metadatos semiautomáticos sigue siendo relativamente no probada en
escenarios del mundo real. Como Polfreman et al. Nota: la mayoría de las pruebas de herramientas automáticas de
generación de metadatos tienen varios problemas, incluidos pequeños tamaños de muestra, alcance limitado de los
dominios del proyecto y experimentos que carecen de verdadera objetividad porque los sistemas generalmente son
probados por sus creadores.24 Por estas razones, las bibliotecas y otras instituciones pueden ser reacios a expandir
los recursos necesarios para implementar e integrar completamente una herramienta complicada, prometedora, pero
finalmente no probada, dentro de los flujos de trabajo ya tensos de sus procesos.
CONCLUSIÓN
Las herramientas de generación de metadatos semiautomáticas tienen la promesa de ayudar a los profesionales de la
información a administrar cantidades y tipos de recursos de información cada vez mayores. Utilizando un software que
puede crear registros de metadatos de forma consistente y eficiente, las herramientas semiautomáticas de generación
de metadatos potencialmente ofrecen ahorros significativos en costos y tiempo. Sin embargo, la integración total de
estas herramientas en los flujos de trabajo diarios de las bibliotecas y otras configuraciones de información sigue
siendo difícil de alcanzar.
Por ejemplo, aunque se han desarrollado muchas herramientas que han abordado muchos de los aspectos más
complicados de la generación semiautomática de metadatos, incluida la extracción de información relacionada con
áreas conceptualmente difíciles de descripción bibliográfica como términos de materia, descripciones de recursos
abiertas y asignación de palabras clave, muchas de estas herramientas son relevantes solo a nivel de proyecto y no son
aplicables a los contextos más amplios que necesitan las bibliotecas. En otras palabras, la matriz actual de herramientas
existe para resolver problemas experimentales, pero no se ha desarrollado hasta el punto de que la comunidad
bibliotecaria pueda implementarla de manera significativa.
Quizás la mayor área de dificultad radica en el hecho de que la mayoría de las herramientas solo abordan parte del
problema de la generación semiautomática de metadatos, proporcionando soluciones para la generación
semiautomática de uno o algunos elementos bibliográficos pero no de todos los elementos del rango. Esto significa
que para que las bibliotecas realmente tengan un conjunto completo de herramientas para la generación
semiautomática de registros de metadatos, se necesitarán importantes esfuerzos locales para integrar las diversas
herramientas en un todo funcional. Combine este problema con la inestabilidad del desarrollo y mantenimiento de
herramientas, y parece que la comunidad bibliotecaria puede carecer de incentivos para invertir recursos ya de por sí
escasos y limitados en la adopción de estas herramientas.
Por lo tanto, parece que se deberán tomar varios pasos antes de que la comunidad bibliotecaria pueda considerar
seriamente la incorporación de herramientas semiautomáticas de generación de metadatos dentro de sus flujos de
trabajo diarios. En primer lugar, parece que la integración de estas diversas herramientas en un conjunto coherente
de aplicaciones es probablemente el siguiente paso en el desarrollo de la generación de metadatos semiautomática
viable. Dado que la mayoría de las bibliotecas pequeñas probablemente no cuentan con los recursos necesarios para
integrar estas herramientas dispares, y mucho menos incorporarlas dentro de los sistemas de bibliotecas existentes,
se necesitará un único paquete de herramientas simplemente desde la perspectiva de los recursos. En segundo lugar,
teniendo en cuenta el alto nivel de experiencia técnica necesaria para implementar la gama actual de herramientas, el
conjunto integrado de herramientas debe lograrse de tal manera que se fomente la implementación, la utilización y el
mantenimiento con un mínimo de conocimientos técnicos. Por ejemplo, si se pudiera desarrollar un conjunto integrado
de herramientas que funcionaran en una amplia gama de dominios temáticos y tipos de formatos, el conjunto podría
ser similar al CMSS actualmente empleado por muchas bibliotecas. Además, con un conjunto de herramientas que son
relativamente fáciles de usar, la adaptación probablemente aumentaría. Esto podría dar como resultado una
comunidad estable de usuarios que fomentaría un mayor desarrollo de las herramientas de manera sostenible. Un
conjunto de herramientas completo y relativamente fácil de implementar podría fomentar la realización de pruebas
independientes de esas herramientas. La prueba independiente de las herramientas semiautomáticas es necesaria
para proporcionar una base objetiva para la evaluación de herramientas y un mayor desarrollo.
Por último, el diseño de flujos de trabajo automatizados adaptados al dominio del tema y los tipos de recursos parece
ser un paso esencial para integrar herramientas semiautomáticas de generación de metadatos en la creación de
metadatos. Dichos flujos de trabajo pueden delinear elementos de datos que pueden generarse mediante el extractor
automático de metaetiquetas a partir de elementos de datos que deben ser redefinidos y creados manualmente por
profesionales de catalogación y metadatos. Para desarrollar, maximizar y mantener flujos de trabajo de generación de
metadatos semiautomáticos, el apoyo administrativo para las finanzas, los recursos humanos y la capacitación es
crítico.
Por lo tanto, aunque muchos de los aspectos técnicos de la generación semiautomática de metadatos están en camino
de ser resueltos, existen muchas otras barreras que podrían limitar la adopción. Además, estas barreras pueden tener
una influencia negativa en el desarrollo continuo y sostenible de herramientas semiautomáticas de generación de
metadatos. Sin embargo, existe una necesidad crítica de que la comunidad bibliotecaria encuentre la forma de
gestionar la reciente explosión de datos e información de manera rentable y eficiente. La generación semiautomática
de metadatos tiene la promesa de hacer justamente eso.
ACKNOWLEDGEMENT
This study was supported by the Institute of Museum and Library Services.
REFERENCES
1. Jane Greenberg, Kristina Spurgin, and Abe Crystal, “Final Report for the AMeGA (AutoZmatic
2. Sue Ann Gardner, “Cresting Toward the Sea Change,” Library Resources & Technical Services
56, no. 2 (2012): 64–79, http://dx.doi.org/10.5860/lrts.56n2.64.
3. For details, see Jung--‐ran Park and Caimei Lu, “Application of Semi--‐Automatic Metadata
Generation in Libraries: Types, Tools, and Techniques,” Library & Information Science
Research 31, no. 4 (2009): 225–31, http://dx.doi.org/10.1016/j.lisr.2009.05.002.
4. Erik Mitchell, “Trending Tech Services: Programmatic Tools and the Implications of
Automation in the Next Generation of Metadata,” Technical Services Quarterly 30, no. 3 (2013):
296–10, http://dx.doi.org/10.1080/07317131.2013.785802.
5. Jane Greenberg, “Metadata Extraction and Harvesting: A Comparison of Two Automatic

Metadata Generation Applications,” Journal of Internet Cataloging 6, no. 4 (2004): 59–82,
http://dx.doi.org/10.1300/J141v06n04_05.
6. Malcolm Polfreman, Vanda Broughton, and Andrew Wilson, “Metadata Generation for
Resource Discovery,” JISC, 2008,
http://www.jisc.ac.uk/whatwedo/programmes/resourcediscovery/autometgen.aspx.
7 Park and Lu, “Application of Semi--‐Automatic Metadata Generation in Libraries.”
8. Kea Automatic Keyphrase Extraction homepage, http://www.nzdl.org/Kea/index_old.html.
9. Wilhelmina Randtke, “Automated Metadata Creation: Possibilities and Pitfalls,” Serials

Librarian 64, no. 1–4 (2013): 267–84, http://dx.doi.org/10.1080/0361526X.2013.760286.
10. Aleksandar Kovačević et al.,“Automatic Extraction of Metadata from Scientific Publications for
CRIS Systems.” Electronic Library and Information Systems 45, no. 4 (2011): 376–96,
http://dx.doi.org/10.1108/00330331111182094.
11. Mark Patton et al., “Toward a Metadata Generation Framework: A Case Study at Johns Hopkins
University,” D--‐Lib Magazine 10, no. 11 (2004),
http://www.dlib.org/dlib/november04/choudhury/11choudhury.html.
12. Nicolai Erbs, Iryna Gurevych, and Marc Rittberger, “Bringing Order to Digital Libraries: From
Keyphrase Extraction to Index Term Assignment.” D--‐Lib Magazine 19, no. 9/10 (2013),
http://www.dlib.org/dlib/september13/erbs/09erbs.html.
13. Polfreman, Broughton, and Wilson, “Metadata Generation for Resource Discovery.”
14. Randtke, “Automated Metadata Creation.”
15. Xiaozhong Liu and Jian Qin, “An Interactive Metadata Model for Structural, Descriptive, and
Referential Representation of Scholarly Output,” Journal of the Association for Information
Science & Technology 65, no. 5 (2014): 964–83, http://dx.doi.org/10.1002/asi.23007.
16. Kovačević et al., “Automatic Extraction of Metadata from Scientific Publications for CRIS
Systems.”
17. Gardner, “Cresting Toward the Sea Change.”
18. Mary Kurtz, “Dublin Core, Dspace, and a Brief Analysis of Three University Repositories,”
Information Technology & Libraries 29, no. 1 (2010): 40–46,
http://dx.doi.org/10.6017/ital.v29i1.3157.
19. “JHOVE --‐ JSTOR/Harvard Object Validation Environment,” JSTOR,

http://jhove.sourceforge.net.
20. Richard Leibbrandt et al., “Smart Collections: Can Artificial Intelligence Tools and Techniques
Assist with Discovering, Evaluating and Tagging Digital Learning Resources?” International
Association of School Librarianship: Selected Papers from the Annual Conference (2010).
21. Stefanie Lindstaedt et al., “Automatic Image Annotation Using Visual Content and
Folksonomies,” Multimedia Tools & Applications 42, no. 1 (2009): 97–113,
http://dx.doi.org/10.1007/s11042--‐008--‐0247--‐7.
22. Liu and Qin, “An Interactive Metadata Model.”
23. Sherry Vellucci, Ingrid Hsieh--‐Yee, and William Moen, “The Metadata Education and Research
Information Commons (MERIC): A Collaborative Teaching and Research Initiative,” Education
for Information 25, no. 3/4 (2007): 169–78.
24. Polfreman, Broughton, and Wilson, “Metadata Generation for Resource Discovery.”
Copyright of Information Technology & Libraries is the property of American Library
Association and its content may not be copied or emailed to multiple sites or posted to a
listserv without the copyright holder's express written permission. However, users may
print, download, or email articles for individual use.

Metadatos 1 Traducido

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Metadatos 1 Traducido

Cargado por

Copyright:

Formatos disponibles

INTRODUCCIÓN

OBJETIVOS DEL ESTUDIO

La evaluación del panorama actual de las herramientas semiautomáticas de generación de metadatos es

Técnicas actuales para la generación automática de metadatos

HERRAMIENTAS LOCALIZACIÓN TECNICAS FUNCIONES / CARACTERISTICAS

BIBFRAME offers a number of

Scans HTML documents and first

Transforms data collected via

Embedded content extractor;

Tabla 1. Herramientas semiautomáticas que admiten la recolección de metadatos.

Figura 3. Resumen de texto abierto: ejemplo de resumen de texto.

Tool Name Location Techniques Functions/Features

Extracts semantic metadata from

content extractor; Built on Apache POI, the Apache

Biblio Citation http://search.cpan.org/~mjewell/ A set of modules for citation

Embedded content extractor;

A plugin that automatically

Assists user with annotation of

Extracts pertinent sentences from

Automatically extracts various

Extracts keywords from texts

The Content Analysis Web

Tabla 2. Herramientas semiautomáticas que admiten la extracción de contenido

Tool Name Location Techniques Functions/Features

Dspace http://www.dspace.org/ meta--‐tag harvester; Automatically extracts technical

Editor--‐ http://www.library.kr.ua/dc/ meta--‐tag harvester; Scans HTML documents,

Embedded http://www.artstor.org/global/g content extractor; EMET is a tool designed to extract

Tabla 3. Herramientas semiautomáticas que admiten la indexación automática

Minería de texto y datos

Tool Name Location Techniques Functions/Features

Dspace http://www.dspace.org/ meta--‐tag harvester; Automatically extracts technical

#implementation generator format and size as well as

Tabla 4. Herramientas semiautomáticas que admiten autogeneración de datos extrínsecos.

Tool Name Location Techniques Functions/Features

extrinsic auto--‐ Automatically extracts

Tabla 5. Herramientas semiautomáticas que admiten etiquetado social.

Desafíos para la implementación

5. Jane Greenberg, “Metadata Extraction and Harvesting: A Comparison of Two Automatic

7 Park and Lu, “Application of Semi--‐Automatic Metadata Generation in Libraries.”

8. Kea Automatic Keyphrase Extraction homepage, http://www.nzdl.org/Kea/index_old.html.

9. Wilhelmina Randtke, “Automated Metadata Creation: Possibilities and Pitfalls,” Serials

14. Randtke, “Automated Metadata Creation.”

17. Gardner, “Cresting Toward the Sea Change.”

19. “JHOVE --‐ JSTOR/Harvard Object Validation Environment,” JSTOR,

22. Liu and Qin, “An Interactive Metadata Model.”

También podría gustarte