Está en la página 1de 39

DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V.

01

DIGITALIZACIÓN
DE
DOCUMENTOS

Versión 1.1
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Autores:

Martínez Casanueva, Felisa

Gónzalez González, Jose Ignacio

Copyright © Febrero 2009 .

El presente manual ha sido desarrollado en la Biblioteca de la Universidad Politécnica


de Madrid

Esta obra se distribuye bajo una licencia Reconocimiento-No comercial-Compartir igual


3.0 España de Creative Commons. Para ver una copia de esta licencia, visite:

http://creativecommons.org/licenses/by-nc-sa/3.0/es

2
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V.01

DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM

1. INTRODUCCIÓN

2. DIGITALIZACIÓN DE FONDO MODERNO


2.1. Resolución: Conservación y difusión-visualización
2.2. Calidad y profundidad de bits
2.3. Formato y Compresión
2.4. Tamaños del documento ISO 216

3. PROCESO DE DIGITALIZACIÓN DE FONDO ANTIGUO


3.1 Escaneado del libro
3.2 Conservación de las imágenes
3.3 Visualización de las imágenes

4. 4. ARCHIVOS GENERADOS
4.1 Fichero de conservación, Fichero Retocado y Fichero de visualización
4.2 OCR. Reconocimiento óptico de caracteres
4.3 Control de imágenes
4.4 Almacenamiento de las imágenes

5. COMO GENERAR LAS IMÁGENES DE DIFUSIÓN-VISUALIZACIÓN


5.1. Acrobat Profesional
5.2. Adobe Photoshop
5.3. AbbyFine Reader

6. CARACTERISTICAS DE LOS PDF


6.1. Marca de agua
6.2. Configuración de visualización
6.3. Seguridad de los ficheros pdf

7. DIFUSION DEL FONDO DIGITAL


7.1 Visualización de los documentos en Digitool y Catalogo UPM
7.2 Enlaces a documentos de otras instituciones

CUADRO DE DIGITALIZACIÓN
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

RESUMEN IMÁGENES PARA LA COLECCIÓN DIGITAL POLITECNICA -


DIGITOOL

4
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

1. INTRODUCCIÓN

La digitalización en el campo del libro y las bibliotecas es una de las


aplicaciones de las nuevas tecnologías que están teniendo más importantes
repercusiones como respuesta a los problemas de conservación y difusión y en
base a los siguientes objetivos fundamentales:

• Preservación del fondo documental, reduciendo la manipulación y el uso


de materiales originales frágiles o de excesiva consulta.
• Facilitar la difusión de dicho fondo documental incrementando el
acceso al documento, así como la consulta de varios usuarios al mismo
tiempo.
• Impulsar el desarrollo de recursos cooperativos, compartiendo intereses
comunes con otras instituciones para crear colecciones virtuales e
incrementar el acceso a nivel internacional.

La Universidad Politécnica de Madrid consciente de estas ventajas también ha


iniciado varios proyectos de digitalización para lo cual se hace necesaria la
elaboración de una serie de recomendaciones comunes a todos los proyectos
que puedan ir desarrollándose dentro de la Universidad.

La idea es digitalizar una sola vez los fondos consiguiendo una copia de alta
calidad para conservación tal como sale del escáner. A partir de esta imagen
master crearemos otra copia tratada de alta calidad , que nos servirá para
obtener las copias para difusión: Colección Digital Politécnica, Préstamo
Interbibliotecario, etc.

2. DIGITALIZACIÓN DE FONDO MODERNO

2.1 Resolución: Conservación y difusión-visualización


2.2 Calidad y profundidad de bits
2.3 Formato y Compresión

Los documentos modernos pueden contener solo texto, texto más imágenes-
gráficos en color, imágenes-gráficos en color. Esto determinará cómo
digitalizaremos cada una de estas páginas.

2.1 Resolución: Conservación y difusión-visualización

o Conservación
La cuestión clave será determinar el nivel de resolución suficiente
para capturar todos los detalles significativos del documento
original.

5
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

La digitalización de los documentos impresos y manuscritos, así


como la del resto de otros materiales especiales (fotografías,
postales, carteles, planos, mapas, etc.) se realizará a 300 ppp
como mínimo. Cuando el tamaño de la fuente es de 9 puntos o
menor se debe digitalizar de 400 a 600 puntos.

Libros y documentos a partir de DINA2 o mayor: 300 ppp


Diapositivas: 2600 ppp
Microfilm: 5000 ppp

o Difusión-visualización:

Como norma general:

• Imágenes digitalizadas en blanco y negro a 300 ppp


• Imágenes en escala de grises o color a 150 ppp

2.2 Definición de parámetros de calidad y profundidad de bits

La profundidad de bits dependerá del contenido de cada una de las


páginas del documento a digitalizar así podemos establecer la siguiente
tipología:

• Página solo texto en tinta negra: estas páginas serán digitalizadas


en blanco y negro. En los escáneres el b/n lo denominan de
diferente manera según el software de digitalización: dibujo
lineal, blanco y negro, monocromáticas… En el icono inferior
ejemplo digitalizado en blanco y negro en PDF.

Documento de
Acrobat

Pueden existir páginas que tengan imágenes y texto en blanco y


negro. Ejemplo en el icono PDF.

Adobe Acrobat 7.0


Document

6
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

• Página con texto e imágenes en escala de grises: estas páginas


serán digitalizados en escala de grises. Ejemplo de imagen en
escala de grises en el icono PDF.

Adobe Acrobat 7.0


Document

• Página con imágenes en escala de grises: estas páginas se


digitalizarán en color RGB. Ejemplo fotografía en el icono PDF

Adobe Acrobat 7.0


Document

• Página con texto e imágenes en color: estas páginas se


digitalizarán en color (color de 24 bits). Ejemplo página de revista
con texto e imágenes en el icono PDF.

Adobe Acrobat 7.0


Document

• Página con imágenes en color: estas páginas se digitalizarán en


color. (color 24 bits)

Adobe Acrobat 7.0


Document

2.3 Formato y compresión

Las imágenes escaneadas podrán guardarse en formatos diferentes,


según la finalidad de los mismos:

• Tiff (conservación)

Es el formato más adecuado cuando se requiere la máxima calidad. Se


trata de un formato estándar y de uso libre, siendo el más utilizado
como archivo de conservación.

7
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Es importante tener en cuenta que aunque el software nos permitirá


siempre convertir unos formatos a otros, en algunos casos pueden
producirse pérdidas, por lo que es mejor siempre guardar el archivo de
imagen generado por el escáner en el formato más adecuado. El más
apropiado para guardarlas es el formato tiff, ya que es un formato que
no tiene pérdida, su ratio de compresión puede ser alto y ofrece mayor
fiabilidad .

o Cuando escaneamos en blanco y negro guardaremos la


imagen como tiff con compresiones CCITT G4 o JBIG2 sin
pérdida. Siempre que sea posible se usará la compresión
JBIG2 sin pérdida.
o Cuando escaneamos en escala de grises o color
guardaremos la imagen como tiff con compresión LZW.

• PDF (difusión-visualización)

Es un formato de visualización que adopta las características de


resolución, profundidad de bit y compresión de los formatos originales
(jpg, tiff, gif, etc.)
PDF es perfecto para imprimir y crear documentos secuenciales con
páginas múltiples.
Este formato permite tener en un único fichero imágenes escaneadas
en blanco y negro, escala de grises y color.

El formato PDF presenta diferentes tipologías:

o PDF Imagen: El fichero PDF contiene únicamente la imagen


procedente de la digitalización. Sobre el no se pueden realizar
búsquedas textuales. Ejemplo en el icono PDF

Documento de
Acrobat

o PDF Imagen con capacidad de búsqueda o texto bajo imagen: El


fichero PDF procede de una imagen pero se ha realizado el OCR
sobre dicha imagen. El PDF muestra la imagen escaneada pero
permite buscar sobre él, pues tiene debajo de la imagen el texto
procedente del OCR. Este tipo de OCR es preferible hacerlo con
Abby FineReader , que da mucha mas exactitud que el OCR del
Acrobat Professional. El OCR se puede hacer con corrección
ortográfica o sin ella. En la mayoría de los casos no merece hacer
la corrección ortográfica debido al coste de tiempo que lleva y
que los errores solo influirán en la capacidad de buscar sobre el
documento.

8
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Adobe Acrobat 7.0


Document

o PDF Texto-Imagen: El fichero PDF contiene texto o texto más


imágenes. Estos ficheros tienen un tamaño mucho menor que si
digitalizáramos una copia en papel de esos documentos (sobre
todo si tienen imágenes en color). Este tipo de fichero suele
provenir de:
EJEMPLOS TAMAÑOS

Adobe Acrobat 7.0 Adobe Acrobat 7.0


Document Document

PDF TEXTO-IMAGEN 75 KB PDF DIGITALIZACION PAPEL 765


KB

1. Fichero Word, Excel, etc. que se convierten a PDF con el


Acrobat Professional.

Adobe Acrobat 7.0


Document

2. Digitalización de documentos a los que les realizaremos


el OCR y lo guardaremos como PDF solo texto e
imágenes. El OCR lo haremos con Abby Finereader y lo
tendremos que corregir pues en caso contrario todos
los errores ortográficos serán visibles en el documento.
Con esta opción los gráficos, fotos, etc. que hay en el
documento escaneado se guardaran como imagen.
Esta opción de PDF solo es útil cuando queremos volver
a reeditar o maquetar de nuevo un documento. Es una
opción que conlleva mayor trabajo.

Adobe Acrobat 7.0


Document

• Jpg

El formato jpg también es un formato válido para la difusión documentos


no textuales como (fotografías, planos, mapas, etc) que sean monopágina.
El nivel de compresión recomendado es 8 o superior.

9
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

2.4 Tamaños del documento ISO 216

Cuando escaneamos normalmente la imagen obtenida suele tener un


tamaño algo mayor al original en papel, al seleccionar un área de escaneo
algo superior al tamaño del documento original. Pero esta imagen una vez
procesada (limpiar bordes, reducir resolución, etc) para obtener la copia
de difusión debe tener el mismo tamaño que el original en papel. Es decir si
el papel tiene un tamaño tiene 20 cm de alto y 15 cm de ancho, la imagen
final tiene que tener ese mismo tamaño.

Los tamaños en papel en según la norma ISO 216 son:

Tamaño ancho largo Tamaño ancho largo


DIN A0 84,1 118,8 DIN A4 21,0 29.7
DIN A1 59,4 84,1 DIN A5 14,8 21,0
DIN A2 42,0 59,4 DIN A6 10,5 14,8
DIN A3 29,7 42,0
Dimensiones en centímetros

Estos tamaños no siempre se ajustna al tamaño de los documentos, sobre todo en libros de
fondo antiguo.

10
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

3. PROCESO DE DIGITALIZACIÓN DE FONDO ANTIGUO

3.1 Escaneado del libro


• Resolución
• Definición de parámetros de calidad y profundidad de bits
• Formato

3.1Escaneado del libro

Para cumplir estos objetivos es conveniente el escaneado de los libros en su


totalidad, incluyendo la encuadernación y las páginas en blanco.
Como consideración previa al proceso de digitalización de nuestros fondos
debemos buscar siempre un equilibrio entre la calidad de la digitalización y el
tamaño que puede adquirir la imagen en la memoria del disco ya que nos
podemos encontrar con registros difíciles de manejar o abarcar
informáticamente, por lo que nos parece conveniente establecer las siguientes
recomendaciones técnicas:

• Resolución

La cuestión clave será determinar el nivel de resolución suficiente para


capturar todos los detalles significativos del documento original.

La digitalización de los documentos impresos y manuscritos, así como la del


resto de otros materiales especiales (fotografías, postales, carteles, planos,
mapas, etc.) hasta tamaño DINA3 se realizará a 400 ppp

Libros y documentos a partir de DINA2 o mayor: 300 ppp

Para la reproducción de ediciones facsímiles la UNESCO recomienda una


resolución de 600 ppp para libros de tamaño hasta DINA4 y de 400 ppp
para libros y documentos a partir de un tamaño DINA3.

El Ministerio de Cultura recomienda 400 ppp para imágenes de


conservación.

• Definición de parámetros de calidad y profundidad de bits

Como norma general para nuestro fondo histórico se escanearan los libros
en color o escala de grises, según las características del documento
original.
(Los libros impresos que presentan un fondo blanco y una clara tipografía se
pueden escanear en blanco y negro, pero cuando la tipografía no es de
calidad suficiente pudiendo perderse algunos trazos, o hay manchas de

11
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

diferente densidad en el documento, se recomienda la escala de grises o


color).

Aquellos libros que tengan partes que puedan reproducirse en blanco y


negro y otras partes en color o escala de grises, podrá hacerse cada parte
de la forma más apropiada, respetándose los estándares establecidos para
la reproducción de toda la obra (misma resolución, igual formato…)

• Formato

Las imágenes escaneadas podrán guardarse en formatos diferentes, según


la finalidad de los mismos:

• Tiff (conservación)
Es el formato más adecuado cuando se requiere la máxima calidad. Se
trata de un formato estándar y de uso libre, y es el más utilizado como
archivo de conservación.
Es importante tener en cuenta que aunque el software nos permitirá
siempre convertir unos formatos a otros, en algunos casos pueden
producirse pérdidas por lo que es mejor siempre guardar el archivo de
imagen generado por el escáner en el formato más adecuado. El más
apropiado para guardarlas es el formato tiff ya que es un formato que
no tiene pérdida, su ratio de compresión puede ser alto y ofrece mayor
fiabilidad .
Inconveniente: elevado archivo que genera, por eso se recomienda su
utilización con compresión LZW.

• Jpg (difusión-visualización)
Jpg permite distintos grados de compresión, pero hay que tener en
cuenta que ésta tendrá siempre pérdidas; es un estándar muy
extendido y mantiene una calidad muy buena.
En este punto sin embargo parece importante establecer la siguiente
reflexión: un documento de tamaño DIN A4, en formato tiff sin comprimir
ocupa 25 MB, y en formato jpg comprimido ocupa 1,3 MB y sin embargo
es difícil distinguirlos visualmente.

• Pdf (difusión-visualización)
Es un formato de visualización que adopta las características -
resolución, definición, compresión- del formato original (jpg, tiff, gif, etc.)
Pdf es perfecto para imprimir y crear documentos secuenciales con
múltiples páginas múltiples.

12
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V.01

4. ARCHIVOS GENERADOS

4.1 Fichero de conservación, Fichero retocado y Fichero de visualización


4.2 OCR. Reconocimiento Óptico de Caracteres
4.3 Control de imágenes
4.4 Almacenamiento de las imágenes

4.1 Fichero de conservación, Fichero retocado y Fichero de visualización-


difusión

Cuando realicemos la digitalización de documentos, libros, fotografías, etc.


generaremos 3 ficheros de cada imagen: fichero de conservación, fichero
retocado y fichero de visualización.

Las imágenes correspondientes a cada libro se guardaran en


carpetas/directorio con el nombre del autor o título del libro (hasta 3
palabras sin artículo, y todo seguido), el año de impresión del libro, el
código de la Escuela y la signatura topográfica.

Ej. Serlio_1625_03_2324
Artedeconstruir_1650_03_324

Dichos archivos se agruparan dentro de un subdirectorio que los englobará


por siglos y a su vez dentro de otro directorio con el nombre de “Fondo
antiguo”.

De cada reproducción de un libro se generarán tres archivos cada uno


guardado en uno cada uno de los directorios:

1.- Fichero de conservación

• Esta primera copia será la que se conservará como Archivo de


seguridad o Archivo de conservación por lo que el nivel de calidad
del escaneado debe ser suficiente para los posibles procesos
posteriores a los que pueda someterse. Es la colección de copia de
seguridad y no se vuelve a manipular. Este archivo tiff se guardará
con compresión LZW.
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

• Como sistemas de compresión para los libros escaneados en blanco


y negro pueden utilizarse las compresiones CCITT GrupoIV y el JBIG2
sin perdida para el formato tiff b/n.

• Este archivo directorio recoge todas las imágenes escaneadas,


simplemente recortadas pero sin ningún tipo de tratamiento
posterior. Las imágenes se guardaran en tiff. Dentro estarán los
ficheros numerados 0001.tif, 0002.tif siempre con 4 dígitos.

Ej.: Serlio_1625_03_2324_master. Dentro de este directorio las


imágenes irán numeradas de 0001.tiff a 9999.tiff. La
numeración se podría ampliar si tuviéramos mas de 9999
paginas, fotografias, etc, (00001.tiff, 00002.tiff…)

2.- Fichero de retocados

• Los ficheros retocados proceden de la imagen master pero ya


tratadas (mediante la modificación de curvas, brillo y contraste o
niveles). Las imágenes se guardaran en tiff con la misma resolución
del fichero de conservación.

Ej.: Serlio_1625_03_2324_retocada. Con los ficheros dentro 0001.tiff


a 9999.tif

3.- Fichero difusión-visualización

Para la visualización y difusión de las imágenes se recomienda una


reproducción de baja calidad, en pdf, para su alojamiento en
servidores para la consulta por Internet.

Con la implantación de Digitool-Colección Digital Politécnica pasarán a


difundirse los libros en formato pdf multipágina blanco y negro a una
resolución de 300 ppp; o en escala de grises, color a 150 ppp, o 200 ppp
cuando la fuente del texto sea demasiado pequeña (algunos mapas,
etc).

El formato pdf con OCR (pdf texto bajo imagen) permite, entre otras
cosas, la búsqueda a texto completo en Digitool, crear documentos
que reproducen fielmente la secuencia de páginas del original; también
permite diferentes grados de ampliación, así como leer e imprimir los
documentos en su totalidad o página a página, con el tamaño y
calidad que suministre la impresora y dar seguridad para la no
modificación del fichero, etc.

• Este fichero se generará a partir del fichero retocado:

14
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

1) Fichero multipágina pdf blanco y negro (ocr). A partir de los


ficheros en escala de grises o color a 400 ppp generaremos
ficheros en blanco y negro a 300 ppp y crearemos un fichero
multipágina pdf. Podemos conservar fotos, gráficos, etc. en
escala de grises y color a 150 ppp dentro de ese mismo pdf
multipágina. El pdf multipágina se utilizará para su difusión en la
Colección Digital Politécnica (Digitool)

Ej. Serlio_1625_03_2324.pdf

2) Fichero multipágina pdf en color o escala de grises (ocr).


Bajaremos la resolución de los ficheros retocados, que estén en
color o escala de grises a 150 ppp, creando un fichero pdf
multipágina que se utilizará para la Colección Digital Politécnica
(Digitool).

Ej. Serlio_1625_03_2324.pdf

3) Para fotos que formen una colección o libros que queramos


difundir en fichero monopágina lo podemos hacer en ficheros
pdf monopágina o jpg monopágina en color o escala de grises,
con una resolución de 150 ppp.

0001.pdf 0002.pdf, etc.


0001.jpg 0002.jpg, etc.

Este mismo esquema lo podemos seguir para la digitalización de


planos, mapas, etc.

4.2 OCR . Reconocimiento Óptico de Caracteres

En los manuscritos y libros antiguos, con una determinada grafía, sería


necesario desarrollar una serie de algoritmos que nos permitieran la lectura
de los textos digitalizados ya que las aplicaciones de Acrobat o Abby Fine
no resultarán muy efectivas. En aquellos libros con una tipografía moderna,
reconocible por cualquier aplicación de reconocimiento de caracteres, se
les pasará un OCR con Abby Fine Reader.

Después de realizar el OCR guardaremos el fichero PDF texto bajo imagen


con calidad de impresión.

En las imágenes que sean reproducción de fotografías, planos, etc no será


necesario realizar el OCR.

15
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

4.3 Control de calidad de las imágenes

Se realizará un control de calidad del trabajo realizado:

1. Revisión de 10% de las imágenes tiff.


2. Revisión de 10% de las imágenes jpg.
3. Revisión del 10% de las páginas de los archivos pdf.
4. Impresión de prueba de varias páginas en una impresora láser con
resolución máxima (600 ppp).
5. Los archivos siempre deben ser del mismo tamaño.

4.4 Sistema de almacenamiento de las imágenes

Los diferentes archivos (tiff, jpg, pdf) generados por cada libro se
archivaran en un DVD.
Como medida de conservación es conveniente la creación de dos copias
guardadas en zonas físicas diferentes, por lo que bien podría hacerse una
copia en un CD o DVD y la otra en un disco duro externo.

De todo este tipo de fondos digitalizado en las diferentes bibliotecas con


fondo antiguo se guardará una copia en un servidor de la Biblioteca
Universitaria de la UPM. (Todavía no esta en funcionamiento)

16
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

5. COMO GENERAR LAS IMÁGENES DE DIFUSIÓN-VISUALIZACIÓN

5.1 Acrobat Profesional


5.2 Adobe Photoshop
5.3 AbbyFine Reader

Los ficheros generados para visualización deben tener el menor tamaño


posible pero guardar la calidad suficiente como para que permita su lectura e
impresión sin problemas.

Para la generación del pdf podemos utilizar:

1) Acrobat Professional:

Crear fichero pdf multipagina.

Crearemos un fichero pdf partiendo de los archivos tiff que tengamos:

Para esto seguiremos lo siguientes pasos en el Acrobat Profesional:


Archivo – Crear PDF – De varios archivos …

En la siguiente pantalla pincharemos en Examinar y elegiremos los


ficheros que queremos utilizar para crear el pdf (pueden ser tiff, jpg, pdf,
etc).

En el ejemplo siguiente vamos a usar varios archivos pdf para crear un


único fichero pdf, pero en nuestro caso utilizaremos ficheros tiff.

17
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

El PDF resultante lo guardaremos: Archivo – Guardar como.

Bajar la resolución de un fichero multipágina con imágenes en b/n,


color y escala de grises

Para pasar el PDF a una resolución de 150 ppp abrimos el archivo Pdf
con el Acrobat Professional y seguiremos los siguientes pasos:
Avanzadas – Optimización PDF -

18
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

En el siguiente interface estableceremos los siguientes parámetros:

Disminuir la resolución en imágenes en color, gris y monocromáticas a


150 ppp cuando estas sean superiores a 150 ppp. Se utilizará compresión
JPG media para imágenes en color y escala de grises.

Disminuir la resolución en imágenes en blanco y negro a 300 ppp


cuando estas sean superiores a 300 ppp. Se utilizará compresión JBIG2
sin pérdida en imágenes monocromáticas.

2) Adobe Photoshop

Bajar la resolución de las imágenes

Podemos bajar la resolución de todas las imágenes a 300 o 150 ppp


según el caso . Una vez tengamos todas las imágenes a 300 o 150 ppp
las podemos unir en un único archivo pdf multipágina con el Acrobat
Professional (según se ha indicado en el punto 1).

Para disminuir la resolución de las imágenes podemos crear una Acción


que automatice el proceso de cambio de resolución para todas las
imágenes a la vez. Seguiremos los siguientes pasos una vez abierto
PhotoShop:

19
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Abriremos una de las imágenes a la que queremos bajar la resolución.


En la pestaña Actions o Acciones crearemos una Acción que la
podemos guardar en alguna de las carpetas ya existentes o crear una
denominada RESOLUCION. Para crear la carpeta pincharemos en la
línea inferior de iconos, el 4 por la izquierda.

Para crear la acción pincharemos el 5 icono por la izquierda. Se abrirá la


pantalla siguiente

Haremos Click sobre Record, dando inicio a la grabación de la Acción.

Image – Image Size –

20
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Nos mostrará la siguiente pantalla y, en el apartado Resolución,


cambiaremos el valor por 150 y pincharemos OK

Pararemos la grabación, haciendo Click sobre el icono de la


imagen inferior.

Posteriormente la podremos ejecutar, con los siguiente pasos:

File – Automate - Batch

21
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Nos mostrará la siguiente pantalla donde configuraremos los parámetros


para que se ejecute la Acción de 150 ppp en la carpeta donde
tengamos las imágenes.

Convertir una imagen de escala de grises a b/n

Siempre primero convertiremos la imagen en escala de grises a b/n y


luego bajaremos la resolución de 400 a 300 ppp.

Podemos igualmente crear una acción para después ejecutar la acción


automáticamente, incluso unir las dos operaciones (convertir a blanco y
negro y bajar la resolución en la misma acción).

22
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Abriremos la imagen en Photoshop y antes de convertir la imagen en


escala de grises a blanco y negro, tendremos que usar los niveles,
contraste y brillo para limpiar el fondo y resaltar el texto.
Iremos al menú Imagen – Ajustes – Niveles

Moveremos los niveles

Posteriormente convertiremos el gris a blanco y negro. Iremos a Imagen


– Modo –Mapa de Bits. Usaremos los siguientes valores 300 ppp y 50%
umbral

23
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Siempre debemos controlar el resultado final, pues puede que no


tengamos la calidad que esperamos.

3) AbbyFine Reader:

Crear un fichero pdf multipagina con ocr y bajar su resolución.

Crearemos un fichero pdf con OCR partiendo de los archivos tif que
tengamos.

Abrimos las imágenes tiff, jpg, etc. que tenemos pinchando en el icono
siguiente, o pueden ser la procedentes del escaneo, si lo hacemos con
el Abby:

Realizaremos el OCR de todo el libro pinchando en el icono Leer todo,


previamente hemos elegido el idioma en el que se hace el OCR. Abby
permite seleccionar varios idiomas simultáneamente, útil para libro en
varios idiomas.

Una vez realizado el OCR podemos bajar la resolución pinchando


Imágenes del menú superior y posteriormente eligiendo la opción
Corregir resolución.

24
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Posteriormente elegiremos la resolución a la que dejaremos las


imágenes 300 b/n o 150 escala de grises y color

Convertir un fichero en color o escala de grises a blanco y negro

Abby también nos permite convertir imágenes en color y escala de grises a b/n
siguiendo los siguientes pasos:

1) Con una imagen abierta pincharemos en Herramientas del Menú


superior y posteriormente elegiremos Opciones… y en la interface de
Opciones seleccionaremos Opciones adicionales que dará la
posibilidad de pinchar en Convertir imágenes en color y gris a blanco y
negro

25
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Con esta opción señalada todas las imágenes que se puedan digitalizar
o abrir se convertirán a blanco y negro. OJO Es conveniente desactivar
esta opción una vez la utilicemos para cada caso.

2) Otra forma seria abrir las imágenes con Abby Finereader y antes o
después del OCR, guardar las páginas como PDF configurando el
formato.

Pincharemos en Configuración de formato…

26
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Aquí elegiremos la pestaña PDF


-Modo de guardado: Texto bajo imagenes (ocr) o solo imágenes de
páginas (sin ocr)
-Calidad: alta para impresión
-Formato: CCITT, blanco y negro (esto hará que el fichero de guardado
este en blanco y negro.

27
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

28
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

6 CARACTERÍSTICAS DE LOS PDF

6.1 Marca de agua


6.2 Configuración de visualización
6.3 Marcadores
6.4 Seguridad de los ficheros pdf

6.1. Marca de agua


La marca de agua se pondrá en los documentos para difusión: Digitool, PI, etc.,
no para las copias de conservación.

Las imágenes llevarán, en el margen inferior central de la página, el logo de la


Biblioteca Universitaria de la UPM y el de la Escuela propietaria de las mismas,
según se indica en la figura. Dicha marca no deberá estorbar la visualización
del contenido de la página.

29
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Para poner la marca pincharemos en Documento- Agregar marca de agua y


fondo.

En la siguiente pantalla que nos despliega:

Activaremos los siguientes apartados:


Tipo: Seleccionaremos Agregar una marca de agua (se muestra encima
de la página). Mostrar al ver en pantalla y Mostrar al imprimir.
Origen: Activaremos la opción Archivo para buscar en nuestro archivo
la marca que tengamos guardada para poner.

30
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Posición y aspecto: Podremos indicar la disposición del logo en la


pagina: centrándolo o desplazándolo hacia el lado que queramos. Irá
centrado y en el pie de página.
Aspecto: La Escala la dejaremos al 100% a no ser que el tamaño del
libro sea pequeño y se vea demasiado, entonces lo podremos reducir
hasta 50% o menos. Seleccionaremos también Evitar cambio de tamaño
o de posición al imprimir. En Opacidad podemos indicar con el cursor el
grado de opacidad que queramos darle a la marca de agua. Como
norma general usaremos una opacidad de 50%.

6.2 Configuración de visualización


Configuración de visualización. Al abrir el pdf se configurará éste con la
portada del libro como primera página, ajustándose la página del pdf a la
pantalla. También podrá configurarse a la izda el despliegue de los
marcadores del libro, solo si los tuviera

1. (Archivo>Propiedades Documentos>Vista inicial>Ampliación>Ajustar a


página)
2. (Archivo>Propiedades Documentos>Vista inicial>Ficha de
navegación>Ajustar a página>(Página solamente o Página y Panel de
marcadores)

Si el libro conserva una encuadernación valiosa o que nos parezca importante


destacar podremos incluirla en el pdf.

6.3 Seguridad de los ficheros pdf (Revisar para Digitool – Con seguridad no
permite miniaturas)

31
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Los ficheros para Digitool (Colección Digital Politécnica) no deben llevar


protección para que se pueda extraer el ocr y se puedan hacer las miniaturas.

Si los ficheros son para el Archivo Digital UPM la seguridad no permitirá que se
pueda modificar el pdf, pero si se pueda imprimir, copiar, etc.

32
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

7 DIFUSION DEL FONDO DIGITAL

7.1 Visualización de los documentos en Digitool y catálogo UPM


7.2 Enlaces a otros documentos de otras instituciones

7.1 Visualización de los documentos en Digitool y catálogo UPM

Dichas imágenes se visualizarán a través del catalogo bibliográfico de la


UPM, por el enlace que se efectúe en el registro bibliográfico ( campo 856),
así como a través del acceso directo al la Colección Digital Politécnica -
Digitool.

Algunas bibliotecas, como la de Minas o Topografía hacen un enlace al


libro pero digitalizando únicamente la portada del libro, o la portada y los
índices, lo que a veces da lugar a equívocos al no poder indicarse que no
se accede al libro completo.
En estos casos debería indicarse muy claramente que solo se hace el
enlace a la portada y no al libro completo.
Ejemplo:

856:uhttp://www.topografia.upm.es/servicios/biblioteca/fondoantiguo/galileodis.gif|zPortada

7.2. Enlaces a otros documentos de otras instituciones

PENDIENTE DE RESOLVER

33
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

CUADRO DE DIGITALIZACION
Conservación Difusión Internet
Resolución Profundidad Formato Resolución Profundidad Formato
Tiff Grupo IV
PDF con OCR
300/400 ppp Blanco/Negro Tiff JBIG2 Sin 300 ppp Blanco/Negro
*Material Fondo moderno Perdida. Usar
Impreso Texto preferiblemente
JPG
(hasta dinA3) JBIG2
PDF
(compresión
400 ppp Escala de grises Escala de grises
jpg)
Fondo antiguo Tiff LZW 150 ppp
*Usaremos casi siempre la Escala de grises en el Fondo Antiguo pues escaneando en Blanco/Negro no se recogen todos los
detalles de este tipo de fondo al estar la tipografía bastante deteriorada.
PDF con OCR
*Material Blanco/Negro Tiff Grupo IV 300 ppp Blanco/Negro
300/400 ppp
Impreso Texto + Tiff JBIG2 Sin
Fondo moderno
imagen en Perdida
JPG
blanco/negro
PDF
(hasta dinA3)
400 ppp (compresión
Escala de grises Tiff LZW 150 ppp Escala de grises
Fondo antiguo jpg)
Texto +
JPG
Imágenes en
Tiff LZW PDF
grises 400 ppp Escala de grises 150 ppp Escala de grises
(compresión
(hasta dinA3)
jpg)

Texto + JPG
Imágenes en Color de 24 bits Color de 24 bits PDF
400 ppp Tiff LZW 150 ppp
color RGB RGB (compresión
(hasta dinA3) jpg)

34
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

JPG
Texto 300 ppp Escala de PDF
Tiff LZW 150 ppp Escala de grises
(superior dinA3) grises (compresión
jpg)
Conservación Difusión Internet
Resolución Profundidad Formato Resolución Profundidad Formato
Texto + JPG
Imágenes en PDF
300 ppp Escala de grises Tiff LZW 150 ppp Escala de grises
grises (compresión
(superior dinA3) jpg)
Texto + JPG
Imágenes en Color de 24 bits Color de 24 bits PDF
300 ppp Tiff LZW 150 ppp
color RGB RGB (compresión
(superior dinA3) jpg)
JPG
Manuscritos PDF
400 ppp Escala de grises TIFF LZW 150 ppp Escala de grises
(hasta dinA3) (compresión
Jpg)
JPG
Manuscritos Color de 24 Color de 24 PDF
400 ppp TIFF LZW 150 ppp
(hasta dinA3) Bits RGB Bits RGB (compresión
jpg)
JPG
Manuscritos PDF
300 ppp Escala de grises TIFF LZW 150 ppp Escala de grises
(superior dinA3) (compresión
Jpg)
JPG
Manuscritos Color de 24 Color de 24 PDF
300 ppp TIFF LZW 150 ppp
(superior dinA3) Bits RGB Bits RGB (compresión jpg)

35
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

Fotografias, JPG
Escala grises Escala grises
carteles, mapas, PDF
400 ppp Color 24 bits TIFF LZW 150 ppp Color 24 bits
planos, dibujos (compresión
RGB RGB
(hasta dinA3) jpg)

En el caso de Libros con fuentes pequeñas, Planos o Mapas de cualquier tamaño puede ser necesario que la copia de Difusión
tenga que estar a 200 ppp de resolución para poder leer su texto al usar unas fuentes muy pequeñas
Conservación Difusión Internet
Resolución Profundidad Formato Resolución Profundidad Formato
Fotografías,
JPG
carteles, mapas, Escala grises Escala grises
PDF
planos, dibujos 300 ppp Color de 24 bits TIFF LZW 150 ppp Color de 24 bits
(compresión
(superior dinA3) RGB RGB
jpg)

Fotografía,
Escala grises JPG
negativos Escala grises
Color de 24 bits PDF
Diapositivas 2600 ppp TIFF LZW 1000 ppp Color de 24 bits
RGB (compresión
color y B/N RGB
jpg)
(35 mm)
Fotografia,
JPG
negativos, Escala grises Escala grises
PDF
diapositivas 1800 ppp Color de 24 bits TIFF LZW 600 ppp Color de 24 bits
(compresión
color y B/N RGB RGB
jpg)
(6x6 cm)
JPG
Placas de vidrio
1200 ppp Escala grises TIFF LZW 400 ppp Escala de grises PDF
(9x12 cm)
(compresión jpg)
Ejemplo Conservación: Página de libro digitalizado a 400 ppp en color tif compresión lzw para conservación
http://oa.upm.es/digi/00006_400ppp_color_lzw.tif. La misma pagina para difusión: convertida a 300 ppp en blanco y negro pdf

36
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

compresión JBIG2 sin perdida http://oa.upm.es/digi/00006_300ppp_blanco-negro_jbig2.pdf

Ejemplo Difusión: Libro en pdf: Un solo fichero 300 ppp b/n compresión JBIG2 sin perdida. Se generado a partir de los ficheros de
conservación digitalizados en 400 ppp color http://digitool-
upm.greendata.es:1801/webclient/DeliveryManager?pid=412305&custom_att_2=simple_viewer

Ejemplo Difusión: Libro dividido en dos ficheros: 1) Texto : 300 b/n pdf multipagina compresión JBIG2 2) Láminas: 200 gris pdf
compresión jpg http://digitool-upm.greendata.es:1801/webclient/DeliveryManager?pid=412084&custom_att_2=simple_viewer El
Texto tiene limpiado el fondo y las laminas no

37
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

RESUMEN IMÁGENES PARA LA COLECCIÓN DIGITAL POLITECNICA -DIGITOOL

a) Libros o documentos de texto: Su difusión será en PDF multipagina con OCR (ABBYFINE READER) siempre que su tamaño no
supere los 15 Megas. Si el fichero supera los 15 megas, se partirá el pdf en dos, tres o cuatro archivos, para facilitar la descarga
desde Digitool (Colección Digital Politécnica).

Puede estar formado por :


o Todo o parte de imágenes en b/n a 300 compresión G IV o JBIG2 sin perdida. Siempre que se pueda usaremos JBIG2
o Todo o parte de Imágenes en gris o color a 150 ppp compresión jpg

Ventajas del pdf multipagina con ocr, permite la búsqueda en texto completo y el usuario se puede descargar el
documento entero fácilmente.

Si es fondo antiguo que ha sido escaneado en color o gris a 400 puntos y ocupa mucho en pdf multipágina tenemos dos
opciones:

o Podemos convertir las imágenes a blanco y negro de 300 ppp y dejar las partes de gráficos, fotos, en color y gris a
150 ppp. AbbyFine permite convertir todo un documento a Blanco / Negro y bajar la resolución del mismo.
PhotoShop también permite cambiar la resolución y profundidad de pixel.
o Podemos dejar las imágenes en escala de grises o color bajando la resolución a 150 pppl y guardar dichas imágenes
pdf multipágina con el OCR. Si las depositamos en pdf con ocr permitirá la búsqueda a texto completo.

Fotografías, planos, mapas, etc (documentos que tienen imágenes (no textuales):

Normalmente se escanearan en escala de grises o color a 400 ppp dado que son imágenes, aunque a veces planos, etc se
podrían escanear en blanco y negro al estar a dos tintas.

o La difusión de las imágenes en escala de grises o color se hará en formato jpg o pdf monopágina a una resolución
de 150 ppp. Algunos mapas y planos se podrian dejar a 200 ppp si fuera necesaria, para facilitar su consulta al tener
texto con fuentes muy pequeñas.
o La difusión de las imágenes en blanco y negro se hará en pdf o tif a 300 ppp.

38
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01

* USAR SIEMPRE LA OPTIMIZACION DEL ACROBAT PROFESIONAL PARA BAJAR RESOLUCIONES Y DAR EL TIPO DE COMPRESIÓN ADECUADA AL
FICHERO PDF.
* EN EL CASO DE LIBROS CON FUENTES PEQUEÑAS, PLANOS O MAPAS DE CUALQUIER TAMAÑO PUEDE SER NECESARIO QUE LA COPIA DE DIFUSIÓN
TENGA QUE ESTAR A 200 PPP DE RESOLUCIÓN PARA PODER LEER SU TEXTO AL USAR UNAS FUENTES MUY PEQUEÑAS
*SI EL PDF RESULTANTE ES DEMASIADO GRANDE (MAS DE 15 MEGAS), ES NECESARIO DIVIDIR EL FICHERO EN VARIAS PARTES PARA PODERLOS USAR
EN DIGITOOL.

39

También podría gustarte