Documentos de Académico
Documentos de Profesional
Documentos de Cultura
01
DIGITALIZACIÓN
DE
DOCUMENTOS
Versión 1.1
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Autores:
http://creativecommons.org/licenses/by-nc-sa/3.0/es
2
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V.01
1. INTRODUCCIÓN
4. 4. ARCHIVOS GENERADOS
4.1 Fichero de conservación, Fichero Retocado y Fichero de visualización
4.2 OCR. Reconocimiento óptico de caracteres
4.3 Control de imágenes
4.4 Almacenamiento de las imágenes
CUADRO DE DIGITALIZACIÓN
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
4
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
1. INTRODUCCIÓN
La idea es digitalizar una sola vez los fondos consiguiendo una copia de alta
calidad para conservación tal como sale del escáner. A partir de esta imagen
master crearemos otra copia tratada de alta calidad , que nos servirá para
obtener las copias para difusión: Colección Digital Politécnica, Préstamo
Interbibliotecario, etc.
Los documentos modernos pueden contener solo texto, texto más imágenes-
gráficos en color, imágenes-gráficos en color. Esto determinará cómo
digitalizaremos cada una de estas páginas.
o Conservación
La cuestión clave será determinar el nivel de resolución suficiente
para capturar todos los detalles significativos del documento
original.
5
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
o Difusión-visualización:
Documento de
Acrobat
6
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
• Tiff (conservación)
7
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
• PDF (difusión-visualización)
Documento de
Acrobat
8
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
• Jpg
9
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Estos tamaños no siempre se ajustna al tamaño de los documentos, sobre todo en libros de
fondo antiguo.
10
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
• Resolución
Como norma general para nuestro fondo histórico se escanearan los libros
en color o escala de grises, según las características del documento
original.
(Los libros impresos que presentan un fondo blanco y una clara tipografía se
pueden escanear en blanco y negro, pero cuando la tipografía no es de
calidad suficiente pudiendo perderse algunos trazos, o hay manchas de
11
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
• Formato
• Tiff (conservación)
Es el formato más adecuado cuando se requiere la máxima calidad. Se
trata de un formato estándar y de uso libre, y es el más utilizado como
archivo de conservación.
Es importante tener en cuenta que aunque el software nos permitirá
siempre convertir unos formatos a otros, en algunos casos pueden
producirse pérdidas por lo que es mejor siempre guardar el archivo de
imagen generado por el escáner en el formato más adecuado. El más
apropiado para guardarlas es el formato tiff ya que es un formato que
no tiene pérdida, su ratio de compresión puede ser alto y ofrece mayor
fiabilidad .
Inconveniente: elevado archivo que genera, por eso se recomienda su
utilización con compresión LZW.
• Jpg (difusión-visualización)
Jpg permite distintos grados de compresión, pero hay que tener en
cuenta que ésta tendrá siempre pérdidas; es un estándar muy
extendido y mantiene una calidad muy buena.
En este punto sin embargo parece importante establecer la siguiente
reflexión: un documento de tamaño DIN A4, en formato tiff sin comprimir
ocupa 25 MB, y en formato jpg comprimido ocupa 1,3 MB y sin embargo
es difícil distinguirlos visualmente.
• Pdf (difusión-visualización)
Es un formato de visualización que adopta las características -
resolución, definición, compresión- del formato original (jpg, tiff, gif, etc.)
Pdf es perfecto para imprimir y crear documentos secuenciales con
múltiples páginas múltiples.
12
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V.01
4. ARCHIVOS GENERADOS
Ej. Serlio_1625_03_2324
Artedeconstruir_1650_03_324
El formato pdf con OCR (pdf texto bajo imagen) permite, entre otras
cosas, la búsqueda a texto completo en Digitool, crear documentos
que reproducen fielmente la secuencia de páginas del original; también
permite diferentes grados de ampliación, así como leer e imprimir los
documentos en su totalidad o página a página, con el tamaño y
calidad que suministre la impresora y dar seguridad para la no
modificación del fichero, etc.
14
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Ej. Serlio_1625_03_2324.pdf
Ej. Serlio_1625_03_2324.pdf
15
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Los diferentes archivos (tiff, jpg, pdf) generados por cada libro se
archivaran en un DVD.
Como medida de conservación es conveniente la creación de dos copias
guardadas en zonas físicas diferentes, por lo que bien podría hacerse una
copia en un CD o DVD y la otra en un disco duro externo.
16
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
1) Acrobat Professional:
17
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Para pasar el PDF a una resolución de 150 ppp abrimos el archivo Pdf
con el Acrobat Professional y seguiremos los siguientes pasos:
Avanzadas – Optimización PDF -
18
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
2) Adobe Photoshop
19
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
20
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
21
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
22
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
23
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
3) AbbyFine Reader:
Crearemos un fichero pdf con OCR partiendo de los archivos tif que
tengamos.
Abrimos las imágenes tiff, jpg, etc. que tenemos pinchando en el icono
siguiente, o pueden ser la procedentes del escaneo, si lo hacemos con
el Abby:
24
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Abby también nos permite convertir imágenes en color y escala de grises a b/n
siguiendo los siguientes pasos:
25
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Con esta opción señalada todas las imágenes que se puedan digitalizar
o abrir se convertirán a blanco y negro. OJO Es conveniente desactivar
esta opción una vez la utilicemos para cada caso.
2) Otra forma seria abrir las imágenes con Abby Finereader y antes o
después del OCR, guardar las páginas como PDF configurando el
formato.
26
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
27
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
28
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
29
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
30
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
6.3 Seguridad de los ficheros pdf (Revisar para Digitool – Con seguridad no
permite miniaturas)
31
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Si los ficheros son para el Archivo Digital UPM la seguridad no permitirá que se
pueda modificar el pdf, pero si se pueda imprimir, copiar, etc.
32
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
856:uhttp://www.topografia.upm.es/servicios/biblioteca/fondoantiguo/galileodis.gif|zPortada
PENDIENTE DE RESOLVER
33
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
CUADRO DE DIGITALIZACION
Conservación Difusión Internet
Resolución Profundidad Formato Resolución Profundidad Formato
Tiff Grupo IV
PDF con OCR
300/400 ppp Blanco/Negro Tiff JBIG2 Sin 300 ppp Blanco/Negro
*Material Fondo moderno Perdida. Usar
Impreso Texto preferiblemente
JPG
(hasta dinA3) JBIG2
PDF
(compresión
400 ppp Escala de grises Escala de grises
jpg)
Fondo antiguo Tiff LZW 150 ppp
*Usaremos casi siempre la Escala de grises en el Fondo Antiguo pues escaneando en Blanco/Negro no se recogen todos los
detalles de este tipo de fondo al estar la tipografía bastante deteriorada.
PDF con OCR
*Material Blanco/Negro Tiff Grupo IV 300 ppp Blanco/Negro
300/400 ppp
Impreso Texto + Tiff JBIG2 Sin
Fondo moderno
imagen en Perdida
JPG
blanco/negro
PDF
(hasta dinA3)
400 ppp (compresión
Escala de grises Tiff LZW 150 ppp Escala de grises
Fondo antiguo jpg)
Texto +
JPG
Imágenes en
Tiff LZW PDF
grises 400 ppp Escala de grises 150 ppp Escala de grises
(compresión
(hasta dinA3)
jpg)
Texto + JPG
Imágenes en Color de 24 bits Color de 24 bits PDF
400 ppp Tiff LZW 150 ppp
color RGB RGB (compresión
(hasta dinA3) jpg)
34
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
JPG
Texto 300 ppp Escala de PDF
Tiff LZW 150 ppp Escala de grises
(superior dinA3) grises (compresión
jpg)
Conservación Difusión Internet
Resolución Profundidad Formato Resolución Profundidad Formato
Texto + JPG
Imágenes en PDF
300 ppp Escala de grises Tiff LZW 150 ppp Escala de grises
grises (compresión
(superior dinA3) jpg)
Texto + JPG
Imágenes en Color de 24 bits Color de 24 bits PDF
300 ppp Tiff LZW 150 ppp
color RGB RGB (compresión
(superior dinA3) jpg)
JPG
Manuscritos PDF
400 ppp Escala de grises TIFF LZW 150 ppp Escala de grises
(hasta dinA3) (compresión
Jpg)
JPG
Manuscritos Color de 24 Color de 24 PDF
400 ppp TIFF LZW 150 ppp
(hasta dinA3) Bits RGB Bits RGB (compresión
jpg)
JPG
Manuscritos PDF
300 ppp Escala de grises TIFF LZW 150 ppp Escala de grises
(superior dinA3) (compresión
Jpg)
JPG
Manuscritos Color de 24 Color de 24 PDF
300 ppp TIFF LZW 150 ppp
(superior dinA3) Bits RGB Bits RGB (compresión jpg)
35
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Fotografias, JPG
Escala grises Escala grises
carteles, mapas, PDF
400 ppp Color 24 bits TIFF LZW 150 ppp Color 24 bits
planos, dibujos (compresión
RGB RGB
(hasta dinA3) jpg)
En el caso de Libros con fuentes pequeñas, Planos o Mapas de cualquier tamaño puede ser necesario que la copia de Difusión
tenga que estar a 200 ppp de resolución para poder leer su texto al usar unas fuentes muy pequeñas
Conservación Difusión Internet
Resolución Profundidad Formato Resolución Profundidad Formato
Fotografías,
JPG
carteles, mapas, Escala grises Escala grises
PDF
planos, dibujos 300 ppp Color de 24 bits TIFF LZW 150 ppp Color de 24 bits
(compresión
(superior dinA3) RGB RGB
jpg)
Fotografía,
Escala grises JPG
negativos Escala grises
Color de 24 bits PDF
Diapositivas 2600 ppp TIFF LZW 1000 ppp Color de 24 bits
RGB (compresión
color y B/N RGB
jpg)
(35 mm)
Fotografia,
JPG
negativos, Escala grises Escala grises
PDF
diapositivas 1800 ppp Color de 24 bits TIFF LZW 600 ppp Color de 24 bits
(compresión
color y B/N RGB RGB
jpg)
(6x6 cm)
JPG
Placas de vidrio
1200 ppp Escala grises TIFF LZW 400 ppp Escala de grises PDF
(9x12 cm)
(compresión jpg)
Ejemplo Conservación: Página de libro digitalizado a 400 ppp en color tif compresión lzw para conservación
http://oa.upm.es/digi/00006_400ppp_color_lzw.tif. La misma pagina para difusión: convertida a 300 ppp en blanco y negro pdf
36
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
Ejemplo Difusión: Libro en pdf: Un solo fichero 300 ppp b/n compresión JBIG2 sin perdida. Se generado a partir de los ficheros de
conservación digitalizados en 400 ppp color http://digitool-
upm.greendata.es:1801/webclient/DeliveryManager?pid=412305&custom_att_2=simple_viewer
Ejemplo Difusión: Libro dividido en dos ficheros: 1) Texto : 300 b/n pdf multipagina compresión JBIG2 2) Láminas: 200 gris pdf
compresión jpg http://digitool-upm.greendata.es:1801/webclient/DeliveryManager?pid=412084&custom_att_2=simple_viewer El
Texto tiene limpiado el fondo y las laminas no
37
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
a) Libros o documentos de texto: Su difusión será en PDF multipagina con OCR (ABBYFINE READER) siempre que su tamaño no
supere los 15 Megas. Si el fichero supera los 15 megas, se partirá el pdf en dos, tres o cuatro archivos, para facilitar la descarga
desde Digitool (Colección Digital Politécnica).
Ventajas del pdf multipagina con ocr, permite la búsqueda en texto completo y el usuario se puede descargar el
documento entero fácilmente.
Si es fondo antiguo que ha sido escaneado en color o gris a 400 puntos y ocupa mucho en pdf multipágina tenemos dos
opciones:
o Podemos convertir las imágenes a blanco y negro de 300 ppp y dejar las partes de gráficos, fotos, en color y gris a
150 ppp. AbbyFine permite convertir todo un documento a Blanco / Negro y bajar la resolución del mismo.
PhotoShop también permite cambiar la resolución y profundidad de pixel.
o Podemos dejar las imágenes en escala de grises o color bajando la resolución a 150 pppl y guardar dichas imágenes
pdf multipágina con el OCR. Si las depositamos en pdf con ocr permitirá la búsqueda a texto completo.
Fotografías, planos, mapas, etc (documentos que tienen imágenes (no textuales):
Normalmente se escanearan en escala de grises o color a 400 ppp dado que son imágenes, aunque a veces planos, etc se
podrían escanear en blanco y negro al estar a dos tintas.
o La difusión de las imágenes en escala de grises o color se hará en formato jpg o pdf monopágina a una resolución
de 150 ppp. Algunos mapas y planos se podrian dejar a 200 ppp si fuera necesaria, para facilitar su consulta al tener
texto con fuentes muy pequeñas.
o La difusión de las imágenes en blanco y negro se hará en pdf o tif a 300 ppp.
38
DIGITALIZACIÓN DE DOCUMENTOS EN LA UPM 2009- V01
* USAR SIEMPRE LA OPTIMIZACION DEL ACROBAT PROFESIONAL PARA BAJAR RESOLUCIONES Y DAR EL TIPO DE COMPRESIÓN ADECUADA AL
FICHERO PDF.
* EN EL CASO DE LIBROS CON FUENTES PEQUEÑAS, PLANOS O MAPAS DE CUALQUIER TAMAÑO PUEDE SER NECESARIO QUE LA COPIA DE DIFUSIÓN
TENGA QUE ESTAR A 200 PPP DE RESOLUCIÓN PARA PODER LEER SU TEXTO AL USAR UNAS FUENTES MUY PEQUEÑAS
*SI EL PDF RESULTANTE ES DEMASIADO GRANDE (MAS DE 15 MEGAS), ES NECESARIO DIVIDIR EL FICHERO EN VARIAS PARTES PARA PODERLOS USAR
EN DIGITOOL.
39