Está en la página 1de 24

2. Texto.

2.1. INTRODUCCIÓN.

2.2. ESTÁNDARES DE TEXTO.


2.2.1 ASCII ( American Standard Code for Information Interchange).
Interchange).
2.2.2 Unicode.
Unicode.
2.2.3 RTF ( Rich Text Format).
Format).
2.2.4 Adobe PostScript.
2.2.5 Adobe PDF.
2.2.6 PostScript vs PDF

2.3. ESTÁNDARES ORIENTADOS A CONTENIDOS WEB


2.3.1. SGML (Standard Generalized Markup Language).
Language).
2.3.2. HTML ( HyperText Markup Language).
Language).
2.3.2.1. PDF vs HTML.
2.3.3. XML ( eXtensible Markup Language).
Language).

2.4. OTROS ESTÁNDARES

2.5. ASPECTOS TECNOLÓGICOS RELATIVOS AL TEXTO.


Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 1

2.1.- Introducción

z ENTRE LAS DISTINTAS FUENTES DE INFORMACIÓN DE LOS


SISTEMAS MULTIMEDIA, EL TEXTO ES EL MEDIO BÁSICO,
TANTO POR SU VETERANÍA CÓMO POR SU USO
GENERALIZADO.

z EN ESTE TEMA VEREMOS LAS DISTINTAS FORMAS DE


REPRESENTAR ESTE MEDIO, EMPEZANDO POR LAS MÁS
SIMPLES E INTRODUCIENDO FORMAS, CADA VEZ MÁS
COMPLEJAS, DE DESCRIPCIÓN DE DOCUMENTOS BASADOS EN
TEXTO, HASTA LLEGAR A LO QUE PODRÍAMOS CONSIDERAR
LENGUAJES DE DESCRIPCIÓN DE DOCUMENTOS MULTIMEDIA.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 2

1
2.2.- Estándares

z (en nuestro contexto) Conjunto de normas que


establecen una forma mayoritariamente aceptada y
adoptada de representar informació
información

z Tambié
También puede ser por imposició
imposición

z Importancia para el usuario/ desarrollador informá


informático:
– Simplicidad
– Uniformidad
– Compatibilidad

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 3

2.2.- Tipos de estándares


z Los está
estándares se pueden clasificar en:
– “de facto”
facto” (“de hecho”
hecho”): aquellos que se han impuesto, sin ninguna definició
definición
formal, sino mámás bien por su éxito en determinado sector (ej: plataforma PC o
PDF). Suelen ser propietarios.
– “de jure”
jure” (“por ley”
ley”): aquellos que han sido desarrollados por organismos
oficialmente reconocidos. Existen instituciones dedicadas a estas
estas labores como:
z ANSI (American National Standards Institute)
Institute)
z ITU (International Telecommunication Union)
Union)
z IEEE (Institute of Electrical and Electronic Engineers)
Engineers)
z ISO (International Standards Organization)
Organization)
z VESA (Video Electronics Standards Association)
Association)
z AENOR (Asociació
(Asociación Españ
Española de Normalizació
Normalización).

z Está
Estándares abiertos / invariables

z Está
Estándares en creació
creación digital
– Coste de creació
creación y tiempo de vida
– Longevidad
– Portabilidad
– Rentabilidad de recursos

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 4

2
Conjuntos de caracteres

z ASCII

z UNICODE

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 5

ASCII (American Standard Code for


Information Interchange) (I).

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 6

3
ASCII (American Standard Code for
Information Interchange) (II).

z CÓDIGOS EXTENDIDOS 8 BITS: LETRAS, SIMBOLOS,


OPERADORES (EJ. ASCII extendido)

z ISO LATIN 1, UTILIZADO POR DIFERENTES


SISTEMAS OPERATIVOS Y SERVICIOS DE WEB
(navegadores, protocolos y lenguajes). OFICIALMENTE
SE LE DENOMINA ISO-ISO-8859-
8859-1.

z OTRO CONJUNTO UTILIZADO EN LOS GRANDES


SISTEMAS DE IBM ES EL EBCDIC (Extended Binary-
Binary-
Coded Decimal Interchange Code).
Code).
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 7

Unicode (I).

z CÓDIGO DE CARACTERES DE 16 BITS DISEÑADO PARA


CODIFICAR TEXTO EN SU UTILIZACIÓN POR PARTE DE
SISTEMAS BASADOS EN COMPUTADORES.

z SIMPLICIDAD Y CONSISTENCIA DEL CONJUNTO DE CÓDIGOS


ASCII (en particular la versión ampliada ISO Latin-
Latin-1 y otras
versiones ampliadas del mismo)

z CUBRE TODOS LOS CARACTERES QUE SE UTILIZAN EN


TODAS LAS LETRAS ESCRITAS DEL MUNDO.

z CÓDIGOS ASOCIADOS A LOS PRINCIPALES ALFABETOS


UTILIZADOS HOY EN DÍA: LATÍN, CIRÍLICO (USADO EN
LENGUAS CÓMO EL RUSO, GRIEGO, HEBRERO Y ARÁBIGO),
JAPONÉS, COREANO Y CHINO.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 8

4
Unicode (II).

z TAMBIÉN INCLUYE CONJUNTOS DE SÍMBOLOS: SIGNOS DE


PUNTUACIÓN, MATEMÁTICOS, TÉCNICOS, FLECHAS, ETC.

z ACTUALMENTE QUEDAN, APROXIMADAMENTE, UNOS 29.000


CÓDIGOS LIBRES

z PREVISTOS 3600 NUEVOS CARACTERES ORIENTALES


(Unicode e ISO 10646)

z PARA USO PRIVADO SE HAN RESERVADO 6.000 CÓDIGOS


QUE DESARROLLADORES HARDWARE Y SOFTWARE PUEDEN
ASIGNAR INTERNAMENTE PARA SUS PROPIOS CARACTERES
Y SÍMBOLOS.
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 9

Estándares de texto formateado

z RTF

z POSTSCRIPT

z PDF

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 10

5
RTF (Rich Text Format)

z ES UN ESTÁNDAR DE CODIFICACIÓN DE TEXTO Y GRÁFICOS CON


FORMATO CUYO OBJETIVO ES FACILITAR LA TRANSFERENCIA ENTRE
APLICACIONES Y PLATAFORMAS DESARROLLADO POR MICROSOFT.

z PUEDE SER UTILIZADO POR DIFERENTES DISPOSITIVOS DE SALIDA,


ENTORNOS Y SISTEMAS OPERATIVOS.

z CONJUNTO DE CARACTERES ANSI (PC-


(PC-8 de Macintosh o IBM) PARA
CODIFICAR EL CONTENIDO Y FORMATO DE UN DOCUMENTO, TANTO
EN PANTALLA COMO PARA SU IMPRESIÓN EN PAPEL.

z ELEMENTOS DE UN ARCHIVO RTF


– Texto sin formato : ASCII
– Códigos de control “\“\secuencia_letras_alfabéticas <Delimitador>”
– Símbolos de control “\“\+1carácter no alfabético”
– Grupos “{ textos|códigos de control|símbolos de control}*”

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 11

Sintaxis de RTF (I).


z EL INTERIOR DE UN ARCHIVO EN FORMATO RTF CONSISTE EN UNA
SERIE DE CÓDIGOS ORGANIZADOS DE LA FORMA:

{<header
{<header><
><document
document>
>}

– Encabezado (header
(header):): Contiene elementos como la versión de RTF, conjunto de
caracteres, tablas de fuentes, fuentes contenidas (Embedding
(Embedding), ), soporte de
códigos de página, tablas de ficheros, tablas de color, definición
definición de estilos y
marcas de revisión.

<header>:
header>: |rtf <charset>
charset> | deff?
deff?<fonttbl><
fonttbl><filetbl
filetbl>?<
>?<colortbl
colortbl>?<
>?<stylesheet
stylesheet>?<
>?<revtbl
revtbl>?
>?

z Conjunto de caracteres:
caracteres: incluye Windows ANSI, IBM PC, IBM 850 y Macintosh.
z Tabla de fuentes (fonts
(fonts)): incluye una lista de las fuentes utilizadas en el documento.
Éstas son mapeadas sobre las fuentes disponibles en la aplicación recipiendaria.
z Tabla de colores:
colores: incluye una lista de los colores utilizados en el documento parapara
remarcar el texto.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 12

6
Sintaxis de RTF (II).
– Área de Documento (document
(document):): donde se encuentra la codificación de grupos de
información, propiedades de formato del documento, texto y propiedades
propiedades de la
sección, cabeceras y pies de página, párrafos y propiedades, sangrías,
sangrías, listas,
bordes y sombras de párrafos, posición de objetos y marcos, tablas,
tablas, caracteres y
propiedades de los mismos, etc.

<document>:
document>: <info
<info>?
>? <docfmt
<docfmt>*
>* <section
<section>+
>+

z Formato del documento:


documento: márgenes e indentación de párrafos con relación a los
márgenes.
z Formato de secciones:
secciones: saltos de sección y saltos de página.
z Formato de párrafos:
párrafos: caracteres de control para justificación de párrafos, posición de
tabuladores, indentación y espaciado entre párrafos.
z Formato general:
general: incluye notas al pie de página, anotaciones, marcas y dibujos.
z Formato de caracteres:
caracteres: negrita, itálica, subrayado, sombreado y outline,
outline, subíndices y
superíndices.
z Caracteres especiales:
especiales: backslashes,
backslashes, etc.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 13

Adobe PostScript (I).

z ¿FORMATO DE TEXTO O LENGUAJE DE PROGRAMACIÓN?

z IMPRESIONES DE GRAN CALIDAD y FIABILIDAD EN EDICIÓN


PROFESIONAL

z SOPORTADO POR IMPRESORAS, MONITORES, PRENSAS


DIGITALES.

z CARÁCTER VECTORIAL. PÁGINAS COMO UNA SERIE DE


OBJETOS GEOMÉTRICOS ABSTRACTOS.

z LOS TIPOS DE LETRA POSTSCRIPT DEFINEN EL CONTORNO


(outline) DE CADA CARÁCTER.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 14

7
Adobe PostScript (II).

z IMPRESORAS NO POSTSCRIPT Î MAPAS DE BITS

z CADA IMPRESORA PS CONTIENE UN INTÉRPRETE


QUE EJECUTA LAS ÓRDENES PS (driver).

z EXISTEN TRES VERSIONES BÁSICAS DE


POSTSCRIPT: Level 1, Level 2 (mejor para color) y
PostScript 3 (más fuentes, mejores gráficos, aceleración).

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 15

Adobe PDF (I)

z ALGUNOS PROBLEMAS COMUNES SON LOS SIGUIENTES


– INDISPONIBILIDAD DE APLICACIONES ORIGINARIAS.
– INCOMPATIBILIDADES DE FORMATO y VERSIONES.
– IMPRESIÓN INCORRECTA.

z ESTÁNDAR DE FACTO EN LA DISTRIBUCIÓN DE DOCUMENTOS


ELECTRÓNICOS

z PRESERVA TODAS LAS FUENTES, EL FORMATO, LOS COLORES Y


LOS GRÁFICOS (además de hipervínculos y controles ActiveX) DE
CUALQUIER DOCUMENTO FUENTE, SIN QUE IMPORTE LA
APLICACIÓN NI LA PLATAFORMA USADAS EN SU CREACIÓN.

z BASADO EN EL LENGUAJE PS Y CÓMO ESTE, DESCRIBE LOS TIPOS


DE LETRA, IMÁGENES Y OTROS ELEMENTOS DE UNA PÁGINA COMO
UNA SERIE DE OBJETOS Y RELACIONES MATEMÁTICAS.
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 16

8
Adobe PDF (II)

z LAS FUENTES DE CARACTERES SE CODIFICAN CÓMO


DESCRIPCIONES MATEMÁTICAS DE LÍNEAS, CURVAS Y DISTANCIAS
ENTRE CONJUNTOS DE PUNTOS.
– Ej: EL CARÁCTER V CONSTA FUNDAMENTALMENTE DE TRES
PUNTOS (superior izquierdo, superior derecho y el inferior donde las dos
líneas confluyen). LA DESCRIPCIÓN MATEMÁTICA DESCRIBE LAS
LÍNEAS EXISTENTES ENTRE LOS TRES PUNTOS, LA DISTANCIA
RELATIVA ENTRE ELLOS, EL GROSOR DE LA LÍNEA Y EL TAMAÑO
DEL CARÁCTER.

z PERMITEN VER EN PANTALLA LA FORMA QUE EL DOCUMENTO TOMA


A LA HORA DE SER IMPRESO, POR LO QUE SE DENOMINAN WYSIWYG
(what you see is what you get)

z LOS ARCHIVOS PDF SON COMPACTOS (más pequeños que sus archivos
fuente)

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 17

Adobe PDF (III)

z LOS ARCHIVOS PDF PUEDEN PUBLICARSE Y DISTRIBUIRSE EN


TODAS PARTES: IMPRESOS, ADJUNTOS EN UN MENSAJE DE
CORREO ELECTRÓNICO, EN SERVIDORES CORPORATIVOS, EN
SITIOS WEB O EN CD-ROM.

z CREACIÓN DE DOCUMENTOS
– USANDO CÓDIGOS PS
– CREAR LOS DOCUMENTOS CON OTRAS APLICACIONES Y CONVERTIDOS
A PDF.

z LAS VENTAJAS DE CREAR ARCHIVOS EN OTRAS APLICACIONES Y


CONVERTIRLOS A PDF SON LAS SIGUIENTES:
– ES UN PROCESO RÁPIDO Y SENCILLO.
– EL DOCUMENTO FINAL PDF MANTIENE EL FORMATO DE LA
PÁGINA, LAS FUENTES Y LA CALIDAD DE IMÁGENES DEL
ORIGINAL.
– PERMITE AL USUARIO SEGUIR UTILIZANDO LAS HERRAMIENTAS
QUE LE SON FAMILIARES.
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 18

9
PostScript vs PDF (I)

z POSTSCRIPT ESTÁ DISEÑADO PARA UNA ÚNICA COSA: DESCRIBIR


DE FORMA PRECISA LO QUE DEBE APARECER EN UNA PÁGINA.
– NECESITA SER PROCESADO O EJECUTADO.
– ESTO LO REALIZA UNA COMBINACIÓN DE HARDWARE Y
SOFTWARE (QUÉ TÍPICAMENTE RESIDE EN UNA IMPRESORA) Y
QUE SE LLAMA RIP (RASTER IMAGE PROCESSOR).
– UN RIP TOMA EL CÓDIGO POSTSCRIPT Y LO TRADUCE A
PUNTOS EN UNA PÁGINA.
– TAMBIÉN ES POSIBLE TRABAJAR CON FICHEROS EPS
(ENCAPSULATED POSTSCRIPT) QUE, SIMPLEMENTE, SON UN
PROGRAMA POSTSCRIPT , GUARDADO EN FORMA DE FICHERO
QUE INCLUYE UNA VERSIÓN DE MENOR RESOLUCIÓN
VISUALIZABLE “ENCAPSULADA” EN SU INTERIOR..

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 19

PostScript & PDF (II)

z PDF ESTÁ CONSTRUIDO SOBRE EL LENGUAJE


POSTSCRIPT Y ADEMAS DE DESCRIBIR, RECOGE
INFORMACIÓN ACERCA DEL TIPO DE INFORMACIÓN ESTÁ
CONTENIDA EN EL FICHERO.

z UN ARCHIVO PDF PUEDE CONTENER FUENTES DE


LETRAS, IMÁGENES, INSTRUCCIONES DE IMPRESIÓN,
PALABRAS CLAVE PARA REALIZAR BÚSQUEDAS Y
CATALOGACIONES, MARCADORES, ENLACES
INTERACTIVOS, VIDEOS, MECANISMOS DE PROTECCIÓN,
ETC.

z UN FICHERO PDF ES, REALMENTE, UN FICHERO POSTSCRIPT


QUE YA HA SIDO INTERPRETADO Y DESCOMPUESTO EN
OBJETOS CLARAMENTE DEFINIDOS.
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 20

10
PostScript & PDF (III)

z ESTOS OBJETOS SON VISIBLES EN PANTALLA, NO


CÓMO CÓDIGO, SINO COMO LA APARIENCIA FINAL
DE ESOS OBJETOS.

z PUESTO QUE LOS OBJETOS YA HAN SIDO


INTERPRETADOS, SON MÁS FIABLES QUE UN
ARCHIVO EPS O PS.

z LA VISUALIZACION EN PANTALLA PERMITE


IDENTIFICAR POSIBLES ERRORES EN LA
OPERACIÓN DE IMPRESIÓN.
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 21

PostScript & PDF (IV)


z Para imprimir un fichero PDF, sin embargo, aú
aún hay que reconstruir
los objetos PDF en la pá página y una impresora PostScript sigue
siendo la forma má
más fiable de hacer este proceso.

z Existen impresoras que reconocen el lenguaje PostScript y el PDF.


PDF.

z PDF ha reemplazado a EPS y es utilizado como formato de


distribució
distribución para el enví
envío de publicaciones completas a la imprenta,
comprobació
comprobación de resultados en maquetació
maquetación, distribució
distribución en
Internet y almacenamiento de ficheros puesto que es totalmente
autocontenido.
autocontenido.

z Sin embargo, para imprimir PDF con la mayor calidad se precisa de


de
un dispositivo, al menos compatible, Adobe PostScript para obtener
obtener
una buena calidad.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 22

11
Estándares orientados a contenidos
web

z SGML

z HTML

z XML

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 23

Introducción
z Basados en mark-up (marcado)
– Anotaciones junto al texto original para mejorar la
apariencia
– Permite incluir información (códigos) para el
procesado electrónico
z Marcado original (procedural)
– Especificación detallada de apariencia
– Se pierde la estructura del documento
– Falta de portabilidad y flexibilidad
– Alta tasa de errores

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 24

12
Evolución del marcado
z Codificación genérica
– Uso de etiquetas de estilo
– Mayor portabilidad y flexibilidad
– Mayor fidelidad a la descripción de la estructura del
documento (cita, título,..)
– Posibilidad de ciertos procesos automáticos (p.ej.,
índices)

z Lenguajes de marcado generalizado


– Descripción de la estructura del documento frente a
formato y estilo anterior
– Marcado único
– Formalismo para su procesamiento automático
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 25

SGML (Standard Generalized Markup


Language) (I).

z SGML fue desarrollado en 1986 por ISO (ISO 8879)


cómo estándar de lenguaje de marcado generalizado
para el intercambio de documentos en soporte
electrónico, su almacenamiento y procesado.

z SGML es la base de dos estándares esenciales en


Internet:
– HTML, el estándar más usado en la realización de páginas
WEB.
– XML, metalenguaje de definición de lenguajes de marcas.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 26

13
SGML (Standard Generalized Markup
Language) (II).

z Ámbito de uso
z Complejidad
z Descripción de DTDs
z No especifica formato
z Objetivo: Estructura, ignora apariencia
z Estructura: elementos + relaciones

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 27

SGML (Standard Generalized Markup


Language) (III).

z No impone estructura…se adapta a ella

z Posibles tratamientos a partir de la estructura


– Formato de documento
– Generación de índices o elementos relevantes
– Conversiones de estructura
– Adaptación a diversos dispositivos de salida
z Reutilización de documentos SGML

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 28

14
HTML (HyperText Markup Language) (I).
z ES UN LENGUAJE DE MARCAS BASE DE LA ACTUAL WWW.

z ES UN FORMATO NO PROPIETARIO BASADO EN SGML.

z LOS TÍTULOS, CABECERAS, PÁRRAFOS, ETC. ESTÁN


INDICADOS CÓMO TALES EN EL DOCUMENTO.

z ES POSIBLE LA INCLUSIÓN DE ENLACES EN EL DOCUMENTO,


GRACIAS A LAS POSIBILIDADES HIPERMEDIA DE ESTE
LENGUAJE.

z ES IMPORTANTE INDICAR QUE DEPENDIENDO DEL


VISUALIZADOR UTILIZADO, EL ASPECTO FINAL DE LOS
DIFERENTES ELEMENTOS INCLUIDOS EN EL DOCUMENTO,
PUEDE SER DIFERENTE.
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 29

HTML (HyperText Markup Language) (II).

z UN DOCUMENTO HTML ESTÁ CODIFICADO EN TEXTO PLANO


(ASCII) POR LO QUE PUEDE SER GENERADO CON CASI
CUALQUIER EDITOR DE TEXTO: VI, EDIT, NOTEPAD, ETC., EN
GENERAL, CUALQUIER PROCESADOR DE TEXTO QUE PERMITA
GUARDAR LOS DOCUMENTOS EN FORMATO DE TEXTO.

z EL FORMATO DEL DOCUMENTO SE ESPECIFICA MEDIANTE


MARCADORES O TAGS QUE INDICAN EL INICIO Y EL FIN DE UNA
DETERMINADA OPCIÓN DE FORMATO APLICABLE AL TEXTO
SITUADO ENTRE AMBOS.

z LOS CÓDIGOS DE CONTROL COMIENZAN CON EL SÍMBOLO “<“ Y


TERMINAN CON EL SÍMBOLO “>”.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 30

15
HTML (HyperText Markup Language) (III).

z LA MAYORÍA TIENEN SU CORRESPONDIENTE MARCADOR DE


FINAL, QUE ES SIMILAR AL INICIAL, PERO INCLUYENDO EL
CARÁCTER “/”. Ej: <title> Titulo </title>.

z De acuerdo con el estándar, para que un texto sea reconocido como


como
HTML deberá incorporar:
– identificador de tipo de documento mediante el marcador <html
<html>
> al
principio del fichero y >/html
>/html>
> al final del mismo.
– Tendrá una estructura básica que consta de:
z cabecera (<head
(<head>).
>).
z Título -> Dentro de la cabecera (<title
(<title>).
>).
z Cuerpo del documento (<body
(<body>).
>).
– El fichero debe tener además la extensión “.html” (ó .htm).
Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 31

PDF vs HTML
– Portabilidad

– Apariencia

– Paginación

– Control de visualización e impresión

– Facilidad para cambios

– Tamaño

– Propiedad del formato

– Coste de conversión

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 32

16
XML Introducción

Manteniendo la filosofía SGML, de él se derivó XML como subconjunto


subconjunto
simplificado, eliminando las partes más engorrosas y menos útiles.
útiles.

XML es un METALENGUAJE:
METALENGUAJE: es un lenguaje para definir lenguajes.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 33

Estructura de un documento XML(I).


EN EL SIGUIENTE EJEMPLO PODEMOS COMPRENDER RÁPIDAMENTE
LA ESTRUCTURA DE UN DOCUMENTO XML (mensaje.xml
(mensaje.xml).
).
<?xml version="1.0“?>
version="1.0“?>
<!DOCTYPE MENSAJE SYSTEM “mensaje.dtd”>
<mensaje>
mensaje>
<remite>
remite>
<nombre>Jesualdo
<nombre>Jesualdo Fernández</nombre>
<email>
email>jfernand@dif.um.es</email>
jfernand@dif.um.es</email>
</remite>
<destinatario>
<nombre>Pedro Pérez</nombre/>
<email>
email>pedro.perez@wanadoo.es</email>
pedro.perez@wanadoo.es</email>
</destinatario>
<asunto>Hola Pedro</asunto>
<texto>
<parrafo>¿Hola
parrafo>¿Hola que tal? Hace <enfasis
<enfasis>mucho</
>mucho</enfasis
enfasis>
> que
no escribes. A ver si llamas y quedamos para tomar algo.</parrafo
algo.</parrafo>
>
</texto>
</mensaje>

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 34

17
Estructura de un documento XML(II).
Este mismo documento puede verse de forma gráfica, para comprender
comprender mejor
la estructura de un documento XML.

nombre: Jesualdo Fernández

remite email: jfernand@dif.um.es

mensaje nombre: Pedro Pérez


destinatario
email: pedro.perez@wanadoo.es

asunto: Hola Pedro

texto parrafo: ¿Hola que tal? ...

.....................

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 35

Estructura de un documento XML(III).

AUNQUE NO ES OBLIGATORIO, LOS DOCUMENTOS XML PUEDEN


EMPEZAR CON UNAS LÍNEAS QUE DESCRIBEN LA VERSIÓN DE XML,
EL TIPO DE DOCUMENTO Y OTRAS COSAS.

<?xml version=“1.0” encoding=“UTF-7” standalone=“yes”?>

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 36

18
Estructura de un documento XML(IV).

LA SEGUNDA LÍNEA O “DECLARACIÓN DE TIPO DE DOCUMENTO”


DEFINE QUE DTD (DOCUMENT TYPE DEFINITION) VALIDA Y DEFINE
LOS DATOS QUE CONTIENE NUESTRO DOCUMENTO XML.

<!DOCTYPE mensaje SYSTEM “mensaje.dtd”>


“mensaje.dtd”>
<mensaje>
<!–
<!– El contenido mensaje va aquí !->
</mensaje>

<!DOCTYPE etiqueta SYSTEM “http://www.empresa.com/dtds/etiqueta.dtd”>


“http://www.empresa.com/dtds/etiqueta.dtd”>
<etiqueta>
<!–
<!– El contenido etiqueta va aquí !->
</etiqueta>

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 37

Estructura de un documento XML(IV).

LOS ELEMENTOS XML PUEDEN TENER CONTENIDO (MÁS


ELEMENTOS, ATRIBUTOS, O AMBOS A LA VEZ, O BIEN SER
ELEMENTOS VACÍOS.
EJEMPLOS DE ELEMENTOS CON CONTENIDO SON LOS
SIGUIENTES:
<nombre>Jesualdo
<nombre>Jesualdo Fernández</nombre>
Fernández</nombre>
<alarma tipo=“robo”
tipo=“robo” planta=“primera”
planta=“primera” puerta=“1.9”
puerta=“1.9”>
>Evacuen el edificio</alarma>
edificio</alarma>

LOS ELEMENTOS XML SIEMPRE EMPIEZAN CON UNA <etiqueta>


QUE PUEDE CONTENER ATRIBUTOS O NO, Y TERMINA CON
UNA </etiqueta> QUE DEBE TENER EL MISMO NOMBRE. AL
CONTRARIO QUE EN HTML, EN XML SIEMPRE SE DEBE “cerrar”
UN ELEMENTO.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 38

19
DOCUMENT TYPE DEFINITIONS (DTDs) (I).

CREAR UNA DEFINICIÓN DEL TIPO DE DOCUMENTO (DTD) ES


COMO CREAR NUESTRO PROPIO LENGUAJE DE MARCADO,
PARA UNA APLICACIÓN ESPECÍFICA.

POR EJEMPLO, PODRÍAMOS CREAR UN DTD QUE DEFINA UNA


TARJETA DE VISITA. A PARTIR DE ESTE DTD, TENDRÍAMOS
UNA SERIE DE ELEMENTOS XML QUE NOS PERMITIRÍAN
DEFINIR TARJETAS DE VISITA.

EL DTD DEFINE LOS TIPOS DE ELEMENTOS, ATRIBUTOS Y


ENTIDADES PERMITIDAS, Y PUEDE EXPRESAR ALGUNAS
LIMITACIONES PARA COMBINARLOS.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 39

DOCUMENT TYPE DEFINITIONS (DTDs) (II).

ƒ LA DTD PUEDE RESIDIR EN UN FICHERO EXTERNO O BIEN ESTARÁ


CONTENIDO EN EL PROPIO DOCUMENTO XML (standalone
(standalone).
).

ƒ Ejemplo:
<!DOCTYPE direccion [
<!ELEMENT direccion(nombre_calle,
direccion(nombre_calle, poblacion,
poblacion, cp,
cp, ciudad, pais)
pais)>
<!ELEMENT nombre_calle (#PCDATA)>
<!ELEMENT poblacion (#PCDATA)>
<!ELEMENT cp (#PCDATA)>
<!ELEMENT ciudad (#PCDATA)>
<!ELEMENT pais (#PCDATA)>
]>

<direccion>
direccion>
<nombre_calle>Calle
<nombre_calle>Calle Mayor</nombre_calle>
Mayor</nombre_calle>
<poblacion>
poblacion>Monteagudo</
Monteagudo</poblacion
poblacion>
>
<cp>>30160</
cp 30160 </cp
cp>
>
<ciudad>Murcia</ciudad>
<ciudad>Murcia </ciudad>
<pais>
pais>España</
España</pais
pais>>
</direccion
</direccion>
>

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 40

20
Ejemplo de DTD (I).
ƒ Crear un DTD para representar la información de un listín telefónico
telefónico con la
información siguiente:

ƒ El listín estará formado por varias personas.

ƒ Los datos que necesitamos conocer para cada persona son los siguientes:
siguientes:
ƒ Cada persona debe tener un identificador único que la represente.
represente.
ƒ Nombre.
ƒ Dirección, formada por CP, población y provincia.
ƒ Teléfono.
ƒ 0 o más e-
e-mails.
mails.
ƒ Género.

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 41

Ejemplo de DTD (II).


ƒ Fichero LISTIN.DTD

<?xml encoding=“UTF-8”?>
<!ELEMENT listin (persona)+>
<!ELEMENT persona (nombre, direccion, email*)>
<!ATTLIST persona id ID #REQUIRED>
<!ATTLIST persona género (hombre | mujer) #IMPLIED>
<!ELEMENT nombre (#PCDATA)>
<!ELEMENT direccion (cp, poblacion, provincia)>
<!ELEMENT cp (#PCDATA)>
<!ELEMENT poblacion (#PCDATA)>
<!ELEMENT provincia (#PCDATA)>
<!ELEMENT email (#PCDATA)>

ƒ Basándonos en el anterior DTD podemos escribir el siguiente listín:

<?xml version=“1.0”?>
<!DOCTYPE listin SYSTEM “LISTIN.DTD”>
<listin>
<persona género=“hombre” id=“luis”>
<nombre>Luis Andrés</nombre>
<direccion>
<cp>10000</cp>
<poblacion>Madrid</poblacion>
<provincia>Madrid</provincia>
</direccion>
<email>luis.andres@cam.es</email>
</persona>
</listin>

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 42

21
Ejercicio para casa
z Hacer un DTD de un catálogo de productos.
– Un catálogo contiene una serie de productos
– Un producto tiene una serie de especificaciones, un
precio, y opcionalmente opciones y comentarios.
– Las especificaciones, opciones y comentarios son
cadenas de texto
– Un producto tiene un atributo nombre que es una
cadena de texto
– Un precio tiene tres atributos: valor, % impuestos y
descuento que son cadenas de texto

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 43

Comparativa Plano vs HTML vs XML

Ejemplo 1. Texto Plano Ejemplo 2. HTML


John Citizen, 01/01/2000 <html>
<head><title>Name and Date of Births</title></head>
<body>
<table>
Ejemplo 3. XML <tr>
<name> <td>First Name</td><td>Last Name</td><td>Date
<first>John</first> of Birth</td>
<last>John</last> </tr>
</name> <tr>
<date_of_birth> <td>John</td><td>Citizen</td><td>01/01/2001</td>
<month>January</month> </tr>
<day>01</day> </table>
<year>2001</year> </body>
</date_of_birth> </html>

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 44

22
2.4 Otros estándares

z MHEG (http://www.mheg.org)
– Mecanismos de intercambio de objetos independiente del
formato y estructura de ficheros
z PREMO
(http://db.cwi.nl/projecten/project.php4?prjnr=106)
– Mecanismos de Presentación de contenidos y medios de
forma integrada
z HYTIME (http://www.hytime.org/)
– Combinación de tipos de información en tiempo y espacio
z MRML (http://www.mrml.net/)
– Obtención de información de componentes software
multimedia

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 45

Ejemplo

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 46

23
Ejemplo
{:Application ("turin.mh5" 0)
:OnStartUp ( // sequence of initialization actions
:TransitionTo (("main_scene.mh5" 0)) // activation of the first scene ) }

{ :Scene ("main_scene.mh5" 0)
:OnStartUp ( // sequence of initialization actions preload (2) // the connection to the source of the video clip is set up ...
setCounterTrigger (2 3 190000) // book a time code event at 190000 msec ... )
:Items ( // both presentable ingredients and links

{:Bitmap 1 // background bitmap


:InitiallyActive true
:CHook 3 // JPEG
:OrigContent
:ContentRef ("background.jpg")
:OrigBoxSize 800 600
:OrigPosition 0 0 }

{:Stream 2 // video clip


:InitiallyActive false
:CHook 101 // MPEG-1
:OrigContent
:ContentRef ("turin.mpg")
:Multiplex ( {:Audio 3 // audio component of the video clip :ComponentTag 1 // refers to audio elementary stream
:InitiallyActive true }

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 47

2.5.- Aspectos tecnológicos relativos al texto

z Otras tecnologí
tecnologías relacionadas con el texto que de un modo u otro
facilitan el procesado electró
electrónico de documentos son:

– Reconocimiento óptico de caracteres (OCR:


(OCR: Optical Character
Recognition).
Recognition).

– Reconocimiento de voz (Speech


(Speech--to-
to-Text).
Text).

– Síntesis de voz (Text


(Text--to-
to-Speech).
Speech).

Sistemas Multimedia e Interacción Gráfica- Curso 2005/06 48

24

También podría gustarte