Está en la página 1de 24

2. Texto.

2.1. INTRODUCCIN.

2.2. ESTNDARES DE TEXTO.


2.2.1 ASCII ( American Standard Code for Information Interchange).
Interchange).
2.2.2 Unicode.
Unicode.
2.2.3 RTF ( Rich Text Format).
Format).
2.2.4 Adobe PostScript.
2.2.5 Adobe PDF.
2.2.6 PostScript vs PDF

2.3. ESTNDARES ORIENTADOS A CONTENIDOS WEB


2.3.1. SGML (Standard Generalized Markup Language).
Language).
2.3.2. HTML ( HyperText Markup Language).
Language).
2.3.2.1. PDF vs HTML.
2.3.3. XML ( eXtensible Markup Language).
Language).

2.4. OTROS ESTNDARES

2.5. ASPECTOS TECNOLGICOS RELATIVOS AL TEXTO.


Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 1

2.1.- Introduccin

z ENTRE LAS DISTINTAS FUENTES DE INFORMACIN DE LOS


SISTEMAS MULTIMEDIA, EL TEXTO ES EL MEDIO BSICO,
TANTO POR SU VETERANA CMO POR SU USO
GENERALIZADO.

z EN ESTE TEMA VEREMOS LAS DISTINTAS FORMAS DE


REPRESENTAR ESTE MEDIO, EMPEZANDO POR LAS MS
SIMPLES E INTRODUCIENDO FORMAS, CADA VEZ MS
COMPLEJAS, DE DESCRIPCIN DE DOCUMENTOS BASADOS EN
TEXTO, HASTA LLEGAR A LO QUE PODRAMOS CONSIDERAR
LENGUAJES DE DESCRIPCIN DE DOCUMENTOS MULTIMEDIA.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 2

1
2.2.- Estndares

z (en nuestro contexto) Conjunto de normas que


establecen una forma mayoritariamente aceptada y
adoptada de representar informaci
informacin

z Tambi
Tambin puede ser por imposici
imposicin

z Importancia para el usuario/ desarrollador inform


informtico:
Simplicidad
Uniformidad
Compatibilidad

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 3

2.2.- Tipos de estndares


z Los est
estndares se pueden clasificar en:
de facto
facto (de hecho
hecho): aquellos que se han impuesto, sin ninguna definici
definicin
formal, sino mms bien por su xito en determinado sector (ej: plataforma PC o
PDF). Suelen ser propietarios.
de jure
jure (por ley
ley): aquellos que han sido desarrollados por organismos
oficialmente reconocidos. Existen instituciones dedicadas a estas
estas labores como:
z ANSI (American National Standards Institute)
Institute)
z ITU (International Telecommunication Union)
Union)
z IEEE (Institute of Electrical and Electronic Engineers)
Engineers)
z ISO (International Standards Organization)
Organization)
z VESA (Video Electronics Standards Association)
Association)
z AENOR (Asociaci
(Asociacin Espa
Espaola de Normalizaci
Normalizacin).

z Est
Estndares abiertos / invariables

z Est
Estndares en creaci
creacin digital
Coste de creaci
creacin y tiempo de vida
Longevidad
Portabilidad
Rentabilidad de recursos

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 4

2
Conjuntos de caracteres

z ASCII

z UNICODE

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 5

ASCII (American Standard Code for


Information Interchange) (I).

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 6

3
ASCII (American Standard Code for
Information Interchange) (II).

z CDIGOS EXTENDIDOS 8 BITS: LETRAS, SIMBOLOS,


OPERADORES (EJ. ASCII extendido)

z ISO LATIN 1, UTILIZADO POR DIFERENTES


SISTEMAS OPERATIVOS Y SERVICIOS DE WEB
(navegadores, protocolos y lenguajes). OFICIALMENTE
SE LE DENOMINA ISO-ISO-8859-
8859-1.

z OTRO CONJUNTO UTILIZADO EN LOS GRANDES


SISTEMAS DE IBM ES EL EBCDIC (Extended Binary-
Binary-
Coded Decimal Interchange Code).
Code).
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 7

Unicode (I).

z CDIGO DE CARACTERES DE 16 BITS DISEADO PARA


CODIFICAR TEXTO EN SU UTILIZACIN POR PARTE DE
SISTEMAS BASADOS EN COMPUTADORES.

z SIMPLICIDAD Y CONSISTENCIA DEL CONJUNTO DE CDIGOS


ASCII (en particular la versin ampliada ISO Latin-
Latin-1 y otras
versiones ampliadas del mismo)

z CUBRE TODOS LOS CARACTERES QUE SE UTILIZAN EN


TODAS LAS LETRAS ESCRITAS DEL MUNDO.

z CDIGOS ASOCIADOS A LOS PRINCIPALES ALFABETOS


UTILIZADOS HOY EN DA: LATN, CIRLICO (USADO EN
LENGUAS CMO EL RUSO, GRIEGO, HEBRERO Y ARBIGO),
JAPONS, COREANO Y CHINO.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 8

4
Unicode (II).

z TAMBIN INCLUYE CONJUNTOS DE SMBOLOS: SIGNOS DE


PUNTUACIN, MATEMTICOS, TCNICOS, FLECHAS, ETC.

z ACTUALMENTE QUEDAN, APROXIMADAMENTE, UNOS 29.000


CDIGOS LIBRES

z PREVISTOS 3600 NUEVOS CARACTERES ORIENTALES


(Unicode e ISO 10646)

z PARA USO PRIVADO SE HAN RESERVADO 6.000 CDIGOS


QUE DESARROLLADORES HARDWARE Y SOFTWARE PUEDEN
ASIGNAR INTERNAMENTE PARA SUS PROPIOS CARACTERES
Y SMBOLOS.
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 9

Estndares de texto formateado

z RTF

z POSTSCRIPT

z PDF

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 10

5
RTF (Rich Text Format)

z ES UN ESTNDAR DE CODIFICACIN DE TEXTO Y GRFICOS CON


FORMATO CUYO OBJETIVO ES FACILITAR LA TRANSFERENCIA ENTRE
APLICACIONES Y PLATAFORMAS DESARROLLADO POR MICROSOFT.

z PUEDE SER UTILIZADO POR DIFERENTES DISPOSITIVOS DE SALIDA,


ENTORNOS Y SISTEMAS OPERATIVOS.

z CONJUNTO DE CARACTERES ANSI (PC-


(PC-8 de Macintosh o IBM) PARA
CODIFICAR EL CONTENIDO Y FORMATO DE UN DOCUMENTO, TANTO
EN PANTALLA COMO PARA SU IMPRESIN EN PAPEL.

z ELEMENTOS DE UN ARCHIVO RTF


Texto sin formato : ASCII
Cdigos de control \\secuencia_letras_alfabticas <Delimitador>
Smbolos de control \\+1carcter no alfabtico
Grupos { textos|cdigos de control|smbolos de control}*

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 11

Sintaxis de RTF (I).


z EL INTERIOR DE UN ARCHIVO EN FORMATO RTF CONSISTE EN UNA
SERIE DE CDIGOS ORGANIZADOS DE LA FORMA:

{<header
{<header><
><document
document>
>}

Encabezado (header
(header):): Contiene elementos como la versin de RTF, conjunto de
caracteres, tablas de fuentes, fuentes contenidas (Embedding
(Embedding), ), soporte de
cdigos de pgina, tablas de ficheros, tablas de color, definicin
definicin de estilos y
marcas de revisin.

<header>:
header>: |rtf <charset>
charset> | deff?
deff?<fonttbl><
fonttbl><filetbl
filetbl>?<
>?<colortbl
colortbl>?<
>?<stylesheet
stylesheet>?<
>?<revtbl
revtbl>?
>?

z Conjunto de caracteres:
caracteres: incluye Windows ANSI, IBM PC, IBM 850 y Macintosh.
z Tabla de fuentes (fonts
(fonts)): incluye una lista de las fuentes utilizadas en el documento.
stas son mapeadas sobre las fuentes disponibles en la aplicacin recipiendaria.
z Tabla de colores:
colores: incluye una lista de los colores utilizados en el documento parapara
remarcar el texto.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 12

6
Sintaxis de RTF (II).
rea de Documento (document
(document):): donde se encuentra la codificacin de grupos de
informacin, propiedades de formato del documento, texto y propiedades
propiedades de la
seccin, cabeceras y pies de pgina, prrafos y propiedades, sangras,
sangras, listas,
bordes y sombras de prrafos, posicin de objetos y marcos, tablas,
tablas, caracteres y
propiedades de los mismos, etc.

<document>:
document>: <info
<info>?
>? <docfmt
<docfmt>*
>* <section
<section>+
>+

z Formato del documento:


documento: mrgenes e indentacin de prrafos con relacin a los
mrgenes.
z Formato de secciones:
secciones: saltos de seccin y saltos de pgina.
z Formato de prrafos:
prrafos: caracteres de control para justificacin de prrafos, posicin de
tabuladores, indentacin y espaciado entre prrafos.
z Formato general:
general: incluye notas al pie de pgina, anotaciones, marcas y dibujos.
z Formato de caracteres:
caracteres: negrita, itlica, subrayado, sombreado y outline,
outline, subndices y
superndices.
z Caracteres especiales:
especiales: backslashes,
backslashes, etc.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 13

Adobe PostScript (I).

z FORMATO DE TEXTO O LENGUAJE DE PROGRAMACIN?

z IMPRESIONES DE GRAN CALIDAD y FIABILIDAD EN EDICIN


PROFESIONAL

z SOPORTADO POR IMPRESORAS, MONITORES, PRENSAS


DIGITALES.

z CARCTER VECTORIAL. PGINAS COMO UNA SERIE DE


OBJETOS GEOMTRICOS ABSTRACTOS.

z LOS TIPOS DE LETRA POSTSCRIPT DEFINEN EL CONTORNO


(outline) DE CADA CARCTER.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 14

7
Adobe PostScript (II).

z IMPRESORAS NO POSTSCRIPT MAPAS DE BITS

z CADA IMPRESORA PS CONTIENE UN INTRPRETE


QUE EJECUTA LAS RDENES PS (driver).

z EXISTEN TRES VERSIONES BSICAS DE


POSTSCRIPT: Level 1, Level 2 (mejor para color) y
PostScript 3 (ms fuentes, mejores grficos, aceleracin).

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 15

Adobe PDF (I)

z ALGUNOS PROBLEMAS COMUNES SON LOS SIGUIENTES


INDISPONIBILIDAD DE APLICACIONES ORIGINARIAS.
INCOMPATIBILIDADES DE FORMATO y VERSIONES.
IMPRESIN INCORRECTA.

z ESTNDAR DE FACTO EN LA DISTRIBUCIN DE DOCUMENTOS


ELECTRNICOS

z PRESERVA TODAS LAS FUENTES, EL FORMATO, LOS COLORES Y


LOS GRFICOS (adems de hipervnculos y controles ActiveX) DE
CUALQUIER DOCUMENTO FUENTE, SIN QUE IMPORTE LA
APLICACIN NI LA PLATAFORMA USADAS EN SU CREACIN.

z BASADO EN EL LENGUAJE PS Y CMO ESTE, DESCRIBE LOS TIPOS


DE LETRA, IMGENES Y OTROS ELEMENTOS DE UNA PGINA COMO
UNA SERIE DE OBJETOS Y RELACIONES MATEMTICAS.
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 16

8
Adobe PDF (II)

z LAS FUENTES DE CARACTERES SE CODIFICAN CMO


DESCRIPCIONES MATEMTICAS DE LNEAS, CURVAS Y DISTANCIAS
ENTRE CONJUNTOS DE PUNTOS.
Ej: EL CARCTER V CONSTA FUNDAMENTALMENTE DE TRES
PUNTOS (superior izquierdo, superior derecho y el inferior donde las dos
lneas confluyen). LA DESCRIPCIN MATEMTICA DESCRIBE LAS
LNEAS EXISTENTES ENTRE LOS TRES PUNTOS, LA DISTANCIA
RELATIVA ENTRE ELLOS, EL GROSOR DE LA LNEA Y EL TAMAO
DEL CARCTER.

z PERMITEN VER EN PANTALLA LA FORMA QUE EL DOCUMENTO TOMA


A LA HORA DE SER IMPRESO, POR LO QUE SE DENOMINAN WYSIWYG
(what you see is what you get)

z LOS ARCHIVOS PDF SON COMPACTOS (ms pequeos que sus archivos
fuente)

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 17

Adobe PDF (III)

z LOS ARCHIVOS PDF PUEDEN PUBLICARSE Y DISTRIBUIRSE EN


TODAS PARTES: IMPRESOS, ADJUNTOS EN UN MENSAJE DE
CORREO ELECTRNICO, EN SERVIDORES CORPORATIVOS, EN
SITIOS WEB O EN CD-ROM.

z CREACIN DE DOCUMENTOS
USANDO CDIGOS PS
CREAR LOS DOCUMENTOS CON OTRAS APLICACIONES Y CONVERTIDOS
A PDF.

z LAS VENTAJAS DE CREAR ARCHIVOS EN OTRAS APLICACIONES Y


CONVERTIRLOS A PDF SON LAS SIGUIENTES:
ES UN PROCESO RPIDO Y SENCILLO.
EL DOCUMENTO FINAL PDF MANTIENE EL FORMATO DE LA
PGINA, LAS FUENTES Y LA CALIDAD DE IMGENES DEL
ORIGINAL.
PERMITE AL USUARIO SEGUIR UTILIZANDO LAS HERRAMIENTAS
QUE LE SON FAMILIARES.
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 18

9
PostScript vs PDF (I)

z POSTSCRIPT EST DISEADO PARA UNA NICA COSA: DESCRIBIR


DE FORMA PRECISA LO QUE DEBE APARECER EN UNA PGINA.
NECESITA SER PROCESADO O EJECUTADO.
ESTO LO REALIZA UNA COMBINACIN DE HARDWARE Y
SOFTWARE (QU TPICAMENTE RESIDE EN UNA IMPRESORA) Y
QUE SE LLAMA RIP (RASTER IMAGE PROCESSOR).
UN RIP TOMA EL CDIGO POSTSCRIPT Y LO TRADUCE A
PUNTOS EN UNA PGINA.
TAMBIN ES POSIBLE TRABAJAR CON FICHEROS EPS
(ENCAPSULATED POSTSCRIPT) QUE, SIMPLEMENTE, SON UN
PROGRAMA POSTSCRIPT , GUARDADO EN FORMA DE FICHERO
QUE INCLUYE UNA VERSIN DE MENOR RESOLUCIN
VISUALIZABLE ENCAPSULADA EN SU INTERIOR..

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 19

PostScript & PDF (II)

z PDF EST CONSTRUIDO SOBRE EL LENGUAJE


POSTSCRIPT Y ADEMAS DE DESCRIBIR, RECOGE
INFORMACIN ACERCA DEL TIPO DE INFORMACIN EST
CONTENIDA EN EL FICHERO.

z UN ARCHIVO PDF PUEDE CONTENER FUENTES DE


LETRAS, IMGENES, INSTRUCCIONES DE IMPRESIN,
PALABRAS CLAVE PARA REALIZAR BSQUEDAS Y
CATALOGACIONES, MARCADORES, ENLACES
INTERACTIVOS, VIDEOS, MECANISMOS DE PROTECCIN,
ETC.

z UN FICHERO PDF ES, REALMENTE, UN FICHERO POSTSCRIPT


QUE YA HA SIDO INTERPRETADO Y DESCOMPUESTO EN
OBJETOS CLARAMENTE DEFINIDOS.
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 20

10
PostScript & PDF (III)

z ESTOS OBJETOS SON VISIBLES EN PANTALLA, NO


CMO CDIGO, SINO COMO LA APARIENCIA FINAL
DE ESOS OBJETOS.

z PUESTO QUE LOS OBJETOS YA HAN SIDO


INTERPRETADOS, SON MS FIABLES QUE UN
ARCHIVO EPS O PS.

z LA VISUALIZACION EN PANTALLA PERMITE


IDENTIFICAR POSIBLES ERRORES EN LA
OPERACIN DE IMPRESIN.
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 21

PostScript & PDF (IV)


z Para imprimir un fichero PDF, sin embargo, a
an hay que reconstruir
los objetos PDF en la p pgina y una impresora PostScript sigue
siendo la forma m
ms fiable de hacer este proceso.

z Existen impresoras que reconocen el lenguaje PostScript y el PDF.


PDF.

z PDF ha reemplazado a EPS y es utilizado como formato de


distribuci
distribucin para el env
envo de publicaciones completas a la imprenta,
comprobaci
comprobacin de resultados en maquetaci
maquetacin, distribuci
distribucin en
Internet y almacenamiento de ficheros puesto que es totalmente
autocontenido.
autocontenido.

z Sin embargo, para imprimir PDF con la mayor calidad se precisa de


de
un dispositivo, al menos compatible, Adobe PostScript para obtener
obtener
una buena calidad.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 22

11
Estndares orientados a contenidos
web

z SGML

z HTML

z XML

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 23

Introduccin
z Basados en mark-up (marcado)
Anotaciones junto al texto original para mejorar la
apariencia
Permite incluir informacin (cdigos) para el
procesado electrnico
z Marcado original (procedural)
Especificacin detallada de apariencia
Se pierde la estructura del documento
Falta de portabilidad y flexibilidad
Alta tasa de errores

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 24

12
Evolucin del marcado
z Codificacin genrica
Uso de etiquetas de estilo
Mayor portabilidad y flexibilidad
Mayor fidelidad a la descripcin de la estructura del
documento (cita, ttulo,..)
Posibilidad de ciertos procesos automticos (p.ej.,
ndices)

z Lenguajes de marcado generalizado


Descripcin de la estructura del documento frente a
formato y estilo anterior
Marcado nico
Formalismo para su procesamiento automtico
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 25

SGML (Standard Generalized Markup


Language) (I).

z SGML fue desarrollado en 1986 por ISO (ISO 8879)


cmo estndar de lenguaje de marcado generalizado
para el intercambio de documentos en soporte
electrnico, su almacenamiento y procesado.

z SGML es la base de dos estndares esenciales en


Internet:
HTML, el estndar ms usado en la realizacin de pginas
WEB.
XML, metalenguaje de definicin de lenguajes de marcas.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 26

13
SGML (Standard Generalized Markup
Language) (II).

z mbito de uso
z Complejidad
z Descripcin de DTDs
z No especifica formato
z Objetivo: Estructura, ignora apariencia
z Estructura: elementos + relaciones

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 27

SGML (Standard Generalized Markup


Language) (III).

z No impone estructurase adapta a ella

z Posibles tratamientos a partir de la estructura


Formato de documento
Generacin de ndices o elementos relevantes
Conversiones de estructura
Adaptacin a diversos dispositivos de salida
z Reutilizacin de documentos SGML

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 28

14
HTML (HyperText Markup Language) (I).
z ES UN LENGUAJE DE MARCAS BASE DE LA ACTUAL WWW.

z ES UN FORMATO NO PROPIETARIO BASADO EN SGML.

z LOS TTULOS, CABECERAS, PRRAFOS, ETC. ESTN


INDICADOS CMO TALES EN EL DOCUMENTO.

z ES POSIBLE LA INCLUSIN DE ENLACES EN EL DOCUMENTO,


GRACIAS A LAS POSIBILIDADES HIPERMEDIA DE ESTE
LENGUAJE.

z ES IMPORTANTE INDICAR QUE DEPENDIENDO DEL


VISUALIZADOR UTILIZADO, EL ASPECTO FINAL DE LOS
DIFERENTES ELEMENTOS INCLUIDOS EN EL DOCUMENTO,
PUEDE SER DIFERENTE.
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 29

HTML (HyperText Markup Language) (II).

z UN DOCUMENTO HTML EST CODIFICADO EN TEXTO PLANO


(ASCII) POR LO QUE PUEDE SER GENERADO CON CASI
CUALQUIER EDITOR DE TEXTO: VI, EDIT, NOTEPAD, ETC., EN
GENERAL, CUALQUIER PROCESADOR DE TEXTO QUE PERMITA
GUARDAR LOS DOCUMENTOS EN FORMATO DE TEXTO.

z EL FORMATO DEL DOCUMENTO SE ESPECIFICA MEDIANTE


MARCADORES O TAGS QUE INDICAN EL INICIO Y EL FIN DE UNA
DETERMINADA OPCIN DE FORMATO APLICABLE AL TEXTO
SITUADO ENTRE AMBOS.

z LOS CDIGOS DE CONTROL COMIENZAN CON EL SMBOLO < Y


TERMINAN CON EL SMBOLO >.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 30

15
HTML (HyperText Markup Language) (III).

z LA MAYORA TIENEN SU CORRESPONDIENTE MARCADOR DE


FINAL, QUE ES SIMILAR AL INICIAL, PERO INCLUYENDO EL
CARCTER /. Ej: <title> Titulo </title>.

z De acuerdo con el estndar, para que un texto sea reconocido como


como
HTML deber incorporar:
identificador de tipo de documento mediante el marcador <html
<html>
> al
principio del fichero y >/html
>/html>
> al final del mismo.
Tendr una estructura bsica que consta de:
z cabecera (<head
(<head>).
>).
z Ttulo -> Dentro de la cabecera (<title
(<title>).
>).
z Cuerpo del documento (<body
(<body>).
>).
El fichero debe tener adems la extensin .html ( .htm).
Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 31

PDF vs HTML
Portabilidad

Apariencia

Paginacin

Control de visualizacin e impresin

Facilidad para cambios

Tamao

Propiedad del formato

Coste de conversin

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 32

16
XML Introduccin

Manteniendo la filosofa SGML, de l se deriv XML como subconjunto


subconjunto
simplificado, eliminando las partes ms engorrosas y menos tiles.
tiles.

XML es un METALENGUAJE:
METALENGUAJE: es un lenguaje para definir lenguajes.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 33

Estructura de un documento XML(I).


EN EL SIGUIENTE EJEMPLO PODEMOS COMPRENDER RPIDAMENTE
LA ESTRUCTURA DE UN DOCUMENTO XML (mensaje.xml
(mensaje.xml).
).
<?xml version="1.0?>
version="1.0?>
<!DOCTYPE MENSAJE SYSTEM mensaje.dtd>
<mensaje>
mensaje>
<remite>
remite>
<nombre>Jesualdo
<nombre>Jesualdo Fernndez</nombre>
<email>
email>jfernand@dif.um.es</email>
jfernand@dif.um.es</email>
</remite>
<destinatario>
<nombre>Pedro Prez</nombre/>
<email>
email>pedro.perez@wanadoo.es</email>
pedro.perez@wanadoo.es</email>
</destinatario>
<asunto>Hola Pedro</asunto>
<texto>
<parrafo>Hola
parrafo>Hola que tal? Hace <enfasis
<enfasis>mucho</
>mucho</enfasis
enfasis>
> que
no escribes. A ver si llamas y quedamos para tomar algo.</parrafo
algo.</parrafo>
>
</texto>
</mensaje>

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 34

17
Estructura de un documento XML(II).
Este mismo documento puede verse de forma grfica, para comprender
comprender mejor
la estructura de un documento XML.

nombre: Jesualdo Fernndez

remite email: jfernand@dif.um.es

mensaje nombre: Pedro Prez


destinatario
email: pedro.perez@wanadoo.es

asunto: Hola Pedro

texto parrafo: Hola que tal? ...

.....................

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 35

Estructura de un documento XML(III).

AUNQUE NO ES OBLIGATORIO, LOS DOCUMENTOS XML PUEDEN


EMPEZAR CON UNAS LNEAS QUE DESCRIBEN LA VERSIN DE XML,
EL TIPO DE DOCUMENTO Y OTRAS COSAS.

<?xml version=1.0 encoding=UTF-7 standalone=yes?>

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 36

18
Estructura de un documento XML(IV).

LA SEGUNDA LNEA O DECLARACIN DE TIPO DE DOCUMENTO


DEFINE QUE DTD (DOCUMENT TYPE DEFINITION) VALIDA Y DEFINE
LOS DATOS QUE CONTIENE NUESTRO DOCUMENTO XML.

<!DOCTYPE mensaje SYSTEM mensaje.dtd>


mensaje.dtd>
<mensaje>
<!
<! El contenido mensaje va aqu !->
</mensaje>

<!DOCTYPE etiqueta SYSTEM http://www.empresa.com/dtds/etiqueta.dtd>


http://www.empresa.com/dtds/etiqueta.dtd>
<etiqueta>
<!
<! El contenido etiqueta va aqu !->
</etiqueta>

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 37

Estructura de un documento XML(IV).

LOS ELEMENTOS XML PUEDEN TENER CONTENIDO (MS


ELEMENTOS, ATRIBUTOS, O AMBOS A LA VEZ, O BIEN SER
ELEMENTOS VACOS.
EJEMPLOS DE ELEMENTOS CON CONTENIDO SON LOS
SIGUIENTES:
<nombre>Jesualdo
<nombre>Jesualdo Fernndez</nombre>
Fernndez</nombre>
<alarma tipo=robo
tipo=robo planta=primera
planta=primera puerta=1.9
puerta=1.9>
>Evacuen el edificio</alarma>
edificio</alarma>

LOS ELEMENTOS XML SIEMPRE EMPIEZAN CON UNA <etiqueta>


QUE PUEDE CONTENER ATRIBUTOS O NO, Y TERMINA CON
UNA </etiqueta> QUE DEBE TENER EL MISMO NOMBRE. AL
CONTRARIO QUE EN HTML, EN XML SIEMPRE SE DEBE cerrar
UN ELEMENTO.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 38

19
DOCUMENT TYPE DEFINITIONS (DTDs) (I).

CREAR UNA DEFINICIN DEL TIPO DE DOCUMENTO (DTD) ES


COMO CREAR NUESTRO PROPIO LENGUAJE DE MARCADO,
PARA UNA APLICACIN ESPECFICA.

POR EJEMPLO, PODRAMOS CREAR UN DTD QUE DEFINA UNA


TARJETA DE VISITA. A PARTIR DE ESTE DTD, TENDRAMOS
UNA SERIE DE ELEMENTOS XML QUE NOS PERMITIRAN
DEFINIR TARJETAS DE VISITA.

EL DTD DEFINE LOS TIPOS DE ELEMENTOS, ATRIBUTOS Y


ENTIDADES PERMITIDAS, Y PUEDE EXPRESAR ALGUNAS
LIMITACIONES PARA COMBINARLOS.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 39

DOCUMENT TYPE DEFINITIONS (DTDs) (II).

LA DTD PUEDE RESIDIR EN UN FICHERO EXTERNO O BIEN ESTAR


CONTENIDO EN EL PROPIO DOCUMENTO XML (standalone
(standalone).
).

Ejemplo:
<!DOCTYPE direccion [
<!ELEMENT direccion(nombre_calle,
direccion(nombre_calle, poblacion,
poblacion, cp,
cp, ciudad, pais)
pais)>
<!ELEMENT nombre_calle (#PCDATA)>
<!ELEMENT poblacion (#PCDATA)>
<!ELEMENT cp (#PCDATA)>
<!ELEMENT ciudad (#PCDATA)>
<!ELEMENT pais (#PCDATA)>
]>

<direccion>
direccion>
<nombre_calle>Calle
<nombre_calle>Calle Mayor</nombre_calle>
Mayor</nombre_calle>
<poblacion>
poblacion>Monteagudo</
Monteagudo</poblacion
poblacion>
>
<cp>>30160</
cp 30160 </cp
cp>
>
<ciudad>Murcia</ciudad>
<ciudad>Murcia </ciudad>
<pais>
pais>Espaa</
Espaa</pais
pais>>
</direccion
</direccion>
>

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 40

20
Ejemplo de DTD (I).
Crear un DTD para representar la informacin de un listn telefnico
telefnico con la
informacin siguiente:

El listn estar formado por varias personas.

Los datos que necesitamos conocer para cada persona son los siguientes:
siguientes:
Cada persona debe tener un identificador nico que la represente.
represente.
Nombre.
Direccin, formada por CP, poblacin y provincia.
Telfono.
0 o ms e-
e-mails.
mails.
Gnero.

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 41

Ejemplo de DTD (II).


Fichero LISTIN.DTD

<?xml encoding=UTF-8?>
<!ELEMENT listin (persona)+>
<!ELEMENT persona (nombre, direccion, email*)>
<!ATTLIST persona id ID #REQUIRED>
<!ATTLIST persona gnero (hombre | mujer) #IMPLIED>
<!ELEMENT nombre (#PCDATA)>
<!ELEMENT direccion (cp, poblacion, provincia)>
<!ELEMENT cp (#PCDATA)>
<!ELEMENT poblacion (#PCDATA)>
<!ELEMENT provincia (#PCDATA)>
<!ELEMENT email (#PCDATA)>

Basndonos en el anterior DTD podemos escribir el siguiente listn:

<?xml version=1.0?>
<!DOCTYPE listin SYSTEM LISTIN.DTD>
<listin>
<persona gnero=hombre id=luis>
<nombre>Luis Andrs</nombre>
<direccion>
<cp>10000</cp>
<poblacion>Madrid</poblacion>
<provincia>Madrid</provincia>
</direccion>
<email>luis.andres@cam.es</email>
</persona>
</listin>

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 42

21
Ejercicio para casa
z Hacer un DTD de un catlogo de productos.
Un catlogo contiene una serie de productos
Un producto tiene una serie de especificaciones, un
precio, y opcionalmente opciones y comentarios.
Las especificaciones, opciones y comentarios son
cadenas de texto
Un producto tiene un atributo nombre que es una
cadena de texto
Un precio tiene tres atributos: valor, % impuestos y
descuento que son cadenas de texto

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 43

Comparativa Plano vs HTML vs XML

Ejemplo 1. Texto Plano Ejemplo 2. HTML


John Citizen, 01/01/2000 <html>
<head><title>Name and Date of Births</title></head>
<body>
<table>
Ejemplo 3. XML <tr>
<name> <td>First Name</td><td>Last Name</td><td>Date
<first>John</first> of Birth</td>
<last>John</last> </tr>
</name> <tr>
<date_of_birth> <td>John</td><td>Citizen</td><td>01/01/2001</td>
<month>January</month> </tr>
<day>01</day> </table>
<year>2001</year> </body>
</date_of_birth> </html>

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 44

22
2.4 Otros estndares

z MHEG (http://www.mheg.org)
Mecanismos de intercambio de objetos independiente del
formato y estructura de ficheros
z PREMO
(http://db.cwi.nl/projecten/project.php4?prjnr=106)
Mecanismos de Presentacin de contenidos y medios de
forma integrada
z HYTIME (http://www.hytime.org/)
Combinacin de tipos de informacin en tiempo y espacio
z MRML (http://www.mrml.net/)
Obtencin de informacin de componentes software
multimedia

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 45

Ejemplo

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 46

23
Ejemplo
{:Application ("turin.mh5" 0)
:OnStartUp ( // sequence of initialization actions
:TransitionTo (("main_scene.mh5" 0)) // activation of the first scene ) }

{ :Scene ("main_scene.mh5" 0)
:OnStartUp ( // sequence of initialization actions preload (2) // the connection to the source of the video clip is set up ...
setCounterTrigger (2 3 190000) // book a time code event at 190000 msec ... )
:Items ( // both presentable ingredients and links

{:Bitmap 1 // background bitmap


:InitiallyActive true
:CHook 3 // JPEG
:OrigContent
:ContentRef ("background.jpg")
:OrigBoxSize 800 600
:OrigPosition 0 0 }

{:Stream 2 // video clip


:InitiallyActive false
:CHook 101 // MPEG-1
:OrigContent
:ContentRef ("turin.mpg")
:Multiplex ( {:Audio 3 // audio component of the video clip :ComponentTag 1 // refers to audio elementary stream
:InitiallyActive true }

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 47

2.5.- Aspectos tecnolgicos relativos al texto

z Otras tecnolog
tecnologas relacionadas con el texto que de un modo u otro
facilitan el procesado electr
electrnico de documentos son:

Reconocimiento ptico de caracteres (OCR:


(OCR: Optical Character
Recognition).
Recognition).

Reconocimiento de voz (Speech


(Speech--to-
to-Text).
Text).

Sntesis de voz (Text


(Text--to-
to-Speech).
Speech).

Sistemas Multimedia e Interaccin Grfica- Curso 2005/06 48

24

También podría gustarte