Está en la página 1de 4

Lenguajes de marcas y sistemas de gestin de la informacin Tema 1

TEMA 1: RECONOCIMIENTO DE LAS CARACTERSTICAS DE DE LENGUAJES DE MARCAS 1.1. Definicin y clasificacin de lenguajes de marcas Los lenguajes de marcas combinan la informacin textual de un documento con marcas relativas a su estructura. El lenguaje de marcas especifica: Cules son las etiquetas. Dnde deben colocarse esas etiquetas. Cul es el significado de cada etiqueta. Las etiquetas o marcas NO se presentan al usuario final, quin slo ve el contenido. Por ejemplo: Cdigo:
<noticia> <lugar>Valencia</lugar> <fecha>02/12/2012</fecha> <desc>FinalCopaDavis</desc> </noticia>

Contenido que ve el usuario final: Valencia 02/12/2012 Final Copa Davis

Este ejemplo sera de XML, en el que nosotros mismos podemos definir nuestras propias etiquetas, al contrario que HTML, en el que debemos ceirnos a las etiquetas ya especificadas.

A diferencia de los lenguajes de programacin, los lenguajes de marcas NO tienen funciones aritmticas ni variables. 1.2. Tipos de lenguajes de marcas Lenguajes orientados a presentacin. Codifican cmo ha de presentarse un documento. Por ejemplo: Microsoft Word, cuyo formato que vemos en pantalla e imprimimos viene definido por las marcas y caracteres ocultos como el smbolo , que representa un final de lnea. Lenguajes procedurales Las etiquetas tambin se orientan a presentaciones, pero dentro de un marco procedural que permite definir macros y subrutinas. Por ejemplo: TeX, LaTeX, PostScript... Los documentos cientficos que contienen frmulas y los peridicos se escriben con LaTeX. Sus etiquetas permiten presentar ecuaciones, frmulas y textos complejos de manera mucho ms gil y sencilla que con el Editor de Ecuaciones de Microsoft Word, por ejemplo.

Pgina 1 de 4

Lenguajes de marcas y sistemas de gestin de la informacin Tema 1

Lenguajes descriptivos No definen qu se debe hacer, sino qu es cada informacin que se presenta. Por ejemplo el SGML y sus derivados HTML, XML...

1.3. Evolucin de los lenguajes de marcas Los lenguajes de marcas aparecen a finales de los aos 60 para introducir anotaciones dentro de los documentos electrnicos. Concretamente, en esta poca se estandariza el lenguaje SGML (Standard Generalized Markup Language), que era un descendiente del GML (Generalized Markup Language), creado por IBM. A finales de los aos 80 en el CERN (Organizacin Europea para la Investigacin Nuclear) se crea el HTML (Hyper-Text Markup Language) con el objetivo de compartir informacin a travs de Internet. Desde entonces, ste es el lenguaje ms utilizado para crear pginas web. En los aos 90 el consorcio W3C (Worldwide Web Consortium) hace pblico un nuevo estndar, el XML (eXtended Markup Language), ms potente que el HTML, ya que permite la creacin de etiquetas propias. XML est orientado a la gestin, visualizacin y organizacin de datos. De XML conviene destacar los siguientes aspectos (para mayor detalle ver los temas 3, 4 y 5): XML es un estndar para escribir datos estructurados en un fichero de texto. Como ejemplos de datos estructurados tenemos las hojas de clculo, libretas de direcciones, parmetros de configuracin, transacciones financieras, dibujos tcnicos, etc... Los programas que generan este tipo de documentos utilizan normalmente formatos binarios o de texto. XML es un conjunto de reglas, normas y convenciones para disear formatos de texto para tales tipos de datos, de forma que los ficheros resultantes sean fciles de generar y de leer. XML usa marcas (etiquetas) y atributos como en HTML, pero la diferencia radica en que en HTML las etiquetas y atributos ya vienen definidos de antemano mediante un significado, incluyendo el aspecto que debe presentar en un navegador, mientras que en XML slo se usan las marcas para delimitar fragmentos de datos, dejando la interpretacin de stos a la aplicacin que los lee.

Pgina 2 de 4

Lenguajes de marcas y sistemas de gestin de la informacin Tema 1

1.4. Etiquetas, elementos y atributos Un lenguaje de marcas se compone de tres partes: Etiqueta (Tag): es el texto que se encuentra entre los smbolos < y >. Hay etiquetas de inicio (<nombre>) y de fin (</nombre>). Elementos: etiquetas que a su vez contienen ms etiquetas. Son estructuras mediante las que se organiza el contenido del documento o acciones que se desencadenan cuando el programa o navegador interpreta el documento. Atributo: Binomio nombre-valor que se encuentra dentro de la etiqueta inicial de un elemento y que indica las propiedades que este puede llevar asociadas.
<direccion> <nombre> <titulo>Sr.</titulo> <nombre>Javier</nombre> <apellido>Luna</apellido> </nombre> <calle>Cervantes24</calle> <ciudadprov=VLC>Catarroja</ciudad> <codpost>46470</codpost> </direccion>

En este ejemplo, el elemento <nombre> contiene 3 elementos hijos: <titulo>, <nombre> y <apellido>. Adems, dentro de la etiqueta <ciudadprov=VLC> podemos ver subrayado el atributo.

1.5. Organizaciones desarrolladoras La Organizacin Internacional para Estandarizacin (ISO: International Standard Organization) es el organismo encargado de promover y desarrollar normas internacionales de fabricacin, comercio y comunicacin. El W3C: World Wide Web Consortium tutela el crecimiento y organizacin de la Web. 1.6 Utilizacin de lenguajes de marcas en entornos Web Una pgina web es un documento electrnico adaptado para la World Wide Web que forma parte de un sitio web. Las pginas web estn escritas en un lenguaje de marcas o etiquetas que proporciona la capacidad de insertar hiperenlaces HTML. El contenido de la pgina puede ser predeterminado (pgina web esttica) o generado en el momento de su visualizacin o al solicitarla a un servidor web (pgina web dinmica).
Pgina 3 de 4

Lenguajes de marcas y sistemas de gestin de la informacin Tema 1

1.7. Gramticas
DTD: Definicin de Tipo de Documento La DTD establece las reglas de formacin del lenguaje formal: las combinaciones de smbolos elementales que son sintcticamente correctas. La especificacin del W3C para HTML 4.0 contempla tres definiciones de tipo de documento: DTD estricta (HTML 4.0 Strict DTD): incluye los elementos y atributos que no han sido declarados desaprobados (deprecated). DTD transaccional o flexible (loose) (HTML 4.0 Transitional DTD): incluye los elementos de la DTD estricta ms los elementos desaprobados (deprecated). DTD para documentos con marcos (HTML 4.0 Frameset DTD): engloba todos los elementos de la DTD transaccional ms lo relativo a la creacin de documentos con marcos (frames).

La DTD es el formato de esquema nativo para validar documentos XML. Utiliza una sintaxis no-XML para definir el modelo de contenido de un documento XML vlido: - Define todos los elementos. - Define las relaciones entre los distintos elementos. - Proporciona informacin adicional que puede ser incluida en el documento (atributos, entidades, notaciones). - Aporta comentarios e instrucciones para su procesamiento y representacin de los formatos de datos. La DTD es el mtodo ms sencillo para validar documentos XML. Esquema XML XML Schemas es la evolucin de la DTD descrita por el W3C, tambin denominada XSD (XML Schema Definition). Se trata de un lenguaje ms complejo, potente y de mayor expresividad que las DTD. Utiliza sintaxis XML. Validar un documento mediante XSD supone un gran consumo de recursos y tiempo debido a su gran especificacin y complejidad en la sintaxis. El modelo de datos de XML Schema incluye: El vocabulario (nombres de elemento y atributo). El contenido modelo (relaciones y estructura). Los tipos de datos.

RELAX NG Se trata de un lenguaje de esquema basado en la gramtica dotado de un alto poder expresivo: permite validar datos que aparezcan en cualquier orden. Las aplicaciones de definicin de documentos y validacin para RELAX NG son ms sencillas que las de XML Schema. RELAX NG se ha convertido recientemente en un estndar ISO como la parte 2 de DSDL (Document Schema Definition Language).

Pgina 4 de 4