Está en la página 1de 12

Unidad de Trabajo 1

CARACTERSTICAS DE LOS LENGUAJES DE MARCAS

Contenido

1 Introduccin a los lenguajes de marcas .................................................................................................................2

2 Distintas clasificaciones de los lenguajes de marcado .........................................................................................4

3 Historia de los lenguajes de marcas ........................................................................................................................4

3.1 SGML .................................................................................................................................................................5

3.2 Historia de HTML. Ventajas e inconvenientes ............................................................................................5

Historia del HTML ...................................................................................................................................................5

Ventajas e inconvenientes de HTML .....................................................................................................................7

Ejemplo de HTML....................................................................................................................................................7

3.3 XML ....................................................................................................................................................................7

Ejemplo de XML.......................................................................................................................................................8

3.4 XHTML..............................................................................................................................................................8

Ejemplo de XHTML ................................................................................................................................................8

3.5 CSS ......................................................................................................................................................................9

4 Ejemplos de lenguajes de marcas......................................................................................................................... 10

5 Estndares web ....................................................................................................................................................... 11

Necesidad de uso de estndares web .................................................................................................................. 12

Bibliografa ........................................................................................................................................................................ 12

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 1


UT 1. Caractersticas de los Lenguajes de Marcas

1 Introduccin a los lenguajes de marcas

Uno de los retos iniciales a los que se tuvo que enfrentar la informtica fue el de cmo almacenar la
informacin en los archivos digitales. Como los primeros archivos slo contenan texto sin formato, la
solucin utilizada era muy sencilla: se codificaban las letras del alfabeto en nmeros y estos se almacenaban en
formato binario.

De esta forma, para almacenar un contenido de texto en un archivo electrnico, se utiliza una tabla de
conversin que transforma cada carcter en un nmero. Una vez almacenada la secuencia de nmeros, el
contenido del archivo se puede recuperar realizando el proceso inverso.

El proceso de transformacin de caracteres en secuencias de nmeros se denomina codificacin de


caracteres y cada una de las tablas que se definen para realizar la transformacin se conoce con el nombre de
pgina de cdigo. Una de las codificaciones ms conocidas (y una de las primeras que se publicaron) es la
codificacin ASCII (American Standard Code for Information Interchange cdigo estndar americano para el
intercambio de informacin).

Una vez resuelto el problema de almacenar el texto simple, se presenta el reto de almacenar los contenidos de
texto con formato. En otras palabras, cmo se almacena un texto en negrita? Y un texto de color rojo? Y
otro texto azul, en negrita y subrayado?

La solucin que se emplea para guardar la informacin con formato consiste en que el archivo electrnico
almacene tanto los contenidos como la informacin sobre el formato de esos contenidos. Si, por ejemplo, se
quiere dividir el texto en prrafos y se desea dar especial importancia a algunas palabras, se podra indicar de
la siguiente manera:

<prrafo>
Texto con <importante>algunas palabras</importante> resaltadas de forma especial.
</prrafo>

El principio de un prrafo se indica mediante la palabra <prrafo> y el final de un prrafo se indica mediante
la palabra </prrafo>. De la misma manera, para asignar ms importancia a ciertas palabras del texto, se
encierran entre <importante> y </importante>.

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 2


UT 1. Caractersticas de los Lenguajes de Marcas

El proceso de indicar las diferentes partes que componen la informacin se denomina marcar. Cada una de
las palabras que se emplean para marcar el inicio y el final de una seccin se denominan etiquetas.

Un lenguaje de marcado o lenguaje de marcas es "una forma de codificar un documento que, junto con el
texto, incorpora etiquetas o marcas que contienen informacin adicional acerca de la estructura del texto o su
presentacin".

Los lenguajes de marcas


o Son distintos de los lenguajes de programacin.
o Tienen una funcin principal meramente descriptiva.
o Datan de finales de los 60, aunque ha sido en la ltima dcada cuando han comenzado a tener aplicacin
en mltiples facetas de la Informtica.
o Las marcas o etiquetas ms empleadas suelen consistir en textos descriptivos entre signos de "menor" (<)
y "mayor" (>)
o Lo habitual es usar pares de marcas: una de principio y otra de fin.
o El almacenamiento suele realizarse en ficheros de texto plano.

Los archivos de texto plano son aquellos que estn compuestos nicamente por texto sin formato, slo
caracteres. Ejemplos seran los ficheros editables con el Vi de UNIX, el bloc de notas (Notepad) de Windows
ficheros con extensin .txt o el VIM de Linux.

Ejemplo de un documento generado con un lenguaje de marcas:

<ficha>
<nombre>Pepe</nombre>
<apellido>Prez</apellido>
<apellido>Rodrguez</apellido>
<datos_profesionales>
<cuerpo>grupo A</cuerpo>
<especialidad>informtica</especialidad>
<destino>Ayuntamiento de Burgos</destino>
</datos_profesionales>
</ficha>

Algunas de las ventajas que ofrecen los lenguajes de marcas en el tratamiento de la informacin son:
Una mayor portabilidad de los programas para ser implementados en cualquier arquitectura de
hardware o software.
El amplio uso y reutilizacin de los programas, ya que son de cdigo abierto.
Facilidad de mantenimiento debido a que los archivos son ms comprensibles por humanos, y
porque tanto datos como programas pueden ser creados y modificados en cualquier editor de textos.

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 3


UT 1. Caractersticas de los Lenguajes de Marcas

Generan documentos independientes del dispositivo o dispositivos a los que vayan destinados.
Se pueden mezclar con cdigo de otros lenguajes, de marcas o no (php, JavaScript).

2 Distintas clasificaciones de los lenguajes de marcado

Una posible clasificacin de los lenguajes de marcas puede ser la siguiente:


Procedimentales: expresan detalladamente las instrucciones que es necesario seguir para realizar un
trabajo. Describen operaciones tipogrficas. Ej.: HTML
Estructurales: describen la estructura lgica de un documento, pero no su tipografa. Ej.: MusicXML
Hbridos: que forman una combinacin de los dos tipos anteriores. Ej.: VRML (Virtual Reality
Modelling Language lenguaje de modelado de realidad virtual)

Tambin existen las hojas de estilo o los lenguajes de transformacin, que permiten la "traduccin" de
anotaciones de tipo estructural a anotaciones de carcter tipogrfico.

Otra posible clasificacin de los lenguajes de marcas puede ser la siguiente:


De presentacin: indican el formato del texto (informacin para el maquetado). Ej.: RTF (Rich Text
Format formato de texto enriquecido)
De procedimientos: orientados tambin a la presentacin aunque, en este caso, se indican los
procedimientos que deber realizar el software de representacin. Ej.: TeX / LaTeX
Descriptivo o semntico: describen las diferentes partes en las que se estructura el documento pero
sin especificar cmo deben representarse. Ej.: XML (eXtensible Markup Language lenguaje extensible
de marcas)

3 Historia de los lenguajes de marcas

En la dcada de los 60 se empieza a desarrollar la idea de separar presentacin y estructura.


Desde IBM se impulsa la creacin del lenguaje GML (Generalized Markup Language lenguaje de
marcas generalizado; Goldfarb, Mosher & Lorie, 1969)
En 1978, ANSI cre un comit de lenguajes de ordenador para procesador de texto (Computer
Languages for the Processing of Text)
En 1980, a partir de GML, se genera la primera versin de SGML (Standard Generalized Markup
Language lenguaje de marcas estndar generalizado)
En 1986 se convierte en la norma ISO 8879
SGML pasa a ser la base del diseo de nuevos lenguajes
En 1992 se desarrolla HTML (HyperText Markup Language lenguaje de marcas de hipertexto) como
solucin para publicar las investigaciones de diversas fuentes y autores que trabajaban en el CERN

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 4


UT 1. Caractersticas de los Lenguajes de Marcas

(Organisation Europenne pour la Recherche Nuclaire Organizacin Europea para la Investigacin


Nuclear)
En 1987, Microsoft desarrolla RTF como formato de intercambio de documentos multiplataforma
En 1998, el W3C (World Wide Web Consortium, organismo sin nimo de lucro) desarrolla XML, que
ser el lenguaje de base de una gran cantidad de lenguajes de marcas. Eclosin de los lenguajes de
marcado.
RDF (Resource Description Framework marco de descripcin de recursos) y OWL (Web Ontology
Language lenguaje ontolgico de web) marcan el desarrollo de la Web Semntica.

3.1 SGML
Estndar internacional definido por ISO (International Standards Organization organizacin internacional de
estndares) para la definicin de la estructura y el contenido de documentos electrnicos. Est basado en
GML de IBM. Permite definir lenguajes de marcas orientados al tratamiento de tipos concretos de
documentos pero, an as, fcilmente intercambiables. SGML no ofrece un conjunto de etiquetas, sino la
sintaxis mediante la que crear etiquetas propias. El gran problema de SGML es su enorme complejidad.

3.2 Historia de HTML. Ventajas e inconvenientes


Definindolo de forma sencilla, "HTML es lo que se utiliza para crear todas las pginas web de Internet". Ms
concretamente, HTML es el lenguaje con el que se "escriben" la mayora de pginas web. Los diseadores
utilizan el lenguaje HTML para crear sus pginas web, los programas que utilizan los diseadores generan
pginas escritas en HTML y los navegadores que utilizamos los usuarios muestran las pginas web despus de
leer su contenido HTML.

Aunque HTML es un lenguaje que utilizan los ordenadores y los programas de diseo, es muy fcil de
aprender y escribir por parte de las personas. El lenguaje HTML es un estndar reconocido en todo el mundo
y cuyas normas define el W3C (http://www.w3.org/). Como se trata de un estndar reconocido por todas las
empresas relacionadas con el mundo de Internet, una misma pgina HTML se visualiza de forma muy similar
en cualquier navegador de cualquier sistema operativo.

El propio W3C define el lenguaje HTML como "un lenguaje reconocido universalmente y que permite
publicar informacin de forma global". Desde su creacin, el lenguaje HTML ha pasado de ser un lenguaje
utilizado exclusivamente para crear documentos electrnicos a ser un lenguaje que se utiliza en muchas
aplicaciones electrnicas como buscadores, tiendas online y banca electrnica.

Historia del HTML

Segn el Diccionario de la R.A.E., hipertexto es "texto que contiene elementos a partir de los cuales se puede
acceder a otra informacin". En 1980 el fsico Tim Berners-Lee, trabajador del CERN, propuso un nuevo
sistema de hipertexto para compartir documentos. Junto al ingeniero de sistemas Robert Cailliau, Berners-

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 5


UT 1. Caractersticas de los Lenguajes de Marcas

Lee gan una convocatoria organizada para desarrollar un sistema de hipertexto para Internet. Su propuesta
se llamaba World Wide Web (W3).

El primer documento formal con la descripcin de HTML se public en 1991 bajo el nombre HTML Tags
(etiquetas HTML).
http://www.w3.org/History/19921103-hypertext/hypertext/WWW/MarkUp/Tags.html

La primera propuesta oficial para convertir HTML en un estndar se realiz en 1993 por parte del organismo
IETF (Internet Engineering Task Force grupo de trabajo de ingeniera de Internet). Aunque se consiguieron
avances significativos (en esta poca se definieron las etiquetas para imgenes, tablas y formularios) ninguna
de las dos propuestas de estndar, llamadas HTML y HTML+ consiguieron convertirse en estndar oficial.

En 1995 IETF organiz un grupo de trabajo de HTML, publicando el 22 de septiembre de ese mismo ao el
estndar HTML 2.0 (primer estndar oficial de HTML a pesar de su nmero de versin). A partir de 1996 el
W3C se encargara de publicar los estndares de HTML.

La versin HTML 3.2 se public el 14 de enero de 1997. Incorpora los ltimos avances de las pginas web
desarrolladas hasta 1996, como applets de Java y texto que fluye alrededor de las imgenes.

HTML 4.0 se public el 24 de abril de 1998 (siendo una versin corregida de la publicacin original del 18
de diciembre de 1997) y supone un gran salto desde las versiones anteriores. Entre sus novedades ms
destacadas se encuentran las hojas de estilos CSS, la posibilidad de incluir pequeos programas o scripts en las
pginas web, mejora de la accesibilidad de las pginas diseadas, tablas complejas y mejoras en los
formularios.

La ltima especificacin oficial de HTML se public el 24 de diciembre de 1999 y se denomina HTML 4.01.
Se trata de una revisin y actualizacin de la versin HTML 4.0, por lo que no incluye novedades
significativas.

Desde la publicacin de HTML 4.01, la actividad de estandarizacin de HTML se detuvo y el W3C se centr
en el desarrollo del estndar XHTML. Por este motivo, en el ao 2004 las empresas Apple, Mozilla y Opera,
mostrando su preocupacin por la falta de inters del W3C en HTML, decidieron organizarse en una nueva
asociacin llamada WHATWG (Web Hypertext Application Technology Working Group grupo de trabajo de
tecnologas de aplicacin de hipertexto en web). La actividad actual del WHATWG se centra en el futuro
estndar HTML 5, cuyo primer borrador oficial (http://www.w3.org/TR/html5/) se public el 22 de enero
de 2008. Debido a la fuerza de las empresas que forman el grupo WHATWG y a la publicacin de los
borradores de HTML 5.0, en marzo de 2007 el W3C decidi retomar la actividad estandarizadora de HTML.

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 6


UT 1. Caractersticas de los Lenguajes de Marcas

Ventajas e inconvenientes de HTML

Es multiplataforma.
Tiene una curva de aprendizaje muy plana.
Barato (hay muchos editores, visores, verificadores, etc. gratuitos y comerciales).
Base de informacin grande.
Los navegadores son baratos, sencillos de construir y de usar.

 Poco control de espaciado.


 Problemas con el control de guiones, justificacin y otras manipulaciones de texto.
 El uso de columnas es problemtico.
 No se pueden agregar etiquetas nuevas.
 No es modular, poca oportunidad de reciclar.
 Hay demasiado cdigo invlido publicado actualmente.
 Es una representacin de un documento, no de informacin.
 Es campo de batalla comercial (entre navegadores basados en Netscape e IE).

Ejemplo de HTML

<html>
<head>
<title>Brazil</title>
</head>
<body>
<h1>Brazil</h1>
<font size="2"><b>Director:</font></b> Terry Gilliam <br>
<font size="2"><b>Protagonista:</font></b> Jonathan Pryce <br>
</body>
</html>

3.3 XML
XML (eXtensible Markup Language lenguaje extensible de marcas). Al igual que SGML, no es un lenguaje de
marcas, sino un metalenguaje (especifica una sintaxis para crear lenguajes de marcado, de ah su cualidad de
extensible). Cubre un subconjunto de caractersticas de SGML ms sencillas de manejar (segn John Boshack,
XML incorpora el 80% de la funcionalidad de SGML con el 20% de su cdigo). XML naci en febrero de
1998 como borrador para una recomendacin del W3C.

o Permite crear, procesar y presentar documentos.


o Puede utilizarse para describir y comunicar cualquier informacin estructurada, no solamente
documentos aplicables a la web.
o Es multicanal: permite que el mismo documento est disponible para varios entornos distintos (web,
impresora, PDA, telfono mvil).
o Es un estndar abierto creado por el W3C y soportado de forma global.

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 7


UT 1. Caractersticas de los Lenguajes de Marcas

o Es compatible con HTML: HTML puede definirse a partir de la sintaxis de XML.


o Proporciona metadatos que mejoran la calidad de bsqueda de la informacin.
o Presenta una jerarqua de datos:

pelicula

director actores

actor

Ejemplo de XML

<?xml version="1.0"?>
<pelicula>
Brazil
<director>Terry Gilliam</director>
<actores>
<actor>Jonathan Pryce</actor>
<actor>Robert de Niro</actor>
</actores>
</pelicula>

3.4 XHTML
El lenguaje XHTML es muy similar al lenguaje HTML. De hecho, XHTML
no es ms que una adaptacin de HTML al lenguaje XML. Se han incluido
todas las etiquetas HTML, pero siguiendo las directrices de XML.
Tcnicamente, HTML es descendiente directo del lenguaje SGML, mientras
que XHTML lo es del XML (que a su vez, tambin es descendiente de
SGML).

Las pginas y documentos creados con XHTML son muy similares a las pginas y documentos HTML. Las
discusiones sobre si HTML es mejor que XHTML o viceversa son recurrentes en el mbito de la creacin de
contenidos web, aunque no existe una conclusin ampliamente aceptada. Actualmente, entre HTML 4.01 y
XHTML 1.0, la mayora de diseadores escogen XHTML.

Ejemplo de XHTML

<html>
<head>
<title>Brazil</title>
</head>
<body>
<h1>Brazil</h1>
<font size="2"><b>Director:</b></font> Terry Gilliam <br/>

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 8


UT 1. Caractersticas de los Lenguajes de Marcas

<font size="2"><b>Actores:</b></font><br />


Jonathan Pryce<br/>
Robert de Niro<br/>
</body>
</html>

3.5 CSS
CSS es un lenguaje de hojas de estilos creado para controlar el aspecto o presentacin de los documentos
electrnicos definidos con HTML y XHTML. CSS es la mejor forma de separar los contenidos y su
presentacin y es imprescindible para crear pginas web complejas.

Al crear una pgina web, se utiliza en primer lugar el lenguaje HTML/XHTML para marcar los contenidos,
es decir, para designar la funcin de cada elemento dentro de la pgina: prrafo, titular, texto destacado, tabla,
lista de elementos, etc. Una vez creados los contenidos se utiliza el lenguaje CSS para definir el aspecto de
cada elemento: color, tamao y tipo de letra del texto, separacin horizontal y vertical entre elementos,
posicin de cada elemento dentro de la pgina, etc.

XML CSS (peli.css)


<?xml version="1.0"?> pelicula {
<?xml-stylesheet type="text/css" href="peli.css"?> display: block;
<pelicula> font-size: xx-large;
Brazil font-weight: bold;
<director>Terry Gilliam</director> margin-top: 8px;
</pelicula> margin-left: 8px;
}
director {
display: block;
font-size: medium;
top: 21px;
position: relative;
}
director:before {
content: "Director: ";
font-weight: bold;
}

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 9


UT 1. Caractersticas de los Lenguajes de Marcas

Mediante CSS se pueden crear distintas presentaciones para el mismo documento, facilitando su visualizacin
en varios tipos de dispositivos (ordenador, telfono mvil, iPad, impresora, pdf).

4 Ejemplos de lenguajes de marcas

Principales
 GML > SGML > XML > Dialectos XML
Documentos en general
Lenguajes descriptivos
 ASN.1, EBML, YAML
Lenguajes de presentacin

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 10


UT 1. Caractersticas de los Lenguajes de Marcas

 Rich Text Format, S1000D, TeX, troff, HTML


Lenguajes ligeros
 BBCode, Markdown, ReStructuredText, setext, Textile, Wikitexto
Lenguajes para manuales
 DocBook, HelpML, LinuxDoc, POD, Microsoft Assistance ML
Tecnologas de Internet
World Wide Web
 HTML, XHTML, Wireless ML, Handhelp ML, RDF, Meta Content Framework
Sindicacin de contenidos
 Atom, RSS, ICE, OPML y OML, SyncML
Servicios web
 WSDL, XINS, WSCL, WSFL, XML-RPC, Webml
Lenguajes especializados
 Grficos 2D: SVG, CGM, VML, InkML.
 Grficos 3D: VRML/X3D, STEP.
 Matemtica: MathML y OpenMath.
 Msica: LilyPond y MusicXML.
 Taxonoma: DITA.
 Finanzas: eXtensible Bussiness Reporting Language, Financial products ML.
 Geomtica: Geography ML.
 Aeronutica: Spacecraft ML.
 Multimedia: Synchronized Multimedia Integration Language.
 Voz: VoiceXML.
 Mensajera instantnea: XMPP.
 Videojuegos: BulletML, COLLADA.

5 Estndares web

El W3C elabora las normas que deben seguir los diseadores de pginas web para crear las pginas HTML.
Las normas oficiales se pueden consultar de forma gratuita en las siguientes direcciones:
Especificacin oficial de HTML 4.01 (http://www.w3.org/TR/html401/)
Especificacin oficial de XHTML 1.0 (http://www.w3.org/TR/xhtml1/)

El estndar XHTML 1.0 incluye el 95% del estndar HTML 4.01, ya que slo aade pequeas mejoras y
modificaciones menores. Afortunadamente, no es necesario leer las especificaciones y recomendaciones
oficiales de HTML para aprender a disear pginas con HTML o XHTML. Las normas oficiales estn
escritas con un lenguaje bastante formal y algunas secciones son difciles de comprender.

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 11


UT 1. Caractersticas de los Lenguajes de Marcas

Necesidad de uso de estndares web

Con la utilizacin de los estndares web se acorta el tiempo de desarrollo, los sitios creados son fciles de
actualizar y mantener, se mejoran los rankings de los motores de bsqueda y, adems, se mejora la
accesibilidad, haciendo las pginas ms accesibles a ms gente, especialmente a los discapacitados, algunos de
los cuales no pueden utilizar navegadores estndar.

El enfoque de los creadores de estndares web se basa en separar contenido, estructura y significado de la
informacin de su presentacin visual y su diseo, de modo que se utilice la herramienta adecuada para cada
trabajo.

Separando contenido (las palabras e imgenes) y presentacin (cmo aplicar estilos a esas palabras e
imgenes), se reducen considerablemente los tiempos de descarga de la pgina y se facilita el mantenimiento.
El diseo de todo un sitio web puede cambiar por otro nuevo y mejorado actualizando simplemente la hoja
de estilo. Se pueden crear hojas de estilo personalizadas para PDAs , telfonos mviles y otros dispositivos
distintos de los ordenadores.

Bibliografa
Xml Juan Diego Gutirrez Gallardo (Anaya)
HTML y CSS Christopher Murphy y Nicklas Persson
HTML & XHTML: The Definitive Guide, 6th Edition Bill Kennedy y Chuck Musciano (OReilly)
Lenguajes de marcas y sistemas de gestin de informacin Juan Manuel Castro Ramos y Jos Ramn Rodrguez Snchez (Garceta)
en.wikipedia.org / es.wikipedia.org
jhh.med.virginia.edu/main/stxml/uploads/SGML.ppt

Lenguajes de Marcas y Sistemas de Gestin de la Informacin 12

También podría gustarte