Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Por tanto, una de las tareas bsicas que hacen los ordenadores es almacenar la
informacin que les proporcionamos para poder ser procesada posteriormente.
Esta informacin puede ser de muchos tipos diferentes (texto, imgenes, vdeos,
msica ...) pero lo realmente importante ser cmo la almacena el ordenador
para poder tratarla posteriormente de manera eficiente para generar ms
informacin.
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
1/29
10/2/2014
Destinatario de datos
Si se intenta ser un poco ms prctico se ver que realmente los datos tendrn una
forma u otra en funcin del destinatario al que vayan dirigidas:
1. Datos destinadas a los humanos : generalmente los datos destinados al
humanos requerirn que tengan alguna estructura concreta, con unos
formatos determinados, con textos decorados de alguna manera. Aparecern
ttulos, caracteres en negrita, etc. Generalmente no es necesario conocer qu
significado tienen los datos, ya que la interpretacin se deja al lector.
2. Datos destinadas a los programas : los programas generalmente no
necesitan que los datos tengan informacin sobre cmo se han de representar,
sino que basta con que sean fcilmente identificables, que quede claro de qu
tipo son y que haya alguna manera de determinar qu significan para poder
tratar automticamente.
Reutilizacin de los datos
Muy a menudo los datos se querrn reutilizar para poder realizar tareas
diferentes. Un error corriente suele ser almacenarlas especficamente para realizar
una tarea concreta, ya que esto puede provocar que posteriormente sea mucho
ms complicado usarlas para hacer otras tareas.
Por tanto, es bsico disponer de un sistema de almacenamiento que permita
lograr que los datos puedan ser reutilizadas fcilmente y si puede ser que puedan
ser reutilizadas tanto para las personas como para los programas.
Comparticin de los datos
En el pasado, con los ordenadores centrales la informacin se generaba y se
procesaba en el mismo lugar. Pero la aparicin de los ordenadores personales, la
eclosin de las redes y, sobre todo, el xito de Internet, ha creado toda una serie de
problemticas que hasta el momento no existan: los datos generados en un lugar
ahora pueden ser consumidas en un lugar totalmente diferente, como por
ejemplo:
en sistemas operativos totalmente diferentes.
en mquinas que pueden funcionar de maneras muy diversas.
Por tanto, en un sistema informtico moderno ha de tener en cuenta esta
posibilidad a la hora de almacenar datos. Existe la posibilidad de que estos datos
sean compartidas y, por tanto, deben almacenarse de alguna manera que no
tenga problemas para usarlas en sistemas diferentes.
2/29
10/2/2014
Datos de texto
Datos binarios
valor binario
1 50
1 001 01 1 0
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
3/29
10/2/2014
Representar la informacin de esta manera hace que las imgenes ocupen mucho
espacio y por este motivo normalmente se utilizan mtodos para optimizar su
almacenamiento.
Una de las maneras de optimizar el espacio ocupado por la imagen podra ser
darse cuenta de que hay varias repeticiones de los colores. De modo que se podra
intentar aprovechar esta caracterstica para conseguir un archivo binario ms
pequeo.
Se podra hacer que en vez de especificar los puntos uno por uno si hay una
repeticin se pudiera especificar el nmero de veces que se repite el color. De esta
manera un punto blanco aislado se representar normalmente, pero si se
encuentran cuatro puntos blancos, en vez de almacenar 0000se puede
representar con 40(4 blancos)
El resultado de aplicar este procedimiento a la misma imagen nos dar:
202130120120120120412012012012010
Este procedimiento tiene la ventaja aadida de que con el nuevo sistema los datos
ocupan un 10% menos de espacio (33 caracteres) que antes (36 caracteres).
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
A pesar de que con el nuevo sistema no se almacenan todos los
puntos un
4/29
10/2/2014
Si se puede acceder a cada uno de los registros del archivo se puede acceder de
nuevo a los datos de un alumno, se puede identificar rpidamente la parte de los
datos que es el nombre, apellido o nota, y adems sabemos si los datos deben ser
interpretadas como nmeros o como texto.
En el ejemplo de la figura 1 .2 puede ver que se puede identificar a qu dato
corresponde cada uno de los caracteres. Los diez primeros son el nombre, los 10
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
5/29
10/2/2014
corresponde cada uno de los caracteres. Los diez primeros son el nombre, los 10
siguientes son el apellido y los cuatro siguientes son el nmero entero (32 bits).
Figura 1.2. Representacin de datos en una estructura utilizando
caracteres
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
6/29
10/2/2014
Todas estas cosas son las que hay que conocer para poder usar los datos de un
ejemplo sencillo, por lo que podis imaginar qu pasara con un ejemplo ms
complejo.
Forma de lectura del procesador
De la misma manera que en los lenguajes humanos hay idiomas que se escriben
de izquierda a derecha y de otros de derecha a izquierda, todos los procesadores no
almacenan la informacin de la misma manera (tcnicamente se hace referencia
a la orden de lectura en las direcciones de memoria).
Hay dos grandes sistemas para almacenar la informacin en ordenadores:
Big endian : los datos se escriben en el orden en que se crean. As, para
escribir holaen el ordenador almacenara h, o, l, a. Este sistema es el que
utilizan los procesadores de Motorola.
Little endian : los datos se guardan de menos relevante ms relevante: a, l
, o, h. Este sistema es el que utilizan los procesadores de Intel.
Lo ms habitual es que los ordenadores slo usen uno de los dos sistemas, aunque
algunas pueden funcionar con ambos indistintamente (ARM, PowerPC, PA-RISC
...).
Esto no es importante cuando los datos se pasan entre ordenadores que funcionan
con el mismo tipo, pero es un aspecto vital que hay que tener en cuenta si los
ordenadores que se pasan la informacin son de tipos diferentes, ya que los datos
binarios pasadas de un sistema a otro pueden ser totalmente malinterpretadas por
culpa que se almacenan internamente de manera diferente.
Lectura para humanos
Un problema distinto es que los datos en formato binario estn pensadas para ser
ledas por mquinas ( figura 1 .4 ) pero no por humanos, por lo que son ideales
para ser almacenadas en mquinas, van bien para la comunicacin de
informacin entre mquinas, pero en cambio para un humano las pueda utilizar
deber tener un programa especfico para leerlas.
Figura 1.4. El formato binario no est pensado para ser ledo por
humanos
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
7/29
10/2/2014
Los ficheros de texto almacenan la informacin letra por letra de una manera
similar a como lo hara un humano en escribir. Esto hace que se est generando
una informacin que se podr leer de la misma manera que se lee un documento
de papel.
Para un ordenador no hay mucha diferencia a la hora de almacenar los archivos
de texto o archivos binarios, ya que los archivos de texto tambin son tiras de bits.
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
8/29
10/2/2014
La diferencia es que esta vez los bits estn agrupados de una manera estndar y
conocida: un cdigo de caracteres .
Cdigos de caracteres
Representar los datos en un ordenador en forma de texto implica que para poder
representar una palabra cualquiera en el ordenador previamente deber ser
codificada para que pueda ser representada en binario (recordemos que los
ordenadores slo pueden representar datos en binario). Esta codificacin suele
consistir en determinar una cantidad de bits predefinida para marcar un carcter
y posteriormente se asocia un valor numrico a cada uno de los caracteres.
Obsrv ese que para un ordenador el espacio en
blanco es un carcter m s.
Va l or deci ma l
Va l or bi n a ri o
000
001
010
011
100
Espaci o
101
Esto nos perm itira codificar la frase "AI AI AI" de esta m anera:
000010101000010101000010
Pero ante el m ism o problem a otra persona podra elegir una com binacin
diferente, com o la de la tabla 1 .3 .
T a bl a 1.3. A lt er n a t iv a difer en t e de codifica cin
Ca r ct er
Va l or deci ma l
Va l or bi n a ri o
Espaci o
000
001
E
2
010
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
9/29
10/2/2014
011
100
101
Esto prov ocara que en com unicar la frase "AI AI AI" generada con el prim er
sistem a, en el segundo se descodifica:
000 -> Espacio
010 -> E
101 -> U
Carct er Valor
Carct er Valor
Carct er Valor
Carct er Valor
Carct er Valor
decimal
decimal
decimal
decimal
decima
32
51
70
89
1 08
33
52
71
90
1 09
"
34
53
72
91
110
35
54
73
92
111
36
55
74
93
112
37
56
75
94
113
&
38
57
76
95
114
'
39
58
77
96
115
40
59
78
97
116
41
<
60
79
98
117
42
61
80
99
118
43
>
62
81
1 00
119
44
63
82
1 01
1 20
45
64
83
1 02
1 21
46
65
84
1 03
1 22
47
66
85
1 04
1 23
48
67
86
1 05
1 24
49
68
87
1 06
1 25
50
69
88
1 07
1 26
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
10/29
10/2/2014
decimal
binario
72
1 001 000
111
1 1 01 1 1 1
1 08
1 1 01 1 00
97
1 1 00001
El primer problema que se encontr para el ASCII era que slo estaba pensado
para el ingls y, por tanto, no se dispona de caracteres de uso corriente en otras
lenguas: , , , , etc. Por lo tanto, para poder expandirse a otras zonas se cre un
ASCII expandido , que increment el nmero de de bits a 8, y gracias a este bit
extra se podan especificar los caracteres especficos de cada idioma que el ingls
no tena. De esta manera se permita crear textos en otros idiomas que usaran el
alfabeto latino.
Esto hizo que aparecieran muchas variedades de ASCII , especializadas en un
grupo de idiomas ( ISO 8859-1, ISO 8859-2, etc.).
Pero como cada idioma utilizaba los valores nuevos para aadir sus caracteres
propios la informacin representada utilizando uno de estos " ASCII "no siempre
se vea bien en otro de los" ASCII ".
Adems, ASCII y ASCII expandido slo estaban pensados
para idiomas que
usaran el alfabeto latino y, por tanto, los idiomas no basados
en el alfabeto latino
tenan que recurrir a otras codificaciones.
Unicode
Unicode es un intento de sustituir los cdigos de caracteres existentes por uno
genrico que sirva para todas las lenguas, y por tanto supere todos los problemas
de incompatibilidad que se producan en entornos multilinges y permita aadir
los caracteres no latinos.
La idea bsica de Unicode es dar a cada uno de los smbolos un identificador nico
universal de manera que se puedan utilizar en el mismo documento idiomas
diferentes sin que ello conlleve problemas de representacin.
La adopcin de Unicode resuelve de una vez todos los problemas de
representacin de caracteres en ficheros de texto.
A pesar de sus v entajas, Unicode tam bin
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
11/29
10/2/2014
UTF-16
UTF-32
12/29
10/2/2014
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
13/29
10/2/2014
Si el objetivo es hacer que los datos se puedan reutilizar tanto para programas
como para personas, los caracteres errneos se deben evitar. Como se ve en la
figura 1 los problemas en algunos casos pueden ser poco importantes si se quiere
que una persona entienda lo que pone, pero pueden ser un problema muy grande
para un programa, ya que su capacidad de interpretacin es muy inferior .
La adopcin de Unicode en la mayora de sistemas operativos est haciendo que
este problema se est reduciendo y el hecho de que la cantidad de codificaciones de
caracteres sea muy inferior a la cantidad de cdigos binarios hace que los datos
en formato de texto se consideren fcilmente compartibles .
Si alguien hubiera almacenado informacin durante los aos setenta, y an se
tuviera la capacidad de leer el soporte en el que se guardaron, difcilmente se
podra recuperar algo de los datos binarios que se encontraran, ya que los
programas que las generar ya no existen o no funcionan con los sistemas
operativos modernos, y en cambio es posible que los datos almacenados en
formato de texto s se pudieran recuperar.
Representacin de caracteres no textuales
Otro problema que suele haber en la lectura de datos de texto cuando se hace en
diferentes sistemas operativos suele estar relacionada con cmo se hace el
tratamiento de los caracteres no textuales.
El ejemplo ms conocido es el diferente tratamiento que hacen los saltos de lnea
los sistemas Windows y las diferentes variedades de Unix y Linux. Para
representar los saltos de lnea en el texto los sistemas operativos usan alguno de
los caracteres no imprimibles del cdigo de caracteres, y por tanto, de esta manera
tienen una forma "transparente al usuario" de poder representar el texto tal como
ha escrito.
El problema es que dos de los sistemas operativos ms populares, Windows y
Unix, lo hacen de manera diferente. Mientras que Unix usa un solo carcter para
indicar el salto de lnea, LF ( line feed ), Windows en usa dos: CR ( carriage
Return ) y LF ( line feed ). El resultado es que al abrir un archivo generado en un
sistema Unix en un sistema en Windows los saltos de lnea han desaparecido y en
su lugar aparece un rectngulo que representa el carcter LF ( figura 1 ).
Figura 1.6. Diferencia del tratamiento en los saltos de lnea entre
Windows y Linux
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
14/29
10/2/2014
Result ado
Manel
Puig
Garcia
15/29
10/2/2014
Si se utiliza el m ism o program a que antes, ste puede pensar que los
nom bres de las personas son "Sr." y "D" y que las notas son "Garcia",
"Puigdev all", etc.
Pero aadir datos no es el nico problem a que tenem os, y a que representar
los datos de esta m anera arruina la lectura de la gente que no utilice los
program as especficos. Quin puede saber que el nm ero es una nota y no
otra cosa?
A cualquiera de v osotros se os puede acudir una m anera sencilla de ev itar
este problem a, que consiste en que la prim era colum na indique qu es cada
uno de los datos que se representan a continuacin.
"Nombre", "apellido", "cognom2", "nota"
"Manuel", "Puig", "Garca", 8
"Pedro", "Gonzlez", "Puigdevall", 5
"Mara", "Pozos", "Canadell", 7
16/29
10/2/2014
Esto hace que los lenguajes de marcas adquieran una de las caractersticas ms
interesantes de los binarios, que es la posibilidad de incorporar informacin sobre
los datos-metadatos-pero intentando que afecte lo menos posible a la legibilidad
del documento.
Tambin permiten definir los datos y su estructura de manera que sea sencillo
para un programa poderlas interpretar.
Gracias a las ventajas que ofrecen los lenguajes de marcas, estos se han
convertido rpidamente en una de las maneras habituales de representar datos y
se pueden encontrar continuamente en las tareas habituales con ordenadores:
El exponente ms popular es Internet-el Web-, que est basado totalmente en
los lenguajes de marcas.
Muchos de los programas de ordenador que utilice habitualmente utilizan en
algn momento alguna u otra forma de algn lenguaje de marcas para
almacenar sus datos de configuracin o de resultados:
Internamente los formatos de documentos de Microsoft Office o de
OpenOffice. Org o LibreOffice estn basados
en lenguajes de marcas.
Microsoft Visual Studio guarda su configuracin utilizando lenguajes de
marcas.
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
17/29
10/2/2014
etc.
Pero hay muchas otras formas de marcas. Otra idea consiste en encontrar alguna
combinacin de caracteres que salga raramente en el lenguaje habitual. El TeX
utiliza las barras invertidas para indicar el inicio de las marcas
\ Section {Personas}
\ Begin {itemize}
\ Item Manel Puig Garcia
\ Item Pedro Gonzlez Puigdevall
\ Item Maria Pozos Canadell
\ End {itemize}
La idea general es que es necesario que las marcas sean fcilmente identificables
para podernos aprovechar las ventajas que ofrecen los lenguajes de marcas.
18/29
10/2/2014
Los lenguajes de marcas han destacado por una serie de caractersticas que los
han convertido en los tipos de lenguajes ms usados
en la informtica actual para
almacenar y representar los datos. Entre las caractersticas ms interesantes que
ofrecen los lenguajes de marcas se encuentran:
Que se basan en el texto plano.
Que permiten utilizar metadatos.
Que son fciles de interpretar y procesar.
Que son fciles de crear y suficientemente flexibles para representar datos
muy diversas.
Las aplicaciones de Internet y muchos de los programas de ordenador que se
utilizan habitualmente utilizan de alguna manera u otra algn lenguaje de
marcas.
Basados
en texto plano
Los lenguajes de marcas se basan en texto plano sin formato. Estos caracteres
pueden estar codificados en diferentes cdigos de caracteres: ASCII , ISO -8859-1,
UTF-8, etc.
Una de las ventajas que intentan aportar los lenguajes de marcas es que se pueden
interpretar directamente y esto slo es posible si usamos el formato de texto, ya
que los binarios requieren un programa para interpretarlos. Pero adems tienen la
ventaja de que son independientes de la plataforma, del sistema operativo o del
programa.
El hecho de que estn basados
en formato de texto hace que sean fciles de crear y
de modificar porque slo requieren un simple editor de textos.
Uso de metadatos
Las marcas se intercalan entre el contenido del documento, por lo que
generalmente estas etiquetas suelen ser descriptivas de qu es lo que indica el
contenido de los datos que contienen.
Estas marcas son la manera como se aaden los metadatos a los documentos de
texto y cmo se consiguen superar las limitaciones del formato de texto y
conseguir algunas de las ventajas de los ficheros binarios.
Facilidad de proceso
Los lenguajes de marcas permiten que el procesamiento de los datos que
contengan pueda ser automatizado de alguna manera, ya que el archivo contiene
la estructura de los datos que contiene.
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
19/29
10/2/2014
20/29
10/2/2014
== Asignatura: XML ==
[[Archivo: xml.png]]
'' 'Profesor''':
*'' Manuel Puig''
'' Alumnos'' '
* Frederic Puig
* Filomeno Garca
* Manuel Puigdevall
Se puede ver cmo el programa ha interpretado las marcas "=" o "==" para
mostrar los diferentes niveles de los ttulos, que los smbolos "*" indican listas de
puntos y que con diferente cantidad de cometas indican negritas o cursiva. Por
tanto, es un ejemplo que indica claramente cmo debe ser representada la
informacin .
Descriptivos o semnticos
En estos lenguajes se describe qu estructura lgica tiene el documento ignorando
de qu manera ser representada en los programas. Slo se ponen las marcas con
el objetivo de definir las partes que dan estructura al documento. El ejemplo ms
importante es el XML pero hay algn otro que est teniendo mucho apoyo, como
por ejemplo JSON.
En el documento siguiente tenemos un ejemplo de un archivo de marcas que da
informacin sobre personas:
<Alumnos >
<Persona >
<Nombre > Pedro </ nombre >
<Apellido > Puig </ apellido >
</ Persona >
<Persona >
<Nombre > Manuel </ nombre >
<Apellido > Garcia </ apellido >
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
21/29
10/2/2014
1.3.6. Historia
Se considera que el origen de los lenguajes de marcas est en las modificaciones
que los impresores hacan con lpiz en manuscritos. Cuando alguien quera
imprimir un libro que haba escrito, los impresores, con un lpiz generalmente de
color azul, escriban en el texto qu caractersticas deba tener cada parte del texto,
si se tena que hacer en negrita, si era el ttulo del libro , etc. Se cree que estos son
los antecedentes de las marcas.
SGML
Al principio de los aos ochenta a IBM necesitaban alguna manera de almacenar
y compartir una gran cantidad de informacin entre diferentes plataformas y que
permitiera integrar los datos en sistemas de datos, editores, etc., Y desarrollaron
GML, que posteriormente acab con el nombre SGML en el momento en que fue
estandarizado en 1986 por la organizacin de estndares internacional ISO
(International Organization for Standardisation). La especificacin se encuentra
bajo el nombre ISO -8879.
A pesar de que no se considera el primer lenguaje de marcas, fue el primer
lenguaje reconocido como estndar ISO .
SGML ( standard generalized markup language ) es un lenguaje basado en los
datos de texto que se puede usar para poner metadatos a los datos. Es un sistema
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
22/29
10/2/2014
datos de texto que se puede usar para poner metadatos a los datos. Es un sistema
para organizar y etiquetar elementos de un documento haciendo hincapi en los
aspectos de la estructura de un documento y dejando que sea el intrprete el que
se encarga de hacer la representacin visual de estos datos. Lo hace definiendo
unas reglas estrictas que especifican de qu manera se pueden hacer las etiquetas.
SGML se dise para ser una manera estndar de etiquetar datos genricos de
modo que no importara si los datos para etiquetar provenan del mundo de las
matemticas o bien eran los resultados financieros de una empresa. Todos los
datos se podan etiquetar con sentido utilizando SGML .
El hecho de que SGML fuera tan com plejo no lo
haca ideal para intercam biar datos por m edio
de Internet. Si slo un grupo de personas poda
generar inform acin el crecim iento del
entorno Web habra sido m uy inferior.
SGML se usaba sobre todo en documentos que deban tener muchos cambios y
que posteriormente haban de representar en formatos diferentes.
Por tanto, con SGML tenemos las siguientes ventajas:
Tenemos una manera de reutilizar los datos.
Permite un mayor control sobre los datos y garantiza la integridad.
Es portable.
Es flexible.
Nos garantiza la perdurabilidad de la informacin.
Pero no todo son ventajas en el SGML :
La mayora de los documentos que se creaban slo estaban destinados a la
impresin.
Es terriblemente complejo, de modo que no se utiliza en ordenadores
personales.
HTML
En 1989, Tim Berners-Lee y Anders Berglund, dos investigadores del CERN
(acrnimo de Conseil Europen pour la Recherche nuclaire, Organizacin
Europea para la Investigacin Nuclear), crearon un lenguaje basado en etiquetas
basado en SGML destinado a compartir informacin por Internet : HTML (
HyperText Markup Language ). HTML se basa en la manera de definir e
interpretar etiquetas de SGML pero no es totalmente compatible con SGML
(algunas de las reglas que se han definido incumplen las reglas SGML ).
HTML se concentra a definir un formato para describir la visualizacin de la
informacin en una pgina web y es muy sencillo. Su sencillez ha sido uno de los
factores que ha llevado a la rpida popularidad de la World Wide Web, y de
Internet. Es uno de los motivos por los que cada da se generan millones de
pginas web nuevas.
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
23/29
10/2/2014
Por otra parte, HTML funciona bien a la hora de presentar informacin a los
humanos pero tiene unos cuantos problemas que lo hacen poco eficiente para las
nuevas aplicaciones actuales: es muy difcil reutilizar la informacin que contiene
para generar resultados en formatos distintos a los que ha definido el diseador y
es muy complejo para los programas automticos interpretar de qu tipo son los
datos contenidos en un documento HTML .
Por tanto, haba alguna manera de poder realizar bsquedas inteligentes en los
documentos HTML y seleccionar los resultados segn criterios personalizables.
24/29
10/2/2014
Por tanto, el XML permitir que cada persona pueda definir las etiquetas que le
hagan falta para poder representar los datos ms adecuadamente.
Estructura de los datos
Otra idea que se tuvo en cuenta a la hora de desarrollar el XML era que los datos
que contuviera pudieran reutilizar para generar otros resultados y, por tanto,
haba que pudiera ser interpretado fcilmente por medio de programas de
ordenador. Por tanto, los datos contenidos en documentos deban tener una
estructura.
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
25/29
10/2/2014
estructura.
Por tanto, el XML se dise con la idea de dar estructura a los datos y no
preocuparse de cmo se presentarn los datos a los usuarios . Para ello ya
se desarrollaran otras alternativas: CSS , XML -FO, etc.
Esto hace que a la hora de crear un documento XML se debe pensar como deben
estructurarse los datos y nunca especificar nada de cmo debern representar.
Transporte de los datos
El hecho de que el XML se concentre en la estructura de los datos y que, por tanto,
sea relativamente fcil determinar qu datos contiene, lo hace un sistema ideal
para el transporte de datos entre diferentes plataformas.
Por lo tanto, si tenemos un documento XML como este:
<Alumnos >
<Persona >
<Nombre > Manuel </ nombre >
<Apellido > Garcia </ apellido >
</ Persona >
<Persona >
<Nombre > Pedro </ nombre >
<Apellido > Gonzlez </ nombre >
</ Persona >
</ Alumnos >
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
26/29
10/2/2014
Uso
SVG
MathML
CML
SMIL
SSML
Sntesis de v oz
SML
Pero no acaba aqu, ya que la lista es inmensa: SMBXML, CIML, NAML, TML,
SCORM, LMML, OpenMath, PetroXML, ProductionML, GeophysicsML, X3D,
MML , SMDL, BGML, etc.
Extensible
Otra de las ventajas de XML es que es fcilmente extensible y adaptable a las
necesidades que tengamos. El XML permite que se mezclen diferentes
vocabularios en el mismo documento.
Esto hace que podamos definir un documento XML con un vocabulario creado
por nosotros que defina una lista de alumnos y que a la vez podamos aadir una
imagen con el logotipo de la escuela en formato SVG (un estndar XML de
grficos vectoriales) y al mismo tiempo definir en ellos la presentacin en XHTML
.
Por lo tanto, tenemos la suficiente flexibilidad para representar los datos que se
requieran en cada momento
Uso de XML
Actualmente los usos de XML son muy diversos:
Mostrar el contenido de pginas web. Uno de los lenguajes XML es el XHTML
, que intenta modificar el HTML para hacerlo ms sencillo de interpretar.
Comunicar sistemas distribuidos que incluso ejecuten sistemas operativos
diferentes o estn en plataformas totalmente diferentes.
En comercio electrnico, en un sistema conocido como Bussines2Bussines
que permite a las empresas compartir datos de forma automtica.
Reducir la carga de servidores distribuyndola entre servidores.
Muchos programas que usaban formatos binarios para almacenar sus datos han
pasado a algn tipo de XML :
Microsoft Office: pas de guardar los documentos en binario. DOC en XML .
DOCX (OOXML) en estandarizar-lo.
OpenOffice. Org: guarda sus documentos en un formato XML .
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
27/29
10/2/2014
Podemos ver que muchos programas usan XML para guardar su configuracin o
sus datos con una simple bsqueda en el sistema operativo.
Con una simple bsqueda podemos ver cuntos archivos XML tenemos en
nuestro sistema operativo. Por ejemplo, en Linux podemos ejecutar el siguiente
para ver el nmero de ficheros XML que tenemos:
$ Locate. Xml | wc-l
Problemas
A pesar de las mltiples ventajas que ofrece el XML , tambin se le han hecho
crticas, como el hecho de que los ficheros XML tienen la tendencia a ser muy
grandes. Casi siempre ocupan una cantidad mucho mayor de espacio en disco que
sus equivalentes en formato binario.
El hecho de utilizar ficheros muy grandes puede tener un impacto importante en
el rendimiento de los programas, ya que antes de poder trabajar deben cargar el
archivo o descargarlo de la red.
Hay gente que considera que el problema del tamao de los archivos a veces es
compensado por:
La facilidad de interoperatividad entre programas.
El precio del almacenamiento es cada vez ms bajo y por ahora parece que la
tendencia es que todava baje ms.
Pero no todos estn de acuerdo, y por este motivo han aparecido una serie de
alternativas al XML que se conocen como lenguajes de marcas ligeros , que
normalmente tienen como objetivo conseguir que los archivos de marcas ocupen
mucho menos espacio :
Al ocupar menos espacio ahorran ancho de banda y espacio en disco.
Normalmente se pueden convertir a XML sin problemas.
Ocupan menos memoria RAM cuando son procesados.
Los lenguajes de marcas ligeros ms usados
actualmente son JSON ( JavaScript
object notacin ) y los lenguajes de marcas de los wikis.
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
28/29
10/2/2014
http://ioc.xtec.cat/materials/FP/Materials/2251_ASIX/ASIX_2251_M04/web/html/WebContent/u1/a1/continguts.html
29/29