Está en la página 1de 24

INTRODUCCION AL XML

MATERIA:
PROGRAMACION WEB
TEMA:
INTRODUCCION AL XML
PRESENTAN:
ERIKA LOPEZ PEREGRINO
REY DAVID BALTAZAR SANTIAGO
OBETH ORTIZ JIMENEZ
DANIEL ALBERTO ROJAS LOPEZ
CATEDRATICO:
ING. LOPEZ POSADA JOSE ANTONIO
ESPECIALIDAD:
LIC. INFORMATICA
SEMESTRE:
8to.
HEROICA CD. JUCHITAN DE ZARAGOZA OAX.

INTRODUCCION AL XML

INTRODUCCION AL XML
INDICE

NOMBRE DEL TEMA...NUMERO DE PAGINA

INTRODUCCION.............................................................4

CONCEPTOS DE XML..5

PARTES DE UN DOCUMENTO XML..9

EJERCICIOS DE CADA PARTE DE UN DOCUMENTO XML..22

CONCLUSION...23

BIBLIOGRAFIA.....24

INTRODUCCION AL XML
INTRODUCCION
Aunque, a primera vista, un documento XML y un documento HTML puedan
parecernos muy parecidos, hay una diferencia principal y es que el HTML no
indica lo que se est representando, tiene datos mal definidos con elementos de
formato, mientras que el XML contiene datos que se autodefinen: describe el
contenido de lo que etiquetan.
Una forma rpida de entender la estructura de un documento XML es viendo un
ejemplo:

<?xml version="1.0" encoding="UTF-7" ?>


<album>
<autor>SABINA Y CIA Nos sobran los motivos</autor>
<titulo>Joaqun Sabina</titulo>
<formato>MP3</formato>
<localizacion>Varios CD5 </localizacion>
</album>

Cada documento XML posee una estructura lgica y una fsica . La estructura
lgica del documento es una serie de declaraciones, elementos, comentarios, etc.
que se indican en el documento mediante marcas explcitas. La estructura fsica
del documento es una serie de unidades llamadas entidades, es decir, indica los
datos que contendr el documento. Las estructuras lgica y fsica deben anidarse
de forma correcta.

INTRODUUCCION AL XML
CONCEPTOS DE XML
(Extensible Markup Language)
CONCEPTOS
XML.- siglas en ingls de Extensible Markup Language (lenguaje de marcas
extensible), es un metalenguaje extensible de etiquetas desarrollado por el World
Wide Web Consortium (W3C). Es una simplificacin y adaptacin del SGML y
permite definir la gramtica de lenguajes especficos (de la misma manera que
HTML es a su vez un lenguaje definido por SGML). Por lo tanto XML no es
realmente un lenguaje en particular, sino una manera de definir lenguajes para
diferentes necesidades. Algunos de estos lenguajes que usan XML para su
definicin son XHTML, SVG, MathML.
XML no ha nacido slo para su aplicacin en Internet, sino que se propone como
un estndar para el intercambio de informacin estructurada entre diferentes
plataformas. Se puede usar en bases de datos, editores de texto, hojas de clculo
y casi cualquier cosa imaginable.
XML es una tecnologa sencilla que tiene a su alrededor otras que la
complementan y la hacen mucho ms grande y con unas posibilidades mucho
mayores. Tiene un papel muy importante en la actualidad ya que permite la
compatibilidad entre sistemas para compartir la informacin de una manera
segura, fiable y fcil.
XML: es la manera de marcar los datos, aadir metadatos, y separando la
estructura del formato y estilo.
XML : es un subconjunto de SGML (Standardized General Markup Language). El
trmino utilizado por el Consorcio W3 ha venido a significar toda una familia de
normas conexas. A los efectos de esta seccin XML se refieren a la
especificacin XML exacta en s no toda la familia de especificaciones.

DTD.- Una definicin de tipo de documento o DTD (siglas en ingls de document


type definition) es una descripcin de estructura y sintaxis de un documento XML
o SGML. Su funcin bsica es la descripcin del formato de datos, para usar un
5

INTRODUUCCION AL XML
formato comn y mantener la consistencia entre todos los documentos que
utilicen la misma DTD.
Un analizador sintctico (en ingls parser).- es una de las partes de un
compilador que transforma su entrada en un rbol de derivacin. convierte el texto
de entrada en otras estructuras (comnmente rboles), que son ms tiles para el
posterior anlisis y capturan la jerarqua implcita de la entrada.
Los atributos.- son las caractersticas individuales que diferencian un objeto de
otro y determinan su apariencia, estado u otras cualidades. Los atributos se
guardan en variables denominadas de instancia, y cada objeto particular puede
tener valores distintos para estas variables.
Secciones CDATA.- Es una construccin en XML para especificar datos
utilizando cualquier carcter sin que se interprete como marcado XML
XML Schema.- es un lenguaje de esquema utilizado para describir la estructura y
las restricciones de los contenidos de los documentos XML de una forma muy
precisa, ms all de las normas sintcticas impuestas por el propio lenguaje XML.
Documento XML "bien formado"
Todos los documentos XML deben estar bien formado, lo que significa que se
debe cumplir lo siguiente:
 si no se utiliza DTD, el documento debe comenzar con un Declaracin de
Documento Standalone
 todas las etiquetas deben estar balanceadas: esto es, todos los elementos
que contengan datos de tipo carcter deben tener etiquetas de principio y
fin
 todos los valores de los atributos deben ir entrecomillados (el carcter
comilla simple [el apstrofe] puede utilizarse si el valor contiene caracteres
comillas dobles, y viceversa): si necesitas ambos, utiliza &apos; y &quot;

INTRODUUCCION AL XML
 cualquier elemento VACO (p.e. aquellos que no tienen etiqueta final como
<IMG>, <HR>, y <BR> y otros de HTML) deben terminar con '/>' o debes
hacerlos no VACOS aadindoles una etiqueta de fin.
 no debe haber etiquetas aisladas (< &) en el texto (p.e. debe darse como
&lt; y &amp;), y la secuencia ]]> debe darse como ]]&gt; si no ocurre esto
como final de una seccin marcada como CDATA;
 los elementos deben anidar dentro de s sus propiedades (no se deben
sobreponer etiquetas, como en el resto de SGML);
 Los ficheros bien-formados sin-DTD pueden utilizar atributos en sus
elementos, pero stos deben ser todos del tipo CDATA, por defecto. El tipo
CDATA (character DATA) son caracteres..
Segn la especificacin de XML del W3C, un documento XML est bien formado
si:
 Tomado como un todo, cumple la regla denominada "document".
 Respeta todas las restricciones de buena formacin dadas en la
especificicacin.
 Cada una de las entidades analizadas que se referencia directa o
indirectamente en el documento est bien formada.
Cumplir la regla "document" antes mencionada significa:
 Que contiene uno o ms elementos.
 Hay exactamente un elemento, llamado raz, o elemento documento, del
cual ninguna parte aparece en el contenido de ningn otro elemento.
 Para el resto de elementos, si la etiqueta de comienzo est en el contenido
de algn otro elemento, la etiqueta de fin est en el contenido del mismo
elemento. Es decir, los elementos delimitados por etiquetas de principio y
final se anidan adecuadamente mutuamente.
Los documentos XML deben tener una estructura jerrquica con lo que respecta a
las etiquetas que delimitan sus elementos. Esto significa que los elementos deben

INTRODUUCCION AL XML
estar correctamente anidados y que los elementos no se pueden solapar entre
ellos. Adems los elementos con contenido deben estar correctamente cerrados.
Ejemplo incorrecto:
<?xml version="1.0" ?>
<nombre>Richal

Ejemplo correcto:
<?xml version="1.0" ?>
<nombre>Richal </nombre>

Slo puede haber un elemento raiz, en el que estn contenidos todos los dems,
es decir, la jerarqua de elementos XML slo puede tener un elemento inicial.
Ejemplo incorrecto:
<?xml version="1.0" ?>
<nombre>Richal</nombre>
<email>richal@ejemplo.com</email>
Ejemplo correcto:
<?xml version="1.0" ?>
<alumnos>
<nombre>Richal</nombre>
<email>richal@ejemplo.com</email>
</alumnos>

INTRODUUCCION AL XML
ESTRUCTURA DE UN DOCUMENTO XML
La tecnologa XML busca dar solucin al problema de expresar informacin
estructurada de la manera ms abstracta y reutilizable posible. Que la informacin
sea estructurada quiere decir que se compone de partes bien definidas, y que
esas partes se componen a su vez de otras partes. Entonces se tiene un rbol de
pedazos de informacin. Ejemplos son un tema musical, que se compone de
compases, que estn formados a su vez por notas. Estas partes se llaman
elementos, y se las seala mediante etiquetas.
Una etiqueta consiste en una marca hecha en el documento, que seala una
porcin de ste como un elemento. Un pedazo de informacin con un sentido claro
y definido. Las etiquetas tienen la forma <nombre>, donde nombre es el nombre
del elemento que se est sealando.
A continuacin se muestra un ejemplo para entender la estructura de un
documento XML:
<?xml version="1.0" ?>
<Nombre>obeht</nombre>

Un documento XML tiene dos estructuras, una lgica y otra fsica. Fsicamente, el
documento est compuesto por unidades llamadas entidades. Una entidad puede
hacer referencia a otra entidad, causando que esta se incluya en el documento.
Cada documento comienza con una entidad documento, tambin llamada raz.
Lgicamente, el documento est compuesto de declaraciones, elementos,
comentarios, referencias a caracteres e instrucciones de procesamiento, todos los
cuales estn indicados por una marca explcita. Las estructuras lgica y fsica
deben encajar de manera adecuada. Los documentos XML se dividen en dos
grupos: documentos bien formados y documentos vlidos.
 Documentos XML bien formados.- Los documentos denominados como
"bien formados" (del ingls well formed) son aquellos que cumplen con
9

INTRODUUCCION AL XML
todas las definiciones bsicas de formato y pueden, por lo tanto, analizarse
correctamente por cualquier analizador sintctico (parser) que cumpla con
la norma.
 Vlidos: Adems de estar bien formados, siguen una estructura y una
semntica determinada por un DTD: sus elementos y sobre todo la
estructura jerrquica que define el DTD, adems de los atributos, deben
ajustarse a lo que el DTD dicte.
Aqu podemos ver un ejemplo muy sencillo:
<?xml version="1.0" encoding=" UTF-8 " standalone= " yes "?>
<ficha>
<nombre>
Angel
</nombre>
<apellido>
Barbero
</apellido>
<direccion>
c/Ulises,
36
</direccion>
</ficha>

PARTES DE UN DOCUMENTO XML


PRLOGO
Aunque no es obligatorio los documentos XML pueden, y deberan, comenzar con
una lnea que describa la versin de XML, el tipo de documento y otras cosas.
La primera lnea del prlogo o "declaracin" permite especificar la versin de XML
usada, hasta el momento, slo existe la "1.0" y la codificacin de caracter (USASCII, UTF-8, BIG5, ISO-8850-7,etc.). En general, para el castellano, usamos
UTF-7 (cdigo Unicode del que ASCII es un subconjunto) o ISO-8859-1.
Ejemplo:

<?xml version="1.0" encoding="UTF-7" ?>


<nada> Ejemplo </nada>

10

INTRODUUCCION AL XML
La segunda lnea, o "declaracin de tipo de documento XML", define que tipo de
documento estamos creando, es decir, definimos que Declaracin de Tipo de
Documento (DTD - Document Type Definition) cumple y define los datos que de
contiene el documento XML.
Ejemplos:

<?xml version="1.0" encoding="UTF-7" ?>


<!DOCTYPE
html
PUBLIC
"-//W3C//DTD
Strict//EN" "DTD/xhtml1-strict.dtd">
<html>
<body bgcolor="yellow ">
<p>
Ejemplo
</p>
</body>

XHTML

1.0

<?xml version="1.0" encoding="UTF-7" ?>


<!DOCTYPE ejemplo SYSTEM " http://www. ejemplos.xml
/ejemplo.dtd">
<nada> Ejemplo </nada>
Un documento XML es vlido si tiene asociado una DTD y el documento cumple
las restricciones que la DTD expresa.
Slo puede haber un elemento raiz, en el que estn contenidos todos los dems,
es decir, la jerarqua de elementos XML slo puede tener un elemento inicial.

STANDALONE
En la parte del prlogo dentro de la "declaracin" se puede incluir una declaracin
de documento standalone que controla que componentes de la DTD son
necesarios para completar el procesamiento del documento.

11

INTRODUUCCION AL XML
Ejemplo:

<?xml version="1.0" standalone='yes'?>


<nombre>Richal</nombre>

El valor "yes" indica que no existen declaraciones de marcas externas a la entidad


documento. El valor "no" indica que existe o que puede haber dichas
declaraciones de marcas. La declaracin de un documento standalone slo denota
la presencia de declaraciones externas.

ELEMENTOS
Los elementos XML pueden tener contenido (ms elementos, caracteres o ambos
a la vez), o bien ser elementos vacos.
Ejemplo:

...
<nombre>Richal</nombre>
...

Siempre empieza con <etiqueta> que puede contener atributos o no, y termina con
</etiqueta> que debe tener el mismo nombre. Al contrario que en HTML, en XML
siempre se debe cerrar un elemento.
Hay que tener en cuenta que el smbolo "<" siempre se interpreta como inicio de
una etiqueta XML. Si no es el caso, el documento no estar bien-formado. Para
usar ciertos smbolos se usarn las entidades predefinidas.
Ejemplo:

...
<nombre>Fulanito</nombre>
<aviso tipo="emergencia" ravedad="mortal">Que
no cunda el pnico</aviso>
...
12

INTRODUUCCION AL XML
HTML permite elementos sin contenido, XML tambin, pero la etiqueta debe ser
de la siguiente forma: <elemento-sin-contenido/>, que puede contener atributos o
no, esto es debido que no hay una etiqueta de cierre que delimite el contenido. El
los siguientes ejemplos se ve esto:
Ejemplos:

...
<identificador DNI="23123244"/>
...

<?xml version="1.0" encoding="UTF-7" ?>


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
Strict//EN" "DTD/xhtml1-strict.dtd">
<html>
<body bgcolor="yellow ">
<hr/>
<p>
Entre lineas
</p>
<hr/>
</body>
</html>

ATRIBUTOS
Los elementos pueden tener atributos, que son una manera de incorporar
caractersticas o propiedades a los elementos de un documento.
Ejemplo:

...
<alumno
nota="5
asistencia="Nula">Richalson</alumno>
...

13

peln"

INTRODUUCCION AL XML
En una Definicin de Tipo de Documento, se especifica los atributos que puede
tener cada tipo de elemento, as como sus valores y tipos de valor posible. Los
atributos tienen que estar delimitado con comillas dobles ( " ) o comilla simple ( ' ).
Cuando se usa uno para delimitar el valor del atributo, el otro se puede usar
dentro.
Ejemplo:

...
<noticia
titulo="Richal
O'Donnel
pulitzer" autor='Pepe "Porras"'>
....
</noticia>
...

gana

el

A veces, un elemento con contenido puede modelarse como un elemento vaco


con atributos.
Ejemplo:

...
<gato><nombre>Micif</nombre><raza>Persa</raza
></gato>
....
<gato raza="Persa">Micif</gato>
....
<gato raza="Persa" nombre="Micif"/>
....
COMENTARIOS
Los comentarios pueden aparecer en cualquier punto del documento, fuera del
resto de las marcas, es decir, fuera de las declaraciones etiquetas u otros
comentarios. Tienen el mismo formato que los comentarios de HTML, por lo que
comienzan con "<!--" y terminan con "-->". La cadena "--" no puede aparece dentro
de un comentario.

14

INTRODUUCCION AL XML
Ejemplo:

...
<!-- Que gran gato es Micif -->
<gato raza="Persa" nombre="Micif"/>
....

ENTIDADES PREDEFINIDAS
En XML 1.0 se definen cinco entidades para representar caracteres especiales y
que no se interpreten como marcas por el parser XML. Es decir, as podemos
utilizar, por ejemplo, el carcter "<" sin que se interprete como comienzo de una
etiqueta XML.

ENTIDAD CARACTER
&amp;

&

&lt;

<

&gt;

>

&apos;

'

&quot;

"

15

INTRODUUCCION AL XML
Ejemplo:

<?xml
version="1.0"
standalone='yes'?>
<ejemplos>
<descripcion>Lo siguiente
HTML.</descripcion>
<ejemplo>
&lt;HTML&gt;
&lt;HEAD&gt;
&lt;TITLE&gt;Rock
Roll&lt;/TITLE&gt;
&lt;/HEAD&gt;
</ejemplo>
</ejemplos>

encoding="UTF-7"

es

un

ejemplo

de

&amp;

SECCIONES CDATA
Las secciones CDATA tambin nos van a permitir especificar datos, utilizando
cualquier carcter, especial o no, sin que se interprete como una marca XML. La
razn es que asi se puede leer ms fcilmente el documento XML sin tener que
descifrar los cdigos de las entidades.
Las secciones CDATA empiezan por la cadena "<![CDATA[" y terminan con la
cadena "]]>" y slo sta ltima se reconoce como marca. No se pueden anidar
secciones CDATA

16

INTRODUUCCION AL XML
Ejemplo:
<?xml version="1.0" encoding="UTF-7" standalone='yes'?>
<ejemplos>
<descripcion>Lo
siguiente
es
un
ejemplo
HTML.</descripcion>
<ejemplo>
<![CDATA[
<HTML>
<HEAD>
<TITLE>Rock & Roll</TITLE>
</HEAD>
]]>

de

</ejemplo>
</ejemplos>
INSTRUCCIONES DE PROCESAMIENTO
Las intrucciones de procesamiento permiten a los documentos XML contener
instrucciones para las aplicaciones, van entre <? y ?>
Ejemplo:

<?xml version="1.0"?>
<?cocoon-process type="xslt"?>
....

No son parte del documento, pero deben ser pasadas a la aplicacin. En el


ejemplo, se le dice al cocoon (herramienta para publicar xml en la web) que la
pgina XML es un XSLT (que ya vereis lo que es).

IDENTIFICACIN DEL LENGUAJE


En el procesado de documentos puede ser til la identificacin entre el lenguaje
natural o el lenguaje formal, en el que est escrito el contenido. Una atributo
especial denominado xml:lang puede ser insertado en los documentos para
especificar el lenguaje utilizado en los contenidos y los valores de atributo de
cualquier elemento en un documento.

17

INTRODUUCCION AL XML
Ejemplo:
<?xml version="1.0" encoding="UTF-7" standalone='yes'?>
<ejemplos>
<p xml:lang="en">The quick brown fox jumps over the lazy dog.</p>
<p xml:lang="en-GB">What colour is it?</p>
<p xml:lang="en-US">What color is it?</p>
<sp who="Faust" desc='leise' xml:lang="de">
<l>Habe nun, ach! Philosophie,</l>
<l>Juristerei, und Medizin</l>
<l>und leider auch Theologie</l>
<l>durchaus studiert mit heiem Bemh'n.</l>
</sp>
<sp who="yo" desc='comentario' xml:lang="es">
<l>No me entero de un pimiento</l>
</sp>
</ejemplos>

DTD
Crear una definicin del tipo de documento (DTD) es como crear nuestro propio
lenguaje de marcado, para una aplicacin especfica. Por ejemplo, podramos
crear un DTD que defina una tarjeta de visitas. A partir de ese DTD, tendramos
una serie de elemento XML que nos permitiran definir tarjetas de visita.
La DTD define los tipos de elementos, atributos y entidades permitidas, y puede
expresar algunas limitaciones para combinarlos.
Los documentos que se ajustan a su DTD, se denominan "vlidos". El concepto de
"validez" no tiene nada que ver con el de estar "bien formado". Un documento
"bien formado" simplemente respeta la estructura y sintaxis definida por la
especificacin de XML. Un documento "bien formado" puede adems ser "vlido"
si cumple las reglas de una DTD determinada. Tambin existen documentos XML
sin una DTD asociada, en ese caso no son "vlido", pero tampoco "invlido"...
simplemente "bien formados"... o no.
Una DTD puede residir en un fichero externo, y quizs compartido por varios
(puede que miles) de documentos. O bien, puede estar contenido en el propio
documento XML, como parte de su declaracin de tipo de documento.

18

INTRODUUCCION AL XML
Veamos un ejemplo
<!
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
<!ELEMENT
]>

etiqueta

DOCTYPE
(nombre, calle,
nombre
calle
ciudad
pais
codigo

<etiqueta>
<nombre>Fulano
<calle>c/
Mayor,
<ciudad>Valderredible</ciudad>
<pais>Espaa</pais>
<codigo>39343</codigo>
</etiqueta>

ciudad,

etiqueta[
pais, codigo)>
(#PCDATA)>
(#PCDATA)>
(#PCDATA)>
(#PCDATA)>
(#PCDATA)>

Mengnez</nombre>
27</calle>

La declaracin del tipo de documento empieza en la primera lnea y termina con


"]>". Las declaraciones DTD son las lneas que empiezan con "<!ELEMENT" y se
denominan declaraciones de tipo elemento. Tambin se pueden declarar atributos,
entidades y anotaciones para una DTD.
En el ejemplo anterior, todas las declaraciones DTD se definen "etiquetas" residen
dentro del documento. Sin embargo, la DTD se puede definir parcial o
completamente en otro ejemplo.
Por ejemplo:
<?xml version="1.0"?>
<?xml
version="1.0"?>
<!DOCTYPE coche SYSTEM "http://www.sitio.com/dtd/coche.dtd">
<coche>
<modelo>...</modelo>
...
</coche>

SCHEMA

19

INTRODUUCCION AL XML
Un "schema XML" es algo similar a un DTD, es decir, que define qu elementos
puede contener un documento XML, cmo estn organizados, y que atributos y de
qu tipo pueden tener sus elementos.
La ventaja de los schemas con respecto a los DTD son:
 Usan sintaxis de XML, al contrario que los DTDs.
 Permiten especificar los tipos de datos.
 Son extensibles.
Por ejemplo, un schema nos permite definir el tipo del contenido de un elemento o
de un atributo, y especificar si debes ser un nmero entero, o una cadena de texto,
o una fecha, etc. Los DTDs no nos permiten hacer estas cosas.
Veamos un ejemplo de un documento XML, y su schema correspondiente:
<documento
<persona
<nombre>Fulano
</persona>
</documento>

xmlns="x-schema:personaSchema.xml">
id="fulano">
Menganez</nombre>

Como podemos ver en el documento XML anterior, se hace referencia a un


espacio de nombres (namespace) llamado "x-schema:personaSchema.xml". Es
decir, le estamos diciendo al analizador sintctico XML (parser) que valide el
documento contra el schema "personaSchema.xml".

El schema sera algo parecido a esto:

20

INTRODUUCCION AL XML
<Schema
xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<Schema
xmlns="urn:schemas-microsoft-com:xml-data"
xmlns:dt="urn:schemas-microsoft-com:datatypes">
<AttributeType name='id' dt:type='string' required='yes'/>
<ElementType
name='nombre'
content='textOnly'/>
<ElementType
name='persona'
content='mixed'>
<attrubyte
type='id'/>
<element
type='nombre'/>
</ElementType>
<ElementType
name='documento'
content='eltOnly'>
<element
type='persona'/>
</ElementType>
</Schema>

21

INTRODUUCCION AL XML
EJEMPLOS:

22

INTRODUCCION AL XML
CONCLUSIN

En conclusin podemos decir que XML no es un lenguaje, sino mas bien es una
manera de definir lenguajes para diferentes necesidades, entre los lenguaje que
define XML son el XHTML, SVG, Mathml.

Otra cosa que podemos recalcar es el propsito para el que fue creado el XML,
que es para el intercambio de informacin estructurada en diferentes plataformas,
y no solo para su aplicacin en internet. Que la informacin sea estructurada
quiere decir que se compone de partes bien definidas, y que esas partes se
componen a su vez de otras partes. Entonces se tiene un rbol de pedazos de
informacin.

INTRODUCCION AL XML
BIBLIOGRAFIA

http://flanagan.ugr.es/xml/documento.htm
(En esta pgina se encontr lo que es las partes de un documento xml y tambin
los ejemplos de cada una de ellas.)
http://www.iana.org/cctld/cctld-whois.htm
(Los cdigos se encontraron en esta pgina)
http://www.ietf.org/rfc/rfc1766.txt
(y en esta pgina la complementacin de los ejercicios y la teora de XML)
http://es.wikipedia.org/wiki/Analizador_sint%C3%1ctico
(Algunos conceptos que se obtuvieron)

También podría gustarte