Está en la página 1de 10

El Ordenador y la informacin

Formas de representar la informacin en el ordenador


El ordenador es una mquina digital, por lo tanto slo es capaz de representar nmeros binarios (0 y 1). Lo que obliga a que para poder almacenar informacin en un ordenador, previamente hay que codificarla en forma de nmeros binarios. Desde los inicios de la informtica la codificacin (el paso de informacin humana a informacin digital) ha sido problemtica debido a la falta de acuerdo en la representacin. Pero hoy da ya tenemos numerosos estndares. Fundamentalmente la informacin que un ordenador maneja son Nmeros y Texto. Pero curiosamente cualquier tipo de informacin que no es texto (imagen, sonido, vdeo,) se considera binaria (aunque como ya hemos comentado, en realidad toda la informacin que maneja un ordenador es binaria).

Datos en forma de texto y datos binarios


Cualquier dato que no sea texto, se considera dato binario. Por ejemplo: msica, vdeo, imagen, un archivo Excel, un programa, La forma de codificar ese tipo de datos a su forma binaria es muy variable. Por ejemplo en el caso de las imgenes, cada punto (pxel) de la imagen se codifica utilizando su nivel de rojo, verde y azul. De modo que una sola imagen produce millones de dgitos binarios (pxeles). En cualquier caso sea cual sea la informacin que estamos codificando en binario, para poder acceder a dicha informacin, el ordenador necesita el software que sepa como decodificar la misma, eso slo es posible utilizando el mismo software con el que se codific o bien otro software pero que sea capaz de entender la informacin codificada. Texto El texto es quiz la forma ms humana de representar informacin. En cuanto apareci la informtica como una ciencia digital, apareci tambin el problema de cmo codificar texto en forma de dgitos binarios. La forma habitual ha sido codificar cada carcter en una serie de nmeros binarios. De modo que por ejemplo el carcter A fuera por ejemplo 01000001 y la B el 01000010. El problema surgi por la falta de estandarizacin, la letra A se poda codificar distinto en diferentes ordenadores y as encontrarnos con un problema en cuanto quisiramos pasar datos de un ordenador a otro. Por ello aparecieron estndares para intentar que todo el hardware y software codificara los caracteres igual. El cdigo Ascii El problema de la codificacin de texto que haca incompatibles los documentos de texto entre diferentes sistemas, se pali cuando se ide en 1967 un cdigo estndar por parte de la ANSI, la agencia de estndares norteamericana, dicho cdigo es el llamado ASCII (American Standard Code for Information Interchange, cdigo estndar americano para el intercambio de informacin). El cdigo utiliza el alfabeto ingls (que utiliza caracteres latinos) y para codificar todos los posibles caracteres necesarios para escribir en ingls se ide un sistema de 7 bits (con 7 bits se pueden representar 128 smbolos, suficientes para todas las letras del alfabeto ingls, en minsculas y

maysculas, caracteres de puntuacin, smbolos especiales e incluso smbolos de control). Pero, puesto que los alfabetos de otros pases poseen otros smbolos, surgi el problema de que los alfabetos de las dems lenguas diferentes del ingls no podan representar algunos (o muchos) smbolos. Por ello se disearon cdigos de 8 bits que aadan 128 smbolos ms y as aparecieron los llamados cdigos ASCII extendidos. En ellos, los 128 smbolos primeros son los mismos de la tabla ASCII original y los 128 siguientes se corresponden a smbolos extra. Sin embargo 8 bits siguen siendo insuficientes para codificar todos los alfabetos del planeta. Por lo que cada zona usaba su propia tabla ASCII extendida. Ante el caos consiguiente, la ISO decidi normalizar dichas tablas de cdigos para conseguir versiones estndares de los mismos. Lo hizo mediante las siguientes normas (cada una de las cuales defina una tabla de 256 caracteres, siempre los 128 primeros son el ASCII original) 8859-1. ASCII extendido para Europa Occidental (incluye smbolos como o ) 8859-2. ASCII extendido para Europa Central y del Este (incluye smbolos como o ) 8859-3. ASCII extendido para Europa del Sur (incluye smbolos como o ) etc. Este problema sigue existiendo ahora de modo que en los documentos de texto hay que indicar el sistema de codificacin utilizado (el caso ms evidente son las pginas web), para saber cmo interpretar los cdigos del archivo Unicode La complicacin de las tablas de cdigo se intenta resolver gracias al sistema Unicode que ha conseguido incluir los caracteres de todas las lenguas del planeta a cambio de que cada carcter ocupe ms de un byte (ocho bits). En Unicode a cada smbolo se le asigna un nmero (evidentemente los 128 primeros son los originales de ASCII para mantener la compatibilidad con los textos ya codificados y de hecho los 256 primeros son la tabla ISO-8859_1). Para ello el organismo tambin llamado Unicode participado por numerosas e influyentes empresas informticas y coordinado por la propia ISO, ha definido tres formas de codificar los caracteres: UTF-8. Es la ms utilizada (y la ms compleja de usar para el ordenador). Utiliza para cada carcter de uno a cuatro caracteres, de forma que: - Utilizan uno los que pertenecen al cdigo ASCII original - Dos los pertenecientes a lenguas latinas, cirlicas, griegas, rabes, hebreas y otras de Europa, Asia Menor y Egipto - Tres para smbolos fuera de los alfabetos anteriores como el chino o el japons - Cuatro para otros smbolos: por ejemplo los matemticos y smbolos de lenguas muertas como el fenicio o el asirio o smbolos asiticos de uso poco frecuente. UTF-16. Utiliza para cada carcter dos (para los dos primeros grupos del punto anterior) o cuatro caracteres (para el resto). Es ms sencillo que el anterior UTF-32. La ms sencilla de todas. Cada carcter independientemente del grupo al que pertenezca ocupa 4 caracteres. No se utiliza.

Lenguajes de marcas
Se intent que los archivos de texto plano (archivos que slo contienen texto y no otros datos binarios) pudieran servir para almacenar otros datos como por ejemplo detalles sobre el formato del propio texto u otras indicaciones. Los procesadores de texto fueron el primer software en encontrarse con este dilema. Puesto que son programas que sirven para escribir texto pareca que lo lgico era que sus datos se almacenaran como texto. Pero necesitan guardar datos referidos al formato del texto, tamao de la pgina, mrgenes, etc. La solucin clsica ha sido guardar la informacin de formato en forma binaria, lo que provocaba varios problemas. Algunos procesadores de texto optaron por guardar toda la informacin como texto, haciendo que las indicaciones de formato no se almacenen de forma binaria sino textual. Dichas indicaciones son caracteres marcados de manera especial para que as un programa adecuado pueda traducir dichos caracteres no como texto sino como operaciones que finalmente producirn mostrar el texto del documento de forma adecuada. La idea del marcado procede del ingls marking up trmino con el que se referan a la tcnica de marcar manuscritos con lpiz de color para hacer anotaciones como por ejemplo la tipografa a emplear en las imprentas. Este mismo trmino se ha utilizado para los documentos de texto que contienen comandos u anotaciones. Las posibles anotaciones o indicaciones incluidos en los documentos de texto han dado lugar a lenguajes (entendiendo que en realidad son formatos de documento y no lenguajes en el sentido de los lenguajes de programacin de aplicaciones) llamados lenguajes de marcas, lenguajes de marcado o lenguajes de etiquetas.

SGML
Se trata de la versin de GML que estandarizaba el lenguaje de marcado y que fue definida finalmente por ISO como estndar mundial en documentos de texto con etiquetas de marcado. Su importancia radica en que es el padre del lenguaje XML y la base sobre la que se sostiene el lenguaje HTML. En SGML las etiquetas que contienen indicaciones para el texto se colocan entre smbolos < y >. Las etiquetas se cierran con el signo /. Es decir las reglas fundamentales de los lenguajes de etiquetas actuales ya las haba definido SGML. En realidad (como XML) no es un lenguaje con unas etiquetas concretas, sino que se trata de un lenguaje que sirve para definir lenguajes de etiquetas; o ms exactamente es un lenguaje de marcado que sirve para definir formatos de documentos de texto con marcas. Entre los formatos definidos mediante SGML, sin duda HTML es el ms popular.

XML
Se trata de un subconjunto de SGML ideado para mejorar el propio SGML y con l definir lenguajes de marcado con sintaxis ms estricta, pero ms entendibles. Su popularidad le ha convertido en el lenguaje de marcado ms importante de la actualidad y en el formato de documentos para exportacin e importacin ms exitoso.

Tipos de lenguajes de marcas


-

Orientados a la presentacin. En ellos al texto comn se aaden palabras encerradas en smbolos especiales que contienen indicaciones de formato que permiten a los traductores de este tipo de documentos generar un documento final en el que el texto aparece con el formato indicado. Es el caso de HTML en el que se indica cmo debe presentarse el texto (y no por ejemplo lo que significa el mismo) tambin se considera as los archivos generados por los procesadores de texto tradicionales en los que al texto del documento se le acompaa de indicaciones de formato (como negrita, cursiva,) Orientados a la descripcin. En ellos las marcas especiales permiten dar significado al texto pero no indican cmo se debe presentar en pantalla el mismo. Sera el caso de XML o de SGML en el que la presentacin nunca se indica en el documento; simplemente se indica una semntica de contenido que lo hace ideal para almacenar datos (por ejemplo si el texto es un nombre de persona o un nmero de identificacin fiscal). Orientados a procedimientos. Se trata de documentos en los que hay texto marcado especialmente que en realidad se interpreta como rdenes a seguir y as el archivo en realidad contiene instrucciones a realizar con el texto. Es el caso de LaTeX donde por ejemplo se puede indicar una frmula matemtica.

HTML
Como se ha comentado anteriormente, a finales de los 80 se desarroll el lenguaje de marcas SGML. En esa misma poca Tim Bernes Lee utiliz SGML para definir un nuevo lenguaje de etiquetas que llam HyperText Markup Language (lenguaje de marcado de hipertexto) para crear documentos transportables a travs de Internet en los que fuera posible el hipertexto; es decir la posibilidad que determinadas palabras marcadas de forma especial permitieran abrir un documento relacionado con ellas. A pesar de tardar en ser aceptado, HTML fue un xito rotundo y la causa indudable del xito de Internet. Hoy en da casi todo en Internet se ve a travs de documentos HTML, que popularmente se denominan pginas web. Inicialmente estos documentos se vean con ayuda de intrpretes de texto que simplemente coloreaban el texto y remarcaban el hipertexto. Despus el software se mejor y aparecieron navegadores con capacidad ms grfica para mostrar formatos ms avanzados y visuales. Lgicamente desde 1989 hasta nuestros das HTML ha mejorado. Entre sus avances fundamentales:

El lenguaje cada vez ha ido incorporando nuevas etiquetas ms potentes, que permiten incluir en los documentos HTML, tablas, capas, marcos, imgenes, Se han aadido lenguajes de script (como JavaScript) con cdigo incrustado en las pginas HTML que permiten aadir funcionalidades y dinamismo a las pginas web Se han aadido tcnicas en el lado del servidor con la misma finalidad como aplicaciones CGI, PHP, ASP o JSP. Se incorporaron lenguajes de estilo (como CSS) para generar un formato de documento ms avanzado

En la actualidad HTML sigue siendo el lenguaje fundamental de las pginas web; pero ahora Internet es la web, es decir todo en Internet se ve a travs de una pgina web. Por eso hoy en da HTML es la capa superficial bajo la que se agolpan tecnologas muy diversas y muy distintas de HTML.

Normalizacin WWWC (W3C)


Los programas capaces de traducir el cdigo HTML y producir una salida en pantalla de los mismos son los navegadores (browsers en ingls). Se trata de un software que se inici con la creacin de Mosaic a principios de los 90 y que poco a poco produjo ms productos hasta llegar a una guerra de navegadores a finales de los 90 entre Internet Explorer de Microsoft y Navigator de Netscape que gan Microsoft pero que ahora contina con otros navegadores como Mozilla Firefox (sucesor de cdigo abierto de Netscape), Google Chrome, Opera o Apple Safari entre otros. El problema surgi en cuanto unos navegadores incorporaron marcas HTML que el resto no traduca, con lo que aparecieron dialectos HTML. La solucin pas por normalizar el lenguaje. Por ello el propio Tim Bernes Lee fund la World Wide Web Consortium (abreviado W3C) como organismo de estandarizacin del lenguaje HTML ante la industria. En la actualidad las directrices de W3C son seguidas por la mayora de navegadores aunque no al 100%, lo que sigue generando problemas a los creadores de pginas web.

Funcionamiento de las pginas web


Qu es la WWW?
La World Wide Web, la Web, o WWW (en castellano Tela de Araa Mundial) es una red de recursos de informacin, estructurada en forma de hipertexto y que funciona sobre la red Internet. El usuario utiliza aplicaciones llamadas navegadores para acceder a los elementos de informacin que se llaman Pginas Web y mostrarlos en pantalla. Estas pginas web estn almacenadas en ordenadores llamados Servidores o tambin Sitios Web. El usuario puede acceder a nuevas pginas web haciendo click en los enlaces localizados en la pgina que est visualizando en su navegador. Este proceso se le suele llamar Navegacin Web. Asimismo, el usuario puede enviar informacin al servidor web a travs de estas pginas con el objeto de interactuar con el servidor.

La estructura que forman las distintas pginas web enlazadas se llama Hipertexto. La funcionalidad de la Web se basa en tres estndares:

El Identificador Uniforme de Recursos (URI): Especifica cmo a cada pgina de informacin se le asocia un "nombre" nico. El Protocolo de Transferencia de Hipertexto (HTTP): Especifica cmo el navegador y el servidor web intercambian informacin en forma de peticiones y respuestas. El Lenguaje de Marcacin de Hipertexto (HTML): Define un mtodo para codificar la informacin de los documentos y sus enlaces en forma de hipertexto.

La transmisin de pginas web (que en definitiva son documentos HTML) se realiza mediante el protocolo http, que es parte de la pila de protocolos TCP/IP. Se trata de un protocolo basado en una comunicacin peticin-respuesta; de modo que un cliente (tambin llamado user agent) realiza una peticin de recurso indicando su direccin, y un servidor responde a dicha peticin bien transmitiendo al cliente el recurso solicitado o bien indicando un mensaje de error. La direccin del recurso se indica utilizando la notacin URL, que funciona as: protocolo://servidor:puerto/rutaAlRecurso En el caso de las pginas web, el protocolo es http. En la parte servidor, se indica la direccin del servidor (por ejemplo www.pepeperez.net) y la ruta es la ruta que hay que seguir por las carpetas y archivos del servidor para llegar al recurso. Ejemplo: http://www.pepeperez.net/bd/sgbd.html Esto permitira al navegador mostrar en pantalla la pgina web sgbd.html alojada en la carpeta bd del servidor www.pepeperez.net con el que se comunica utilizando el protocolo http (puesto que no se ha indicado puerto, se utilizar el puerto 80). A veces no se indica la ruta y en ese caso el servidor enva la llamada pgina por defecto, pgina de inicio o home page que generalmente es un documento HTML llamado index.html o default.html o home.html y que se ubica en la carpeta raz del servidor.

HTTP
HTTP es el protocolo usado en las transferencias de pginas en la Web. Es la abreviatura de Hypertext Transfer Protocol (Protocolo de Transferencia de Hipertexto).

El hipertexto es el contenido de las pginas web y est escrito segn indica el lenguaje HTML. El protocolo de transferencia HTTP es el sistema mediante el cual se envan las peticiones para acceder a una pgina web, y se reciben las respuestas del servidor web (las pginas web). HTTP tambin permite enviar datos al servidor para interactuar con l, como por ejemplo formularios de datos.

HTTP dispone de una variante segura llamada HTTPS, que permite cifrar el contenido de lo que se enva y recibe mediante el protocolo SSL. HTTP permite que la "computadora A" (el cliente) establezca una conexin con la "computadora B" (el servidor) y hacer una peticin. El servidor acepta la conexin iniciada por el cliente y le enva una respuesta. HTTP est basado en el principio cliente/servidor. Cuando un usuario selecciona un enlace hipertexto, el programa cliente (navegador) usa HTTP para contactar al servidor, identificando el recurso solicitado. El servidor acepta el pedido, y entonces usa HTTP para responder o realizar la accin requerida. Una peticin HTTP identifica el recurso que le interesa al cliente y le dice al servidor qu "accin" realizar en el recurso. HTTP es un protocolo sin estado, es decir, que no guarda ninguna informacin sobre las peticiones de pginas web realizadas anteriormente. Al finalizar la transaccin todos los datos se pierden. Debido a esta limitacin aparecieron las cookies, que son pequeos ficheros guardados en el ordenador cliente, y que se pueden leer desde un servidor web al establecer conexin con l. De esta forma se puede reconocer a un cliente que anteriormente estuvo accediendo a informacin del servidor. Gracias a esta identificacin, el servidor web puede almacenar informacin sobre el cliente con el objeto de ofrecerle un servicio de navegacin a la medida del cliente.

URI
URI: Uniform Resource Identifier, en castellano Identificador Uniforme de Recursos. Todos los recursos disponibles en la Web -- documentos HTML, imgenes, videoclips, programas, etc. -- tienen una direccin que puede ser codificada mediante un Uniform Resource Identifier, o "URI", es decir, un Identificador Uniforme de Recursos. Podemos definir formalmente a un URI como una cadena de texto que nombra de forma unvoca cualquier recurso (un servicio, una pgina web, un documento, una direccin de correo electrnico, etc.) accesible en una red. La sintaxis de un URI consta de dos partes separadas por el carcter ":" El tipo de esquema que sigue el nombre ("http", "ftp", "urn", etc)

La parte que identifica el recurso dentro del esquema. Esta parte sigue unas reglas generales de formacin, pero depende del tipo de esquema que se est utilizando.

Veamos un ejemplo:

http://www.terra.es Este URI identifica la pgina web por defecto de Terra, e indica cmo conseguirla (pidindosela al servidor "www.terra.es")

URL
URL: Uniform Resource Locator, en castellano Localizador Uniforme de Recursos. Un URL es una cadena de caracteres con la que asignamos una direccin nica a cada uno de los recursos de informacin disponibles en Internet. Existe un URL nico para cada recurso en la Web. El URL de un recurso de informacin es su direccin en Internet. Esta direccin permite que el navegador encuentre de forma precisa el recurso en la Web, para poder realizar la peticin de este. Por ello, el URL combina el nombre del ordenador que proporciona la informacin, junto con el directorio donde se encuentra, el nombre del fichero y el protocolo a usar para recuperar los datos. Un URL es un URI que indica como localizar el objeto en cuestin. El conjunto de los URLs es por tanto un subconjunto de los URIs. Los URLs se componen normalmente de tres partes. Vemoslas con un ejemplo: Dada la direccin: http://www.misitio.es/paginas/inicio.html
-

El esquema de nombres del mecanismo usado para acceder al recurso: http: El nombre de la mquina que aloja el recurso: www.misitio.es El nombre en s del recurso, dado en forma de path o ruta de acceso: /paginas/inicio.html

Entre otros esquemas que pueden encontrarse en documentos HTML se incluyen "mailto" para correo electrnico y "ftp" para ficheros FTP. Aqu tenemos otro ejemplo de URL. ste se refiere al buzn de correo electrnico de un usuario:
...aqu va texto... Para cualquier comentario, enve un mensaje a <A href="mailto:jose@algunsitio.com">Jos Chvere</A>.

El formato general de un URL es:

protocolo://mquina/directorio/fichero

El formato extendido de un URL puede incluir adems, el nombre y contrasea de un usuario, y el puerto de conexin al servidor:

protocolo://usuario:contrasea@mquina:puerto/directorio/fichero

Por ejemplo: http://pepe:micontrasea@gabon.eui.upm.es:8080/practicas/enunciado1.txt

Identificadores de fragmento
Aunque se acostumbra llamar URLs a todas las direcciones Web, URI es un identificador ms completo y por eso es recomendado su uso en lugar de la expresin URL. Algunos URIs se refieren a una localizacin dentro de un recurso. Este tipo de URIs termina con un "#" seguido de un identificador de vnculo (llamado identificador de fragmento). Esta notacin permite acceder a zonas internas de un documento. Por ejemplo, aqu tenemos un URI que apunta a una zona interna llamada seccion_2 del documento html/superior.html , localizado en el servidor misitio.com.
http://misitio.com/html/superior.html#seccion_2

Publicacin de la pgina web


Se denomina sitio web al conjunto de pginas web y recursos de las mismas que contienen toda la informacin asociada a una determinada direccin de inicio en Internet. Cuando una persona desea crear un nuevo sitio web, inicialmente le crea en su ordenador de trabajo y para ello debe crear una carpeta y en ella almacenar todas las pginas y recursos necesarios (imgenes, sonidos, vdeos, archivos auxiliares,). Esa carpeta se deber enviar al servidor web que hayamos contratado o del que dispongamos para publicar nuestra pgina en Internet. Para ello normalmente se utiliza el protocolo de transmisin de ficheros conocido como FTP. Con copiar la carpeta en el sitio adecuado de nuestro servidor, la pgina estar publicada. Normalmente para ello se nos pide un usuario y contrasea que verifica que realmente somos los propietarios del espacio.

Hoy en da las herramientas avanzadas de diseo de pginas web tienen capacidad para transmitir los ficheros al servidor.

También podría gustarte