Está en la página 1de 8

INTERNET

La información (biológica o de cualquier otro tipo) se encuentra almacenada en multitud


de ordenadores dispersos por todo el mundo. La mejor forma de acceder a esta
información consiste en conectar los ordenadores entre sí, formando una red. Una red
es un conjunto de ordenadores conectados entre sí de modo que puedan comunicarse
compartiendo datos y recursos. Las conexiones pueden realizarse por medio de un
cable, mediante líneas telefónicas, microondas o, incluso, por satélites. De este modo es
posible intercambiar información entre dos usuarios remotos. La característica principal
de la red es que si se desconecta uno de sus nodos se puede seguir transmitiendo
información de un ordenador a otro siguiendo multitud de rutas alternativas. Las redes
también se pueden conectar entre sí, dando lugar a una red mayor. Internet es una
red mundial de redes de ordenadores.

Internet nació a partir de un proyecto de investigación del Departamento de Defensa de


los Estados Unidos denominado ARPANET que en 1962, en plena Guerra Fría,
pretendía encontrar un sistema de comunicación interna entre los altos mandos que
pudiese funcionar en el peor escenario bélico posible. La Internet que conocemos hoy
día comenzó en 1969, cuando cuatro universidades americanas se conectaron entre sí
para el rápido intercambio de datos científicos.

Para transferir datos a través de Internet lo primero que se hace es fraccionar la


información en pequeños paquetes (unidades de información) que se envían de forma
independiente. Cuando llegan a su destino, los paquetes de información se vuelven a
ensamblar para recuperar el contenido original. Los procesos que permiten llevar a cabo
estas operaciones se denominan protocolos TCP/IP:

• TCP es el Protocolo de Control de la Transmisión (Transmission Control


Protocol) y determina cómo se divide y se recompone la información en
diversos paquetes
• IP es el Protocolo de Internet (Internet Protocol) y determina qué ruta deben
seguir los diversos paquetes a través de la red para llegar a su destino

La filosofía de funcionamiento de Internet se basa en los conceptos de servidor y


cliente. Un servidor es un ordenador que contiene la información que puede ser
consultada por los usuarios. Este ordenador siempre estará encendido y conectado a la
red. Una máquina cliente es aquélla que accede a los servidores en busca de
información.
Para acceder a Internet el ordenador necesita una conexión física (hardware) y una
conexión lógica (software). La conexión física puede ser un módem conectado a una
tarjeta de red (Ethernet) o un router, que se puede conectar a varios ordenadores y,
además, puede disponer de conexión Wifi, que no necesita cables. El software de
conexión a Internet lo suministra un Proveedor de Servicios de Internet (Internet
Service Provider, ISP) como puede ser Telefónica, Euskaltel, Ono, etc. Muchas
instituciones permiten el acceso gratuito a la red, pero los usuarios particulares deben
contratar los servicios de un ISP.

Conexión lógica (software) Conexión física (hardware)

Cuando un ordenador se conecta a Internet se convierte en un componente más de la


red. Esto significa que sus datos son accesibles y que el ordenador es susceptible de ser
atacado por algún hacker. La solución consiste en instalar un cortafuegos (firewall) que
evite el acceso no autorizado de un ordenador externo a nuestro PC. Además, como
medida de seguridad, siempre es aconsejable tener instalado un buen programa
antivirus. Otra forma de evitar el acceso no autorizado a mi ordenador consiste en
utilizar una red privada virtual o VPN (Virtual Private Network).

La World Wide Web (www)

La www fue desarrollada en 1990 por Tim Berners-Lee en el CERN (Centre


Européenne pour la Recherche Nucléaire) en Berna (Suiza) y permite visualizar
documentos con contenidos multimedia (texto, imágenes, audio y video) en un
formato especial denominado hipertexto.

El lenguaje de ordenador que permite generar este tipo de documentos se llama


lenguaje HTML (HyperText Markup Language), que también fue inventado por Tim
Berners-Lee en 1990. Los ficheros (o documentos) que se han generado con este
lenguaje se llaman ficheros (o documentos) html o, sencillamente, páginas web y
tienen la extensión .htm o, si se permiten extensiones de 4 letras, .html.

En un documento html hay algunas palabras que destacan (porque están escritas con un
color distinto) y que se denominan hiperenlaces. Al pinchar con el ratón en un
hiperenlace el navegador nos lleva a otra parte del mismo documento o a otro
documento de hipertexto alojado en el mismo ordenador o en cualquier otro conectado a
Internet. Este nuevo hipertexto, a su vez, contendrá otros hiperenlaces que permitirán al
usuario moverse rápidamente a través de la red para conseguir la información deseada.
A este proceso se le denomina coloquialmente "navegar" por Internet y los programas
que permiten hacerlo se denominan navegadores (browsers). Hoy en día hay muchos
navegadores que se pueden descargar gratuitamente de la www como, por ejemplo,
Internet Explorer, Microsoft Edge, Mozilla Firefox, Chrome, Safari, etc.

Por tanto, podemos considerar la www (también denominada web o w3) como una
gigantesca telaraña mundial constituida por millones de páginas Web conectadas entre
sí mediante hiperenlaces. Llegados a este punto, es conveniente definir algunos
términos que suelen utilizarse indistintamente, pero que no son equivalentes:

• Un servidor Web (Web server), es un ordenador permanentemente conectado a


Internet que contiene las páginas Web con la información de una empresa,
organización o particular. Cada servidor tiene su propia dirección IP.

• El conjunto de páginas Web que reúne toda la información de una empresa,


organización o particular se llama sitio Web (Website). Un ejemplo de sitio
web: https://www.ehu.eus/

• El servidor Web contiene una serie de directorios organizados en forma de


carpetas y subcarpetas que almacenan multitud de ficheros html. Cada fichero
html es una página Web (Webpage) que puede ser leída por el navegador. Un
ejemplo de página web: http://www.ehu.eus/biofisica/juanma/bioinf/

• Un portal Web (Web portal) es una página Web desde la que se puede acceder
a múltiples sitios Web, casi siempre relacionados con una misma temática. Un
ejemplo de portal: http://www.todalaprensa.com/

Muchos sitios Web de Bioinformática están alojados en varios servidores distribuidos


por todo el mundo para así poder evitar cualquier cuello de botella que se cree durante
el tráfico de información. Estos servidores idénticos situados en diversos lugares
geográficos se denominan espejos (mirrors).

Cada ordenador conectado a Internet posee una dirección IP que adopta un formato que
consta de cuatro números enteros separados por puntos (por ejemplo: 195.172.6.15).
Cada servidor Web posee su propia dirección IP, al igual que cualquier ordenador
conectado a la red. Puedes conocer tu IP si te conectas a la página vermiip
(http://www.vermiip.es/).

Al navegar por Internet cada servidor no se identifica por su dirección IP sino por otra
dirección que se denomina URL (Uniform Resource Locator), ya que son más fáciles
de memorizar. En Internet existen unos servidores especiales denominados DNS
(Domain Name Servers) que, a partir de la URL, identifican la dirección IP del
ordenador con el que me quiero conectar.

El formato de una URL es: "http://dirección_de_internet", donde "http" hace


referencia al protocolo de comunicación que opera en la www (hypertext transfer
protocol) y la "dirección_de_internet" indica qué servidor se quiere consultar. Un
ejemplo de dirección URL es http://www.elcorreo.com/. Cuando se trata de un servidor
seguro, la dirección URL varía ligeramente y, en vez de http, utiliza https. Un ejemplo
de servidor seguro es el de la UPV-EHU: https://www.ehu.eus/es/
Un servidor puede albergar numerosos ficheros que, normalmente, se organizan en
carpetas y subcarpetas. El funcionamiento de la www se basa en que cada documento
html posee una URL única que indica la ruta que hay que seguir para llegar hasta el
directorio del servidor que contiene ese fichero. El formato típico de este tipo de URL
es “http://dirección_de_internet/carpeta/subcarpeta/documento.htm”. Un ejemplo
de dirección URL de una página web es: http://www.ehu.eus/biofisica/juanma/bioinf/

Cuando se navega por Internet, algunas páginas se descargan con más rapidez que otras.
Eso depende de su contenido (si tienen muchas imágenes, animaciones o videos,
tardarán más en descargarse que si sólo tienen texto), de la hora del día (las conexiones
con los Estados Unidos van más rápido por la mañana que por la tarde, porque cuando
en Europa se empieza a trabajar, en Estados Unidos es de madrugada), o del día de la
semana (los fines de semana hay más tráfico en Internet con fines recreativos).

Algunas aplicaciones de Internet se pueden instalar localmente en tu propio ordenador


para que funcionen con mayor rapidez y para que los datos que se introducen en el
programa no puedan ser observados por otras personas. Muchas instituciones poseen
una Intranet (una red local a la que sólo pueden acceder los ordenadores que
pertenecen a una institución determinada). En este caso es mejor instalar las
aplicaciones en la Intranet que en tu propio ordenador. Van a funcionar igual de bien
pero te van a ahorrar un montón de espacio en tu disco duro.

Para encontrar información en Internet, lo mejor es utilizar un motor de búsqueda


como Google, Yahoo o Bing. Los motores de búsqueda exploran la www
constantemente en busca de nueva información. Esta información es clasificada e
incluida en una base de datos. A la hora de buscar información, el motor de búsqueda
consulta esa base de datos y ofrece los resultados clasificados en función de diversos
criterios.

Muchos motores de búsqueda guardan un registro de tu actividad en Internet, y eso


puede resultar molesto. Cuando se quiere navegar por Internet sin dejar rastro se puede
utilizar el modo incógnito o privado del navegador o utilizar un navegador como
DuckDuckGo (https://duckduckgo.com/).

La red oscura

La mayor parte de los usuarios utilizan Google u otro navegador para hacer búsquedas
en Internet. Las páginas y sitios web que pueden aparecer como resultado de estas
búsquedas constituyen la denominada red superficial (surface web). Esta red está
formada por unos 9.000 millones de páginas web y sus contenidos representan el 4% de
toda la información accesible por Internet.

Hay muchas otras páginas que no están indexadas por los motores de búsqueda
tradicionales y, por tanto, nunca aparecerán en los resultados de búsqueda. Contienen
aproximadamente el 90% de todos los contenidos de la web y constituyen la
denominada red profunda (deep web). Estos contenidos no tienen por qué ser ilegales,
aunque también los hay. Se encuentran en una capa más profunda de la red para que
sólo accedan a ellos quienes buscan algún tipo de información específica. Normalmente,
se necesita una contraseña para entrar a estos sitios. Aquí podemos encontrar, por
ejemplo, la información bancaria, bases de datos científicas, información
gubernamental, historiales médicos, contenidos multimedia pirateados, pornografía, etc.

Existe además otra capa más profunda, denominada la red oscura (dark web), que
representa aproximadamente el 6% de los contenidos de Internet. Se utiliza, sobre todo,
para llevar a cabo actividades ilícitas (venta de armas o drogas, pornografía infantil,
terrorismo internacional, tráfico de personas o de órganos, etc). Para acceder a estas
páginas se utiliza un navegador especial llamado TOR (the onion router), que se puede
descargar gratuitamente desde Internet. Para acceder a los contenidos de la red oscura
existen directorios como “The Hidden Wiki” que contienen listados de sitios web y sus
direcciones. Estas páginas utilizan la extensión “onion” en lugar de “html”.

Otros servicios que ofrece Internet

Además de la www, Internet nos ofrece multitud de aplicaciones como, por ejemplo:

• Correo electrónico (e-mail): Permite enviar ficheros de texto o de cualquier


otro tipo (ejecutables, audio, imágenes, video, etc.) de un ordenador a otro. Para
ello hay que tener abierta una cuenta en un servidor de correo electrónico (E-
mail server) y tener un programa que gestione el correo como, por ejemplo,
Outlook o Thunderbird. Una variante de este servicio es el Web-mail. Se trata
de un servicio de correo electrónico basado en la www que permite gestionar el
correo electrónico mediante un navegador. Tiene la ventaja de que se puede
acceder al correo desde cualquier ordenador conectado a Internet. Ejemplos:
Hotmail, Gmail, Webposta (el de la UPV).

• Usenet (Users Network): Permite a un usuario intercambiar opiniones y


experiencias con otras personas interesadas en un tema específico. Los usuarios
pueden leer o enviar mensajes (denominados artículos) a distintos grupos de
noticias. Estos mensajes no se mandan por e-mail sino que se añaden a un
tablón de anuncios y hace falta un programa especial para poder leerlos. En
muchos casos, estos grupos disponen de un moderador, que es quien decide si
un mensaje se publica o no. Como alternativa a los grupos de noticias, se han
desarrollado los foros de discusión y blogs basados en páginas Web.
• FTP (File Transfer Protocol): Este servicio permite transferir ficheros de un
ordenador a otro a través de la red. Esta operación se puede realizar mediante un
programa específico conocido como cliente FTP o mediante un navegador Web.
Cuando recibimos un fichero enviado desde otro ordenador realizamos una
“descarga” (download) y cuando enviamos un fichero desde nuestro equipo a
otro ordenador, lo estamos "subiendo" (upload). Hoy en día se utiliza, sobre
todo, para subir o bajar ficheros de “la nube”, un servicio de alojamiento de
archivos

• Telnet (TELecommunication NETwork): Permite acceder mediante la red a otra


máquina para manejarla a distancia. Mediante esta aplicación, el ordenador
local se convierte en una terminal del ordenador remoto y es posible ejecutar
programas y utilizar los recursos del ordenador remoto desde tu propia terminal.
Es muy útil para arreglar fallos a distancia, sin necesidad de estar físicamente en
el mismo sitio que la máquina averiada.

• Redes sociales (Social Networks): Las redes sociales son estructuras compuestas
por grupos de personas conectadas entre sí mediante uno o varios tipos de
relaciones, tales como amistad, parentesco, intereses comunes o que comparten
conocimientos. Estas redes sociales se basan en la teoría de los seis grados.
Según esta teoría, cada persona conoce de media, entre amigos, familiares y
compañeros de trabajo o de escuela, a unas 100 personas y, por tanto, dos
personas cualesquiera del planeta estarían relacionadas a través de no más de 6
personas. En estas comunidades, un número inicial de participantes envían
mensajes a miembros de su propia red social invitándoles a unirse al sitio. Los
nuevos participantes repiten el proceso, creciendo el número total de miembros y
los enlaces de la red. Las redes sociales también pueden crearse en torno a las
relaciones profesionales o comerciales.

• Otros: archie (una base de datos que almacena el nombre de todos los ficheros
disponibles mediante FTP, así como el directorio concreto donde se encuentra),
gopher (una herramienta que permite encontrar la información o recursos que se
necesitan), telefonía, videoconferencia, chat, multidifusión de radio y
televisión, mensajería instantánea (messenger), etc.

Introducción a la teoría de la información


En 1948, el matemático estadounidense Claude Elwood Shannon publicó un artículo
titulado “A Mathematical Theory of Communication” que, hoy en día, es considerado
como el documento fundador de la teoría de la información. Esta teoría está
relacionada con las leyes matemáticas que rigen la transmisión y el procesamiento de la
información. La información siempre había sido un concepto difícil de definir. Después
de la publicación de Shannon quedó claro que la información es un concepto bien
definido y que, además, se puede medir y cuantificar.

Podemos definir información como una disminución de la incertidumbre. También se


puede considerar como el grado de sorpresa que nos produce un enunciado. Si alguien
me dice: "Hoy he visto un niño al que le gusta las chucherías", no me están aportando
mucha información. Si, en cambio, alguien me dice: "Hoy he visto un niño al que no le
gustan las chucherías", puede que siga sin saber de qué niño se trata, pero
intuitivamente reconozco que me están aportando más información, porque el grupo de
posibles niños se reduce considerablemente.

La información se puede cuantificar mediante una de estas dos expresiones:

1
H ( p ) = log 2   = − log 2 ( p )
 p

Por tanto, la información (o sorpresa) de un enunciado es inversamente proporcional a


su probabilidad. Según esta expresión, la información H asociada a una probabilidad p
es el logaritmo en base 2 del inverso de esa probabilidad. Cuando se calcula con el
logaritmo en base 2, la unidad de medida de la información se llama bit. Veamos un
ejemplo.

Supongamos que estoy buscando una vaca que se ha perdido en mi finca y que alguien
me llama por teléfono para decirme dónde está. Si me dice que está en el cuadrante 3 de
4 posibles (caso de la izquierda en la figura inferior), la información que me transmite
es de 2 bits. Si me dice que está en el cuadrante 10 de 16 posibles (caso de la derecha en
la figura inferior), la información que me transmite es de 4 bits. En los dos casos, la
vaca está en el mismo sitio y la información es correcta, pero un enunciado contiene
más información que otro, ya que me indica con más precisión dónde está la vaca.

H = - log2(1/4) = 2 bits H = - log2(1/16) = 4 bits

La información también se puede calcular utilizando el logaritmo natural (o


logaritmo neperiano, con base e). En este caso, la unidad de información se llama nat.
Supongamos que la probabilidad de que a un niño no le gusten las chucherías es 0,25.
Obviamente, la probabilidad de que a un niño le gusten las chucherías es 0,75. La
información asociada a que no le gusten las chucherías es ln (4) = 1,39 nats y la
información asociada a que le gusten las chucherías es ln (1,33) = 0,29 nats. Si alguien
me dice que conoce a un niño al que no le gustan las chucherías me transmite más
información que si me dice que conoce a un niño al que sí le gustan las chucherías.

Otra forma intuitiva de calcular la información consiste en determinar el número de


preguntas de tipo "sí o no" que hay que hacer para llegar a un resultado concreto de
entre todos los posibles.
Consideremos una secuencia de DNA donde los 4 nucleótidos aparecen con igual
probabilidad (p = 0,25). Cada base de esa secuencia contiene 2 bits de información:

 1 
H ( p ) = log 2   = log 2 (4 ) = 2
 0,25 

Supongamos que la primera base de esa secuencia es una G. Para tomar la decisión final
de introducir una G en la secuencia hay que hacer 2 preguntas de tipo "sí o no":

• Pregunta 1: ¿purina o pirimidina?


• Pregunta 2: ¿A ó G? (si 1 = purina) o ¿C o T ? (si 1 = pirimidina)

Análogamente, podemos calcular que en una secuencia de proteína en la que los 20


aminoácidos tengan la misma probabilidad de estar presentes, cada aminoácido aporta
4,32 bits de información.

A partir de este sencillo cálculo se pueden sacar algunas conclusiones importantes:

• Siempre que sea posible, es preferible trabajar con secuencias de proteínas.

• Cuando se trabaja con secuencias que no codifican proteínas, no queda más


remedio que utilizar la secuencia de los nucleótidos.

• A la hora de hacer alineamientos de secuencias es mejor trabajar (siempre


que sea posible) con secuencias de aminoácidos porque se pueden obtener
resultados estadísticamente significativos con alineamientos más cortos.

También podría gustarte