Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de Macuspana
Semestre: 8
Contenido
5.1 Los datos en las redes.....................................................................2
Entre los ejemplos de formatos que son fciles de interpretar por una
computadora se incluyen CSV, XML, JSON, y los archivos Excel, mientras que
formatos como los de documentos Word, pginas HTML, y archivos PDF estn
ms relacionados con la presentacin visual de la informacin. Por ejemplo, PDF
es un lenguaje que le habla directamente a su impresora; le interesa la posicin de
lneas y puntos en una pgina, en vez de caracteres distinguibles.
Todos lo han hecho: se va a un sitio de la red, uno ve una tabla interesante y trata
de copiarla a Excel de modo de poder agregar algunas cifras o guardarla para
despus. Pero a menudo esto no funciona realmente, o la informacin que quiere
est desparramada en una gran cantidad de sitios. Copiar a mano se puede volver
rpidamente muy tedioso, por lo que tiene sentido usar un poco de cdigo para
hacerlo.
La ventaja del scraping es que se puede hacer prcticamente con cualquier sitio,
desde el pronstico del tiempo hasta el gasto gubernamental, incluso si el sitio no
tiene una API para acceso a los datos en crudo.
Otro conjunto de limitaciones son las barreras legales: algunos pases reconocen
los derechos de bases de datos, lo que puede limitar su derecho a reutilizar
informacin que ha sido publicada online. A veces se puede ignorar la licencia y
usarla de todos modos, dependiendo de su jurisdiccin, puede tener derechos
especiales como periodista.
Los "scrapers" de la red por lo general son piezas pequeas de cdigo escritas en
un lenguaje de programacin tal como Python, Ruby o PHP. Escoger el lenguaje
adecuado depende en gran medida de a qu comunidad tiene acceso: si en su
redaccin o ciudad hay alguien que ya trabaja con uno de estos lenguajes,
entonces tiene sentido adoptar el mismo lenguaje.
Ha probado todo y no ha logrado obtener los datos que quiere. Encontr los datos
en la red pero lamentablemente no hay opciones de descarga y fracas en el
intento de copiar y pegar. No tema, an puede haber una manera de obtener los
datos. Por ejemplo, puede:
Extraer datos de PDF. Esto es muy difcil, dado que PDF es un lenguaje
para impresoras y no retiene mucha informacin sobre la estructura de los
datos presentados en el documento. Extraer informacin de PDF va ms all
del alcance de este libro, pero hay algunas herramientas y tutoriales que
pueden ayudarlo a hacerlo.
Con todas esas opciones tcnicas, no olvide las opciones simples: a menudo vale
la pena invertir un poco de tiempo en buscar un archivo con datos que pueden ser
interpretados por una computadora o llamar a la institucin que tiene los datos que
usted quiere.
El nombre de usuario
El tamao de su organizacin
La estructura de su organizacin
La naturaleza de su organizacin
Permite al usuario cambiar la fecha y la hora del sistema para configurar la zona
horaria utilizada en el sistema, as como definir el demonio Network Time Protocol
(NTP) para sincronizar el reloj del sistema con un servidor horario.
El procesador:
La administracin del procesador es, prcticamente el tema central de la
multiprogramacin. Esta administracin involucra las distintas maneras a travs de
las cuales el sistema operativo comparte los recursos del procesador entre
distintos procesos que estn compitiwendo por su uso. Esto implica directamente
la multiprogramacin y conlleva simultneamente la sincronizacin de los mismos.
Estados de un proceso
En un sistema multiprogramado o multitarea donde existen muchos procesos y un
procesador, puede ocurrir que en un momento dado slo se ejecute un proceso o
varios y los dems estn esperando a ser procesado o esperen la finalizacin de
una operacin de E/S. Los pasos por los que puede pasar un proceso se pueden
representar con un diagrama de estado como el de la figura5 4. As se puede
apreciar que a medida que un proceso se ejecuta va cambiando de estado
dependiendo de las preferencias que cada uno tengan asignadas, por lo que ser
el procesador el que se encargue de ejecutar unos u otros.
Planificacin de un proceso
No existe una poltica de planificacin ptima para todas las computadoras, sino
que depende de las caractersticas de los procesos. As se puede ver cmo una
poltica obtiene unos resultados excelentes en un sistema, sin embargo en otro
sistema el rendimiento es mucho menor.
Ello se debe a las caractersticas de los procesos, donde cada uno puede tener
una cantidad de operaciones de E/S enorme cmo es el caso de las bases de
datos, otros usan mayormente la CPU, otros realizan una mayor lectura de datos
frente a otros, hay procesos que requieren una prioridad mxima en los turnos de
ejecucin, es el caso de los procesos de tiempo real, y hay procesos que
requieren ms tiempo de ejecucin que otros, por lo que habr que valorar si
terminar primero los cortos o no.
Existen diferentes planificadores en el sistema. Primero nos encontramos el
planificador a largo plazo, el cual es el encargado de controlar el grado de
multiprogramacin en el sistema, intentando conseguir una mezcla adecuada de
trabajos en CPU y E/S. Es por tanto el encargado de suministrar los procesos a la
cola de planificacin a corto plazo.
Existe tambin un planificador a medio plazo. Es el encargado de suspender y
posteriormente restaurar procesos de poco inters, realizando el intercambio de
los mismos entre la memoria principal y el disco o memoria secundaria. Dicho
proceso es conocido como swapping, y se ejecuta cuando hay escasez de
recursos.
Filtrar los paquetes que circulan, de modo que slo los servicios permitidos
puedan pasar
Los servicios web son componentes software que presentan las siguientes
caractersticas distintivas para el programador:
Son accesibles a travs del protocolo SOAP (Simple Object Access Protocol).
Sin lugar a dudas, el servicio de correo electrnico (o e-mail, por electronic mail)
es el ms tradicional y el ms utilizado por los usuarios de Internet. Algunos lo
sealan como la versin ms "humilde" de la Red. Sin embargo, como veremos en
este captulo y sucesivos, su utilidad es grande.
Haciendo una analoga con el correo postal podemos decir que, cuando nos
envan un mensaje por correo electrnico, ste va pasando de red en red (las
oficinas postales) por medio de "gateways" o compuertas (los camiones de correo)
hasta que llega a su destino, por ejemplo nuestro proveedor de Internet. All
disponemos de una "casilla de correo electrnico" a nuestro nombre, y lo
recogemos mediante un programa "cliente" de correo electrnico, como el Outlook
Express (que veremos en detalle ms adelante), y que hace las veces del
tradicional cartero que nos entrega la correspondencia en nuestro domicilio.
Caractersticas bsicas
Muchas son las caractersticas que hacen del correo electrnico un medio eficaz y
econmico para la comunicacin entre personas.