Seminario de Sistemas 2
Escuela de vacaciones, Junio 2015
Objetivos
Origen de datos
El departamento de investigacin se ha encargado de recopilar informacin de distintos medios,
corresponde al Valor de Esperado de Vida por pas desde el ao 1963 al ao 2013, el cual ha sintetizado
en archivos de Excel y CSV; mediante un proceso de ETL se desea integrar y almacenar la informacin
que posteriormente sirva para hacer un anlisis de datos y crear reportes. El siguiente diagrama muestra
el flujo de datos de los orgenes:
Continente.xlsx
Demografia Anual.xlsx
Pais.csv
Posicionamiento.xlsx
Proyecciones.xlsx
Continente.xlsx
Este archivo es un listado general de continentes relacionados con sus pases:
Continente Pais
Continente
En esta columna, la primera palabra
corresponde al nombre del continente, el
resto de palabras corresponde al nombre
del pas. Se desea extraer los distintos
continentes del estudio
Demografia Anual.xlsx
Este archivo describe cada uno de los pases y cuanta poblacin tenia para el ao en mencin, tambin
contiene el valor de la vida esperada para los habitantes de dicho pas para el ao respectivo:
ID
Pais
Ao
Poblacion
Vida Esperada
Demografa Anual
identificador nico del estudio
nombre del pas en estudio
ao en que se realiz estudio
poblacin estimada para dicho ao
vida esperada para el ao en relacin
Pais.csv
Este archivo describe a los pases del estudio, tambin se incluye las coordenadas de su posicin en el
globo terrestre:
Pais
Latitud
Longitud
pas
nombre del pas
posicin geo referencial
posicin geo referencial
Posicionamiento.xlsx
Este archivo describe a cada uno de los pases y los distintos puestos que ha ocupado respecto al valor
de vida esperado:
ID
Pais
Ultimo Puesto
Puesto mas Largo
Puesto General
Posicionamiento
identificador nico del estudio
nombre del pas en estudio
ultimo puesto en el ranking mundial
Puesto en el que ha permanecido ms tiempo
Puesto general actual
Proyecciones.xlsx
Este archivo describe la proyeccin del valor esperado de Vida para el ao 2013 as como los
parmetros sobre porcentaje promedio de cambio y diferencia respecto a otros aos:
ID
Pais
Vida esperada para 2013
% cambio
% Diferencial
Proyecciones
identificador nico del estudio
nombre del pas en estudio
vida estimada para el ao 2013
Cuanto % de cambio anual en mtrica de vida
cuanto % diferencial anual en mtrica de vida
Departamento Demogrfico
En este departamento se administran todos los reportes referentes a la empresa, por lo cual ellos le
solicitan un medio para poder analizar y visualizar la informacin, teniendo como primera fase lo
siguiente:
1. Crear una base de datos relacional que centralice la informacin, esto ser en un Servidor
Microsoft SQL Server y otro en un Servidor de Oracle, debe contener toda la informacin que le
ha sido proporcionada segn los orgenes de datos anteriormente descritos (ver Ilustracin 1).
2. Proceso de ETL: la carga de datos debe ser mediante el paquete Integration Services de Microsoft
SQL Server (SSIS) y Oracle Warehouse Builder respectivamente.
3. Backup: se debe crear un backup de la base de datos antes de cargar cada uno de los archivos, esto
para poder restaurar la informacin si fuese necesario; recordar que en cualquier momento se puede
ir agregando progresivamente ms datos.
4. Log: crear un archivo de log donde se indique la cantidad de datos insertados y/o se han generado
errores a la hora de cargar informacin a la base de datos para cada una de las tablas (el archivo
queda a discrecin de usted, puede ser plano, Excel, etc.). Explcitamente debe de tener la
informacin necesaria que ayude a comprender el proceso de ETL y la cantidad de datos procesados
correctamente o fallidos.
5. Asegurar el procesamiento completo de todos los datos, y justificar porque no o si se procesaron,
esto se comprobara mediante los archivos de LOG (el log debe ser creado por el estudiante y no se
permite el log generado por los servidores).
Condiciones de Entrega
hora y lugar para calificacin ser indicado das previos a la fecha de entrega.