Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universitat Oberta
de Catalunya
Plan Docente
22.510 - Diseño y uso de bases de datos analíticas sep 20 ene 21 Créditos: 6.0
Profesores colaboradores Aitor Cabero Couto , Carles Llorach Rius , Daniel Miró Pettican y David
Díaz Arias
Índice
Presentación
Descripción
Conocimientos previos
Objetivos y competencias
Contenidos
Recursos
Consulta de los recursos de aprendizaje de que dispone la asignatura
Metodología
Evaluación
Informaciones sobre la evaluación en la UOC
Evaluación continua
Evaluación final
-2-
Feedback
Fechas clave
Presentación
Descripción
Desde hace unos años, la toma de decisiones basada en los datos está tomando más fuerza dentro del
mundo empresarial, ya que ha quedado demostrado que estas decisiones permiten ser más eficientes.
No obstante, para poder utilizar los datos y convertirlos en información de interés, uno de los puntos más
importantes es que estos estén correctamente tratados y almacenados por lo que el abanico de soportes
de almacenamiento ha crecido exponencialmente. Hoy en día podemos encontrar los datos en sistemas
de ficheros, directamente en formatos de audio, vídeo y texto, así como en bases de datos no-SQL. Sin
embargo, el modelo de almacenamiento de datos estructurado sigue siendo sin duda líder en el mercado de
soluciones analíticas.
Dentro de los sistemas de almacenamiento estructurado o SQL, podemos encontrar las siguientes bases de
datos:
• Las bases de datos operacionales, que han sido concebidas para dar respuesta al día a día de
las empresas y organizaciones. El problema es que estas bases de datos no son útiles para otros
fines que implican análisis de datos, como por ejemplo la extracción de conocimiento o la toma de
decisiones.
• Las bases de datos analíticas, que ofrecen respuesta a necesidades que van más allá de la operativa
de las organizaciones y empresas. Se nutren principalmente de las bases de datos operacionales y de
diversidad de fuentes de datos, disponibles en múltiples formatos. Dada la gran variedad de fuentes
y formatos de presentación de datos: recopilar los datos provenientes de todas estas fuentes en uno
o más almacenes de datos para garantizar respuesta inmediata a diversidad de consultas, implica
disponer de un contexto que permita extraer, transformar y recopilar dicha información llevando a
cabo una serie de procesos. Este es uno de los grandes retos a los que se enfrentan las empresas y
organizaciones del siglo XXI.
Las bases de datos analíticas son las que estudiaremos en esta asignatura. El almacén de datos o Data
Warehouse (DW) es el soporte sobre el que se disponen los datos y a partir del cual se da respuesta a las
consultas. Éste, a su vez, se convierte en la pieza central de un contexto más amplio, llamado Factoría de
la Información Corporativa (FIC). La FIC y el DW son a día de hoy el centro de atención de las grandes
instituciones para que proporcionan un mejor conocimiento de la propia organización y de sus clientes/
usuarios.
El objetivo de esta asignatura es aprender a diseñar un DW y crear la FIC, con todos sus componentes,
con el fin de obtener una implementación que pueda dar rápida respuesta a las consultas formuladas
con finalidad analítica. Además de aprender sobre almacenes de datos, estructuras multidimensionales
y procesos de transformación, se aprenderá a gestionar datos y metadatos, a administrar un sistema de
data warehouse y los diferentes enfoques que existen para crear la FIC. Dado el carácter eminentemente
práctico de la asignatura, el aprendizaje se realizará básicamente a través de la resolución de un proyecto
de data warehousing.
Dentro del plan de estudios va precedida por la asignatura "Bases de datos para data warehousing",
la cual introduce al estudiante en el diseño de las bases de datos y el uso del lenguaje estructurado de
consultas SQL. Partiendo de esta base, en "Diseño y uso de bases de datos analíticas" se introduce el
modelo multidimensional de datos y su explotación. Posteriormente a esta asignatura se puede cursar la
-3-
asignatura "Bases de datos no relacionales" para conocer otro tipo de bases de datos no basado en SQL.
Opcionalmente, "Optimización de bases de datos para entornos analíticos" permitirá completar la formación
en materia de bases de datos.
Esta asignatura también se cursa el Máster Universitario en Ciencia de Datos como complemento de
formación.
Conocimientos previos
Es conveniente disponer de ciertos conocimientos de SQL y diseño de bases de datos relacionales o en
su defecto haber cursado la asignatura "Bases de datos para data warehousing" en el caso del Grado en
Ciencia de Datos.
Además, es necesario cierto conocimiento de la lengua inglesa para comprender documentación técnica de
los productos instalados y/o información de referencia disponible en la red.
Objetivos y competencias
Las principales competencias que el estudiante debe adquirir en el contexto de la asignatura son las que se
indican a continuación:
• Dado un problema de ciencia de datos, saber diseñar e implementar un almacén de datos orientado a
procesos analíticos, eligiendo la mejor infraestructura que soporte el sistema y saberlo administrar.
• Ser capaz de poblar los almacenes de datos a partir de distintas fuentes de información mediante la
creación y ejecución de procesos ETL.
• Conocer y adquirir destreza en la utilización de diferentes tipos de aplicaciones y herramientas (EIS,
OLAP) para una óptima explotación del almacén de datos.
• Ser capaz de llegar a conclusiones importantes como consecuencia del análisis de resultados obtenido
de la explotación de datos.
Estas competencias, en el caso del Grado en Ciencia de Datos Aplicada, se relacionan con las siguientes
competencias específicas (CE) que el estudiante debe adquirir en el contexto de la asignatura y son las que
se indican a continuación:
• CE3- Definir, evaluar y seleccionar soluciones tecnológicas, así como recursos (espaciales,
temporales) necesarios para el desarrollo y ejecución de proyectos, teniendo en cuenta las alternativas
disponibles, las condiciones de mercado y las normativas vigentes.
• CE8- Identificar y combinar datos de diferentes fuentes y formatos en diferentes gestores de bases de
datos para obtener un almacenamiento de datos eficiente en cada contexto de aplicación.
• CE9- Aplicar técnicas específicas de captura, tratamiento y análisis de datos estructurados, semi-
estructurados y no estructurados.
-4-
Contenidos
Los contenidos de la parte teórica de la asignatura se recogen en los módulos didácticos que componen el
material de la asignatura:
• Introducción a las bases de datos analíticas. Introduce los almacenes de datos o data warehouse
(DW) en comparación con las bases de datos relacionales. Los sitúa en el centro de la factoría de
la información corporativa (FIC), junto a los demás componentes que la forman (almacén de datos
departamental, corporativo, operacional, el componente de integración y transformación de datos, las
estructuras multidimensionales y los metadatos), de forma que se pueda tener una primera vista de la
arquitectura lógica de las bases de datos analíticas. También resalta, en este contexto, la importancia
de los datos, de su gestión y de su correcta explotación, así como la administración del sistema de
data warehouse. Presenta también las tendencias actuales.
• La construcción de la factoría de la información corporativa. Se definen las distintas estrategias
de construcción de un sistema de data warehouse, los pasos a seguir para la construcción de los
almacenes de datos y el componente de transformación e integración de la FIC. Así mismo se
presentan los perfiles que intervienen en el desarrollo y gestión de la FIC.
• Los datos en la factoría de la información corporativa. En este módulo se abordan cuestiones como la
calidad de los datos, la gestión de los datos maestros, gestión de los metadatos y el gobierno del dato.
También se tratan los aspectos relacionados con la legalidad y la ética en el tratamiento de dato.
• Diseño multidimensional y explotación de datos. Tras una introducción a las necesidades de los
analistas de datos y las herramientas OLAP, se presenta el modelo multidimensional. Se explica cómo
construir un modelo multidimensional, cada una de las etapas del proceso de diseño (conceptual,
lógico y físico) para conseguir una implementación del cubo en un sistema relacional. También se
describen algunas operaciones propias del modelo muttidimensional que pueden ser ejecutadas
en SQL estándar. Finalmente, se aborda la explotación de los datos, desde la necesidad de una
adecuada presentación de los mismos, pasando por los distintos formatos de presentación y las
herramientas de apoyo.
• Administración de la FIC. Una vez construido el data warehouse y la FIC, hay que explotarlo y
mantenerlo, de aquí la importancia de la administración de sistemas de datawarehousing. Se presenta
el ciclo de vida del data warehouse, desde las primeras etapas de planificación y diseño; pasando
por su puesta en marcha y crecimiento; llegando hasta las fases de monitorización, mantenimiento y
optimización. También se presentan las figuras concretas encargadas de llevar a cabo conjuntos de
tareas especializadas, que las organizaciones deben contemplar para asegurar el buen funcionamiento
del sistema.
Recursos
Consulta de los recursos de aprendizaje de que dispone la asignatura
Material Soporte
Así mismo, dado el carácter práctico de la asignatura se proporciona un entorno de prácticas previamente
configurado para la realización de las actividades prácticas del curso.
En la parte servidor:
• Base de datos: Windows SQL Server 2016 (SGBD + SQL Server Analysis Services + SQL Server
Reporting Services)
Y en la parte cliente:
Y para ofrecer soporte técnico a este entorno y resolver incidencias que puedan ocurrir, disponéis de un
aula de laboratorio, Laboratorio de Soporte al entorno VDI.
ISBN: 0201964252
• Inmon, William H. (2005). Building the data warehouse / W.H. Inmon. New York : J. Wiley,, cop. 2005
ISBN: 0764599445
• Inmon, William H. (1999). Building the operational data store / W.H. Inmon. New York [etc.] : John Wiley
& Sons, cop.1999
ISBN: 047132888X
• Inmon, William H. (2001). Corporate information factory / W.H. Inmon, Claudia Imhoff, Ryan Sousa.
New York : John Wiley, cop. 2001
ISBN: 0471399612
• Inmon, William H. (1994). Using the data warehouse / W.H. Inmon, R. D. Hackathorn. New York : J.
Wiley,, cop. 1994
ISBN: 0471059668
• Kimball, Ralph (2002). The Data warehouse toolkit : the complete guide to dimensional modeling /
Ralph Kimball, Margy Ross. New York : Wiley, cop. 2002
ISBN: 0471200247
• Inmon, W.H., Strauss, Derek, Neushloss, Genia (2010). DW 2.0: The Architecture for the Next
Generation of Data Warehousing (Morgan Kaufman Series in Data Management Systems)
ISBN: 0123743192
• Ladley, Jhon. Data Governance: How to Design, Deploy and Sustain an Effective Data Governance
Program (2011 The Morgan Kaufmann Series on Business Intelligence)
ISBN: 0124158293
Metodología
Dado el importante componente práctico que tiene la asignatura, como se ha comentado ya, ésta dispone
de dos tipos de aula. Una de teoría, a través de la cual el profesor colaborador guiará y orientará el estudio
a través de mensajes en el Tablón del aula para el correcto seguimiento de la asignatura. Y otra aula de
laboratorio que ofrecerá soporte técnico para poder realizar las prácticas en un entorno virtual VDI que
proporcionamos a los estudiantes. En ambas aulas, las comunicaciones del profesor se harán mediante
el tablero, que hace las funciones de pizarra, y las preguntas, debates, comentarios mediante el foro; que
es el espacio compartido donde profesores/as y estudiantes pueden interactuar. Obviamente, se puede
-7-
contactar con el profesor/a colaborador/a a través del correo personal de la UOC, pero preferiblemente debe
de hacerse a través del Foro.
Además de las pruebas de evaluación continua (en adelante PEC), que tienen por objetivo consolidar los
conocimientos adquiridos y comprobar el nivel de aprendizaje alcanzado durante el estudio de los módulos
didácticos; se plantea un caso práctico que servirá para ponerlos en práctica, entrenando habilidades y
creando destrezas. Dicho caso es la práctica del curso (en adelante PRA) que por razones pedagógicas
hemos dividido en dos partes o entregas (PRA1 y PRA2), durante las cuales se desarrollan las diferentes
fases del proceso de construcción de un data warehouse. Por la importancia de la PRA en la evaluación de
la asignatura y el hecho de que la solución de una parte de la PRA es el punto de partida para la siguiente,
es imprescindible respetar escrupulosamente los plazos de entrega establecidos en el calendario de curso.
Las dudas que puedan surgir sobre el caso práctico se resolverán en el aula de teoría. Sólo los problemas
que puedan surgir con el entorno de prácticas serán discutidos en el aula de laboratorio. En ningún caso se
colgarán soluciones relacionadas con las actividades de evaluación.
Para la parte teórica se propone seguir la siguiente metodología de estudio en cuatro fases:
Además, se utilizarán los buzones del Campus Virtual como mecanismo básico de comunicación entre
todos los miembros del aula. Los enunciados y las soluciones de las PECs y las prácticas se publicarán en
el apartado de Planificación del aula en la fecha que corresponda en el calendario. Los y las estudiantes
deberán entregar las soluciones de las PECs en el Registro de EC del apartado de Evaluación del aula.
Para favorecer la comunicación entre todos, se recomienda utilizar el Foro del aula para plantear y resolver
cualquier tipo de duda. Hay que tener en cuenta que generalmente la duda de un estudiante suele ser una
duda común de varios y que, utilizando un espacio de comunicación común, se aprenderá más y mejor.
Además, como se ha comentado anteriormente los y las estudiantes dispondrán de una Aula de Laboratorio
para comentar posibles problemas con el uso del entorno VDI o del software instalado. En esta aula no se
tratarán temas relacionados con las PECs o PRAs ni con los módulos didácticos, que serán comentados en
el aula de teoría.
Evaluación
Informaciones sobre la evaluación en la UOC
La Normativa académica de la UOC dispone que el proceso de evaluación se fundamenta en el trabajo
personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios
realizados.
La falta de originalidad en la autoría o el mal uso de las condiciones en las que se hace la evaluación de la
asignatura es una infracción que puede tener consecuencias académicas graves.
El estudiante será calificado con un suspenso (D/0) si se detecta falta de originalidad en la autoría de alguna
actividad evaluable (práctica, prueba de evaluación continua (PEC) o final (PEF), o la que se defina en el
plan docente), ya sea porque ha utilizado material o dispositivos no autorizados, ya sea porque ha copiado
de forma textual de internet, o ha copiado de apuntes, de materiales, manuales o artículos (sin la citación
correspondiente) o de otro estudiante, o por cualquier otra conducta irregular.
-8-
La calificación de suspenso (D/0) en la evaluación continua (EC) puede conllevar la obligación de hacer el
examen presencial para superar la asignatura (si hay examen y si superarlo es suficiente para superar la
asignatura según indique este plan docente).
Cuando esta mala conducta se produzca durante la realización de las pruebas de evaluación finales
presenciales, el estudiante puede ser expulsado del aula, y el examinador hará constar todos los elementos
y la información relativos al caso.
Además, esta conducta puede dar lugar a la incoación de un procedimiento disciplinario y la aplicación, si
procede, de la sanción que corresponda.
La UOC habilitará los mecanismos que considere oportunos para velar por la calidad de sus titulaciones y
garantizar la excelencia y la calidad de su modelo educativo.
Evaluación continua
En esta asignatura, el Objetivo principal, es que el estudiante, a partir de una serie de conocimientos
teóricos, pueda realizar aplicaciones eminentemente prácticas dentro del ámbito del Data Warehousing,
sin perder en ningún momento la perspectiva de los datos. Con esta finalidad el modelo de evaluación
consistirá en dos tipos de actividades: las PEC, que permiten comprobar el nivel de comprensión de los
conceptos teóricos estudiados, y la práctica, que presenta un caso práctico a resolver sobre un gestor
comercial de base de datos y un sistema comercial OLAP y MOLAP.
PECs
Se realizarán dos PEC en la asignatura. La primera PEC consistirá en evaluar la comprensión de los
módulos 1 y 2 de los materiales del curso y la prepararción del entorno de prácticas, de modo que el
estudiante pueda efectuar una primera toma de contacto tanto con el entorno como con el conjunto de
herramientas que se utilizarán durante el curso .La segunda PEC, se realizará a final de curso y servirá para
evaluar la parte teórica de los módulos 3, 4 y 5.
No son obligatorias, aunque es muy recomendable entregar cada PEC, ya que cada una de ella tiene un peso en
la nota final y no entregar una PEC implica tener un cero de la misma. Esto es debido a que la parte teórica de
la asignatura se evalúa mediante las PEC.
Práctica
Se realizarán dos prácticas que son obligatorias. Tienen por objetivo el diseño y construcción de un data
warehouse a partir de un caso práctico dado. Las entregas se harán por separado y el plazo para realizarla
suele ser de unas tres/cinco semanas (ver la planificación de la asignatura).
La realización del caso práctico, nos permitirá desarrollar las siguientes habilidades:
• Practica 2: Se corresponde con las fases de carga de datos y explotación de datos. Concretamente
en esta segunda práctica el estudiante tendrá que definir e implementar los procesos de extracción,
transformación y carga de datos desde las fuentes de datos origen hacia el almacén de datos, así
como la creación de un cubo multidimensional que permita la explotación de la información disponible
en el almacén de datos.
Para superar la asignatura, será condición necesaria haber presentado al menos un 50% de las actividades
evaluables (PECs y PRAs) dentro del plazo establecido y haber obtenido como mínimo un aprobado de la
PRA en conjunto. Es importante recordar que como la asignatura se aprueba por evaluación continua, no
tiene examen o prueba final, de aquí que sea imprescindible la realización de las actividades evaluables.
Entregada y evaluada cada parte de la práctica (PRA1/PRA2), el profesor colaborador publicará en el aula
UNA solución válida (de las muchas posibles) y comunicará a sus alumnos su calificación.
PRA 1 y PRA2 son entregas que están relacionadas entre ellas, ya que permiten implementar las fases que
conllevan la construcción final del almacén de datos del caso de uso que es el objetivo final de la práctica.
Por esta razón, con el fin de unificar criterios, los estudiantes deberán utilizar la solución oficial de la PRA1
como punto de partida de la PRA2.
En todas las actividades entregadas, hay que indicar explícitamente las fuentes utilizadas en la preparación
de la entrega, aportando información para localizar el recurso: URL, datos bibliográficos, etcétera. El
profesor colaborador realizará un seguimiento personalizado de la evaluación continua, revisará todas
las PEC y prácticas entregadas y comentará de forma cualitativa a nivel grupal y/o individual la resolución
mediante la aplicación de calificaciones. Estos comentarios le ayudarán a progresar en su aprendizaje.
Conviene insistir en que el modelo de evaluación de esta asignatura está basado en la evaluación continua
y que por tanto, es fundamental llevar a cabo las actividades de evaluación que se planteen durante el curso
y realizarlas en el plazo establecido. Si en algún caso puntual, no pudiera realizarse alguna entrega por una
causa mayor; previa comunicación y justificación documentada al profesor colaborador, el profesor de la
asignatura podría considerar el caso de excepcional y ofrecer al estudiante, en la medida de lo posible, una
vía alternativa para poder calificar dicha actividad.
Toda actividad (PEC o PRA) entregada fuera de plazo se calificará con una nota máxima de C+, siempre
que esta sea presentada con anterioridad a la fecha de publicación de la solución oficial. En caso de realizar
la entrega con posterioridad a esta fecha, se obtendrá una calificación máxima de C-
Dado que la asignatura sólo puede superarse con el método de evaluación continua, en caso de suspender
o no presentar alguna de las actividades evaluables, se ofrecerá al estudiante la posibilidad de recuperarla,
entregando nuevamente la misma actividad con algún ejercicio extra que propondrá el profesor colaborador.
En caso de superar la recuperación, la nota máxima que se obtendrá será de C+.
Revisiones
Tras la publicación de las calificaciones de las actividades evaluables, el estudiante podrá solicitar una
revisión de su entrega. Se establece un plazo de 4 días después de la fecha de publicación de la nota
de cada actividad, para solicitar la revisión. El estudiante que solicite la revisión deberá de argumentar
al profesor colaborador qué parte de la entrega desea sea revisada ya que dispone de la solución oficial
publicada.
Evaluación final
Dado el carácter eminentemente práctico de esta asignatura, el peso más importante de la nota final lo
tendrán las prácticas, las PECs permitirán mejorar (sólo penalizan en el caso de tenerlas suspendidas). La
nota final de la asignatura vendrá determinada por la siguiente tabla de calificaciones:
PRA\PEC A B C+ C- D N
A A A B C- D D
B B B B C- D D
C+ B C+ C+ C- D D
C- C- C- C- C- D D
- 10 -
D D D D D D D
N D D D D D N
La nota final de la práctica se calculará teniendo en cuenta las notas de las dos prácticas, y en base a los
siguientes pesos: PRA1 (40%), PRA2 (60%),
La nota final de la PEC se obtendrá a partir de las notas de la PEC1 (40%) y la PEC2 (60%).
Aquellos estudiantes que hayan obtenido unas calificaciones más que sobresalientes en todas las
actividades, hayan participado activamente en el foro de la asignatura y prestado ayuda/soporte a los
compañer@s, optarán a una calificación de Matrícula de Honor (MH)
Importante: El seguimiento correcto de la asignatura os compromete a realizar las actividades propuestas
(PECs y PRAs) de manera individual y según las indicaciones que pauta este Plan Docente. En caso de que
no sea así, las actividades se evaluarán con una D. Por este motivo no se puede enviar, en ningún caso,
a otros compañeros del aula la resolución de la actividad durante el período de entrega. Por otra parte,
y siempre a criterio de los Estudios, el incumplimiento de este compromiso puede suponer que no se le
permita superar ninguna otra asignatura mediante evaluación continuada ni en el semestre en curso ni en
los siguientes.
Es responsabilidad del estudiante, asegurarse de que los documentos entregados se han colgado
correctamente y que corresponden a las actividades que hay que presentar.
Feedback
Se le hará tres tipos de retorno sobre las actividades evaluables entregadas:
• Retorno general: consiste en la publicación de una posible solución oficial (con explicaciones, en caso
de que éstas sean necesarias) para las actividades evaluables propuestas (PECs y PRAs). Este tipo
de retorno siempre se realizará. La publicación de las soluciones oficiales se realizará después de
fecha límite de entrega fijada para los estudiantes.
• Retorno a nivel de grupo: consiste en la publicación (vía tablero o conjuntamente con la solución oficial
de las actividades evaluables) de los errores más frecuentemente realizados por los estudiantes.
Este tipo de retorno sólo se realizará en caso de ser pertinente, una vez que el equipo docente haya
finalizado el proceso de corrección.
• Retorno individualizado: consiste en la realización de comentarios individuales sobre las entregas
realizadas por los estudiantes de las actividades evaluables. Este tipo de retorno siempre se realizará
y hará mediante el registro de evaluación continua. En el caso de que la petición sea realizada por
el estudiante, será necesario que el estudiante argumente, una vez consultada la solución oficial, los
motivos por los que cree que sus soluciones son correctas.
Fechas clave
Actividades evaluables
Actividades no evaluables
1. Introducción a las
bases de datos analíticas 18/09/2020 27/09/2020 -
2. La construcción de la
factoría de información 28/09/2020 18/10/2020 -
corporativa
4. Diseño
multidimensional y 19/10/2020 22/11/2020 -
explotación de datos
3. Gestión de datos en la
factoría de la información 23/11/2020 06/12/2020 -
corporativa
5. Administración de la
factoria de la información 07/12/2020 20/12/2020 -
corporativa