Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universitat Oberta
de Catalunya
Plan Docente
22.510 - Diseño y uso de bases de datos analíticas sep 22 feb 23 Créditos: 6.0
Profesorado colaborador Laura Beltran , Manel Romero Conejo , Sergio Chica Lucena y Víctor
Ruiz Marquès
Índice
Presentación
Descripción
Conocimientos previos
Objetivos y competencias
Contenidos
Recursos
Consulta de los recursos de aprendizaje de que dispone la asignatura
Metodología
Evaluación
Informaciones sobre la evaluación en la UOC
Evaluación continua
Evaluación final
-2-
Feedback
Fechas clave
Presentación
Descripción
Desde hace unos años, la toma de decisiones basada en los datos está tomando más fuerza dentro del
mundo empresarial, ya que ha quedado demostrado que estas decisiones permiten ser más eficientes.
No obstante, para poder utilizar los datos y convertirlos en información de interés, uno de los puntos más
importantes es que estos estén correctamente tratados y almacenados por lo que el abanico de soportes
de almacenamiento ha crecido exponencialmente. Hoy en día podemos encontrar los datos en sistemas
de ficheros, directamente en formatos de audio, vídeo y texto, así como en bases de datos no-SQL. Sin
embargo, el modelo de almacenamiento de datos estructurado sigue siendo sin duda líder en el mercado de
soluciones analíticas.
Dentro de los sistemas de almacenamiento estructurado o SQL, podemos encontrar las siguientes bases de
datos:
• Las bases de datos operacionales, que han sido concebidas para dar respuesta al día a día de
las empresas y organizaciones. El problema es que estas bases de datos no son útiles para otros
fines que implican análisis de datos, como por ejemplo la extracción de conocimiento o la toma de
decisiones.
• Las bases de datos analíticas, que ofrecen respuesta a necesidades que van más allá de la operativa
de las organizaciones y empresas. Se nutren principalmente de las bases de datos operacionales y de
diversidad de fuentes de datos, disponibles en múltiples formatos. Dada la gran variedad de fuentes
y formatos de presentación de datos, recopilar los datos provenientes de todas estas fuentes en uno
o más almacenes de datos para garantizar respuesta inmediata a diversidad de consultas, implica
disponer de un contexto que permita extraer, transformar y recopilar dicha información llevando a
cabo una serie de procesos. Este es uno de los grandes retos a los que se enfrentan las empresas y
organizaciones del siglo XXI.
Las bases de datos analíticas son las que estudiaremos en esta asignatura. El almacén de datos o data
warehouse (DW) es el soporte sobre el que se disponen los datos y a partir del cual se da respuesta a las
consultas. Éste, a su vez, se convierte en la pieza central de un contexto más amplio, llamado Factoría de
la Información Corporativa (FIC). La FIC y el DW son a día de hoy el centro de atención de las grandes
instituciones para proporcionar un mejor conocimiento de la propia organización y de sus clientes/usuarios.
El objetivo de esta asignatura es aprender a diseñar un DW y crear la FIC, con todos sus componentes,
con el fin de obtener una implementación que pueda dar rápida respuesta a las consultas formuladas
con finalidad analítica. Además de aprender sobre almacenes de datos, estructuras multidimensionales
y procesos de transformación, se aprenderá a gestionar datos y metadatos, a administrar un sistema de
data warehouse y los diferentes enfoques que existen para crear la FIC. Dado el carácter eminentemente
práctico de la asignatura, el aprendizaje se realizará básicamente a través de la resolución de un proyecto
de data warehousing.
Dentro del plan de estudios va precedida por la asignatura "Bases de datos para data warehousing",
la cual introduce al estudiante en el diseño de las bases de datos y el uso del lenguaje estructurado de
consultas SQL. Partiendo de esta base, en "Diseño y uso de bases de datos analíticas" se introduce el
modelo multidimensional de datos y su explotación. Posteriormente a esta asignatura se puede cursar la
asignatura "Bases de datos no relacionales" para conocer otro tipo de bases de datos no basado en SQL.
-3-
Opcionalmente, "Optimización de bases de datos para entornos analíticos" permitirá completar la formación
en materia de bases de datos.
Esta asignatura también se cursa en el Máster Universitario en Ciencia de Datos como complemento de
formación.
Conocimientos previos
Es conveniente disponer de ciertos conocimientos de SQL y diseño de bases de datos relacionales o en
su defecto haber cursado la asignatura "Bases de datos para data warehousing" en el caso del Grado en
Ciencia de Datos.
Además, es necesario cierto conocimiento de la lengua inglesa para comprender documentación técnica de
los productos instalados y/o información de referencia disponible en la red.
Objetivos y competencias
Las principales competencias que el estudiante debe adquirir en el contexto de la asignatura son las que se
indican a continuación:
• Dado un problema de ciencia de datos, saber diseñar e implementar un almacén de datos orientado a
procesos analíticos, eligiendo la mejor infraestructura que soporte el sistema y saberlo administrar.
• Ser capaz de poblar los almacenes de datos a partir de distintas fuentes de información mediante la
creación y ejecución de procesos ETL.
• Conocer y adquirir destreza en la utilización de diferentes tipos de aplicaciones y herramientas (EIS,
OLAP) para una óptima explotación del almacén de datos.
• Ser capaz de llegar a conclusiones importantes como consecuencia del análisis de resultados obtenido
de la explotación de datos.
Estas competencias, en el caso del Grado en Ciencia de Datos Aplicada, se relacionan con las siguientes
competencias específicas (CE) que el estudiante debe adquirir en el contexto de la asignatura y son las que
se indican a continuación:
• CE3- Definir, evaluar y seleccionar soluciones tecnológicas, así como recursos (espaciales,
temporales) necesarios para el desarrollo y ejecución de proyectos, teniendo en cuenta las alternativas
disponibles, las condiciones de mercado y las normativas vigentes.
-4-
• CE8- Identificar y combinar datos de diferentes fuentes y formatos en diferentes gestores de bases de
datos para obtener un almacenamiento de datos eficiente en cada contexto de aplicación.
• CE9- Aplicar técnicas específicas de captura, tratamiento y análisis de datos estructurados, semi-
estructurados y no estructurados.
Contenidos
Los contenidos principales de la parte teórica de la asignatura se recogen en los módulos didácticos que
se detallan a continuación:
• Introducción a las bases de datos analíticas. Introduce los almacenes de datos o data warehouse
(DW) en comparación con las bases de datos relacionales. Los sitúa en el centro de la factoría de
la información corporativa (FIC), junto a los demás componentes que la forman (almacén de datos
departamental, corporativo, operacional, el componente de integración y transformación de datos, las
estructuras multidimensionales y los metadatos), de forma que se pueda tener una primera vista de la
arquitectura lógica de las bases de datos analíticas. También resalta, en este contexto, la importancia
de los datos, de su gestión y de su correcta explotación, así como la administración del sistema de
data warehouse. Presenta también las tendencias actuales.
• La construcción de la factoría de la información corporativa. Se definen las distintas estrategias
de construcción de un sistema de data warehouse, los pasos a seguir para la construcción de los
almacenes de datos y el componente de transformación e integración de la FIC. Así mismo se
presentan los perfiles que intervienen en el desarrollo y gestión de la FIC.
• Diseño multidimensional y explotación de datos. Tras una introducción a las necesidades de los
analistas de datos y las herramientas OLAP, se presenta el modelo multidimensional. Se explica cómo
construir un modelo multidimensional, cada una de las etapas del proceso de diseño (conceptual,
lógico y físico) para conseguir una implementación del cubo en un sistema relacional. También se
describen algunas operaciones propias del modelo multidimensional que pueden ser ejecutadas
en SQL estándar. Finalmente, se aborda la explotación de los datos, desde la necesidad de una
adecuada presentación de los mismos, pasando por los distintos formatos de presentación y las
herramientas de apoyo.
Los contenidos complementarios de la parte teórica de la asignatura se recogen en los siguientes módulos
didácticos:
• Los datos en la factoría de la información corporativa. En este módulo se abordan cuestiones como la
calidad de los datos, la gestión de los datos maestros, gestión de los metadatos y el gobierno del dato.
También se tratan los aspectos relacionados con la legalidad y la ética en el tratamiento de dato.
• Administración de la FIC. Una vez construido el data warehouse y la FIC, hay que explotarlo y
mantenerlo, de aquí la importancia de la administración de sistemas de datawarehousing. Se presenta
el ciclo de vida del data warehouse, desde las primeras etapas de planificación y diseño; pasando
por su puesta en marcha y crecimiento; llegando hasta las fases de monitorización, mantenimiento y
optimización. También se presentan las figuras concretas encargadas de llevar a cabo conjuntos de
tareas especializadas, que las organizaciones deben contemplar para asegurar el buen funcionamiento
del sistema.
Recursos
Consulta de los recursos de aprendizaje de que dispone la asignatura
Material Soporte
Destacamos por su importancia 2 documentos que hay que leer con atención para el correcto desarrollo de
las prácticas:
Estos materiales se pueden encontrar junto a las actividades de evaluación que requieren de ellos (PEC1 y
PRA3) para su realización. Si hiciera falta algún otro material adicional, será proporcionado durante el curso.
Así mismo, dado el carácter práctico de la asignatura se proporciona un entorno de prácticas previamente
configurado para la realización de las actividades prácticas del curso.
En la parte servidor:
Y en la parte cliente:
Y para ofrecer soporte técnico en este entorno y resolver las incidencias que puedan suceder con el uso del
entorno VDI o del software instalado, dispondréis de un profesor/a en el aula de laboratorio. Dado que esta
aula será diferente del aula de teoría, deberéis consultar frecuentemente las dos aulas.
ISBN: 0201964252
• Inmon, William H. (2005). Building the data warehouse / W.H. Inmon. New York : J. Wiley, cop. 2005
ISBN: 0764599445
• Inmon, William H. (1999). Building the operational data store / W.H. Inmon. New York [etc.] : John Wiley
& Sons, cop.1999
ISBN: 047132888X
• Inmon, William H. (2001). Corporate information factory / W.H. Inmon, Claudia Imhoff, Ryan Sousa.
New York : John Wiley, cop. 2001
ISBN: 0471399612
• Inmon, William H. (1994). Using the data warehouse / W.H. Inmon, R. D. Hackathorn. New York : J.
Wiley, cop. 1994
ISBN: 0471059668
• Inmon, W.H., Strauss, Derek, Neushloss, Genia (2010). DW 2.0: The Architecture for the Next
Generation of Data Warehousing / Morgan Kaufman Series in Data Management Systems, cop. 2010
ISBN: 0123743192
• Ladley, Jhon. Data Governance: How to Design, Deploy and Sustain an Effective Data Governance
Program 2011 / The Morgan Kaufmann Series on Business Intelligence, cop. 2011
ISBN: 0124158293
• Kimball, Ralph (2013). The Data Warehouse Toolkit (3ª ed.) / New York: John Wiley & Sons Inc., cop.
2013
-7-
ISBN: 1118530801
Metodología
Se dispondrá de un único Tablón en el aula, a través del cual el profesorado guiará y orientará el estudio a
través de mensajes en el Tablón del aula para el correcto seguimiento de la asignatura. Dado el importante
componente práctico que tiene la asignatura dispondréis de dos aulas con un profesor/a en cada una: uno
de teoría (quien se encargará de guiar el curso y la evaluación) y uno de laboratorio (que ofrecerá soporte
técnico a consultas relacionadas con el uso del entorno VDI o del software instalado). El espacio para la
resolución de consultas técnicas y/o de funcionamiento del entorno será indicado en el tablero del aula al
inicio de curso.
Las comunicaciones del profesor se harán mediante el tablero, que hace las funciones de pizarra, y las
preguntas, debates, comentarios mediante el foro; que es el espacio compartido donde profesores/as y
estudiantes pueden interactuar. Obviamente, se puede contactar con el profesor/a colaborador/a a través
del correo personal de la UOC, pero preferiblemente debe de hacerse a través del Foro, ya que las dudas y/
o problemas encontrados suelen ser los mismos.
Además de las pruebas de evaluación continua (en adelante PEC), que tienen por objetivo consolidar los
conocimientos adquiridos y comprobar el nivel de aprendizaje alcanzado durante el estudio de los módulos
didácticos; se plantea un caso práctico que servirá para ponerlos en práctica, entrenando habilidades y
creando destrezas. Dicho caso es la práctica del curso (en adelante PRA) que por razones pedagógicas
hemos dividido en tres partes o entregas (PRA1, PRA2 y PRA3), durante las cuales se desarrollan las
diferentes fases del proceso de construcción de un data warehouse. Por la importancia de la PRA en la
evaluación de la asignatura y el hecho de que la solución de una parte de la PRA es el punto de partida
para la siguiente, es imprescindible respetar escrupulosamente los plazos de entrega establecidos en el
calendario de curso.
Las dudas que puedan surgir sobre el caso práctico se resolverán en el aula de teoría. Sólo los problemas
que puedan surgir con el entorno de prácticas serán discutidos en el aula de laboratorio. En ningún caso se
colgarán soluciones relacionadas con las actividades de evaluación.
Para la parte teórica se propone seguir la siguiente metodología de estudio en cinco fases:
Además, se utilizarán los buzones del Campus Virtual como mecanismo básico de comunicación entre
todos los miembros del aula. Los enunciados y las soluciones de las PECs y las prácticas se publicarán en
el apartado de Planificación del aula en la fecha que corresponda en el calendario. Los y las estudiantes
deberán entregar las soluciones de las actividades en el Registro de EC del apartado de Evaluación del
aula.
Para favorecer la comunicación entre todos, se recomienda utilizar el Foro del aula para plantear y resolver
cualquier tipo de duda. Hay que tener en cuenta que generalmente la duda de un estudiante suele ser una
duda común de varios y que, utilizando un espacio de comunicación común, se aprenderá más y mejor.
Evaluación
Informaciones sobre la evaluación en la UOC
-8-
Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0)
en las actividades evaluables que se definan en el plan docente incluidas las pruebas finales o en la
calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados
durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado
fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto
de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta
irregular.
Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación,
además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento
disciplinario y a la aplicación, si procede, de la sanción que corresponda.
Evaluación continua
En esta asignatura, el objetivo principal, es que el estudiante, a partir de una serie de conocimientos
teóricos, pueda realizar aplicaciones eminentemente prácticas dentro del ámbito del Data Warehousing,
sin perder en ningún momento la perspectiva de los datos. Con esta finalidad el modelo de evaluación
consistirá en dos tipos de actividades: las PEC, que permiten comprobar el nivel de comprensión de los
conceptos teóricos estudiados, y la práctica, que presenta un caso práctico a resolver sobre un gestor
comercial de base de datos y un sistema comercial OLAP y MOLAP.
PECs
Se realizarán dos PECs en la asignatura. Ambas tienen una parte teórica que evalúa los contenidos de los
módulos didácticos y una parte práctica de apoyo a la realización de las PRAs.
• La primera PEC (PEC1) consistirá en evaluar la comprensión de los módulos 1 y 2 de los materiales
del curso y la preparación del entorno de prácticas, de modo que el estudiante pueda efectuar una
primera toma de contacto tanto con el entorno como con el conjunto de herramientas que se utilizarán
durante el curso.
• La segunda PEC (PEC2) servirá para evaluar la parte teórica del módulo 3 y practicar en la creación
de ETLs.
La parte teórica se evaluará mediante un cuestionario Moodle, mientras que la parte práctica se hará
mediante la herramienta VideoPEC (acreditando la autoría de la entrega)
No son obligatorias, aunque es muy recomendable entregar cada PEC, ya que cada una de ellas tiene el 10% del
peso de la nota final y no entregar una PEC dentro del plazo establecido implica tener un cero de la misma. Esto
es debido a que la parte teórica de la asignatura se evalúa mediante las PECs.
-9-
Práctica
Se realizarán tres prácticas que son obligatorias. Tienen por objetivo el diseño y construcción de un data
warehouse a partir de un caso práctico dado. Las entregas se harán por separado y el plazo para realizarla
suele ser de unas tres/cinco semanas (ver la planificación de la asignatura).
Es obligatorio entregar la PRA1, PRA2 y PRA3 para poder aprobar la asignatura.
La realización del caso práctico, nos permitirá desarrollar las siguientes habilidades:
Para superar la asignatura, será condición necesaria haber presentado las 3 prácticas (PRAs) y haber obtenido
una nota mínima de 4 en cada una de ellas. Es importante recordar que la asignatura se aprueba por evaluación
continua, no tiene examen o prueba final.
Las PRA1, PRA2 y PRA3 son entregas que están relacionadas entre ellas, ya que permiten implementar las
fases que conllevan la construcción final del almacén de datos del caso de uso que es el objetivo final de la
práctica. Por esta razón, con el fin de unificar criterios, los estudiantes deberán utilizar la solución oficial de
la PRA1 como punto de partida de la PRA2, y utilizar la solución oficial de la PRA2 como punto de partida
de la PRA3.
En todas las actividades entregadas, hay que indicar explícitamente las fuentes utilizadas en la preparación
de la entrega, aportando información para localizar el recurso: URL, datos bibliográficos, etcétera. El
profesor/a colaborador/a realizará un seguimiento personalizado de la evaluación continua, corregirá todas
las PECs y prácticas entregadas y comentará de forma individual y/o grupal los errores detectados, así
como la calificación obtenida. Estos comentarios le ayudarán a progresar en su aprendizaje.
Conviene insistir en que el modelo de evaluación de esta asignatura está basado en la evaluación continua y
que por tanto, es fundamental llevar a cabo las actividades de evaluación que se planteen durante el curso y
realizarlas en el plazo establecido. Si en algún caso puntual, no pudiera realizarse alguna entrega por una
causa mayor; previa comunicación y justificación documentada al profesor/a colaborador,/a el profesor/a de
la asignatura podría considerar el caso de excepcional y ofrecer al estudiante, en la medida de lo posible,
una vía alternativa para poder calificar dicha actividad.
Se recomienda realizar alguna entrega antes de la fecha y hora límite para evitar problemas de última hora.
Es importante que tengáis en cuenta que pasadas las 23:59h de la fecha límite establecida, la entrega ya se
considera fuera de plazo. Siempre es preferible realizar una entrega inacabada que no entregar nada.
Toda práctica (PRA) entregada fuera de plazo se calificará con una nota máxima de C+(5), siempre que
esta sea presentada con anterioridad a la fecha de publicación de la solución oficial. En caso de realizar la
entrega con posterioridad a esta fecha, se obtendrá una calificación máxima de C-.
Dado que la asignatura sólo puede superarse con el método de evaluación continua, en caso de suspender
o no presentar alguna de las prácticas, se ofrecerá al estudiante la posibilidad de recuperarla. La
recuperación constará de dos entregas: la PRA mejorada (la actividad suspendida o no presentada
corregida a partir de la solución oficial) y un ejercicio extra (RECPRA) que propondrá el profesor/a
- 10 -
colaborador/a. No se aceptarán entregas parciales; es decir, de una de las partes (PRA mejorada o
RECPRA). En caso de superar la recuperación, la nota máxima que se obtendrá será de C+(5).
Las RECPRA se facilitarán al día siguiente de la publicación de las notas. No se publican en el aula, el
profesor colaborador la envía por correo a cada estudiante que ha suspendido o no ha presentado la PRA
correspondiente. No sirven para subir nota de prácticas aprobadas (es decir, no sirven para pasar de una C
+ a una B, o de una B a una A).
Aclaraciones:
Revisiones
Tras la publicación de las calificaciones de las actividades evaluables, el estudiante podrá solicitar una
revisión de su entrega. Se establece un plazo de 4 días después de la fecha de publicación de la nota de
cada actividad, para solicitar la revisión. El estudiante que solicite la revisión deberá argumentar al profesor/
a colaborador/a qué parte de la entrega desea que sea revisada ya que dispone de la solución oficial
publicada. A final de curso no se aceptarán revisiones de actividades por las que el período de revisión
finalizó.
Evaluación final
Dado el carácter eminentemente práctico de esta asignatura, el peso más importante de la nota final lo
tendrán las prácticas (PRAs). La nota final de la asignatura, siempre y cuando no se haya recuperado más
de una PRA, vendrá determinada por la siguiente fórmula:
La práctica es de realización obligatoria en todas sus partes. Hay que obtener una nota mínima de 4 en cada una
de ellas para poder calcular la NF (Nota Final).
Cada PEC tiene un peso del 10% en la nota final: PEC1 (10%) y la PEC2 (10%), siempre que no se haya
recuperado más de UNA PRA.
En el caso de no haber entregado ninguna actividad evaluable (ni PECs ni PRAs) o que sólo se haya entregado
una sola PEC, se obtendría una calificación de NP (No Presentado).
Aquellos estudiantes que hayan obtenido unas calificaciones sobresalientes (superiores a 9) en todas
las actividades, hayan participado activamente en el foro de la asignatura y prestado ayuda/soporte a los
compañer@s, optarán a una calificación de Matrícula de Honor (MH).
Es responsabilidad del estudiante, asegurarse de que los documentos entregados se han colgado correctamente
en el espacio indicado y que corresponden a las actividades que hay que presentar.
Feedback
Se realizará tres tipos de retorno sobre las actividades evaluables entregadas:
• Retorno general: consiste en la publicación de una posible solución oficial (con explicaciones, en caso
de que éstas sean necesarias) para las actividades evaluables propuestas (PECs y PRAs). Este tipo
de retorno siempre se realizará. La publicación de las soluciones oficiales se realizará después de
fecha límite de entrega fijada para los estudiantes.
• Retorno a nivel de grupo: consiste en la publicación (vía tablero o conjuntamente con la solución oficial
de las actividades evaluables) de los errores más frecuentemente realizados por los estudiantes.
Este tipo de retorno sólo se realizará en caso de ser pertinente, una vez que el equipo docente haya
finalizado el proceso de corrección.
• Retorno individualizado: consiste en la comunicación de la nota numérica obtenida y en la realización
de comentarios individuales sobre las entregas realizadas por los estudiantes de las actividades
evaluables. Este tipo de retorno siempre se realizará y se hará mediante el registro de evaluación
continua. En el caso de que la petición sea realizada por el estudiante, será necesario que el
estudiante argumente, una vez consultada la solución oficial, los motivos por los que cree que sus
soluciones son correctas.
Fechas clave
Actividades evaluables
Actividades no evaluables
1. Introducción a las
bases de datos analíticas 30/09/2022 09/10/2022 -
2. La construcción de la
factoría de información 10/10/2022 23/10/2022 -
corporativa
3. Diseño
multidimensional y 24/10/2022 27/11/2022 -
explotación de datos
4. Los datos en la
factoría de la información 05/12/2022 18/12/2022 -
corporativa
5. Administración de la
factoria de la información 19/12/2022 01/01/2023 -
corporativa