1INF170001-2023-1-SILABO - César Aguilera

ESCUELA DE POSGRADO
MAESTRÍA EN INFORMÁTICA
BASES DE DATOS NO ESTRUCTURADAS
Clave : 1INF17 Créditos :3

Tipo : Electivo Semestre : 2023-1
Horario : lunes 19:00-22:00 Requisitos :
Profesor : Aguilera Serpa, César A
1. Sumilla
El tema central del curso es entender los principios de las bases de datos no
estructuradas y la recuperación de información a partir de ellas aplicando conceptos
relacionados a espacios métricos y técnicas basadas en distancias, así como
técnicas de aprendizaje automático y modelos probabilísticos que permitan detectar
patrones para el análisis y clasificación de textos de una manera efectiva. Se
estudiarán técnicas básicas sobre la gestión de una base de datos no estructurada,
así como la ejecución de consultas básicas y avanzadas sobre tales datos no
estructurados que permitan aprovechar la información almacenada principalmente
para fines de análisis de datos.
Conforme a los lineamientos establecidos por el Ministerio de Educación y la

Superintendencia Nacional de Educación Superior Universitaria (SUNEDU) dictados
en el marco de la emergencia sanitaria para prevenir y controlar el COVID-19, la
universidad ha decidido iniciar el retorno progresivo a las clases presenciales y
mantener una cantidad significativa de cursos y clases bajo la modalidad virtual
durante el semestre 2022-1. Los docentes podrán hacer los ajustes pertinentes en
los sílabos para atender al contexto y modalidad de sus cursos
2. Objetivos de aprendizaje
El objetivo central de este curso es comprender el funcionamiento de las bases de

datos no estructuradas, así como la recuperación de información a partir de ellas
usando técnicas basadas en espacios métricos y de aprendizaje automático.
Este curso permite:
• Comprender los tipos de bases de datos no estructuradas existentes.
• Aplicar algoritmos computacionales para la descripción de datos no
estructurados tales como textos.
• Estudiar algoritmos computacionales de recuperación de información.
• Aplicar algoritmos basados en espacios métricos para la asociación de objetos
en consulta en bases de datos no estructuradas.
• Aplicar métodos de aprendizaje de máquina y modelos probabilísticos para el
análisis y clasificación de textos
1
ESCUELA DE POSGRADO
3. Contenido
UNIDAD 1. Introducción (3 horas)

Objetivos: Comprender la historia y evolución de las bases de datos y su impacto en
la sociedad.
Contenido: Historia de las bases de datos, modelo jerárquico, modelo Entidad -
Relación, NoSQL y basada en grafos.
UNIDAD 2. Bases de Datos NoSQL (6 horas)

Objetivos: Comprender las características de los diferentes modelos NoSQL y su
funcionamiento.
Contenido: Bases de datos clave-valor: modelo, terminología y diseño, bases de
datos con base en documentos: modelo, terminología y diseño, bases de datos de
familia de columnas: modelo, terminología y diseño. Operaciones CRUD, criterios
para ejecución de consultas, índices, tipos de colecciones y transacciones.
UNIDAD 3. Tratamiento de Datos No Estructurados (12 horas)

Objetivos: Aplicar técnicas para la extracción de características a partir de corpora.
Contenido: Stemming, lematización, frecuencia de palabras, bag-of-words, modelo
booleano y vectorial y función de similitud.
UNIDAD 4. Búsquedas por Similitud (9 horas)

Objetivos: Aplicar técnicas de búsqueda por similitud para recuperación de
información.
Contenido: Estructuras de datos, similitud y disimilitud, tipos de búsqueda por
similitud, tipos de índices y evaluación de efectividad.
UNIDAD 5. Análisis y Clasificación de Textos (12 horas)

Objetivos: Aplicar técnicas de machine learning para la clasificación de textos.
Contenido: Aprendizaje supervisado, modelos probabilísticos, técnicas de conteo,
distribuciones de probabilidades, métodos de aprendizaje, métodos de inferencia y
evaluación de modelos.
4. Metodología
Las actividades de aprendizaje síncronas y asíncronas se trabajarán utilizando la

plataforma PAIDEIA: https://paideia.pucp.edu.pe/
Las actividades síncronas se programarán durante el horario que se ha establecido

para el curso. Las sesiones por videoconferencia se realizarán utilizando Zoom. Los
enlaces para la conexión se colocarán en la sección correspondiente del curso en
PAIDEIA.
Se realizará un trabajo grupal cuya finalidad es desarrollar alguno de los algoritmos

presentados en el curso.
2
ESCUELA DE POSGRADO
La evaluación cuenta con componentes formativos para asegurar así el logro de las
diversas competencias señaladas, éstas serán tanto individuales (evaluaciones de
control) como grupales (proyecto integrador).
5. Sistema de evaluación
La evaluación del aprendizaje se conforma de la siguiente manera:
Nº Modalidades Semana de Ponderación

evaluación (sobre nota final)
1 Examen parcial (EP) 8 25%

2 Examen final (EF) 16 25%
3 Trabajo académico (TA) 15 40%
4 Trabajos prácticos (TP) 10%
Total 100%
La nota final se obtiene de acuerdo con la siguiente fórmula:
NF= 0.4*TA + 0.25*EP + 0.25*EF + 0.10*TP
6. Bibliografía
• Wilfried Lemahieu, Seppe Vanden Broucke, and Bart Baesens. 2018. Principles
of Database Management: The Practical Guide to Storing, Managing and
Analyzing Big and Small Data. Cambridge University Press, USA.
• M. Tamer zsu and Patrick Valduriez. 2011. Principles of Distributed Database
Systems (3rd. ed.). Springer Publishing Company, Incorporated.
• Jeremy Kepner and Hayden Jananthan. 2018. Mathematics of Big Data:
Spreadsheets, Databases, Matrices, and Graphs. The MIT Press.
• D. Koessler Gosnell, Matthias Broecheler. 2020. The Practitioner’s Guide to
Graph Data.O’Reilly.
• M. Needham, Amy E. Hodler. 2019. Graph Algorithms. O’Reilly.
• Anand Rajaraman and Jeffrey David Ullman. 2011. Mining of Massive Datasets.
Cambridge University Press, USA.
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. 2008.
Introduction to Information Retrieval. Cambridge University Press, USA.
• Pavel Zezula, Giuseppe Amato, Vlastislav Dohnal, and Michal Batko. 2005.
Similarity Search: The Metric Space Approach (Advances in Database Systems).
Springer-Verlag, Berlin, Heidelberg.
• Ian Goodfellow, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. The
MIT Press.
3
ESCUELA DE POSGRADO
• Kevin P. Murphy. 2012. Machine Learning: A Probabilistic Perspective. The MIT

Press.
• Daphne Koller and Nir Friedman. 2009. Probabilistic Graphical Models: Principles
and Techniques - Adaptive Computation and Machine Learning. The MIT Press.
• Challenges recomendados
o Kaggle: Your home for Data Science

o https://www.kaggle.com/
7. Cronograma
Semana Unidad, tema o capítulo

1 UNIDAD 1. Introducción
Historia de las bases de datos, modelo jerárquico, modelo Entidad-
Relación, NoSQL y basada en grafos.
2 UNIDAD 2. Bases de Datos NoSQL
Bases de datos clave-valor: modelo, terminología y diseño. Uso de
herramientas para la gestión de datos estructurados.
Bases de datos con base en documentos: modelo, terminología y
diseño. Operaciones CRUD, criterios para ejecución de consultas,
índices, tipos de colecciones y transacciones.
Bases de datos de familia de columnas: modelo, terminología y diseño.
Tipos de colecciones y transacciones.
5 UNIDAD 3. Tratamiento de Datos No Estructurados
Extracción de información y operaciones CRUD. Stemming,
lematización, frecuencia de palabras a partir de corpus.
Representación de Bag-of-words, depuración de características y
operaciones CRUD
Modelo booleano y vectorial y función de similitud para la recuperación
de información.
8 Examen Parcial
UNIDAD 4. Búsquedas por Similitud
9 Estructuras de datos: estructuras de datos lineales y no lineales.
Diccionarios, tipos de árboles y hashing.
UNIDAD 4. Búsquedas por Similitud
10
Similitud y disimilitud. Tipos de búsqueda por similitud.
11 UNIDAD 4. Búsquedas por Similitud
Tipos de índices y evaluación de efectividad a través de medidas de
desempeño: matriz de confusión, precisión, recall y F1.
4
ESCUELA DE POSGRADO
Semana Unidad, tema o capítulo

UNIDAD 5. Análisis y Clasificación de Textos
12 Aprendizaje supervisado, modelos probabilísticos, técnicas de conteo y
distribución marginal
UNIDAD 5. Análisis y Clasificación de Textos
13 Hiperparámetro de Dirichlet. Distribución conjunta y condicional a partir
de vectores característicos de textos.
14 UNIDAD 5. Análisis y Clasificación de Textos
Espacio de búsqueda de hipótesis basadas en grafos, métodos de
aprendizaje y medidas de calidad de estructuras, Naive Bayes
15 Evaluación: Presentación y exposición de trabajo académico (TA)
16 Examen final

1INF170001-2023-1-SILABO - César Aguilera

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1INF170001-2023-1-SILABO - César Aguilera

Cargado por

Copyright:

Formatos disponibles

ESCUELA DE POSGRADO

BASES DE DATOS NO ESTRUCTURADAS

Clave : 1INF17 Créditos :3

Conforme a los lineamientos establecidos por el Ministerio de Educación y la

El objetivo central de este curso es comprender el funcionamiento de las bases de

UNIDAD 1. Introducción (3 horas)

UNIDAD 2. Bases de Datos NoSQL (6 horas)

UNIDAD 3. Tratamiento de Datos No Estructurados (12 horas)

UNIDAD 4. Búsquedas por Similitud (9 horas)

UNIDAD 5. Análisis y Clasificación de Textos (12 horas)

Las actividades de aprendizaje síncronas y asíncronas se trabajarán utilizando la

Las actividades síncronas se programarán durante el horario que se ha establecido

Se realizará un trabajo grupal cuya finalidad es desarrollar alguno de los algoritmos

La evaluación del aprendizaje se conforma de la siguiente manera:

Nº Modalidades Semana de Ponderación

1 Examen parcial (EP) 8 25%

La nota final se obtiene de acuerdo con la siguiente fórmula:

NF= 0.4TA + 0.25EP + 0.25EF + 0.10TP

• Kevin P. Murphy. 2012. Machine Learning: A Probabilistic Perspective. The MIT

o Kaggle: Your home for Data Science

Semana Unidad, tema o capítulo

Semana Unidad, tema o capítulo

También podría gustarte