Está en la página 1de 43

Visión General de la Integración de Datos

Ing. Vı́ctor Saquicela

Universidad de Cuenca
Departamento de Ciencias de la Computación
victor.saquicela@ucuenca.edu.ec

December 12, 2019

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 1 / 43
Contenido

1 Integración de Datos
Motivación
Tipos de Integración
Evolución
Porque es Dura la Integración
Resumen
2 Fundamentos Teóricos
Formalización
Mapping
3 Recomendaciones
4 Lecturas
5 Referencias

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 2 / 43
Definición del Problema

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 3 / 43
Justificación

Es importante resolver este problema para que:


Las empresas alcancen eficientemente la integración de sus sistemas
Porque se esta viviendo en un mundo heterogéneo
La solución puede ser adoptada por otras empresas
Va a permitir integración de nuevos sistemas

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 4 / 43
Base de Datos: Tenemos todo el control

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 5 / 43
Integración de Datos: Abstracción a muy alto nivel

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 6 / 43
Ejemplo de Aplicación

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 7 / 43
Ejemplo de Aplicación

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 8 / 43
Ejemplo de Aplicación

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 9 / 43
Tipos de Integración

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 10 / 43
Que es integración de datos: evolución

Sistemas Centralizados con arquitectura de 3 capas


Integración implı́cita: integración soportada por la base de datos

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 11 / 43
Que es integración de datos: evolución

Sistemas Centralizados con arquitectura de 3 capas y multiples


almacenamientos
Integración oculta: integración embebida dentro de la aplicación

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 12 / 43
Que es integración de datos: evolución
Sistemas Centralizados con arquitectura de 4 capas y multiples
almacenamientos distribuidos.
Integración centralizada: el esquema global es mapeado a diferentes
fuentes de datos heterogéneas, distribuidas y autónomas

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 13 / 43
Que es integración de datos: enfoques de integración

Sistemas decentralizados
Integración Peer-to-peer: integración de datos distribuidos sin un
esquema global centralizado

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 14 / 43
Variantes de la Integración de Datos

Centralizado, integración virtual


Data warehousing
Integración de datos P2P

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 15 / 43
Integración de Datos Centralizada
Provee una vista unificada y transparente de una colección de datos
almacenados en multiples, autónomos y heterogéneas fuentes de
datos.
La vista unificada se logra a través de un global schema, enlazando
las fuentes de datos por medio de mapeos.

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 16 / 43
Data warehousing

Materialización de la base de datos global


Permite acceso OLAP sin acceder a la fuente de datos

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 17 / 43
Warehousing Vs. Virtual

Warehousing
Tipicamente más eficiente
No necesita manipular las fuentes en tiempo de ejecución
El procesamiento de consultas es tradicional
Virtual
Datos Up-to-date
Facilidad de configuración (esto es incremental)
Aplicable en contextos más amplios
En la práctica soluciones hı́bridas.

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 18 / 43
Integración de Datos Peer-to-peer

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 19 / 43
Integración de Información

Combinar información de multiples fuentes de información autónomas y


responder consultas combinando la información de las fuentes (acceso
uniforme a un conjunto de fuentes de datos).
Muchas aplicaciones
Multiples dominios
Heterogeneidad
Autonomı́a
Semi-estructurados
La integración de datos empresariales supone (aprox.) un 50% de
inversión de TI

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 20 / 43
Porque es Dura la Integración

Razones de nivel de sistemas


Manejan diferentes plataformas
Acceso a múltiples sistemas de base de datos a través de SQL no es
fácil
Procesamiento de consultas distribuido
Razones lógicas
Heterogeneidad de datos y esquemas
Razones sociales
Localización y captura de datos relevantes en la empresa
Convencer a la gente a que comparta los datos
Implicaciones de seguridad, privacidad y performance

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 21 / 43
Problemas de la Integración de Datos

Nivel de estructuración: información estructurada, información no


estructurada y semi-estructurada, información en formatos legibles
para humanos pero no para máquinas (ejemplo: html)
Modelo de datos: relacional, jerárquico, objetos, etc.
Plataforma software: DB2, mysql, java, .net, php,etc.
Plataforma hardware
Convenciones de sintaxis: Calle Quito, no 23 ? C/Quito, 23
Convenciones semánticas
Diferencia de granularidad
Heterogeneidad de esquema
etc.

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 22 / 43
Problemas de la Integración de Datos

Extracción de datos, limpieza y reconciliación


Como descubrir y especificar los mappings entre las fuentes y el
esquema global
Como modelar y especificar el esquema global
Como responder consultas expresadas en el esquema global
Como tratar las limitaciones en los mecanismo de acceso a las fuentes
de datos
Como automatizar las preguntas y las respuestas
.......

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 23 / 43
Integración de Datos: Antes

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 24 / 43
Integración de Datos: Después

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 25 / 43
Sintaxis y Semántica en los Sistemas de Integración de
Datos

Definición
Un sistema de integración de datos I es una tripleta < G , S, M >, donde
G es un esquema global
S es el esquema de la fuente
M es el mapping entre S y G

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 26 / 43
Sintaxis y Semántica en los Sistemas de Integración de
Datos

Las fuentes a ser integradas son modeladas como un conjunto finito C


La semántica de I relativo a C es que existe una base de datos global
que satisface G y que satisface M sobre C

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 27 / 43
Consultas a los Sistemas de Integración de Datos

Cuando se evalúa q sobre I =< G , S, M >, se considera que existe un


conjunto de fuentes C .
Existen respuestas a q dentro de C

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 28 / 43
Tipos de Mappings

Como se especifica el mapping M entre S y G ?


Las fuentes esta definidas en términos de un esquema global? En este
caso el enfoque se llama source-centric o local-as-view (LAV)
El esquema global esta definido en términos de las fuentes? En este
caso el enfoque se llama global-schema-centric o global-as-view (GAV)
El enfoque es combinado? En este caso se llama GLAV

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 29 / 43
Ejemplo: GAV vs. LAV

Esquema global
movie(Title, Year , Director )
european(Director )
review (Title, Critique)
Fuente 1
r 1(Title, Year , Director ) since 1960, european directors
Fuente 2
r 2(Title, Critique) since 1990
Consulta: Title y Critique de pelı́culas en 1998
{(t, r )}|movie(t, 1998, d), review (t, r )

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 30 / 43
GAV

Dado una fuente C , M provee información directa acerca de los


cuales los datos en C satisfacen los elementos del esquema global.
Elementos en el esquema global G son consideradas como vistas sobre
las fuentes, razón por la cual este enfoque es llamado global as view

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 31 / 43
GAV - Ejemplo

Esquema global
movie(Title, Year , Director )
european(Director )
review (Title, Critique)
GAV: para cada relación en el esquema global, M asocia una vista sobre
las fuentes:
∀t, y , d r 1(t, y , d) → movie(t, y , d)
∀t, y , d r 1(t, y , d) → european(d)
∀t, r r 2(t, r ) → review (t, r )

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 32 / 43
GAV - Ejemplo de procesamiento de una consulta

La consulta {(t, r )}|movie(t, 1998, d), review (t, r )


es procesada mediante la expansión de cada átomo de acuerdo a la
asociaciones definidas en en M.
Especificamente:
{(t, r )}|movie(t, 1998, d), review (t, r )

{(t, r )}|r 1(t, 1998, d), r 2(t, r )

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 33 / 43
LAV

El mapping M y la fuente C no proveen información directa acerca de


los datos que satisfacen el esquema global
Elementos en S son considerados como vistas sobre el esquema
global, razón por la cual este enfoque es llamado local as view

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 34 / 43
LAV - Ejemplo

Esquema global
movie(Title, Year , Director )
european(Director )
review (Title, Critique)
LAV: para cada relación en la fuente, M asocia una vista sobre el esquema
global:
r 1(t, y , d) → {(t, y , d)|movie(t, y , d), european(d), y ≥ 1960}
r 2(t, r ) → {(t, r )|movie(t, y , d), review (t, r ), y ≥ 1990}

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 35 / 43
LAV - Ejemplo de procesamiento de una consulta

La consulta {(t, r )}|movie(t, 1998, d), review (t, r )


es procesada por medio de mecanismos de inferencia que re-expresan los
átomos del esquema global en términos de los átomos de las fuentes.
Especificamente:
{(t, r )}|r 2(t, r ), r 1(t, 1998, d)

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 36 / 43
GAV y LAV: comparación

GAV
La calidad depende de lo bién que estén compiladas las fuentes dentro
del esquema global a través de los mappings.
Si una fuente cambia o es agregada una nueva, el esquema global
necesita ser reconsiderado.
LAV
La calidad depende de lo bien que estén caracterizadas las fuentes
Alta modularidad y extensibilidad, si el esquema global esta bién
diseñado, cuando cambia una fuente, solo la esta definición es
afectada.

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 37 / 43
Integración: Datawarehouse

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 38 / 43
Integración: Adhoc

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 39 / 43
Integración: ESB + Tecnologı́as Semánticas

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 40 / 43
Lecturas

Capı́tulos 1 y 3 del libro: Principles of Data Integration

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 41 / 43
References

Doan, Halevy, Ives (2012). Principles of Data Integration


...........

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 42 / 43
The End

Ing. Vı́ctor Saquicela (DCC) Visión General de la Integración December 12, 2019 43 / 43

También podría gustarte