Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dia1
Dia1
El modelo entidad-relación es el más estandarizado tanto en las bbdd productivas como en las analíticas. Por
definición, dichas bases de datos se descompondrían en entidades, cada entidad es una tabla o conjunto de datos
que guarda información de una unidad de negocio (p.e. usuarios, productos, ventas, clientes…) y que en su diseño
mantiene una relación a nivel lógico y/o físico con otra entidad, de esta forma es posible, por ejemplo, vincular los
clientes a los productos que consumen y al dinero que facturan.
2- BBDD no relacionales.
La recogida masiva de los eventos que se registran en una plataforma informática sin necesidad de que estos se
dividan en entidades, ha abierto nuevas posibilidades en cuanto a la cantidad de información que podemos recoger
y en cómo hemos de explotarla.
Uno de los usos más comunes de esta tipo de bbdd es el uso en web donde, en función del perfil de usuario, se le
recomiendan uno u otro producto para su compra.
3- Data Governance.
Los nuevos sistemas de recogida de información exigen un mayor escrúpulo a la hora de garantizar la calidad e
integridad de los mismos, esto ha provocado la aparición de un concepto que, sin ser nuevo, si que toma ahora
nombre y apellidos en la figura del Data Governance (o vigilancia del dato), persona o sistema responsable de la
calidad final de los mismos.
4- Datamart y Datawarehouse.
Datamart, sistema que reúne información de una sola área de negocio sin que necesariamente esta información
haya de estar relacionada con el resto de áreas.
Datawarehouse, conjunto de Datamarts, o espacio analítico donde se combinan los elementos de las distintas
regiones de negocio de la compañía y que, por lo tanto, permite análisis complejos y transversales.
A través de las ETL’s generaremos las repositorios con la información que queremos explotar: datamarts y
datawarehouses
Las primeras registran los valores o indicadores propios del negocio, mientras que las segundas permiten medir
dichos indicadores en función de variables de distribución. Un buen ejemplo de esto sería poder visualizar el
comportamiento de las ventas (facts) durante los meses del año en curso (dimension).
La Arquitectura es la estructura física del proyecto, las capas (o bases de datos) por las pasaran los datos desde su
origen hasta su explotación final, así como el workflow y transformaciones que dichos datos sufrirán.
Por infraestructura nos referiremos más a la necesidad tecnológica del proyecto: servidores donde estarán alojados
los datos y tecnología de explotación de los mismos. Un buen dimensionamiento de la infraestructura nos permitirá
no quedarnos cortos en los requerimientos de explotación ni pasarnos, aumentando innecesariamente, los costes en
productos a los que no sacaremos un porcentaje razonable de partido.
La migración de los servers físicos a espacios virtuales en el cloud (las principales compañías de software ya ofrecen
esta posibilidad: Microsoft, Amazon, Google..) elimina esos problemas y genera el entorno ideal para un sistema Big
Data
Tres “V” resumen el éxito del almacenamiento masivo de datos: velocidad, variabilidad y volumen, es decir, grandes
cantidades de datos lo más variados y ricos posibles que puedan ser explotados en tiempo real, o con mínima
latencia.
Hadoop es un framework, uno de los mas populares para explotar Bigdata, que dota de la infraestructura necesaria
a través de una tecnología basada en un sistema de archivos distribuidos en clusters (HDFS) y de numerosas
herramientas para su posterior procesado (Ambari, Sqooq, Hive, Pig…, son solo algunos ejemplos).