Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2.big Data - Rigoberto Malca La Rosa
2.big Data - Rigoberto Malca La Rosa
Introducción
Pautas de inicio
● Plasmar asistencia en el
Google Form.
● Silenciar el micrófono
durante la clase.
● Activar la cámara.
Ecosistema de datos
Componentes del
ecosistema de Big Data
Ecosistema de datos
1. Ingesta
Tecnología orientada a recolección de datos desde su
origen, ya sea de bases de datos tradicionales o de flujos
continuos a través de la red.
2. Almacenamiento
Tecnología capaces de guardar y gestionar grandes
volúmenes de datos, en este grupo estarían las bases de
datos NoSQL.
Ecosistema de datos
3. Gestión de recursos
Tecnologías diseñadas para planificación y asignación de
los recursos del clúster.
4. Motores de procesamiento
Corazón de la tecnología Big Data, son capaces de realizar
el cómputo de manera distribuida entre varios nodos de
computación y realizar operaciones costosas en tiempos
pequeños.
Ecosistema de datos
5. Mensajería
Tecnologías que nos permiten el intercambio de datos
entre los diferentes componentes software de manera
eficiente
6. Consulta
Tecnología orientada a simplificar el acceso a los datos,
generalmente se basan en los motores de procesamiento
para realizar las consultas de manera eficiente.
Ecosistema de datos
7. Machine Learning
Tecnologías que implementan
algoritmos para clasificar, predecir o
perfilar. Se basan en los motores de
procesamiento paralelo de los que
aprovechan su capacidad de realizar
cálculos complejos muy rápido.
Introducción a Cloud
Introducción a Cloud
Cloud computing
Es un paradigma que permite ofrecer servicios de
computación a través de internet. Estos servicios pueden ser
de almacenamiento, administración y procesamiento de datos
On-Premise Cloud
• Los servidores son de la • Los servidores son de un
empresa externo
• Se debe contratar personal • El personal de IT es externo
que administre los servidores • Tu única responsabilidad es la
• El riesgo es difícil de de configurar los servicios y el
administrar código
Introducción a Cloud
Servidores dedicados
Una máquina física dedicada para una sola
empresa
Ejecuta un solo sitio/web-app
Alto costo de mantenimiento y seguridad
Hosting compartido
Una máquina física dedicada para muchas
empresas
Bajo costo pero limitada
Cloud hosting
Varias máquinas físicas que simulan ser un
único Sistema
El sistema se visualiza como multiples
servicios web
Flexible, escalable, seguro, bajo costo,
configuración simple
Introducción a Cloud
Bajo costo
Se paga por lo consumido, no antes. Pay-as-you-go (PAYG).
Miles de usuarios pagan por compartir los costos de los
recursos
Global
Permite trabajar con servidores en cualquier parte del mundo
Seguro
El proveedor de servicios se encarga de la seguridad física.
Beneficios del Cloud Computing
Confiable
Provee backups automáticos, recuperación ante desastres,
replicación de datos y tolerancia a fallos
Escalable
Permite incrementar y disminuir recursos y servicios en base a
la carga de trabajo
Elástico
Se puede automatizar el escalamiento ante los picos de carga
Beneficios del Cloud Computing
Actualizado
El proveedor se encarga de actualizar tanto el software como el
hardware sin interrupción de servicio
Tipos del Cloud Computing
Tipos del Cloud Computing
¿Qué es AWS?
● AWS (Amazon Web Services) es una plataforma que tiene alrededor
de 200 servicios disponibles y es parte de la empresa de Amazon. Es
utilizado en aplicaciones populares como Dropbox, Foursquare y
HootSuite, entre otros.
Herramientas del Cloud Computing
¿Qué es Azure?
● Microsoft Azure es un servicio de computación en la nube creado por
Microsoft para construir, probar, desplegar y administrar aplicaciones y
servicios mediante el uso de sus centros de datos.
● Incluye herramientas de almacenamiento de datos empresariales (Azure
Synapse Analytics), análisis de código abierto totalmente administrado para
empresas (Azure HDInsight) y servicio de análisis basado en Apache Spark
(Azure Databricks).
Herramientas del Cloud Computing
Responsabilidades
Nube Privada
La infraestructura se
encuentra en los datacenters
de la compañía
También es conocida como
On-Premise
Proveedor Cloud
Herramientas del Cloud Computing
Nube Híbrida
Usa ambos modelos, On-Premise y servicios Cloud
Proveedor Cloud
Herramientas del Cloud Computing
Alta disponibilidad
Es capacidad de los servicios de permanecer disponibles asegurándose
de que no existen puntos de falla y/o un cierto nivel de performance
Alta escalabilidad
La capacidad que te da la nube de incrementar su capacidad si existe
mayor demanda de tráfico, memoria y poder de cómputo
Alta elasticidad
Alta durabilidad
INFORMACIÓN SGBD
La información se obtiene de la Sistema de gestión de base de datos (DBMS
base de datos, está integrada y por sus siglas en inglés). Ej: Oracle, MySQL,
además es compartida. SQLServer, Access, entre otros.
HARDWARE USUARIOS
- Almacenamiento secundario. Aplicaciones y Personas que interactúan
- Procesadores, memoria, etc. con la BD
Bases de datos
Características de un SGBD
Recuperación Integridad
Capacidad de proteger los datos Se refiere a la correctitud y
ante fallos en el sistema o en las completitud de la información
aplicaciones. en una base de datos.
Concurrencia Seguridad
Permiten que muchas Es la protección de la base de
transacciones puedan acceder a datos frente a usuarios no
una misma base de datos a la vez. autorizados
Bases de datos
Jerárquico Red
Bases de datos
HDFS
Servidor en Clúster
● Un servidor en clúster se trata de la unión de
varios sistemas informáticos (servidores) que
funcionan como si fueran uno solo.
● Altos costos
● Complejidad
● Tiempo de implementación
● No son a prueba de fallos
Componentes de los servidores en Clúster
Componentes de los
servidores en Clúster
● Hardware: de cada uno de los
sistemas informáticos (servidores) que
estarán detrás soportando la carga.
● Red: interconexiones de red de alta
velocidad que alimentan al clúster de
servidores.
● Software de Sistema Operativo: el
sistema operativo que estará instalado
en cada uno de los servidores o
nodos del clúster.
Componentes de los servidores en Clúster