Está en la página 1de 27

índice

AWS..................................................................................................................................................3
Almacenamiento para big data...........................................................................................................3
S3.................................................................................................................................... 3
AWS Glue....................................................................................................................... 5
Amazon Kinesis Data Streams.....................................................................................8
Amazon Redshift..........................................................................................................10
AWS Lake Formation...................................................................................................12
Amazon KDF.................................................................................................................15
Servicios para big data.....................................................................................................................16
AWS Data Exchange.................................................................................................................16
Amazon SageMaker.....................................................................................................19
Amazon QuickSight.....................................................................................................21
Amazon OpenSearch Service.....................................................................................23
Bibliografia..................................................................................................................................26

2
AWS
AWS son las siglas de Amazon Web Services, plataforma de servicios en la nube de la
compañía Amazon, lanzada en 2006. La cual tiene como objetivo ofrecer servicios agiles,
escalables, fiables, pero sobre todo seguros en la nube
AWS es una plataforma de servicios Cloud Computing que ofrece: almacenamiento, redes,
bases de datos, potencia de cómputo, entre otras funcionalidades, además dispone de más
de 50 servicios y tanto startup, autónomos, pymes, grandes empresas y clientes del sector
público, pueden hacer uso de estos servicios en la nube y tener acceso a los elementos
básicos que necesitan para responder con rapidez a sus diferentes necesidades.

Almacenamiento para big data


S3
Almacenamiento de objetos diseñado para recuperar cualquier cantidad de datos desde
cualquier ubicación. Los datos se almacenan como objetos en recursos llamados “buckets”y
un solo objeto puede tener un tamaño de hasta 5 terabytes. Las funciones de S3 incluyen las
capacidades para anexar etiquetas de metadatos a los objetos, mover y almacenar datos
entre clases de almacenamiento de S3, configurar y aplicar controles de acceso a datos,
proteger los datos contra usuarios no autorizados, ejecutar análisis de big data y monitorear
los datos en los niveles de objeto, bucket, revisar el uso de almacenamiento y las tendencias
de actividad en toda su organización. Se puede acceder a los objetos a través de los puntos
de acceso de S3 o directamente a través del nombre de alojamiento del bucket.
S3 cuenta con diversas características en las cuales se encuentran:

Administración del almacenamiento


Los nombres de los buckets de S3, los prefijos, las etiquetas de objetos y S3 Inventory le
ofrecen diversas formas de clasificar sus datos y generar informes sobre estos.
Independientemente de que sean miles de objetos o miles de millones los que se
almacenan, las operaciones por lote de S3 facilitan la administración de datos en Amazon
S3 a cualquier escala. Las operaciones por lotes de S3 permiten copiar objetos entre
buckets, reemplazar conjuntos de etiquetas de objetos, modificar los controles de acceso y
restaurar objetos archivados desde las clases de almacenamiento S3 Glacier Flexible
Retrieval y S3 Glacier Deep Archive, con una única solicitud a la API de S3 o unos pocos
pasos en la consola de S3. También se puede utilizar las operaciones por lotes de S3 para
ejecutar funciones de AWS Lambda en los objetos destinadas a aplicar lógica empresarial
personalizada, como el procesamiento de datos o la transcodificación de archivos de
imagen.

3
S3 también admite características que ayudan a controlar las versiones de los datos, impedir
el borrado accidental y replicar datos en las mismas regiones de AWS o en otras. Si se
intenta eliminar un objeto almacenado en un bucket MFA habilitado para la eliminación, se
requerirán dos formas de autenticación: las credenciales de la cuenta de AWS y la
concatenación de un número de serie válido, un espacio y el código de seis dígitos que se
muestra en un dispositivo de autenticación aprobado, como una clave de seguridad de
segundo factor universal. Con la replicación de S3, se puede replicar objetos (así como sus
respectivos metadatos y etiquetas de objeto) en uno o más buckets de destino en las mismas
u otras regiones de AWS para lograr una latencia reducida, cumplimiento, seguridad,
recuperación de desastres, etc. Se puede configurar la replicación entre regiones de S3
(CRR) para replicar objetos desde un bucket de S3 de origen hasta uno o más buckets de
destino en diferentes regiones de AWS. Se puede utilizar la replicación por lotes de S3 para
replicar un bucket creado recientemente con objetos existentes, reintentar objetos que no se
pudieron replicar anteriormente, migrar datos entre cuentas o agregar nuevos buckets a su
lago de datos. Para el acceso a los conjuntos de datos replicados en buckets de diferentes
regiones de AWS, se utilizan los diferentes puntos de acceso de las diversas regiones de S3,
para así crear un punto de acceso global, al cual se podrá acceder desde cualquier parte.
Los puntos de acceso a varias regiones de Amazon S3 pueden acelerar el rendimiento hasta
el 60 % cuando se accede a los conjuntos de datos que están replicados en varias regiones
de AWS. Con base en AWS Global Accelerator, los puntos de acceso para varias regiones
de S3 toman en cuenta factores como la congestión de la red y la ubicación de la aplicación
de solicitud para dirigir de forma dinámica las solicitudes a la red de AWS con la menor
copia de latencia de los datos.

Clases de almacenamiento
Amazon S3 permite almacenar datos en distintas clases de almacenamiento de S3 creadas
para casos de usos y patrones de acceso específicos como S3 Intelligent- Tiering, S3
Standard, S3 Standard-Infrequent Access (S3 Standard-IA), S3 One Zone-Infrequent
Access (S3 One Zone-IA), S3 Glacier Instant Retrieval, S3 Glacier Flexible Retrieval, S3
Glacier Deep Archive y S3 Outposts. Cada una de las clases de almacenamiento de S3
admite un nivel de acceso a los datos específico con la localización geográfica o sus costos
correspondientes.
S3 Intelligent-Tiering tiene como característica trasladar automáticamente los datos entre
tres niveles de acceso de baja latencia optimizados en función de los accesos frecuentes,
poco frecuentes e inusuales. Se almacenan los datos de producción críticos en S3 Standard
para un acceso frecuente, los datos de acceso poco frecuente en S3 Standard-IA o S3 One
Zone-IA para ahorrar en costos, y guardar datos al precio más reducido en las clases de
almacenamiento de archivo (S3

4
Glacier Instant Retrieval, S3 Glacier Flexible Retrieval y S3 Glacier Deep Archive). Se
puede utilizar el análisis de clases de almacenamiento en S3 para monitorear patrones de
acceso entre los objetos y detectar datos que deben cambiarse a clases de almacenamiento
de menor costo.

S3 Intelligent-Tiering
S3 Intelligent-Tiering almacena datos en dos capas de acceso: una capa optimizada para el
acceso frecuente y otra capa de bajo costo optimizada para el acceso poco frecuente. Por
una pequeña tarifa mensual de monitoreo y automatización por objeto, S3 Intelligent-
Tiering monitorea los patrones de acceso y mueve los objetos a los que no se accedió
durante 30 días consecutivos a la capa de acceso poco frecuente. No se aplican tarifas
adicionales a las capas cuando los objetos se mueven entre las capas dentro del tipo de
almacenamiento S3 Intelligent-Tiering.
S3 Intelligent-Tiering está diseñado con una disponibilidad del 99.9% y una durabilidad
del 99,999999999 %, y ofrece la misma baja latencia y alto desempeño que S3 Estándar.

Seguridad
Amazon S3 cifra todas las cargas de datos nuevas a cualquier bucket, además admite el
cifrado tanto del servidor (con tres opciones de administración clave) como del cliente para
cargas de datos.
 Block S3 Public Access es un conjunto de controles de seguridad que garantizan
que no haya acceso público a los buckets y objetos de S3.
Los controles de S3 Block Public Access son auditables, brindan una capa adicional
de control y aprovechan los controles de acceso al contenido de AWS Trusted
Advisor, los programas de AWS CloudTrail y las alertas de Amazon CloudWatch.
 La propiedad de objetos de S3 es una función que desactiva las listas de control de
acceso (ACL), transfiere la propiedad de todos los objetos al propietario del bucket
y simplifica el control de acceso de los datos almacenados en S3.
 IAM Access Analyzer para S3 es una característica que lo ayuda a simplificar la
administración de acceso al definir, validar y personalizar políticas para buckets y
puntos de acceso de S3.

AWS Glue

AWS Glue es un servicio de integración de datos sin servidor que facilita el análisis,
descubrimiento, preparación, movimiento e integración de datos de múltiples fuentes. Se
puede utilizar para análisis, aprendizaje automático y desarrollo de

5
aplicaciones. Incluye herramientas adicionales de productividad y operaciones de datos
para crear, ejecutar trabajos e implementar flujos de trabajo comerciales.

Caracteristicas
Las características de AWS Glue se dividen en tres categorías principales:
 Descubrimiento y organización de datos
 Transformación, preparación y limpieza de datos para análisis
 Creación y supervisión de canalizaciones de datos

Descubrimiento y organización de datos


 Unificación y búsqueda en varios almacenes de datos: almacenar, indexar y buscar
en varios receptores y orígenes de datos mediante la catalogación de todos los datos
en AWS.
 Descubrimiento automático de datos: utilización de rastreadores de AWS Glue para
inferir de forma automática la información del esquema e integrarla en AWS Glue
Data Catalog.
 Administración de esquemas y permisos: validar y controlar el acceso a las bases de
datos y las tablas.
 Conexión a una amplia variedad de orígenes de datos: acceder a varios orígenes de
datos, tanto en las instalaciones como en AWS, mediante las conexiones de AWS
Glue para la creación del lago de datos.

Transformación, preparación y limpieza de datos para análisis


 Transformaciones visuales de datos con una interfaz de arrastrar y soltar: define el
proceso de ETL en el editor de trabajos de arrastrar y soltar, y genera de forma
automática el código para extraer, transformar y cargar los datos.
 Creación de canalizaciones de ETL complejas con programación de trabajo
sencilla: invoque trabajos de AWS Glue según un horario, bajo demanda o en
función de un evento.
 Limpieza y transformación de datos de streaming en tránsito: habilite el consumo
continuo de datos, y límpielos y transfórmelos en tránsito. Esto hace que estén
disponible para analizar en cuestión de segundos en el almacén de datos de destino.
 Deduplicación y limpieza de datos con machine learning integrado: limpie y
prepare los datos para analizar sin convertirse en un experto en machine learning
mediante el uso de la característica FindMatches. Esta característica deduplica y
busca registros que son coincidencias imperfectas entre sí.
 Cuadernos de trabajo integrados: los cuadernos de trabajo de AWS Glue

6
Studio brindan cuadernos sin servidor con una configuración mínima de AWS Glue
Studio para poder comenzar a trabajar rápidamente.
 Edición, depuración y prueba del código de ETL: con las sesiones interactivas de
AWS Glue, donde se puede explorar y preparar datos de forma interactiva. Permite
explorar, experimentar y procesar datos de forma interactiva con el IDE o el
cuaderno que elija.
 Definición, detección y corrección de datos confidenciales: la detección de datos
confidenciales de AWS Glue permite definir, identificar y procesar datos
confidenciales en la canalización de datos y en el lago de datos.

Creación y supervisión de canalizaciones de datos

 Escalado automático según la carga de trabajo: permite que se escale y reduzca


verticalmente y de forma dinámica los recursos en función de la carga de trabajo.
Esto asigna trabajo a los trabajadores solo cuando es necesario.
 Automatización de trabajos con desencadenadores basados en eventos: Permite
iniciar rastreadores o trabajos de AWS Glue con desencadenadores basados en
eventos, permite diseñar una cadena de trabajos y rastreadores dependientes.
 Ejecución y supervisión de trabajos: Permite ejecutar los trabajos de AWS Glue y,
luego, supervísarlos con herramientas de supervisión automatizadas, la interfaz de
usuario de Apache Spark, la información de ejecuciones de trabajos de AWS Glue y
AWS CloudTrail.
 Definición de flujos de trabajo para ETL y actividades de integración: Permite
definir los flujos de trabajo para ETL y las actividades de integración para varios
rastreadores, trabajos y desencadenadores.

Formas de acceso
Gracias a estas herramientas es posible crear, ver y administrar los trabajos de AWS Glue

 Consola de AWS Glue: brinda una interfaz web para que pueda crear, ver y
administrar los trabajos de AWS Glue.
 AWS Glue Studio: brinda una interfaz gráfica para que pueda crear y editar
visualmente los trabajos de AWS Glue.
 Sección AWS Glue de la referencia de la AWS CLI: brinda comandos de la AWS
CLI que se pueden utilizar con AWS Glue.
 API de AWS Glue: brinda una referencia de API completa para los
desarrolladores.

7
Amazon Kinesis Data Streams

Amazon Kinesis Data Streams (KDS) es un servicio de streaming de datos en tiempo real
con un alto nivel de escalabilidad y durabilidad. KDS puede registrar de manera continua
gigabytes de datos por segundo de cientos de miles de orígenes, como transmisiones de
clics de sitios web, transmisiones de eventos de bases de datos, transacciones financieras,
fuentes de redes sociales, registros de TI y eventos de seguimiento de ubicaciones. Los
datos recopilados se encuentran disponibles en milisegundos para posibilitar los casos de
uso de análisis en tiempo real, como paneles en tiempo real, detección de anomalías en
tiempo real y precios dinámicos, entre otros.
Amazon Kinesis Data Streams forma parte de la plataforma de datos de streaming de
Kinesis, junto con Kinesis Data Firehose, Kinesis Video Streams, y Kinesis Data Analytics
Aunque puede utilizar Kinesis Data Streams para resolver diversos problemas relacionados
con los datos de streaming, uno de sus usos más habituales es la agregación de datos en
tiempo real, seguida de la carga de los datos agregados en un data warehouse.
Amazon Kinesis Data Streams es un servicio de datos de streaming sin servidor que hace
que sea fácil capturar, procesar y almacenar flujos de datos a cualquier escala.
Servicios administrados para recopilar y procesar datos de transmisión en tiempo real. Las
plataformas de procesamiento de flujo son una parte integral del ecosistema Big Data.
El servicio Kinesis Data Streams se usa para capturar datos de transmisión producidos por
varias fuentes de datos en tiempo real. Las aplicaciones de producción escriben en Kinesis
Data Stream y las aplicaciones de consumo conectadas a la transmisión leen los datos para
diferentes tipos de procesamiento.
Flujos de datos de Kinesis
El servicio Kinesis Data Streams se usa para recopilar y almacenar datos de transmisión tan
pronto como se producen (en tiempo real).
Las aplicaciones de productores recopilan los datos de transmisión de varias fuentes
de datos y los envían continuamente a Kinesis Data Stream. De manera similar, las
aplicaciones de consumo leen los datos de Kinesis Data Stream y los procesan en tiempo
real, como se muestra a continuación:

8
1. Kinesis Data Stream

Los datos se almacenan en Kinesis Data Stream durante 24 horas de forma predeterminada,
pero se pueden configurar hasta 365 días.
Secuencias, fragmentos y registros
Cuando usamos Kinesis Data Streams, primero configuramos un flujo de datos y luego
creamos aplicaciones productoras que envían datos al flujo de datos y aplicaciones de
consumidores que leen y procesan los datos del flujo de datos:

2. Flujo de datos
Kinesis Data Stream se compone de varios soportes de datos llamados fragmentos, como
podemos ver en este diagrama. Cada fragmento proporciona una unidad fija de capacidad.
La capacidad de datos de un flujo de datos es una función de la cantidad de fragmentos en
el flujo. La capacidad total del flujo de datos es la suma de las capacidades de todos los
fragmentos que lo componen.
Los datos almacenados en el fragmento se denominan registro.
Cada fragmento contiene una secuencia de registros de datos. Cada registro de datos tiene
un número de secuencia asignado por Kinesis Data Stream.

9
Registros de transmisión de datos de Kinesis
Los datos se escriben en Kinesis Data Stream como un registro. Un
registro en un flujo de datos de Kinesis consta de:

 un número de secuencia,
 una clave de partición, y
 un blob de datos.
El tamaño máximo de un blob de datos (la carga de datos antes de la codificación Base64)
es de 1 megabyte (MB).

3. Clientes de Kinesis Data Stream


Amazon Redshift

Amazon Redshift es un servicio de almacenamiento en la nube disponible en AWS que le


permite ejecutar consultas analíticas sobre macrodatos mediante SQL. Amazon Redshift es
una base de datos de procesamiento paralelo masivo (MPP) que analiza datos en paralelo
utilizando varios nodos. Cada uno de estos nodos es responsable de atender un
subconjunto de la solicitud de datos. Proporciona las capacidades necesarias para
ejecutar consultas potentes que potencian los procesos de BI, el análisis en tiempo real
y entrenan modelos de aprendizaje automático mediante SQL.

 Nodo líder: este nodo actúa como punto de entrada al clúster y administra la
comunicación con las aplicaciones cliente. El resto de los nodos informáticos son
transparentes para las aplicaciones externas. Es responsable de desarrollar el plan de
ejecución de consultas y distribuirlas a los nodos de cómputo de tal manera que
define cada dato que contienen. Las consultas que no están relacionadas con tablas
almacenadas en nodos de cómputo se ejecutan directamente en el nodo maestro.
 Nodos de cómputo: estos nodos cumplen con la fragmentación de

10
solicitudes que les asigna el nodo maestro. Una vez hecho esto, devuelven los
resultados promedio al gerente para que pueda devolver el resultado general al
cliente. Esos nodos dividen sus recursos informáticos (memoria y disco) en
segmentos.
 Slices: Son particiones de nodos de cómputo. Realizan operaciones en paralelo
para acelerar el procesamiento. La cantidad de fragmentos en cada nodo está
determinada por el tipo y la potencia del nodo de cómputo en el clúster.

.Arquitectura de Redshift

Rendimiento
Amazon Redshift ofrece rendimiento ágil y líder en el sector combinado con flexibilidad.
 Almacenamiento y procesamiento de consultas eficiente: Amazon
Redshift ofrece consultas rápidas para conjuntos de datos de gigabytes a petabytes.
El almacenamiento en columnas, la compresión de datos y el mapeo de zonas
reducen la cantidad de E/S requerida para ejecutar consultas. Amazon Redshift
también ofrece codificación de compresión AZ64 diseñada específicamente para
tipos numéricos y de fecha/hora, lo que ahorra espacio de almacenamiento y
optimiza el rendimiento de las consultas.
 Aprendizaje automático para maximizar el procesamiento y el
rendimiento: Amazon Redshift utiliza algoritmos sofisticados para predecir y
clasificar consultas entrantes con base en los tiempos de ejecución y los requisitos
de los recursos para administrar de forma dinámica el rendimiento y la
simultaneidad, al mismo tiempo que ayuda a priorizar las cargas de trabajo clave
para la empresa.
 Instancias RA3: las instancias RA3 ofrecen un rendimiento 3 veces superior al de
cualquier servicio de almacén de datos en la nube. Estas instancias de Amazon
Redshift maximizan la velocidad para cargas de trabajo con uso

11
intensivo del rendimiento que necesitan grandes volúmenes de capacidad de
cómputo, con la flexibilidad para pagar el cómputo y el almacenamiento de forma
independiente, mediante la especificación de la cantidad de instancias que necesita.

4. Clientes Amazon Redshift

AWS Lake Formation

AWS Lake Formation crea lagos de datos seguros fácilmente, lo que hace que los datos
estén disponibles para una gran variedad de análisis.
Lake Formation simplifica la creación de lagos de datos al definir fuentes de datos fáciles
de usar y las políticas de acceso y seguridad aplicadas al lago. Lake Formation ayuda a
migrar datos a un nuevo lago de datos de Amazon S3, limpia y clasifica los datos mediante
algoritmos de aprendizaje automático y brinda acceso a datos confidenciales con controles
granulares de columnas, filas y celdas.

5. Funcionamiento de AWS Lake Formation

Características
Importar datos de bases de datos existentes: los datos se escanean cuando
proporcionan a AWS Lake Formation la ubicación de sus bases de datos actuales y su
información de inicio de sesión.
Organice y etiquete sus datos : Lake Formation ofrece una colección de metadatos
técnicos que se han extraído de sus fuentes de datos a los consumidores

12
que buscan conjuntos de datos.
Transformación de datos: las transformaciones como la reescritura de formatos de
fecha para garantizar la uniformidad son posibles con la ayuda de Lake Formation.
Amazon Data Lake Formation crea plantillas de transformación y organiza los procesos
que lo harán.
Aplicación del grabador: El lago de datos está grabado con el grabador de Amazon S3
a través de Lake Formation. Para evitar la eliminación de datos maliciosos en tránsito, se
pueden utilizar cuentas separadas para las regiones de origen y de destino al usar S3.
Administración de los controles de acceso: Lake Formation centraliza el control
de acceso a los datos. Permite personalizar las políticas de seguridad de cada uno de estos
componentes para adaptarlas a las diferentes necesidades.
Configuración del registro de auditoría: Es posible monitorear el acceso a los datos
a través de plataformas de análisis y aprendizaje automático utilizando Lake Formation.
Tablas reguladas: Es posible inyectar con transacciones de precisión ACID en las tablas
de Amazon S3. Dado que las transacciones de la Tabla gobernada corrigen
instantáneamente las discrepancias y los errores, todos los usuarios ven los mismos datos.
Metaetiquetado de datos para empresas: en Data Lake en Amazon, es posible
definir casos de uso apropiados y niveles de sensibilidad de datos mediante la seguridad de
la formación y las restricciones de acceso.
Permitir el autoservicio: Lake Formation ofrece acceso al lago de datos de
autoservicio. Se pueden conceder o denegar derechos de acceso a las tablas establecidas en
el catálogo central de datos.
Buscar datos para el análisis: los usuarios tienen acceso a búsquedas de texto
realizadas en línea para buscar y filtrar conjuntos de datos almacenados en una biblioteca
de datos comunes.

Arquitectura
Zona de aterrizaje : toma datos sin procesar de numerosas fuentes, tanto dentro como
fuera de la empresa. No se realiza ninguna transformación o modelado de datos.
Zona de conservación : realiza extracción, transformación y carga (ETL) en este paso,
rastrea datos para identificar su estructura y valor, agrega metadatos y usa técnicas de
modelado.
Zona de producción : consta de datos procesados que pueden usar directamente los
analistas o científicos de datos, o las aplicaciones comerciales.

13
6. Arquitectura Data Lake Console

Funcionalidad
Formación rápida de lagos de datos: la formación de lagos de datos le permite crear
rápidamente lagos de datos, almacenar, clasificar y limpiar datos mucho más fácilmente.
Lake Formation crea un nuevo lago de datos en Amazon S3 mediante la indexación
automática de todas las fuentes de datos.
Simplifica la gestión de la seguridad: todos los usuarios y servicios que acceden a
los datos tienen acceso a las tablas, columnas, filas y celdas definidas y controladas por
Lake Formation. Todos los servicios de AWS, incluidos Redshift, Athena, AWS Glue y
EMR para Apache Spark, se implementan de acuerdo con estándares comunes.
Acceso a datos de autoservicio: Data Lake Formation le permite crear un catálogo de
datos que contiene todos sus conjuntos de datos y las personas que tienen acceso a ellos.
Ayude a los usuarios a encontrar la información más importante.

7. Funcionalidad AWS Lake Formation

14
Clientes

8. Clientes AWS Lake


Formation
Amazon KDF

Amazon Kinesis Data Firehose facilita la carga confiable de datos de transmisión en lagos
de datos, almacenes de datos y servicios de análisis. Le permite almacenar, transformar y
entregar datos de transmisión a Amazon S3, Amazon Redshift, Amazon Elasticsearch
Service, puntos finales HTTP estándar y proveedores como Datadog, New Relic,
MongoDB y Splunk. Es un servicio completamente administrado que escala
automáticamente según el nivel de procesamiento de datos. Además, no requiere una
gestión constante.
Amazon KDF permite transmitir datos a Amazon S3 y convertirlos a los formatos
necesarios para los análisis sin crear canalizaciones de procesamiento.
De igual manera permite supervisar la seguridad de la red en tiempo real y crear alertas
cuando aparezcan posibles amenazas mediante las herramientas admitidas de
administración de eventos e información de seguridad (SIEM).
Funcionamiento
Amazon Kinesis Data Firehose es un servicio de extracción, transformación y carga (ETL)
que captura, transforma y entrega de manera fiable datos de streaming en lagos y
almacenes de datos y servicios de análisis.

9. Funcionamiento de Amazon KDF

15
Clientes

10. Clientes de Amazon


KDF

Servicios para big data

AWS Data Exchange

AWS Data Exchange es un servicio que facilita a los clientes la búsqueda, la suscripción y
el uso de datos de terceros en la Nube de AWS.
Se puede utilizar la consola o la API de AWS Data Exchange para crear, ver, administrar y
acceder a conjuntos de datos, para utilizar en una variedad de servicios que ofrece AWS
para análisis y aprendizaje automático.

AWS Data Exchange producto


Un producto es la unidad de intercambio AWS Data Exchange que publica un
proveedor y se pone a disposición de los suscriptores. En AWS Data Exchange, los
proveedores publican productos de datos y los suscriptores se suscriben a esos
productos. Los proveedores pueden publicar y ver sus productos mediante AWS Data
Exchange consola. Los proveedores también pueden enumerar y ver los detalles de sus
productos existentes mediante AWS Marketplace Catalog API. Gracias a AWS Data
Exchange, los proveedores publican productos de datos y los suscriptores se suscriben a
esos productos. Los proveedores pueden publicar y ver sus productos mediante AWS Data
Exchange consola. Los proveedores también pueden enumerar y ver los detalles de sus
productos existentes mediante AWS Marketplace Catalog API.
Para que un producto esté disponible en AWS Data Exchange, los proveedores deben
definir una oferta pública.
Conjuntos de datos: un producto puede contener uno o más conjuntos de datos. Un
conjunto de datos en AWS Data Exchange es un conjunto dinámico de datos que se
versiona mediante el uso de revisiones. El proveedor puede decidir qué revisiones de un
conjunto de datos se publican en un producto. El proveedor crea conjuntos de datos propios
y el suscriptor puede acceder a los conjuntos de datos autorizados mediante una
suscripción a un producto. Cuando un suscriptor se

16
suscribe a un producto, tiene acceso a los conjuntos de datos del producto y a algunas o
todas las revisiones que se hayan publicado en ese producto durante su suscripción.

Prevención de malware
Para promover un servicio seguro y confiable, AWS Data Exchange analiza todos los
archivos de objetos de Amazon S3 publicados por los proveedores de servicios antes de
que estén disponibles para los suscriptores. Si AWS detecta malware, ese contenido se
eliminará.

Conjuntos de datos admitidos


AWS Data Exchange adopta un enfoque responsable para facilitar la transferencia de datos
al promover la transparencia a través del uso del servicio. AWS Data Exchange controla
qué tipos de datos están permitidos y restringe los productos que no están permitidos. Los
proveedores de servicios solo pueden compartir conjuntos de datos que cumplan con los
requisitos legales de elegibilidad establecidos en los Términos de uso.

Proveedores

 Directamente a través de la AWS Data Exchangeconsola (publicar datos)


Mediante programación con las siguientes API:
 AWS Data Exchange API: utiliza las operaciones de la API para crear, ver,
actualizar y eliminar conjuntos de datos y revisiones. También se pueden utilizar
estas operaciones de API para importar y exportar activos a esas revisiones y desde
ellas.
 API de catálogo de AWS Marketplace: utiliza las operaciones de la API para ver y
actualizar los productos en AWS Data Exchange y AWS Marketplace.

AWS Data Exchange para provedores de datos

Creación y publicación de productos de datos.


Los datos de AWS Data Exchange están organizados por tres componentes principales:
conjuntos de datos, conocimientos y recursos. Un conjunto de datos es un contenedor de
datos relacionados (por ejemplo, precios de las acciones estadounidenses al final del día).
Las bases de datos contienen múltiples versiones que los proveedores de datos publican
según sea necesario para que los nuevos recursos estén disponibles. Los cambios pueden
reflejar cambios o nueva información (como los precios al final del día de hoy);
correcciones a versiones anteriores; o imágenes nuevas. Un activo es cualquier archivo que
se puede almacenar en Amazon S3 (como archivos CSV, parquet o de imagen).

17
Los conjuntos de datos se ponen a disposición de los suscriptores dentro de un
producto . Un producto es una colección de uno o más conjuntos de datos, metadatos que
hacen que el producto sea reconocible en AWS Marketplace, precios y un Acuerdo de
suscripción de datos que sus clientes deben aceptar antes de suscribirse.

11. AWS Data Exchange


Servicios relacionados
 Amazon S3: AWS Data Exchange permite a los proveedores importar y
almacenar archivos de datos en sus propios depósitos de Amazon S3. Los
suscriptores pueden exportar mediante programación estos archivos a Amazon S3.
AWS Data Exchange también permite a los suscriptores acceder y utilizar
directamente los depósitos de proveedores de servicios de Amazon S3.
 Amazon API Gateway: Los suscriptores pueden llamar a la API mediante
programación, llamar a la API desde la consola de AWS Exchange o descargar un
archivo de configuración de OpenAPI.
 Amazon Redshift: AWS Data Exchange admite el conjunto de datos de Amazon
Redshift. Los suscriptores obtienen acceso de solo lectura para consultar Amazon
Redshift sin extraer, transformar o descargar datos.
 AWS Marketplace: AWS Data Exchange permite publicar conjuntos de datos
como productos en AWS Marketplace. Los proveedores de intercambio de AWS
deberán registrarse como vendedores de AWS Marketplace y podrán utilizar la API
de AWS Marketplace Catalog en el Portal de administración de AWS Marketplace.
 AWS Lake Formation: AWS Data Exchange admite conjuntos de datos de AWS
Lake Formation (versión preliminar). Los suscriptores tienen acceso a los datos
almacenados en los datos de AWS Lake Formation del proveedor de datos y pueden
consultar, transformar y compartir el acceso a esos datos desde su conjunto de datos
de AWS Lake Formation.

18
Amazon SageMaker

SageMaker brinda a todos los desarrolladores y científicos de datos la capacidad de crear,


entrenar e implementar modelos de aprendizaje automático rápidamente. Amazon
SageMaker es un servicio completamente administrado que cubre todo el flujo de trabajo
de aprendizaje automático para etiquetar y preparar datos, elegir un algoritmo, entrenar el
modelo, ajustarlo y optimizarlo para la implementación, hacer predicciones y tomar
medidas.
Las funciones automatizadas de AWS SageMaker Studio permiten a los clientes mantener,
depurar y realizar un seguimiento de los modelos de aprendizaje automático.

12. Herramientas de SageMaker

Función
AWS SageMaker simplifica el modelado de ML en tres pasos: preparación, capacitación e
implementación.

1.-Preparar y construir modelos de IA


Amazon SageMaker crea una instancia de ML completamente administrada en Amazon
Elastic Compute Cloud (EC2). Es compatible con la aplicación web Jupyter Notebook de
código abierto que permite a los desarrolladores compartir código en vivo. Los
desarrolladores también pueden usar algoritmos personalizados escritos en uno de los
marcos de ML admitidos o cualquier código que se haya empaquetado como una imagen de
contenedor de Docker.
2.- Entrenar y sintonizar
Los desarrolladores que realizan el entrenamiento del modelo determinan la ubicación y el
tipo de instancia principal de los datos en el depósito de Amazon S3. Luego comienzan el
entrenamiento. SageMaker Model Monitor proporciona un

19
ajuste automático continuo de un modelo para encontrar un conjunto de parámetros o
hiperparámetros para optimizar el algoritmo. En este paso, los datos se modifican para
habilitar la planificación maestra.

3.- Implementar y analizar


Cuando el modelo está listo para la implementación, el servicio opera y escala
automáticamente la infraestructura de la nube. Utiliza un conjunto de tipos de instancias de
SageMaker que incluyen varios aceleradores de unidades de procesamiento de gráficos
optimizados para cargas de trabajo de ML.
SageMaker aplica parches de seguridad, configura AWS Auto Scaling y establece puntos
finales HTTPS seguros para conectarse a una aplicación. Un desarrollador puede rastrear y
activar alarmas por cambios en el rendimiento de la producción a través de las métricas de
Amazon CloudWatch.

Seguridad
Amazon SageMaker cifra los modelos tanto en tránsito como en reposo mediante AWS
Key Management Service. Las solicitudes de API al servicio se realizan a través de la
conexión de la capa de sockets. SageMaker también almacena código en volúmenes que
están protegidos por grupos de seguridad y proporcionan cifrado. Para mejorar la seguridad
de los datos, los clientes pueden ejecutar SageMaker en Amazon Virtual Private Cloud.
Este enfoque proporciona un mejor control del flujo de datos para las computadoras
portátiles SageMaker Studio.

Clientes

AstraZeneca trabajó con AWS para crear una solución con Amazon SageMaker, que ayuda
a los científicos y desarrolladores de datos a preparar, crear, entrenar e implementar
modelos de ML rápidamente. Ahora, AstraZeneca no solo analiza los datos comerciales a
escala para obtener información, sino que también acelera la información al automatizar
gran parte de los procesos manuales anteriores, lo que supone un ahorro de tiempo y
esfuerzo para sus científicos de datos.

bp recurrió AWS y contrató a AWS Professional Services para acelerar la entrega de


productos de ciencia de datos a escala a través de un marco de prácticas recomendadas para
la implementación y administración de modelos. Con el apoyo de AWS, bp entregó un
marco de trabajo modelo DevOps en 9 meses con

20
características que incluyen una arquitectura sin servidor, un diseño de seguridad digital
completo y aprovisionamiento de cómputo bajo demanda.

Autodesk usó Amazon SageMaker para mejorar los conocimientos de eficiencia que puede
proporcionar a los usuarios de su programa de diseño asistido por computadora AutoCAD,
lo que le permitió centrarse en el desarrollo en lugar de las operaciones.

Amazon QuickSight
Amazon QuickSight es un servicio de inteligencia empresarial (BI) basado en aprendizaje
automático escalable, sin servidor e integrable integrado en la nube. QuickSight, permite
crear y publicar fácilmente paneles interactivos de inteligencia comercial que contienen
información generada por el aprendizaje automático. Permite acceder a los paneles de
QuickSight desde cualquier dispositivo e integrarlos fácilmente en aplicaciones, portales
y sitios web.

Características
Escalabilidad
Con Amazon QuickSight, no se requiere instalar, administrar ni configurar el servidor
manualmente. Al ser una arquitectura sin servidor, permite escalar automáticamente a miles
de clientes o usuarios. No hay paneles lentos para los usuarios porque no hay comunicación
del lado del servidor, incluso cuando varios usuarios acceden a los mismos conjuntos de
datos.
inmersión sencilla
AWS QuickSight tiene varios SDK y API que lo ayudan principalmente a cambiar la
apariencia de sus paneles de BI. Este tablero personalizado se puede integrar fácilmente en
sus sitios web y portales. Con esto, QuickSight le brinda la capacidad de administrar las
versiones del tablero y otorgar permisos para modificar el tablero. mejores
perspectivas
Con capacidades comprobadas de aprendizaje automático (ML) de AWS, los equipos de BI
pueden realizar análisis avanzados con QuickSight. Al importar un modelo de AWS
SageMaker, permite utilizar modelos de aprendizaje automático listos para usar o bien los
propios modelos de aprendizaje automático. QuickSight usa ML para crear un resumen del
tablero en texto sin formato para que todos puedan comprender la información de los datos.
Realización de análisis avanzados con ML Insights
Permite descubrir información oculta a partir de los datos, realiza pronósticos precisos y
análisis hipotéticos o agrega narrativas en lenguaje natural fáciles de comprender a los
paneles mientras se aprovecha la experiencia de AWS en

21
machine learning.
Análisis incorporado para diferenciar aplicaciones
Visualizaciones y paneles interactivos incorporados de forma sencilla, creación de paneles
sofisticados o capacidades de consulta en lenguaje natural en las aplicaciones para
diferenciar la experiencia del usuario y desbloquear oportunidades de monetización nuevas.

Funcionamiento
 Recopilar y cargar datos: Amazon QuickSight recopila y lee datos de muchas
utilidades de Amazon, como Aurora, Athena, AWS Redshift, , etc. AWS
Quicksight se puede integrar con bases de datos, cargas de archivos y fuentes de
datos basadas en API, incluido Salesforce. Los flujos de clics, los pedidos de
ventas, los dispositivos IoT y los datos financieros también son compatibles con
AWS QuickSight. AWS QuickSight brinda la capacidad de cargar datos en un
archivo o como un depósito de AWS S3 para los usuarios finales.
 Conexión a los datos: Amazon QuickSight tiene la capacidad de conectarse a
los datos independientemente de la ubicación. Puede conectarse a la nube de AWS,
al centro de datos corporativo, a aplicaciones de terceros o a aplicaciones SaaS.
Amazon QuickSight prepara los datos antes del análisis. Esta preparación incluye
filtrado, cambio de nombre de campos, cambio de tipos de datos y creación de
consultas SQL.
Beneficios
Conexión y escalado de todos los datos
 Conexión a todos los datos en AWS, en las nubes de terceros o en las
instalaciones
 Almacenamiento en memoria SPICE para escalar la exploración de datos de miles
de usuarios
 Combinación de datos de varias fuentes y creación de modelos de datos
complejos para compartir datos de forma controlada.
Creación de paneles personalizables
 Diseño de paneles de píxeles perfectos para paneles personalizados y para casos de
uso específicos
 Entrega de informes y alertas personalizados por email para los usuarios finales
 Acceso desde cualquier lugar mediante iOS, Android o el acceso web móvil de
QuickSight
Aprovechamiento de las integraciones de ML para obtener informacion
 Detección de anomalías para analizar de forma continua todos los datos en busca
de anomalías y variaciones

22
 Previsión de métricas comerciales y realización de análisis hipotéticos interactivos
con un clic.
 Narrativas automáticas que se pueden personalizar y entretejer en paneles para
crear un contexto más profundo para los usuarios.
Integraciones de servicios de AWS nativos
 Conectividad de VPC privada para acceder de forma segura de AWS a
Amazon Redshift, Snowflake, Exasol, Amazon RDS, etc
 Permisos de IAM nativos para Amazon S3 y Amazon Athena con acceso
pormenorizado.
 Control para la exploración de datos sin servidor.
 La integración de Amazon SageMaker permite una integración sencilla de
modelos sofisticados de ML sin canalizaciones de datos complejos

Clientes

Amazon OpenSearch Service


Amazon OpenSearch Service es un servicio administrado que facilita la implementación, el
funcionamiento y el escalado de clústeres de OpenSearch en la nube de AWS. Amazon
OpenSearch Service es compatible con la versión heredada de OpenSearch y Elasticsearch
OSS. Cuando se crea un clúster, se puede elegir el motor de búsqueda utilizar.
OpenSearch es un motor de análisis y búsqueda de código abierto para casos de uso como
el análisis de registros, la supervisión de aplicaciones en tiempo real y el análisis del flujo
de clics.
Amazon OpenSearch Service proporciona todos los recursos al clúster y lo inicia. También
detecta y reemplaza automáticamente los nodos del servicio OpenSearch que fallaron. De
esta forma, reduce los gastos generales asociados con una infraestructura autogestionada.
Permite escalar el clúster con una sola llamada a la API o unos pocos clics en la consola.

23
13. Amazon OpenSearch Service

Características
Seguridad
 AWS Identity and Access Management (IAM) control de acceso
 Integración sencilla con Amazon VPC y grupos de seguridad de VPC
 Cifrado de datos en reposo y cifrado de nodo a nodo.
 Autenticación de Amazon Cognito, HTTP Basic o SAML para paneles de
OpenSearch
 Seguridad en el nivel de índice, de documento y de campo
 Registros de auditoría
 Tenencia múltiple de paneles
Estabilidad
 Numerosas ubicaciones geográficas para los recursos, denominadas regiones y
zonas de disponibilidad
 Asignación de nodos en dos o tres zonas de disponibilidad de la misma región
de AWS, lo que se conoce como Multi-AZ
 Nodos principales dedicados para aligerar las tareas de administración del clúster
 Instantáneas automatizadas para realizar backups y restaurar dominios de
OpenSearch Service
Flexibilidad
 Compatibilidad con SQL para la integración con aplicaciones de inteligencia
empresarial (BI)
 Paquetes personalizados para mejorar los resultados de búsqueda
 Integración con servicios populares
 Visualización de datos mediante OpenSearch Dashboards
 Integración con Amazon CloudWatch para monitorerar las métricas de los
dominios de OpenSearch Service y definir alarmas
 Integración con AWS CloudTrail para auditar las llamadas a la API de

24
configuración en los dominios de OpenSearch Service
 Integración con Amazon S3, Amazon Kinesis y Amazon DynamoDB para
cargar datos de streaming en OpenSearch Service
 Alertas de Amazon SNS cuando los datos superan determinados umbrales
Escalado
 Varias configuraciones de CPU, memoria y capacidad de almacenamiento, que se
denominan tipos de instancias, que incluyen instancias rentables de Graviton
 3 PB de almacenamiento asociado
 Almacenamiento rentable UltraWarm y frio para datos de solo lectura.

Servicios relacionados
 Amazon CloudWatch: Los dominios de OpenSearch Service envían métricas a
automáticamente a CloudWatch lo que permiten monitoriar el estado y el
rendimiento del dominio.
 CloudWatch Logs: Puede funcionar en la dirección opuesta. Es posible
configurar CloudWatch Logs para transmitir datos a OpenSearch Service para su
análisis.
 AWS CloudTrail: Utilizado para obtener un historial de las llamadas a la API de
configuración de OpenSearch Service y los eventos relacionados de la cuenta.
 Amazon Kinesis: Es un servicio administrado para el procesamiento de datos de
streaming en tiempo real a una escala masiva.
 AWS IAM: Es un servicio web que se puede utilizar para administrar el acceso a
los dominios de OpenSearch Service.
 AWS Lambda: Es un servicio informático que permite ejecutar código sin
aprovisionar ni administrar servidores. Esta guía proporciona código muestra de
Lambda para transmitir datos desde DynamoDB, Amazon S3 y Kinesis.
 Amazon DynamoDB: Es un servicio de base de datos NoSQL totalmente
administrado que ofrece un rendimiento rápido y predecible, así como una perfecta
escalabilidad.
 Amazon QuickSight: Permite visualizar los datos de OpenSearch Service
mediante los paneles de Amazon QuickSight.

25
Bibliografia
 Lahtela, M. and Kaplan, P.(P. (1966) ¿Qué es AWS?, Amazon. Oberbaumpresse.
Disponible en: https://aws.amazon.com/es/what-is-aws/ (Consultado: 26 de marzo
de 2023).
 Rootstack (sin fecha) ¿Qué es aws (Amazon Web Services) Y cómo funciona?,
Rootstack. Disponible en: https://rootstack.com/es/blog/que-es-aws-amazon-
web- services-y-como-funciona (Consultado: 26 de marzo de 2023).
 Lahtela, M. and Kaplan, P.(P. (1966) Presentación de S3 Intelligent-Tiering: un
nuevo tipo de almacenamiento de Amazon S3, Amazon. Oberbaumpresse. Disponible
en: https://aws.amazon.com/es /about-aws/whats-new/2018/11/s3-intelligent-
tiering/ (Consulta: 27 de marzo de 2023).
 Oscarfmdc (2022) Introducción a Amazon S3, Aprender BIG DATA. Disponible
en: https://aprenderbigdata.com/amazon-s3/ (Consulta: 27 de marzo de 2023).
 Lahtela, M. and Kaplan, P.(P. (1966) Características de Amazon S3,
Amazon. Oberbaumpresse. Disponible en:
https://aws.amazon.com/es/s3/features/ (Consultado: 27 de marzo de
2023) ).
 ¿Qué es aws glue? - Pegamento AWS - docs.aws.amazon.com (sin fecha). Disponible
en: https://docs.aws.amazon.com/es_es/glue/latest/dg/what-is-glue.html
(Consultado: 27 de marzo de 2023).
 Oscarfmdc (2022) Introducción a amazon Redshift , Aprender BIG DATA.
Disponible en: https://aprenderbigdata.com/redshift/ (Consulta: 28 de marzo de
2023).
 Lahtela, M. and Kaplan, P.(P. (1966) Amazon Kinesis Data Streams, Amazon.
Oberbaumpresse. Disponible en: https://aws.amazon.com/es/kinesis/data-
streams/ (Consultado: 28 de marzo, 2023).
 Etchudez (sin fecha) Amazon Kinesis Data Streams, Amazon Kinesis Data Streams ::
AWS Entrenamientos. Disponible en: https://aprendiendoaws.com/04-analytics/0404-
data-ingestion/040402-kinesis-data-streams.html (Consultado: 28 de marzo de
2023).
 Oscarfmdc (2022) Introducción a amazon Redshift , Aprender BIG DATA.
Disponible en: https://aprenderbigdata.com/redshift/ (Consulta: 1 de abril de
2023).
 Lahtela, M. and Kaplan, P. (P. (1966) Características de Amazon Redshift,
Amazon. Oberbaumpresse. Disponible en:
https://aws.amazon.com/es/redshift/features/ (Consulta: 1 de abril de 2023).
 Carrera, D. (sin fecha) Características de Amazon Redshift, IASolutions. Disponible en:
https://ia-solutions.cl/wp/2020/12/01/caracteristicas-de-amazon-redshift/ (Consultado:
2 de abril de 2023).
 Kaplan, P. (P. (1966) AWS Lake Formation, Amazon. Oberbaumpresse. Disponible
en: https://aws.amazon.com/es/lake-formation/ (Consultado: 3 de abril de 2023).
 Lahtela, M. and Kaplan, P. (P. (1966) Amazon Kinesis Data Firehose, Amazon.
Oberbaumpresse. Disponible en: https://aws.amazon.com/es/kinesis/data-
firehose/ (Consultado: 4 de abril, 2023).
 KANEFIELD, T.E.R.I. (2023) Firehose of falsehood, Amazon. LIBROS PRIMERO
SEGUNDO. Disponible en:
https://docs.aws.amazon.com/firehose/latest/dev/data- transformation.html
(Consulta: 4 de abril de 2023).
26
 Aggarwal, K. Formación del lago Aws: Descripción general, arquitectura &
funcionalidad, Historias del programa de formación en la nube. Disponible en:
https://k21academy.com/amazon-web-services/aws-lake-formation/ (Consultado: 5
de abril de 2023).

27
 Ross, S.S. (1990) Intercambio de datos: procesamiento de textos, hojas de cálculo y
bases de datos para PC/MS DOS, Amazon. Pub McGraw-Hill. Co. Disponible en:
https://docs.aws.amazon.com/data-exchange/latest/userguide/what-is.html (Consulta:
5 de abril de 2023).
 ¿Qué es el servicio OpenSearch de Amazon? Disponible en:
https://docs.aws.amazon.com/es_es/opensearch-service/latest/developerguide/what-
is.html (Consultado: 7 de abril de 2023).
 Lahtela, M. and Kaplan, P.(P. (1966) AWS Data Exchange, Amazon.
Oberbaumpresse. Disponible en: https://aws.amazon.com/es/data-exchange/
(Consulta: 7 de abril de 2023) .
 ¿Qué es amazon sagemaker? (2021) Criptón sólido. Disponible en:
https://kryptonsolid.com/que-es-amazon-sagemaker/ (Consultado: 7 de abril de
2023).
 Lahtela, M. and Kaplan, P.(P. (1966) AWS Data Exchange para Amazon S3, Amazon.
Oberbaumpresse. Disponible en: https://aws.amazon.com/es/data-exchange/why-
aws- data -exchange/s3/ (Consulta: 8 de abril de 2023).
 Lahtela, M. y Kaplan, P. (P. (1966) Amazon SageMaker, Amazon. Oberbaumpresse.
Disponible en: https://aws.amazon.com/es/pm/sagemaker/?
gclid=Cj0KCQjwxMmhBhDJARIsANFGOSu dNsJxFaHZTkY-
LIp1DDbh4NDWySF9RZz0NFvTQPnQe8RcfaY96; Consultado: 8 de abril de 2023).
 ¿Qué es Amazon QuickSight?: Intellipaat (2023) Blog de Intellipaat. Disponible en:
https://intellipaat.com/blog/what-is-amazon-quicksight/ (Consulta: 8 de abril de
2023).
 Etchudez (sin fecha) Amazon quicksight, Amazon QuickSight :: AWS
Entrenamientos. Disponible en: https://aprendiendoaws.com/04-analytics/0406-
data-analysis/040604- quicksight.html (Consultado: 8 de abril de 2023).
 ¿Qué es el servicio OpenSearch de Amazon? Disponible en:
https://docs.aws.amazon.com/es_es/opensearch-service/latest/developerguide/what-
is.html (Consultado: 7 de abril de 2023).

28

También podría gustarte