Data Fundamentals JP

Aspectos básicos de los datos
Introducción
Durante las últimas décadas, la cantidad de datos que generan los sistemas, las
aplicaciones y los dispositivos ha aumentado considerablemente. Los datos
están en todas partes, en una gran variedad de estructuras y formatos.
Ahora los datos pueden recopilarse de manera más fácil y almacenarse de

forma más barata, lo que permite que casi todas las empresas puedan tener
acceso a ellos. Las soluciones de datos incluyen tecnologías de software y
plataformas que pueden facilitar la recopilación, el análisis y el almacenamiento
de información valiosa. Todas las empresas buscan aumentar sus ingresos y
obtener mayores ganancias. En este mercado competitivo, los datos son un
recurso valioso. Cuando se analizan correctamente, los datos se pueden
convertir en una gran cantidad de información útil que ayuda a tomar
decisiones empresariales críticas.
La capacidad de capturar, almacenar y analizar datos es un requisito básico para

todas las organizaciones del mundo. En este módulo, obtendrá información
sobre las opciones para representar y almacenar datos, así como sobre las
cargas de trabajo de datos típicas. Al completar este módulo, establecerá las
bases para conocer mejor las técnicas y los servicios que se usan para trabajar
con datos.
Identificación de los formatos de

datos
Los datos son una colección de elementos, como números, descripciones y
observaciones, que se usan para registrar información. Las estructuras de datos
en las que se organizan estos datos suelen representar entidades que son
importantes para una organización (como clientes, productos, pedidos de
ventas, etc.). Normalmente, cada entidad tiene uno o varios atributos o
características (por ejemplo, un cliente podría tener un nombre, una dirección,
un número de teléfono, etc.).
Los datos se pueden clasificar en estructurados, semiestructurados o no
estructurados.
Datos estructurados
Los datos estructurados son aquellos que se ajustan a un esquema fijo, por lo
que todos los datos tienen los mismos campos o propiedades. Normalmente, el
esquema de las entidades de datos estructurados es tabular; es decir, los datos
se representan en una o varias tablas que constan de filas para representar cada
instancia de una entidad de datos y columnas para representar los atributos de
la entidad. Por ejemplo, en la imagen siguiente se muestran las
representaciones de datos tabulares para las entidades Customer y Product.
Los datos estructurados suelen almacenarse en una base de datos en la que
varias tablas pueden hacer referencia entre sí mediante el uso de valores de
clave en un modelo relacional, que exploraremos con más detalle más adelante.
Datos semiestructurados
Los datos semiestructurados son información que tiene cierta estructura, pero
que permite alguna variación entre las instancias de entidad. Por ejemplo,
aunque la mayoría de los clientes pueden tener una dirección de correo
electrónico, algunos podrían tener varias y otros, ninguna.
Un formato común para los datos semiestructurados es la notación de objetos

JavaScript (JSON). En el ejemplo siguiente se muestran un par de documentos
JSON que representan información de clientes. Cada documento de cliente
incluye la dirección y la información de contacto, pero los campos específicos
varían entre los clientes.
JSONCopiar
// Customer 1
{
"firstName": "Joe",
"lastName": "Jones",
"address":
{
"streetAddress": "1 Main St.",
"city": "New York",
"state": "NY",
"postalCode": "10099"
},
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "joe@litware.com"
}
]
}
// Customer 2
{
"firstName": "Samir",
"lastName": "Nadoy",
"address":
{
"streetAddress": "123 Elm Pl.",
"unit": "500",
"city": "Seattle",
"state": "WA",
"postalCode": "98999"
},
"contact":
[
{
"type": "email",
"address": "samir@northwind.com"
}
]
}
Nota
JSON es solo una de las muchas maneras en las que se pueden representar los
datos semiestructurados. Lo importante aquí no es proporcionar un examen
detallado de la sintaxis de JSON, sino ilustrar la naturaleza flexible de las
representaciones de datos semiestructurados.
Datos no estructurados
No todos los datos están estructurados o semiestructurados. Por ejemplo, los
documentos, imágenes, datos de audio y de vídeo y archivos binarios podrían
no tener una estructura específica. Este tipo de datos se conoce como datos no
estructurados.
Almacenes de datos
Las organizaciones suelen almacenar los datos en formato estructurado,
semiestructurado o no estructurado para registrar los detalles de entidades (por
ejemplo, clientes y productos), eventos específicos (como transacciones de
ventas) u otra información en documentos, imágenes y otros formatos. Los
datos almacenados se pueden recuperar para su análisis y la generación de
informes más adelante.
Habitualmente se usan dos categorías generales de almacén de datos:
 Almacenes de archivos
 Bases de datos
Exploraremos ambos tipos de almacén de datos en temas posteriores.

almacenamiento de archivos
La capacidad de almacenar datos en archivos es un elemento básico de
cualquier sistema informático. Los archivos se pueden almacenar en sistemas de
archivos locales en el disco duro del equipo personal y en medios extraíbles,
como unidades USB, pero en la mayoría de las organizaciones los archivos de
datos importantes se almacenan centralmente en algún tipo de sistema de
almacenamiento de archivos compartido. Cada vez más, esa ubicación de
almacenamiento central se hospeda en la nube, lo que permite un
almacenamiento rentable, seguro y de confianza para grandes volúmenes de
datos.
El formato de archivo específico que se usa para almacenar datos depende de

una serie de factores, entre los que se incluyen los siguientes:
 El tipo de datos que se almacenan (estructurados,

semiestructurados o no estructurados).
 Las aplicaciones y los servicios que tendrán que leer, escribir y
procesar los datos.
 La necesidad de que los archivos de datos sean legibles para los
usuarios o estén optimizados para un almacenamiento y
procesamiento eficientes.
A continuación se describen algunos formatos de archivo comunes.
Archivos de texto delimitado

A menudo, los datos se almacenan como texto sin formato con delimitadores
de campo y terminadores de fila específicos. El formato más común para los
datos delimitados son los valores separados por comas (CSV), en los que los
campos están separados por comas y las filas finalizan con un retorno de carro
o una nueva línea. Opcionalmente, la primera línea puede incluir los nombres de
campo. Otros formatos comunes incluyen valores separados por tabulaciones
(TSV) y delimitados por espacios (en los que se usan tabulaciones o espacios
para separar los campos), así como datos de ancho fijo en los que a cada campo
se le asigna un número fijo de caracteres. El texto delimitado es una buena
opción para los datos estructurados a los que necesita tener acceso una amplia
gama de aplicaciones y servicios en un formato legible.
En el ejemplo siguiente se muestran los datos de clientes en formato delimitado

por comas:
Copiar
FirstName,LastName,Email
Joe,Jones,joe@litware.com
Samir,Nadoy,samir@northwind.com
Notación de objetos JavaScript (JSON)

JSON es un formato omnipresente en el que se usa un esquema de documento
jerárquico para definir entidades de datos (objetos) que tienen varios atributos.
Cada atributo puede ser un objeto (o una colección de objetos ), lo que hace de
JSON un formato flexible adecuado tanto para datos estructurados como
semiestructurados.
En el ejemplo siguiente se muestra un documento JSON que contiene una

colección de clientes. Cada cliente tiene tres atributos
(firstName, lastName y contact) y el atributo contact contiene una colección de
objetos que representan uno o varios métodos de contacto (correo electrónico
o teléfono). Tenga en cuenta que los objetos se incluyen entre llaves ({..}) y las
colecciones se incluyen entre corchetes ([..]). Los atributos se representan
mediante pares nombre:valor y se separan por comas (,).
JSONCopiar
{
"customers":
[
{
"firstName": "Joe",
"lastName": "Jones",
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "joe@litware.com"
}
]
},
{
"firstName": "Samir",
"lastName": "Nadoy",
"contact":
[
{
"type": "email",
"address": "samir@northwind.com"
}
]
}
]
}
Lenguaje de marcado extensible (XML)

XML es un formato de datos legible popular en la década de 1990 y 2000. En
gran medida lo ha reemplazado el formato JSON, menos detallado, pero
todavía hay algunos sistemas que usan XML para representar datos. XML
usa etiquetas entre corchetes angulares (../) para definir elementos y atributos,
como se muestra en este ejemplo:
XMLCopiar
<Customers>
<Customer name="Joe" lastName="Jones">
<ContactDetails>
<Contact type="home" number="555 123-1234"/>
<Contact type="email" address="joe@litware.com"/>
</ContactDetails>
</Customer>
<Customer name="Samir" lastName="Nadoy">
<ContactDetails>
<Contact type="email" address="samir@northwind.com"/>
</ContactDetails>
</Customer>
</Customers>
Objeto binario grande (BLOB)

En última instancia, todos los archivos se almacenan como datos binarios (1 y 0),
pero en los formatos legibles que se describen anteriormente, los bytes de
datos binarios se asignan a caracteres imprimibles (normalmente a través de un
esquema de codificación de caracteres como ASCII o Unicode). Aun así, algunos
formatos de archivo, especialmente para los datos no estructurados, almacenan
los datos como datos binarios sin formato que las aplicaciones deben
interpretar y representar. Los tipos comunes de datos almacenados como datos
binarios incluyen imágenes, vídeo, audio y documentos específicos de
aplicaciones.
Cuando trabajan con datos de este tipo, los profesionales de datos suelen hacer
referencia a estos archivos de datos como BLOB (objetos binarios grandes).
Formatos de archivo optimizados

Aunque los formatos legibles para datos estructurados y semiestructurados
pueden ser útiles, normalmente no están optimizados para el procesamiento o
el espacio de almacenamiento. Con el paso del tiempo, se han desarrollado
algunos formatos de archivo especializados que permiten la compresión, la
indexación y un almacenamiento y procesamiento eficientes.
Entre los formatos de archivo optimizados más habituales que puede ver se
incluyen Avro, ORC y Parquet:
 Avro es un formato basado en filas creado por Apache. Cada

registro contiene un encabezado que describe la estructura de los
datos en ese registro. Este encabezado se almacena como JSON.
Los datos, por su parte, se almacenan como información binaria.
Una aplicación usa la información del encabezado para analizar los
datos binarios y extraer los campos que contienen. Avro es un
formato adecuado para comprimir datos y reducir los requisitos de
almacenamiento y ancho de banda de red.
 ORC (formato de columnas de filas optimizadas) organiza los datos
en columnas en lugar de en filas. Lo desarrolló HortonWorks para
optimizar las operaciones de lectura y escritura en Apache Hive
(Hive es un sistema de almacenamiento de datos que admite
resúmenes de datos rápidos y consultas en grandes conjuntos de
datos). Un archivo ORC contiene franjas de datos. Cada franja
contiene los datos de una columna o de un conjunto de columnas.
Una franja contiene un índice de las filas de dicha franja, los datos
de cada fila y un pie de página que contiene información estadística
(count, sum, max, min, etc.) de cada columna.
 Parquet es otro formato de datos en columnas creado por Cloudera
y Twitter. Un archivo Parquet contiene grupos de filas. Los datos de
cada columna se almacenan juntos en el mismo grupo de filas.
Cada grupo de filas contiene uno o varios fragmentos de datos. Un
archivo Parquet incluye metadatos que describen el conjunto de
filas que hay en cada fragmento. Una aplicación puede usar estos
metadatos para localizar rápidamente el fragmento correcto para
un conjunto determinado de filas y, a continuación, para recuperar
los datos de las columnas especificadas relativos a esas filas.
Parquet destaca por almacenar y procesar tipos de datos anidados
de forma eficaz. Admite esquemas de compresión y codificación
muy eficaces.
bases de datos
Las bases de datos se usan para definir un sistema central en el que los datos se
pueden almacenar y consultar. En un sentido simplista, el sistema de archivos en
el que se almacenan los archivos es un tipo de base de datos; pero cuando
usamos el término en un contexto de datos profesional, normalmente nos
referimos a un sistema dedicado para administrar registros de datos en lugar de
archivos.
Bases de datos relacionales

Las bases de datos relacionales suelen usarse para almacenar y consultar datos
estructurados. Los datos se almacenan en tablas que representan entidades, por
ejemplo, clientes, productos o pedidos de ventas. A cada instancia de una
entidad se le asigna una clave principal que la identifica de forma única; estas
claves se usan para hacer referencia a la instancia de entidad en otras tablas. Por
ejemplo, se puede hacer referencia a la clave principal de un cliente en un
registro de pedidos de ventas para indicar qué cliente ha realizado el pedido.
Este uso de claves para hacer referencia a entidades de datos
permite normalizar una base de datos relacional. En parte, esto conlleva la
eliminación de valores de datos duplicados para que, por ejemplo, los detalles
de un cliente individual se almacenen una sola vez, no para cada pedido de
ventas que realiza el cliente. Las tablas se administran y consultan mediante el
Lenguaje de consulta estructurado (SQL), que se basa en un estándar ANSII, por
lo que es similar en varios sistemas de base de datos.
Bases de datos no relacionales

Las bases de datos no relacionales son sistemas de administración de datos que
no aplican un esquema relacional a los datos. Las bases de datos no relacionales
suelen conocerse como bases de datos NoSQL, aunque algunas admiten una
variante del lenguaje SQL.
Hay cuatro tipos comunes de bases de datos no relacionales que se usan

habitualmente.
 Bases de datos de clave-valor, en las que cada registro consta de
una clave única y un valor asociado, que puede estar en cualquier
formato.
 Bases de datos de documentos, que son una forma específica de

base de datos de clave-valor, en la que el valor es un documento
JSON (que el sistema está optimizado para analizar y consultar).
 Bases de datos de familia de columnas, que almacenan datos

tabulares con filas y columnas, pero con la posibilidad de dividir
esas columnas en grupos, conocidos como familias de columnas.
Cada familia de columnas contiene un conjunto de columnas que
tienen una relación lógica entre sí.
 Bases de datos de grafos, que almacenan entidades como nodos

con vínculos para definir relaciones entre ellas.
Exploración del procesamiento de
datos transaccionales
Completado100 XP
 5 minutos
Un sistema de procesamiento de datos transaccional es lo que la mayoría de los

usuarios considera la función principal de la informática empresarial. Un sistema
transaccional registra las transacciones que encapsulan eventos específicos de
los que la organización quiere realizar un seguimiento. Una transacción podría
ser financiera, como el movimiento de dinero entre cuentas de un sistema
bancario, o bien podría formar parte de un sistema de venta al por menor y
llevar un seguimiento de los pagos de bienes y servicios de los clientes. Piense
en una transacción como una unidad de trabajo pequeña y discreta.
Los sistemas transaccionales suelen ser de gran volumen; a veces, controlan

muchos millones de transacciones en un solo día. Se debe poder acceder a los
datos que se procesan con mucha rapidez. El trabajo que realizan los sistemas
transaccionales a menudo se conoce como procesamiento de transacciones en
línea (OLTP).
Las soluciones OLTP se basan en un sistema de base de datos en el que el

almacenamiento de datos está optimizado tanto para las operaciones de lectura
como para las de escritura, con el fin de admitir cargas de trabajo
transaccionales en las que se crean, recuperan, actualizan y eliminan registros
de datos (a menudo denominadas operaciones CRUD). Estas operaciones se
aplican transaccionalmente, de una forma que garantiza la integridad de los
datos almacenados en la base de datos. Para ello, los sistemas OLTP aplican
transacciones que admiten la denominada semántica ACID:
 Atomicidad: cada transacción se trata como una unidad única, la

cual se completa correctamente o produce un error general. Por
ejemplo, una transacción que conlleve el adeudo de fondos de una
cuenta y el abono de la misma cantidad en otra debe completar
ambas acciones. Si alguna de las acciones no se puede completar,
se debe producir un error en la otra.
 Coherencia: las transacciones solo pueden pasar los datos de la
base de datos de un estado válido a otro. Para continuar con el
ejemplo anterior del adeudo y el abono, el estado completado de la
transacción debe reflejar la transferencia de fondos de una cuenta a
la otra.
 Aislamiento: las transacciones simultáneas no pueden interferir
entre sí y deben dar lugar a un estado coherente de la base de
datos. Por ejemplo, mientras la transacción para transferir fondos
de una cuenta a otra está en proceso, otra transacción que
comprueba el saldo de las cuentas debe devolver resultados
coherentes. Es decir, la transacción de comprobación del saldo no
puede recuperar un valor para una cuenta que refleje el
saldo antes de la transferencia y un valor para la otra cuenta que
refleje el saldo después de la transferencia.
 Durabilidad: cuando se ha confirmado una transacción, permanece
confirmada. Una vez que la transacción de transferencia de la
cuenta se ha completado, los saldos revisados de las cuentas se
conservan, de modo que, incluso si el sistema de base de datos se
desactiva, la transacción confirmada se refleje cuando se vuelva a
activar.
Los sistemas OLTP suelen usarse para admitir aplicaciones activas que procesan
datos empresariales, a menudo denominadas aplicaciones de línea de
negocio (LOB).
procesamiento de datos analíticos

Normalmente, el procesamiento de datos analíticos usa sistemas de solo lectura
(o principalmente de lectura) que almacenan grandes volúmenes de datos
históricos o métricas empresariales. Los análisis pueden basarse en una
instantánea de los datos en un momento concreto o en una serie de
instantáneas.
Los detalles específicos de un sistema de procesamiento analítico pueden variar
según la solución, pero una arquitectura común para el análisis a escala
empresarial tiene el siguiente aspecto:
1. Los archivos de datos se pueden almacenar en un lago de datos

central para analizarlos.
2. Un proceso de extracción, transformación y carga (ETL) permite
copiar datos de archivos y bases de datos OLTP en un
almacenamiento de datos optimizado para la actividad de lectura.
Normalmente, un esquema de almacenamiento de datos se basa en
tablas de hechos que contienen valores numéricos que quiere
analizar (por ejemplo, importes de ventas), con tablas
de dimensiones relacionadas que representan las entidades por las
que quiere medirlas (por ejemplo, cliente o producto).
3. Los datos del almacenamiento de datos se pueden agregar y cargar
en un modelo de procesamiento analítico en línea (OLAP) o
un cubo. Los valores numéricos agregados (medidas) de las tablas
de hechos se calculan para intersecciones de dimensiones a partir
de tablas de dimensiones. Por ejemplo, los ingresos de ventas
podrían sumarse por fecha, cliente y producto.
4. Los datos del lago de datos, el almacenamiento de datos y el
modelo analítico se pueden consultar para generar informes,
visualizaciones y paneles.
Los lagos de datos son comunes en escenarios de procesamiento analítico de

datos modernos, en los que se debe recopilar y analizar un gran volumen de
datos basados en archivos.
Los almacenamientos de datos son un recurso establecido para almacenar datos

en un esquema relacional optimizado para operaciones de lectura,
principalmente consultas para admitir informes y visualización de datos. El
esquema de almacenamiento de datos puede requerir alguna desnormalización
de los datos en un origen de datos OLTP (que introduce cierta duplicación para
que las consultas se lleven a cabo con mayor rapidez).
Un modelo OLAP es un tipo agregado de almacenamiento de datos optimizado
para cargas de trabajo analíticas. Las agregaciones de datos se encuentran en
diferentes dimensiones y distintos niveles, lo que permite rastrear agrupando
datos y explorar en profundidad las agregaciones en varios niveles jerárquicos;
por ejemplo, para buscar el total de ventas por región, por ciudad o por una
dirección individual. Dado que los datos de OLAP se agregan previamente, las
consultas para devolver los resúmenes que contiene se pueden ejecutar
rápidamente.
Los diferentes tipos de usuario pueden llevar a cabo el trabajo analítico de

datos en distintas fases de la arquitectura general. Por ejemplo:
 Los científicos de datos pueden trabajar directamente con archivos

de datos en un lago de datos para explorar los datos y crear
modelos a partir de estos.
 Los analistas de datos pueden consultar tablas directamente en el
almacenamiento de datos para generar informes y visualizaciones
complejos.
 Los usuarios profesionales pueden consumir datos agregados
previamente en un modelo analítico como informes o paneles.
Exploración de roles y servicios de
datos
roles de trabajo del mundo de los

datos
Hay una amplia variedad de roles implicados en la administración, el control y el
uso de datos. Algunos roles están orientados a los negocios, mientras que otros
implican más ingeniería. También los hay más centrados en la investigación, o
incluso existen roles híbridos que combinan distintos aspectos de la
administración de datos. La organización puede definir roles de maneras
distintas o asignarles nombres diferentes, pero los que se describen en esta
unidad resumen la clasificación más habitual de las tareas y las
responsabilidades.
Estos son los tres roles de trabajo principales que se ocupan de los datos de la
mayoría de las organizaciones:
 Los administradores de bases de datos administran bases de

datos, asignan permisos a los usuarios, almacenan copias de
seguridad de datos y restauran datos en caso de que se produzca
un error.
 Los ingenieros de datos administran la infraestructura y los
procesos para la integración de datos en una organización, aplican
rutinas de limpieza de datos, identifican reglas de gobernanza de
datos e implementan canalizaciones para transferir y transformar
datos entre sistemas.
 Los analistas de datos exploran y analizan los datos con el fin de
crear visualizaciones y gráficos que permiten que las organizaciones
tomen decisiones fundamentadas.
Nota
Los roles de trabajo definen tareas y responsabilidades diferenciadas. En algunas

organizaciones, la misma persona podría ejercer varios roles, por lo que, en su
rol de administración de base de datos, podría aprovisionar una base de datos
transaccionales y, luego, en su rol de ingeniería de datos podría crear una
canalización para transferir datos de la base de datos a un almacén de datos
para su análisis.
Administrador de base de datos
Un administrador de base de datos de Azure es responsable del

diseño, la implementación, el mantenimiento y los aspectos operativos de los
sistemas de bases de datos locales y los basados en la nube. Son responsables
de la disponibilidad general y de las optimizaciones y el rendimiento coherentes
de las bases de datos. Trabajan con las partes interesadas para implementar
directivas, herramientas y procesos para la realización de copias de seguridad,
así como planes de recuperación que permiten reponerse tras un desastre
natural o un error humano.
Los administradores de base de datos también son responsables de administrar

la seguridad de los datos en la base de datos, conceder privilegios sobre los
datos, y conceder o denegar el acceso a los usuarios según corresponda.
Ingeniero de datos
Los ingenieros de datos colaboran con las partes interesadas para

diseñar e implementar cargas de trabajo relacionadas con datos, incluidas
canalizaciones de ingesta de datos, actividades de limpieza y transformación, y
almacenes de datos para cargas de trabajo analíticas. Usan una amplia gama de
tecnologías de plataforma de datos, como bases de datos relacionales y no
relacionales, almacenes de archivos y flujos de datos.
También son responsables de garantizar que la privacidad de los datos se

mantenga dentro de la nube y que abarque desde el entorno local hasta los
almacenes de datos en la nube. Se ocupan de la administración y la supervisión
de canalizaciones de datos para asegurarse de que las cargas de datos
funcionen según lo previsto.
Analista de datos
Los analistas de datos ayudan a las empresas a maximizar el
valor de sus recursos de datos. Son los responsables de explorar datos para
identificar tendencias y relaciones, diseñar e implementar modelos analíticos, y
habilitar funcionalidades de análisis avanzado mediante informes y
visualizaciones.
Los analistas de datos se ocupan del procesamiento de los datos sin procesar
para convertirlos en información pertinente, en función de los requisitos
empresariales establecidos, con el fin de ofrecer conclusiones de interés.
Nota
Los roles que se describen aquí representan los roles clave relacionados con los
datos que se encuentran en la mayoría de las organizaciones medianas y
grandes. Hay roles adicionales de este tipo que no se mencionan aquí,
como científico de datos y arquitecto de datos; además, existen otros
profesionales técnicos que trabajan con datos, como los desarrolladores de
aplicaciones y los ingenieros de software.
Identificación de los servicios de

datos
Microsoft Azure es una plataforma de nube que usan las aplicaciones y la
infraestructura de TI de algunas de las organizaciones más grandes del mundo.
Incluye numerosos servicios para admitir soluciones en la nube, incluidas cargas
de trabajo de datos transaccionales y analíticos.
A continuación se describen algunos de los servicios en la nube que se usan

más a menudo para los datos.
Nota
En este tema se tratan solo algunos de los servicios de datos más usados para
soluciones transaccionales y analíticas modernas. Hay disponibles otros
servicios.
Azure SQL
Azure SQL es el nombre colectivo de una familia de soluciones de
bases de datos relacionales basadas en el motor de base de datos de
Microsoft SQL Server. Los servicios específicos de Azure SQL incluyen:
 Azure SQL Database: se trata de una base de datos de plataforma

como servicio (PaaS) totalmente administrada hospedada en Azure
 Azure SQL Managed Instance: es una instancia hospedada de
SQL Server con mantenimiento automatizado, que permite una
configuración más flexible que Azure SQL Database, pero con más
responsabilidad administrativa para el propietario.
 Máquina virtual de Azure SQL: consiste en una máquina virtual
con una instalación de SQL Server, lo que ofrece una capacidad de
configuración máxima con una responsabilidad de administración
completa.
Normalmente, los administradores de bases de datos aprovisionan y

administran sistemas de bases de datos de Azure SQL para admitir aplicaciones
de línea de negocio (LOB) que necesitan almacenar datos transaccionales.
Los ingenieros de datos pueden usar sistemas de bases de datos de Azure SQL

como orígenes para canalizaciones de datos que realizan operaciones
de extracción, transformación y carga (ETL) para ingerir los datos transaccionales
en un sistema analítico.
Los analistas de datos pueden consultar las bases de datos de Azure SQL

directamente para crear informes, aunque en organizaciones grandes los datos
suelen combinarse con datos de otros orígenes en un almacén de datos
analíticos para admitir análisis empresariales.
Azure Database para bases de datos relacionales

de código abierto
Azure incluye servicios administrados para sistemas populares de

bases de datos relacionales de código abierto, entre los que se incluyen:
 Azure Database for MySQL: consiste en un sistema de

administración de bases de datos de código abierto fácil de usar
que suele emplearse en aplicaciones de pila
de Linux, Apache, MySQL y PHP (LAMP).
 Azure Database for MariaDB: es un sistema de administración de
bases de datos más reciente que han creado los desarrolladores
originales de MySQL. El motor de base de datos se ha reescrito y se
ha optimizado para mejorar el rendimiento. MariaDB ofrece
compatibilidad con Oracle Database (otro sistema de
administración de bases de datos comerciales conocido).
 Azure Database for PostgreSQL: se trata de una base de datos
híbrida de objetos relacionales. Una base de datos de PostgreSQL
permite almacenar datos en tablas relacionales, pero también tipos
de datos personalizados con sus propias propiedades no
relacionales.
Al igual que sucede con los sistemas de bases de datos de Azure SQL, los
administradores de bases de datos son los responsables de administrar las
bases de datos relacionales de código abierto para admitir aplicaciones
transaccionales. Dichas bases de datos proporcionan un origen de datos para
los ingenieros de datos que crean canalizaciones destinadas a soluciones
analíticas, así como para los analistas de datos que crean informes.
Azure Cosmos DB
Azure Cosmos DB es un sistema de base de datos no relacional

(NoSQL) a escala global que admite varias interfaces de programación de
aplicaciones (API), lo que permite almacenar y administrar datos como
documentos JSON, pares clave-valor, familias de columnas y gráficos.
En algunas organizaciones, los administradores de base de datos pueden

aprovisionar y administrar las instancias de Cosmos DB, aunque suelen ser los
desarrolladores de software quienes administran el almacenamiento de datos
NoSQL como parte de la arquitectura general de la aplicación. A menudo, los
ingenieros de datos necesitan integrar orígenes de datos de Cosmos DB en
soluciones analíticas empresariales que admitan el modelado y la elaboración
de informes por parte de los analistas de datos.
Azure Storage
Azure Storage es un servicio básico de Azure que permite
almacenar datos en:
 Contenedores de blobs: almacenamiento escalable y rentable para

archivos binarios.
 Recursos compartidos de archivos: recursos compartidos de
archivos de red, como es habitual en redes corporativas.
 Tablas: almacenamiento de clave-valor para aplicaciones que
necesitan leer y escribir valores de datos rápidamente.
Los ingenieros de datos usan Azure Storage para hospedar lagos de datos, es

decir, almacenamiento de blobs con un espacio de nombres jerárquico que
permite organizar los archivos en carpetas en un sistema de archivos
distribuido.
Azure Data Factory
Azure Data Factory es un servicio de Azure que permite definir y

programar canalizaciones de datos para transferir y transformar datos. Puede
integrar las canalizaciones con otros servicios de Azure, lo que le permite ingerir
datos de almacenes de datos en la nube, procesar los datos mediante procesos
basados en la nube y conservar los resultados en otro almacén de datos.
Los ingenieros de datos usan Azure Data Factory para compilar soluciones
de extracción, transformación y carga (ETL) que rellenan almacenes de datos
analíticos con datos de sistemas transaccionales de toda la organización.
Azure Synapse Analytics
Azure Synapse Analytics es una solución completa y unificada de

análisis de datos que proporciona una interfaz de servicio única para varias
funcionalidades analíticas, entre las que se incluyen las siguientes:
 Pipelines: se basa en la misma tecnología que Azure Data Factory.
 SQL: se trata de un motor de base de datos SQL altamente
escalable, optimizado para cargas de trabajo de almacenamiento de
datos.
 Apache Spark: es un sistema de procesamiento de datos
distribuidos de código abierto que admite varios lenguajes de
programación y API, incluidos Java, Scala, Python y SQL.
 Azure Synapse Data Explorer: consiste en una solución de análisis
de datos de alto rendimiento que está optimizada para consultas en
tiempo real de datos de registro y telemetría mediante el Lenguaje
de consulta Kusto (KQL).
Los ingenieros de datos pueden usar Azure Synapse Analytics para crear una
solución de análisis de datos unificada que combine canalizaciones de ingesta
de datos, almacenamiento en el almacén de datos y almacenamiento en el lago
de datos mediante un único servicio.
Los analistas de datos pueden usar grupos de Spark y SQL mediante cuadernos
interactivos para explorar y analizar los datos. Además, pueden aprovechar la
integración con servicios como Azure Machine Learning y Microsoft Power BI
para crear modelos de datos y extraer información de los datos.
Azure Databricks
Azure Databricks es una versión integrada de Azure de la popular

plataforma Databricks, que combina la plataforma de procesamiento de datos
de Apache Spark con la semántica de base de datos SQL y una interfaz de
administración integrada para habilitar el análisis de datos a gran escala.
Los ingenieros de datos pueden usar las capacidades de Databricks y Spark para
crear almacenes de datos analíticos en Azure Databricks.
Los analistas de datos pueden usar la compatibilidad nativa con cuadernos en

Azure Databricks para consultar y visualizar datos en una interfaz basada en
web fácil de usar.
HDInsight de Azure
Azure HDInsight es un servicio de Azure que proporciona clústeres
hospedados en Azure para tecnologías conocidas de procesamiento de
macrodatos de código abierto de Apache, entre las que se incluyen las
siguientes:
 Apache Spark: es un sistema de procesamiento de datos

distribuidos que admite varios lenguajes de programación y API,
incluidos Java, Scala, Python y SQL.
 Apache Hadoop: se trata de un sistema distribuido que usa
trabajos de MapReduce para procesar grandes volúmenes de datos
de forma eficaz en varios nodos de clúster. Los trabajos de
MapReduce pueden escribirse en Java o abstraerse mediante
interfaces como Apache Hive, una API basada en SQL que se
ejecuta en Hadoop.
 Apache HBase: consiste en un sistema de código abierto para
consultas y almacenamiento de datos NoSQL a gran escala.
 Apache Kafka: es un agente de mensajes para el procesamiento de
flujos de datos.
 Apache Storm: se trata de un sistema de código abierto para el
procesamiento de datos en tiempo real mediante una topología
de spouts y bolts.
Los ingenieros de datos pueden usar Azure HDInsight para admitir cargas de
trabajo de análisis de macrodatos que dependan de varias tecnologías de
código abierto.
Azure Stream Analytics
Azure Stream Analytics es un motor de procesamiento de flujos en

tiempo real que captura un flujo de datos de una entrada, aplica una consulta
para extraer y manipular los datos del flujo de entrada y escribe los resultados
en una salida para su análisis o procesamiento posterior.
Los ingenieros de datos pueden incorporar Azure Stream Analytics en

arquitecturas de análisis de datos que capturan datos de streaming para su
ingesta en un almacén de datos analíticos o para su visualización en tiempo
real.
Explorador de datos de Azure
Azure Data Explorer es un servicio independiente que permite

consultar datos de telemetría y del registro con el mismo alto rendimiento que
el runtime de Azure Synapse Data Explorer en Azure Synapse Analytics.
Los analistas de datos pueden usar Azure Data Explorer para consultar y analizar
datos que incluyan un atributo de marca de tiempo, como es habitual en los
archivos de registro y los datos de telemetría de IoT (Internet de las cosas).
Microsoft Purview
Microsoft Purview proporciona una solución para la gobernanza y

la detectabilidad de datos de toda la empresa. Puede usar Microsoft Purview
para crear un mapa de los datos y realizar un seguimiento del linaje de datos en
varios orígenes de datos y sistemas, lo que le permite encontrar datos de
confianza para el análisis y la elaboración de informes.
Los ingenieros de datos pueden usar Microsoft Purview para aplicar la

gobernanza de datos en toda la empresa y garantizar la integridad de los datos
que se usan para admitir cargas de trabajo analíticas.
Microsoft Power BI
Microsoft Power BI es una plataforma para el modelado de datos

analíticos y la elaboración de informes que los analistas de datos pueden usar
para crear y compartir visualizaciones de datos interactivas. Los informes de
Power BI se pueden crear mediante la aplicación Power BI Desktop y, luego,
publicarse y entregarse por medio de informes y aplicaciones basados en web
en el servicio Power BI, así como en la aplicación móvil de Power BI.

Data Fundamentals JP

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Data Fundamentals JP

Cargado por

Copyright:

Formatos disponibles

Aspectos básicos de los datos

Ahora los datos pueden recopilarse de manera más fácil y almacenarse de

La capacidad de capturar, almacenar y analizar datos es un requisito básico para

Identificación de los formatos de

Un formato común para los datos semiestructurados es la notación de objetos

Habitualmente se usan dos categorías generales de almacén de datos:

Exploraremos ambos tipos de almacén de datos en temas posteriores.

El formato de archivo específico que se usa para almacenar datos depende de

 El tipo de datos que se almacenan (estructurados,

A continuación se describen algunos formatos de archivo comunes.

Archivos de texto delimitado

En el ejemplo siguiente se muestran los datos de clientes en formato delimitado

Notación de objetos JavaScript (JSON)

En el ejemplo siguiente se muestra un documento JSON que contiene una

Lenguaje de marcado extensible (XML)

Objeto binario grande (BLOB)

Formatos de archivo optimizados

 Avro es un formato basado en filas creado por Apache. Cada

Bases de datos relacionales

Bases de datos no relacionales

Hay cuatro tipos comunes de bases de datos no relacionales que se usan

 Bases de datos de documentos, que son una forma específica de

 Bases de datos de familia de columnas, que almacenan datos

 Bases de datos de grafos, que almacenan entidades como nodos

Un sistema de procesamiento de datos transaccional es lo que la mayoría de los

Los sistemas transaccionales suelen ser de gran volumen; a veces, controlan

Las soluciones OLTP se basan en un sistema de base de datos en el que el

 Atomicidad: cada transacción se trata como una unidad única, la

procesamiento de datos analíticos

1. Los archivos de datos se pueden almacenar en un lago de datos

Los lagos de datos son comunes en escenarios de procesamiento analítico de

Los almacenamientos de datos son un recurso establecido para almacenar datos

Los diferentes tipos de usuario pueden llevar a cabo el trabajo analítico de

 Los científicos de datos pueden trabajar directamente con archivos

roles de trabajo del mundo de los

 Los administradores de bases de datos administran bases de

Los roles de trabajo definen tareas y responsabilidades diferenciadas. En algunas

Un administrador de base de datos de Azure es responsable del

Los administradores de base de datos también son responsables de administrar

Los ingenieros de datos colaboran con las partes interesadas para

También son responsables de garantizar que la privacidad de los datos se

Identificación de los servicios de

A continuación se describen algunos de los servicios en la nube que se usan

 Azure SQL Database: se trata de una base de datos de plataforma

Normalmente, los administradores de bases de datos aprovisionan y

Los ingenieros de datos pueden usar sistemas de bases de datos de Azure SQL

Los analistas de datos pueden consultar las bases de datos de Azure SQL

Azure Database para bases de datos relacionales

Azure incluye servicios administrados para sistemas populares de

 Azure Database for MySQL: consiste en un sistema de

Azure Cosmos DB es un sistema de base de datos no relacional

En algunas organizaciones, los administradores de base de datos pueden

 Contenedores de blobs: almacenamiento escalable y rentable para

Los ingenieros de datos usan Azure Storage para hospedar lagos de datos, es

Azure Data Factory

Azure Data Factory es un servicio de Azure que permite definir y

Azure Synapse Analytics

Azure Synapse Analytics es una solución completa y unificada de

Azure Databricks es una versión integrada de Azure de la popular

Los analistas de datos pueden usar la compatibilidad nativa con cuadernos en

 Apache Spark: es un sistema de procesamiento de datos

Azure Stream Analytics