Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
Durante las últimas décadas, la cantidad de datos que generan los sistemas, las
aplicaciones y los dispositivos ha aumentado considerablemente. Los datos
están en todas partes, en una gran variedad de estructuras y formatos.
Datos estructurados
Los datos estructurados son aquellos que se ajustan a un esquema fijo, por lo
que todos los datos tienen los mismos campos o propiedades. Normalmente, el
esquema de las entidades de datos estructurados es tabular; es decir, los datos
se representan en una o varias tablas que constan de filas para representar cada
instancia de una entidad de datos y columnas para representar los atributos de
la entidad. Por ejemplo, en la imagen siguiente se muestran las
representaciones de datos tabulares para las entidades Customer y Product.
Los datos estructurados suelen almacenarse en una base de datos en la que
varias tablas pueden hacer referencia entre sí mediante el uso de valores de
clave en un modelo relacional, que exploraremos con más detalle más adelante.
Datos semiestructurados
Los datos semiestructurados son información que tiene cierta estructura, pero
que permite alguna variación entre las instancias de entidad. Por ejemplo,
aunque la mayoría de los clientes pueden tener una dirección de correo
electrónico, algunos podrían tener varias y otros, ninguna.
JSONCopiar
// Customer 1
{
"firstName": "Joe",
"lastName": "Jones",
"address":
{
"streetAddress": "1 Main St.",
"city": "New York",
"state": "NY",
"postalCode": "10099"
},
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "joe@litware.com"
}
]
}
// Customer 2
{
"firstName": "Samir",
"lastName": "Nadoy",
"address":
{
"streetAddress": "123 Elm Pl.",
"unit": "500",
"city": "Seattle",
"state": "WA",
"postalCode": "98999"
},
"contact":
[
{
"type": "email",
"address": "samir@northwind.com"
}
]
}
Nota
JSON es solo una de las muchas maneras en las que se pueden representar los
datos semiestructurados. Lo importante aquí no es proporcionar un examen
detallado de la sintaxis de JSON, sino ilustrar la naturaleza flexible de las
representaciones de datos semiestructurados.
Datos no estructurados
No todos los datos están estructurados o semiestructurados. Por ejemplo, los
documentos, imágenes, datos de audio y de vídeo y archivos binarios podrían
no tener una estructura específica. Este tipo de datos se conoce como datos no
estructurados.
Almacenes de datos
Las organizaciones suelen almacenar los datos en formato estructurado,
semiestructurado o no estructurado para registrar los detalles de entidades (por
ejemplo, clientes y productos), eventos específicos (como transacciones de
ventas) u otra información en documentos, imágenes y otros formatos. Los
datos almacenados se pueden recuperar para su análisis y la generación de
informes más adelante.
Almacenes de archivos
Bases de datos
JSONCopiar
{
"customers":
[
{
"firstName": "Joe",
"lastName": "Jones",
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "joe@litware.com"
}
]
},
{
"firstName": "Samir",
"lastName": "Nadoy",
"contact":
[
{
"type": "email",
"address": "samir@northwind.com"
}
]
}
]
}
XMLCopiar
<Customers>
<Customer name="Joe" lastName="Jones">
<ContactDetails>
<Contact type="home" number="555 123-1234"/>
<Contact type="email" address="joe@litware.com"/>
</ContactDetails>
</Customer>
<Customer name="Samir" lastName="Nadoy">
<ContactDetails>
<Contact type="email" address="samir@northwind.com"/>
</ContactDetails>
</Customer>
</Customers>
Cuando trabajan con datos de este tipo, los profesionales de datos suelen hacer
referencia a estos archivos de datos como BLOB (objetos binarios grandes).
Entre los formatos de archivo optimizados más habituales que puede ver se
incluyen Avro, ORC y Parquet:
bases de datos
Las bases de datos se usan para definir un sistema central en el que los datos se
pueden almacenar y consultar. En un sentido simplista, el sistema de archivos en
el que se almacenan los archivos es un tipo de base de datos; pero cuando
usamos el término en un contexto de datos profesional, normalmente nos
referimos a un sistema dedicado para administrar registros de datos en lugar de
archivos.
Los sistemas OLTP suelen usarse para admitir aplicaciones activas que procesan
datos empresariales, a menudo denominadas aplicaciones de línea de
negocio (LOB).
Estos son los tres roles de trabajo principales que se ocupan de los datos de la
mayoría de las organizaciones:
Ingeniero de datos
Analista de datos
Los analistas de datos ayudan a las empresas a maximizar el
valor de sus recursos de datos. Son los responsables de explorar datos para
identificar tendencias y relaciones, diseñar e implementar modelos analíticos, y
habilitar funcionalidades de análisis avanzado mediante informes y
visualizaciones.
Los analistas de datos se ocupan del procesamiento de los datos sin procesar
para convertirlos en información pertinente, en función de los requisitos
empresariales establecidos, con el fin de ofrecer conclusiones de interés.
Nota
Los roles que se describen aquí representan los roles clave relacionados con los
datos que se encuentran en la mayoría de las organizaciones medianas y
grandes. Hay roles adicionales de este tipo que no se mencionan aquí,
como científico de datos y arquitecto de datos; además, existen otros
profesionales técnicos que trabajan con datos, como los desarrolladores de
aplicaciones y los ingenieros de software.
Nota
En este tema se tratan solo algunos de los servicios de datos más usados para
soluciones transaccionales y analíticas modernas. Hay disponibles otros
servicios.
Azure SQL
Azure SQL es el nombre colectivo de una familia de soluciones de
bases de datos relacionales basadas en el motor de base de datos de
Microsoft SQL Server. Los servicios específicos de Azure SQL incluyen:
Al igual que sucede con los sistemas de bases de datos de Azure SQL, los
administradores de bases de datos son los responsables de administrar las
bases de datos relacionales de código abierto para admitir aplicaciones
transaccionales. Dichas bases de datos proporcionan un origen de datos para
los ingenieros de datos que crean canalizaciones destinadas a soluciones
analíticas, así como para los analistas de datos que crean informes.
Azure Cosmos DB
Azure Storage
Azure Storage es un servicio básico de Azure que permite
almacenar datos en:
Los ingenieros de datos usan Azure Data Factory para compilar soluciones
de extracción, transformación y carga (ETL) que rellenan almacenes de datos
analíticos con datos de sistemas transaccionales de toda la organización.
Los ingenieros de datos pueden usar Azure Synapse Analytics para crear una
solución de análisis de datos unificada que combine canalizaciones de ingesta
de datos, almacenamiento en el almacén de datos y almacenamiento en el lago
de datos mediante un único servicio.
Los analistas de datos pueden usar grupos de Spark y SQL mediante cuadernos
interactivos para explorar y analizar los datos. Además, pueden aprovechar la
integración con servicios como Azure Machine Learning y Microsoft Power BI
para crear modelos de datos y extraer información de los datos.
Azure Databricks
Los ingenieros de datos pueden usar las capacidades de Databricks y Spark para
crear almacenes de datos analíticos en Azure Databricks.
HDInsight de Azure
Azure HDInsight es un servicio de Azure que proporciona clústeres
hospedados en Azure para tecnologías conocidas de procesamiento de
macrodatos de código abierto de Apache, entre las que se incluyen las
siguientes:
Los ingenieros de datos pueden usar Azure HDInsight para admitir cargas de
trabajo de análisis de macrodatos que dependan de varias tecnologías de
código abierto.
Los analistas de datos pueden usar Azure Data Explorer para consultar y analizar
datos que incluyan un atributo de marca de tiempo, como es habitual en los
archivos de registro y los datos de telemetría de IoT (Internet de las cosas).
Microsoft Purview
Microsoft Power BI