Está en la página 1de 21

Python para Data

Science: ETL, limpieza


e ingeniería de datos

Analítica de datos e información


http://www.aprenda.mx :: info@aprendastudio.com
Analítica de datos

http://www.aprenda.mx :: info@aprendastudio.com
Analítica de datos

La analítica de datos es el conjunto de


tareas que permiten a) recolectar datos
existentes, y aplicar sobre ellos b) técnicas
estadísticas y de modelación c) con el fin de
limpiarlos, d) transformarlos, e) y
representarlos de manera abstracta y
gráfica, f) con la intención de revelar
estados y tendencias de los hechos.

http://www.aprenda.mx :: info@aprendastudio.com
Recolectar datos existentes

La analítica de datos inicia recolectando


datos existentes que están almacenados en
alguna fuente actualmente.

El analista de datos requiere un alto


conocimiento de la organización, de la
ubicación de los datos, de la semántica de
los datos, y su disponibilidad.

http://www.aprenda.mx :: info@aprendastudio.com
Técnicas estadísticas y de modelación

El analista de datos debe conocer técnicas de


estadística descriptiva, principalmente lo
relacionado con EDA (Exploratory Data
Analysis).
• Quedan fuera temas de estadística inferencial, como
las estimaciones, las regresiones y los pronósticos;
también quedan fuera técnicas como machine
learning, deep learning, AI, y otras, propias de Data
Science.

El analista de datos debe tener conocimientos


de modelación de bases de datos relacionales,
debido a que probablemente deba integrar
datos de diferentes fuentes, de una manera
estructurada.

http://www.aprenda.mx :: info@aprendastudio.com
Limpieza de datos

La analítica de datos incluye tareas de limpieza


de datos, es decir, corregir datos erróneos,
excluir datos incompletos, comprobación de
fórmulas, eliminación de duplicados,
verificación de unicidad de datos, así como el
tratamiento de datos ausentes y atípicos.

El analista de datos debe conocer


herramientas que permitan hacer limpieza de
datos (Excel, Power BI, Tableau), o lenguajes de
programación que lo permitan (Python, R).

http://www.aprenda.mx :: info@aprendastudio.com
Transformación de datos

La analítica de datos incluye tareas de


transformación de datos, es decir,
estandarizar el nombre de tablas y campos,
calcular campos a partir de los campos
existentes, realizar conversiones y
estandarizaciones de unidades de medición,
generar campos derivados, y habilitar
equivalencias categóricas.

El analista de datos debe tener sentido común,


respeto a los protocolos, habilidades numéricas
y pensamiento lógico y funcional.

http://www.aprenda.mx :: info@aprendastudio.com
Representación abstracta y gráfica

La analítica de datos incluye tareas de


representación abstracta y gráfica:
• Por representación abstracta nos referimos
a las cifras, las tablas de datos, y los KPI
expresados en forma numérica.
• Por representación gráfica, nos referimos a
gráficos estándar o de diseño, que ilustran
estados y tendencias.

El analista de datos debe saber EDA y


graficación; es deseable preparación
especializada en visualización y diseño de
informes.

http://www.aprenda.mx :: info@aprendastudio.com
Revelación de estados y tendencias

La analítica de datos revela estados y


tendencias:
• Por estados nos referimos a que revela la
situación en que se encuentra algo, en un
momento determinado.
• Por tendencia, nos referimos a que revela la
tendencia de los hechos en el pasado.

El analista de datos debe tener pertinencia Es importante anotar que la analítica no pronostica
operativa, es decir, conocer qué información de ni estima cómo serán las cosas en el futuro, ni cómo
el pasado se vería afectado con la variación de
estados y tendencias es requerido para la toma parámetros hipotéticos. Escapa de su alcance.
de decisiones.

http://www.aprenda.mx :: info@aprendastudio.com
Información

http://www.aprenda.mx :: info@aprendastudio.com
Definición formal de base de datos

Los trabajos de analítica se realizan


principalmente a partir de bases de datos.

Un base de datos es una “colección auto


descriptiva de registros integrados” (Kroenke,
2018).

http://www.aprenda.mx :: info@aprendastudio.com
Definición formal de dato

Un dato es la representación simbólica, ya sea


mediante números o letras, de una
característica cualitativa o cuantitativa que
facilita la descripción de algo.

Ejemplos:
- El código de un producto.
- La fecha de una factura.
- La edad de una persona.
- El costo de un insumo.
- El color de un automóvil.

http://www.aprenda.mx :: info@aprendastudio.com
Definición formal de información

La información es el a) conjunto de datos


con la b) cantidad y forma adecuada para c)
aumentar el conocimiento o reducir la
incertidumbre d) respecto a sujetos,
eventos o estados, e) en una circunstancia o
contexto particular.

http://www.aprenda.mx :: info@aprendastudio.com
Conjunto de datos

La analítica se realiza utilizando conjuntos


de datos que provienen de múltiples
fuentes, como pueden ser bases de datos,
archivos de texto plano, hojas electrónicas,
e incluso datos no estructurados, como
podrían ser páginas Web, correos
electrónicos, etcétera.

Principalmente los datos estarán en bases


de datos de tipo SQL, es decir, basadas en el
modelo relacional.

http://www.aprenda.mx :: info@aprendastudio.com
Cantidad y forma adecuada

La analítica culmina cuando los datos se


representan usando la cantidad y forma
adecuada.
• Por cantidad nos referimos al nivel de detalle
en que se requiere ver la información.
• Por forma nos referimos a la forma de
representación, principalmente tablas de
datos, o gráficos.

Se puede obtener una tabla con el detalle de


cientos de registros, una sola cifra, o un gráfico
de barras, a partir de los mismos datos.

http://www.aprenda.mx :: info@aprendastudio.com
Aumenta el conocimiento o reduce incertidumbre

La analítica pretende aumentar el


conocimiento o reducir la incertidumbre.
• Por aumentar el conocimiento nos
referimos a que nos revela cosas que no
sabemos, pero que necesitamos para la
toma de decisiones.
• Por reducir la incertidumbre nos
referimos a que reduce los riesgos
derivados de la toma de una decisión,
aumentando nuestras certezas.

http://www.aprenda.mx :: info@aprendastudio.com
Sujetos, eventos o estados (1/3)

La información puede ser relativa a sujetos, eventos


o estados.

Son sujetos quienes realizan cosas o a quienes les


suceden las cosas.
• Ejemplos: empleados, productos, almacenes, colores.

• En algunos casos, se consideran sujetos algunos


atributos clasificados, siempre y cuando
constituyan catálogos predefinidos de algo, en
donde se tiene una clave y una descripción.
• Ejemplos: catálogo de colores, catálogo de
presentaciones, catálogo de ciudades, catálogo de
tamaños, etcétera.

http://www.aprenda.mx :: info@aprendastudio.com
Sujetos, eventos o estados (2/3)

Son eventos aquello que realizan los


sujetos, o lo que le sucede a los sujetos; los
eventos existen en relación a sujetos, y
generalmente contienen datos que refieren
a los sujetos, y datos relativos a marcas de
tiempo, lugar o secuencia.
• Ejemplos: Entradas y salidas de almacén
(relacionadas con algún producto);
Operaciones bancarias (relacionadas con la
cuenta de algún cliente).

http://www.aprenda.mx :: info@aprendastudio.com
Sujetos, eventos o estados (3/3)

Los estados son la situación en que se


encuentra algo o alguien; generalmente son
características o campos de un sujeto o
evento.
• Ejemplos: Un empleado puede estar activo /
in activo; una salida de almacén puede estar
autorizada / no autorizada.

http://www.aprenda.mx :: info@aprendastudio.com
Circunstancia o contexto particular

La analítica trabaja sobre una circunstancia o contexto


particular.

Esto quiere decir, que debe profundizar al caso


específico, y quedarse informando en términos
generales.
La analítica debe proveer controles que permitan
cambiar en tiempo real los parámetros del análisis,
permitiendo filtros y especificaciones varias.

• No: Informe general de ventas. (Estático).


• Sí: Informe de ventas de químicos de limpieza
vendidos en tiendas de abarrotes minoristas, del
01/01/2023, al 15/01/2023. (Con posibilidades de
cambiar los parámetros del informe, en tiempo real).

http://www.aprenda.mx :: info@aprendastudio.com
Copyright ©

Python para Data Science: ETL, limpieza e Ingeniería de datos

Contenido desarrollado por:

Dr. Felipe Ramírez


Doctor en Filosofía con Especialidad en Administración
Master en Informática Administrativa
Licenciado en Derecho y Ciencias Sociales
Licenciado en Informática Administrativa

Correo: info@aprendastudio.com
Copyright, 2018 - 2023. Derechos reservados.

http://www.aprenda.mx :: info@aprendastudio.com

También podría gustarte