Está en la página 1de 18

Analítica:

Recopilación y Exploración de datos

John Corredor Franco, PhD


Julio, 2023
➢ Agenda

● Preparación de los Datos


● Estadística descriptiva
➢ Preparación de los datos

❏ Tipo de acceso
❏ Inventario de fuente de datos
❏ Documentación de cada fuente de datos
❏ Extracción, Transformación y Carga en el repositorio analítico
➢ Preparación de los datos: Inventario de fuente de datos

❏ Fuente de datos (internos o externos)


❏ Dueño
❏ Responsable de mantenimiento de datos
❏ DBA
❏ Costo
❏ Tipo de almacenamiento (Base de datos, archivo plano, etc.)
❏ Número de tablas, atributos, registros, etc.
❏ Tamaño en bytes
❏ Almacenamiento físico (servidor interno, servidor externo, etc.)
❏ Requerimientos de seguridad
❏ Restricciones de uso
❏ Requerimientos de privacidad
➢ Preparación de los datos: Ejemplos de fuentes de datos

➢ ERP, sistemas de información empresariales


➢ Compras, devoluciones, PQR
➢ Hojas de cálculo con datos históricos
➢ Comportamiento en portal
➢ Videos de cámaras de seguridad
➢ Información de seguimiento GPS
➢ Información de salud
➢ Interacción con redes sociales
➢ Datos Abiertos (www.datos.gov.co)
➢ Preparación de los datos: Tipos de Datos de Google BigQuery

Nombre Tipo de Dato Descripción


Integer INT64 Valor numérico sin componentes fraccionarios
Floating point FLOAT64 Valores numéricos aproximados con componentes fraccionarios
Numeric NUMERIC Valores numéricos exactos con componentes fraccionarios
BigNumeric BIGNUMERIC Valores numéricos exactos con componentes fraccionarios
Boolean BOOL Verdadero o Falso
String STRING Datos de caracteres de longitud variable
Bytes BYTES Datos binarios de longitud variable
Date DATE Fecha lógica de calendario
Date/Time DATETIME Año, mes, día, hora, minuto, segundo y subsegundo
Time TIME Tiempo, independiente de alguna fecha específica
Timestamp TIMESTAMP Un punto absoluto del tiempo, con microsegundos de precisión
Struct (Registro) STRUCT Contenedor con campos ordenados, cada uno con tipos de datos y nombre de campos

Geography GEOGRAPHY Un conjunto de puntos en la superficie terrestre


➢ Preparación de los datos: Carga de datos a Repositorio Analítico

Fuente: https://www.btelligent.com/en/blog/blueprint-cloud-data-platform-architecture-data-lake-1/
➢ Preparación de los datos: Análisis de calidad

❖ Incompletos
❖ Errores
➢ Atributos opcionales en el sistema ❖ Inconsistencias
➢ Falta de validaciones en el sistema
de información ➢ Datos provenientes de múltiples
de información
➢ Cuando se recolectó la fuentes.
➢ Problemas humanos
información aún no estaba ➢ Fuentes de datos informales
➢ Errores en la transmisión de los
completa. (Hojas de Cálculo)
datos
➢ Problemas humanos
➢ Preparación de los datos: Exploración inicial
➢ Estadística Descriptiva

➔ Un conjunto de datos es una colección de respuestas u observaciones de una muestra o de toda la


población.

➔ La estadística descriptiva resume y organiza las características de un conjunto de datos.

➔ En la investigación cuantitativa, tras recoger los datos, el primer paso del análisis estadístico
consiste en describir las características de las respuestas, como la media de una variable (por
ejemplo, la edad) o la relación entre dos variables (por ejemplo, la edad y la creatividad).

➔ El siguiente paso es la estadística inferencial, que le ayuda a decidir si sus datos confirman o
refutan su hipótesis y si son generalizables a una población mayor.
➢ Estadística Descriptiva

Descriptive statistics

Measures of central
Distribution Measures of variability
tendency

La distribución se refiere a la Mean Range


frecuencia de cada valor.
Median Standard deviation
La tendencia central se refiere
a la media de los valores. Mode Variance

La variabilidad o dispersión se Interquartile range


refiere a la dispersión de los
valores.
➢ Estadística Descriptiva: Shape
Simétrica
● la media, la mediana y la moda coinciden
● no se aprecia asimetría
● la distribución se describe como simétrica

Sesgada a la Izquierda (Left-Skewed)


● mean < median
● cola larga hacia la izquierda

Sesgada a la Derecha (Right-Skewed)


● mean > median
● cola larga hacia la derecha
➢ Estadística Descriptiva: Medidas de tendencia central

The mean, or M, is the most commonly The median is the value that’s exactly in
Mode is the most repeated data
used method for finding the average the middle of a data set.

Data set 15, 3, 12, 0, 24, 3 Data set ordered 0, 3, 3, 12, 15, 24
Data set ordered 0, 3, 3, 12, 15, 24
Sum 57 Middle numbers 3, 12

Total num 6
Median (3 + 12)/2 = 7.5 Median 3
Mean 57/6 = 9.5
➢ Estadística Descriptiva: Medidas de variabilidad

Range gives an idea of the distance The standard deviation (s or SD) is the The variance is the average of squared
between the most extreme response scores. average amount of variability in your deviations from the mean. Variance
dataset. reflects the degree of spread in the data
set. The more spread the data, the larger
Data set ordered 0, 3, 3, 12, 15, 24 Raw data Deviation from mean Squared deviation the variance is in relation to the mean.
15 15 - 9.5 = 5.5 30.25
3 3 - 9.5 = -6.5 42.25
12 12 - 9.5 = 2.5 6.25 Data set ordered 0, 3, 3, 12, 15, 24
Range 24 - 0 = 24
0 0 - 9.5 = -9.5 90.25
24 24 - 9.5 = 14.5 210.25
S 9.18
3 3 - 9.5 = -6.5 42.25
Sum of squares 421.5 S2 84.3
Divide by (N - 1) 421.5/5 = 84.3
Square root √84.3 = 9.18

Se puede decir que, por término medio, cada


puntuación se desvía de la media en 9,18 puntos.
➢ Estadística Descriptiva
➢ Estadística Descriptiva

Fuente: https://yassineelkhal.medium.com/variance-and-standard-deviation-f4cc7e78b92
➢ Estadística Descriptiva: Dispersión

Fuente: https://bookdown.org/a_shaker/STM1001_Topic_2/5-1-scatter-plots.html
➢ Estadística Descriptiva: Correlación

También podría gustarte