Documentos de Académico
Documentos de Profesional
Documentos de Cultura
❏ Tipo de acceso
❏ Inventario de fuente de datos
❏ Documentación de cada fuente de datos
❏ Extracción, Transformación y Carga en el repositorio analítico
➢ Preparación de los datos: Inventario de fuente de datos
Fuente: https://www.btelligent.com/en/blog/blueprint-cloud-data-platform-architecture-data-lake-1/
➢ Preparación de los datos: Análisis de calidad
❖ Incompletos
❖ Errores
➢ Atributos opcionales en el sistema ❖ Inconsistencias
➢ Falta de validaciones en el sistema
de información ➢ Datos provenientes de múltiples
de información
➢ Cuando se recolectó la fuentes.
➢ Problemas humanos
información aún no estaba ➢ Fuentes de datos informales
➢ Errores en la transmisión de los
completa. (Hojas de Cálculo)
datos
➢ Problemas humanos
➢ Preparación de los datos: Exploración inicial
➢ Estadística Descriptiva
➔ En la investigación cuantitativa, tras recoger los datos, el primer paso del análisis estadístico
consiste en describir las características de las respuestas, como la media de una variable (por
ejemplo, la edad) o la relación entre dos variables (por ejemplo, la edad y la creatividad).
➔ El siguiente paso es la estadística inferencial, que le ayuda a decidir si sus datos confirman o
refutan su hipótesis y si son generalizables a una población mayor.
➢ Estadística Descriptiva
Descriptive statistics
Measures of central
Distribution Measures of variability
tendency
The mean, or M, is the most commonly The median is the value that’s exactly in
Mode is the most repeated data
used method for finding the average the middle of a data set.
Data set 15, 3, 12, 0, 24, 3 Data set ordered 0, 3, 3, 12, 15, 24
Data set ordered 0, 3, 3, 12, 15, 24
Sum 57 Middle numbers 3, 12
Total num 6
Median (3 + 12)/2 = 7.5 Median 3
Mean 57/6 = 9.5
➢ Estadística Descriptiva: Medidas de variabilidad
Range gives an idea of the distance The standard deviation (s or SD) is the The variance is the average of squared
between the most extreme response scores. average amount of variability in your deviations from the mean. Variance
dataset. reflects the degree of spread in the data
set. The more spread the data, the larger
Data set ordered 0, 3, 3, 12, 15, 24 Raw data Deviation from mean Squared deviation the variance is in relation to the mean.
15 15 - 9.5 = 5.5 30.25
3 3 - 9.5 = -6.5 42.25
12 12 - 9.5 = 2.5 6.25 Data set ordered 0, 3, 3, 12, 15, 24
Range 24 - 0 = 24
0 0 - 9.5 = -9.5 90.25
24 24 - 9.5 = 14.5 210.25
S 9.18
3 3 - 9.5 = -6.5 42.25
Sum of squares 421.5 S2 84.3
Divide by (N - 1) 421.5/5 = 84.3
Square root √84.3 = 9.18
Fuente: https://yassineelkhal.medium.com/variance-and-standard-deviation-f4cc7e78b92
➢ Estadística Descriptiva: Dispersión
Fuente: https://bookdown.org/a_shaker/STM1001_Topic_2/5-1-scatter-plots.html
➢ Estadística Descriptiva: Correlación