Está en la página 1de 25

Introducción y repaso

1
Estadística

Estadística Descriptiva Estadística Inferencial

• Recopila y organiza datos. • Inferir leyes de


• Los presenta de forma comportamiento de una
informativa. población a partir de los
datos.
• Se basa en
probabilidades.

Business Analytics
2
Variable: característica
de un objeto o individuo

Datos: conjunto de
valores individuales
asociados con una
variable

Variable
Datos

Business Analytics
3
Tipos de Variables

Categóricas Numéricas
(Cualitativas) (Cuantitativas)
Binarias
(Bernoulli)
Porcentaje

Nominales Ordinales Continuas Discretas


▪ Género ▪ Escolaridad ▪ Tiempo ▪ Edad
▪ Lugar de ▪ Escalas de ▪ Medidas ▪ Número de
nacimiento opinión ▪ Distancias personas
▪ Profesión Únicas (id) ▪ Precios
No numéricas
(texto/imagen/video)

Business Analytics
4
Estructura de Datos (Tidy Dataset)
Las bases de datos usualmente se organizan en casos de análisis (filas) y variables asociadas a los
casos (columnas).

Fuente: https://www.listendata.com/2015/02/excel-formula-convert-data-from-long-to.html

Business Analytics
5
Análisis descriptivo de datos
univariado

Business Analytics
6
Análisis descriptivo variable categórica – nominal
Gráfico de Utilidad del grafico de torta Gráfico de Cuenta de fuel-type
torta o pie barras
gas

Total
diesel

0 50 100 150 200


Útil No es útil Cantidad

Tablas resumen
fuel-type Recuento
Opinión %
diesel 20
Útil 95%
gas 185
No es útil 5%

Business Analytics
7
Gráfica de Pareto
El principio de Pareto se presenta cuando la mayoría de los elementos un conjunto de datos ocurre en número
pequeño de categrías, mientras que los pocos restantes se distribuyen en una gran cantidad de categorías. A estos
grupos se les denomina “los pocos vitales” y los “muchos triviales” .¹

1. Fuente: Levine, D. M., Berenson, M. L., & Stephan, D. (2016). Statistics for managers using Microsoft Excel

Business Analytics
8
Análisis descriptivo variable numérica
Busca revelar la estructura funcional (de probabilidad) de la variable y sus características (parámetros)
que permitan definir modelos generativos.

Tendencia
• Media o promedio
Tendencia • Mediana
Central
• Moda
Central
• Varianza
• Desviación estándar
Dispersión • Coeficiente de variación
• Curtosis

• Asimetria
• “..iles”: Cuartiles, Deciles, Percentiles
Forma
Fuente: Allende H. y Ahumada S., ILI-280

Business Analytics
9
Varianza Desviación estándar
Cálculo matemático de Transformación de la varianza
dispersión de una variable. para poder interpretarla.
𝒏
𝟏
𝝈𝟐 = ෍(𝒙𝒊 − 𝑿)𝟐 𝟏 𝒏
𝒏 σ= σ𝒊=𝟏(𝒙𝒊 − 𝑿)𝟐
𝒊=𝟏 𝒏𝟏 σ𝒏
σ= 𝒊=𝟏(𝒙𝒊 − 𝑿)𝟐
𝒏

Coeficiente de variación Kurtosis


Medida relativa de la Fuente de la variabilidad en
magnitud de la desviación pocos o muchos casos,
estándar. moderados o extremos.

Business Analytics
10
Asimetría Positiva Curva simétrica Asimetría Negativa

Moda < Mediana < Media Media = Mediana = Moda Media < Mediana < Moda

Business Analytics
11
Tablas de distribución

Frecuencia D is t r. La distribución porcentual


Precios vehiculos Frecuencia Porcentaje P o rc e nt ua l
acumulada es el porcentaje
Relativa A c um .
de datos que son menores
Menos de 10.000 98 0,48 48% 0 al límite inferior.
Entre 10.000 y 19.999 80 0,39 39% 48%
Entre 20.000 y 29.999 12 0,06 6% 87% En este caso es la sumatoria
de los porcentajes de las
Entre 30.000 y 39.999 12 0,06 6% 93%
clases anteriores.
Entre 40.000 y 49.999 3 0,01 1% 99%
Igual o más de 50.000 0 0,00 0% 100% El 87% de los autos cuestan
Total 205 1,00 100% 100% menos de USD $20.000.

# 𝑑𝑎𝑡𝑜𝑠 𝑒𝑛 𝑐𝑎𝑑𝑎 𝑐𝑙𝑎𝑠𝑒


𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑎 = 𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑅𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑥 100
# 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

Business Analytics
12
Diagrama de Barras
Representación de las frecuencias absolutas o relativas de una variable.

Frecuencia Absoluta Frecuencia Relativa

Igual o más de 50.000 Igual o más de 50.000

Entre 40.000 y 49.999 Entre 40.000 y 49.999

Entre 30.000 y 39.999 Entre 30.000 y 39.999

Entre 20.000 y 29.999 Entre 20.000 y 29.999

Entre 10.000 y 19.999 Entre 10.000 y 19.999

Menos de 10.000 Menos de 10.000

0 20 40 60 80 100 120 0,00 0,10 0,20 0,30 0,40 0,50 0,60

Business Analytics
13
Histogramas
▪ Se construye a partir de la tabla de
frecuencias.
▪ Representación de las frecuencias
relativas de una variable.
▪ Su figura puede cambiar dependiendo
del ancho de las barras.
▪ Permite analizar la forma de su
distribución.
▪ Permite complementar la información
de Curtosis y Asimetría.
▪ Brinda cierta información sobre sus
estadísticos centrales y de dispersión.

Business Analytics
14
Diagrama de cajas y bigotes

Datos
Extremos

Bigote
Cuartil 3

Mediana
Cuartil 1

Business Analytics
15
Análisis descriptivo de
datos multivariado

Business Analytics
16
Fuente: https://vandalytic.com/la-correlacion-no-implica-causalidad/

Business Analytics
17
Asociaciones Nominal - Nominal

Tablas Cruzadas Mosaicos

Cuenta de id vida
ecivil Aburrida Excitante Rutinaria Total general
Casado 3,93% 48,92% 47,15% 100,00%
Divorciado 6,76% 43,92% 49,32% 100,00%
No contesta 0,00% 100,00% 0,00% 100,00%
Separado 24,00% 32,00% 44,00% 100,00%
Soltero 5,61% 54,59% 39,80% 100,00%
Viudo 15,45% 36,36% 48,18% 100,00%
Total general 6,47% 47,52% 46,01% 100,00%

¿Qué buscar?
• Si se hicieron porcentajes de filas, buscar desigualdades entre columnas.
• Si se hicieron porcentajes de columnas, buscar desigualdades entre filas.

Business Analytics
18
Asociaciones Nominal – Numérica

Diagrama de caja y bigotes


¿Qué buscar?

▪ Comparar simetría de la caja respecto a la


mediana.
▪ Comparar simetría de los bigotes respecto a la
caja.
▪ Comparar tamaños (dispersión) de caja.
▪ Comparar tamaños (dispersión) de bigotes.
▪ Comparar posición relativa de las medianas, cajas
y bigotes.
▪ Revisar la dirección de los datos extremos
(outliers) y etiquetarlos por variable de interés.

Business Analytics
19
Asociaciones Numérica – Numérica

▪ Correlaciones
▪ Gráfico de Dispersión
Diagrama de dispersión del precio y el consumo por
▪ Series de tiempo galón en carretera
$ 50.000
$ 45.000
Gráfico de Dispersión $ 40.000

• Permite comprender el tipo de relación $ 35.000


$ 30.000
entre variables: lineal, cuadrática. $ 25.000

• Límite donde perdura la relación entre las $ 20.000


$ 15.000
variables. $ 10.000

• Datos Extremos. $ 5.000


$-
0 10 20 30 40 50 60

Business Analytics
20
Asociaciones Numérica – Numérica

Series de tiempo Serie de tiempo de ocupación hotelera


0,90

0,80

Relaciona los valores de una

Tasa de ocupación hoelera


0,70

0,60
variable numérica en el eje Y, y 0,50

una serie de tiempo asociado con 0,40

0,30

cada valor numérico del eje X. 0,20

0,10

0,00
1 2 3 4 5 6 7 8 9 10 11 12
Mes

Business Analytics
21
Asociaciones Básicas Estadísticas

Categórica Numérica
Tabla dinámica
Categórica Descriptivos divididos
(cruzada)
Numérica Descriptivos divididos Correlación

Business Analytics
22
Asociaciones Básicas Gráficos

Categórica Numérica

Categórica Barras / Tortas Agrupadas Caja y bigotes

Diagrama de Dispersión /
Numérica Caja y bigotes
Gráfica Series de tiempo

Business Analytics
23
Datos Atípicos o
anómalos

Business Analytics
24
Datos atípicos
Son observaciones cuyos valores son muy diferentes a las otras observaciones del
mismo grupo de datos, lo cual, distorsiona el resultado del análisis.

Causas Estrategias
• Errores de recolección de datos. • Remover (individual o en bloque).
• Acontecimientos extraordinarios, • Reemplazar (por el valor correcto, por un
• Valores extremos. percentil, por dominio, por un modelo).
• Causas no conocidas. • Mantener (sin cambios, con
transformaciones).
• Estudiar (reportar sin y con los datos
anómalos, medir la influencia).

Business Analytics
25

También podría gustarte