Está en la página 1de 73

Análisis exploratorio de

datos (AED) y Data profiling

MSc. Ing. Danny Luis Huanca Sevilla


Metodologías de Ciencia de datos
• CRISP – DM - IBM
• SEMMA – SAS
• AWS - ML
Metodologia AWS

Fuente: AWS - ML
CRISP - DM
Fase de entendimiento de los datos

a) Recopilación de datos.
b) Usar análisis exploratorio de datos para familiarizarse con los
datos y descubrir ideas iniciales.
c) Evaluar la calidad de los datos.
d) Si es mucha data trabajar con muestras.
CRISP - DM
Objeto
• El mundo esta lleno de
objetos y nuestra labor es
encontrar relaciones entre
los mismos.
• Como puedo representar
este auto en palabras o
que forma se les ocurre
Objeto
• Mediante características/ features
que nos permiten representar un
objeto, en este caso un auto.
• Un feature puede ser la velocidad.
• ¿Qué otras características se les
ocurre?
Objeto
• Tamaño del tanque de Gasolina.
• Caballos de fuerza.
• Cantidad de Aceite usado
Objeto
• ¿Que características se puede
ver en este conjunto de
personas?
• Ya que queremos encontrar
relaciones, será que alguna de
estas características tienen qu
Objetos
• Los objetos interactúan entre
si de maneras complejas, aun
una piedra en el piso.

• A nivel atómico que no


permite que la piedra se
hunda en la arena.
Objetos
• El gran sistema del
mundo.
• Economía
• Mercados
Objetos

• Características que
permitan
representar un
Extraer sistema, entender o
aproximar la forma
como funciona …
como se relaciona.
Objetos
• No se puede capturar todas las
características, así que se
captura algunas que son objeto
de nuestro estudio y que son
extraídas de acuerdo a una
característica de validación
(población de estudio).

• ¿Qué características tiene tu


auto familiar?
Objetos
Armar una tabla Excel en función de las características que indiquen
una base de datos de autos.
ESTADÍSTICA DESCRIPTIVA
Todo estudio estadístico debe considerar diferentes tipos
de variables:
Variables

Variables cualitativas Variables Cuantitativas


Variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer
operaciones algebraicas con ellos)

• Nominales: Si sus valores no se pueden ordenar


• Genero, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

• Ordinales: Si sus valores se pueden ordenar


• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)

• Discretas: Si toma valores enteros


• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

• Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


• Altura, Presión, Dosis de medicamento administrado, edad
Variables
Variables
ESTADÍSTICA DESCRIPTIVA
TABLAS DE FRECUENCIAS

¿Cómo ordenar la información?


Datos se agrupan en conjuntos que se
denominan clases.

Al determinar cuántos pertenecen a


cada clase, establecemos la frecuencia
y construimos así una tabla de datos
llamada tabla de frecuencias.
ESTADÍSTICA DESCRIPTIVA
¿Para qué se construyen las tablas
de frecuencias ?

1. ORDENAR RESUMIR

2. AGRUPAR INFORMACIÓN
ESTADÍSTICA DESCRIPTIVA
El formato general de una TABLA DE FRECUENCIAS O TABLA
DE DISTRIBUCIÓN DE FRECUENCIAS es el siguiente:

Nombre de la Frecuencia
variable
Categorías o Frecuencias
Recorrido de la variable Observadas
(clases)
TOTAL n
ESTADÍSTICA DESCRIPTIVA
Aplicación base Telco
ESTADÍSTICA DESCRIPTIVA

Representaciones Gráficas

Para hacer más clara y evidente la información que nos dan las tablas se utilizan
los gráficos. Existen múltiples tipos de gráficos, pero aquí trataremos solamente
los usados más frecuentemente. Estos son: gráfico de barras, gráfico de
sectores o circular (pastel), histograma, polígono de frecuencias, la ojiva y el
pictograma.
GRÁFICOS
Diagrama de barras

Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente,
en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el
otro para la escala de clasificación utilizada.
GRÁFICOS
Histogramas

Está formado por rectángulos, cuyas bases corresponden con los intervalos de clase y sus
Áreas son iguales o proporcionales a sus frecuencias.
Este gráfico se usa para representar una distribución de frecuencias de una variable cuantitativa continua. Habitualmente se
representa la frecuencia observada en el eje Y, y en el eje X la variable
GRÁFICOS
Diagrama de sectores o gráfico circular

Gráfico circular: Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o
cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la
clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para
obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de
tres).
MEDIDAS DE RESUMEN
Entre las medidas que permiten resumir información
proveniente de una población se puede considerar las
medidas de posición, medidas de dispersión y medidas
de forma.
Medidas de Posición
Tienen por objeto, obtener un valor que resuma en sí todos
los casos de una determinada variable.
La mayoría de ellas trata de ubicar el centro de la
distribución, razón por la cual, se llaman MEDIDAS DE
TENDENCIA CENTRAL; estas son: Media, Mediana y Moda.
MEDIDAS DE TENDENCIA CENTRAL

Media aritmética o promedio: Es una de las medidas


de tendencia central de mayor uso. La media muestral
se simboliza por y la media poblacional de denota
por .
PROMEDIO PARA DATOS NO TABULADOS

Sea X una variable cuantitativa y x1, x2,…, xn una muestra de tamaño "n" de
valores de la variable, se define la media aritmética de X como:

x1  x2  x3  .....  xn
n

X x i

n X  i 1
n
PROMEDIO PARA DATOS TABULADOS

Para calcular la media aritmética de un conjunto de datos, se suma cada uno de los valores y se divide entre el
total de casos.
Sea X una variable estadística que toma los valores , con frecuencias absolutas , respectivamente, la media
viene dada por:

x1 f 1  x 2 f 2  ...  x n f n
x
i 1
i  fi
x 
f 1  f 2  ...  f n n

f i 1
i
Ejemplo N°1

Consideremos la edad en años de ocho personas

10 18 25 32 12 5 7 7

En este ejemplo el promedio , media o media aritmética de la edad de estas


personas está dada por:

10  18  25  32  12  5  7  7
x
8
Es decir la edad promedio de estas personas es de 14,5 años.
Media Aritmética
Mediana (Me)
Sea X una variable ordinal y sea x1, x2,…xn una muestra de tamaño n de
observaciones de la variable, se define como Mediana "Me" un valor tal que
supera a no más del 50% de las observaciones y es superado por no más del 50%
de las observaciones, cuando estas han sido ordenadas según magnitud.

MEDIANA PARA DATOS NO TABULADOS

Ejemplo: Consideremos la edad en años de ocho personas


10 18 25 32 12 5 7 7

Para calcular la mediana , previamente se deben ordenar las observaciones. En


este caso lo haremos en forma creciente:

5 7 7 10 12 18 25 32
Como la cantidad de datos es par, entonces la mediana corresponde al
promedio de los datos centrales, por lo tanto la mediana es 11.
Mediana Aritmética
Moda (Mo)

La moda se identifica al observar el valor que se presenta con más


frecuencia en la distribución.
Si consideramos el ejemplo del peso de una muestra de
personas:
65 76 48 48 68 78 90 87 67 72 78

Mo = 48 kilos
Mo = 78 kilos.
Esto significa que la mayoría de estas personas pesa 48 kilos y 78 kilos.
Esta distribución es bimodal.
Moda
Moda
MEDIDAS DE DISPERSIÓN
Indican como los datos se dispersan al rededor de su punto central (Ej. la media). Miden
la variabilidad de los datos y reflejan la tendencia de los datos de cómo se desvían de la
media. Las medidas de dispersión más utilizadas son; el rango, rango intercuartil,
varianza y desviación estándar.
MEDIDAS DE DISPERSIÓN

RANGO

RANGO INTERCUARTIL

VARIANZA

DESVIACIÓN ESTÁNDAR
PERCENTIL
La mediana divide a la variable cuantitativa en 2 partes un 50% por arriba y un
50% por debajo del valor.

¿ Y que será un percentil?

Un percentil es la división de la variable cuantitativa en 100 partes.

Entonces el percentil 99 indica que el 99% de los valores se encuentran por debajo del valor y
existe un 1% que se encuentra por encima.
CUARTILES
• Los cuartiles dividen en cuatro partes las
observaciones.
• El primer cuartil Q1 es un valor que deja por
debajo el 25% de las observaciones y por encima
el 75% de las observaciones.
• El Q2 es la mediana (50%)
• y Q3 deja por debajo al 75% y por encima al
25% de las observaciones
CUARTILES

75% 25%
Q3
Q1
25% 75%

25% 25% 25% 25%


Cuartil 1 Mediana Cuartil 3 Máximo
Mínimo
Q1 Cuartil 2 Q3
Q2
RANGO Y RANGO INTERCUARTIL

• Rango – es la medida de dispersión más sencilla. Se determina restando el valor mayor del valor menor.
Ejemplo: Se tienen los siguientes valores de datos; 20, 25, 10, 5, 30, 35, 31, 23.

Rango = valor mayor – valor menor


35 – 5 = 30

• Rango Intercuartil – es la diferencia entre el cuartil tres y cuartil uno.

Rango Intercuartil (RI)= Q3 – Q1


PASOS PARA CALCULAR EL
RANGO INTERCUARTIL

Veamos el siguiente ejemplo:

Determine el rango intercuartil para los datos siguientes; 30, 40, 35, 5,
10, 20, 15, 30 y 45:

Paso 1. Ordenar los datos de forma ascendente.


5 10 15 20 30 30 35 40 45
Paso 2. Calcular los cuartiles Q3 y Q1:
Q3 = 75 percentil
Q1 = 25 percentil
PASOS PARA CALCULAR EL RANGO
INTERCUARTIL
• Cuartil uno:
Q1 = 25 percentil

 P   25 
= i   n = 2.25 i 9
 100   100 

Como (i) no es un entero, redondeamos al próximo entero


mayor que 2.25, o sea 3. Así, que Q1 está ubicado en la
posición tres (3) de los datos, que en este ejemplo es 15.

5 10 15 20 30 30 35 40 45

Q1 = 15
PASOS PARA CALCULAR EL RANGO
INTERCUARTIL

• Cuartil tres
Q3 = 75 percentil

 P   75 
= i n = 6.75 i 9
 100   100 

Como (i) no es un entero, redondeamos al próximo entero mayor


que 6.75, o sea 7. Así, que Q1 está ubicado en la posición siete
(7) de los datos, que en este ejemplo es 40.

5 10 15 20 30 30 35 40 45

Q3 = 40
PASOS PARA CALCULAR EL RANGO
INTERCUARTIL

• Paso 3. Ahora, podemos sustituir los valores de los cuartiles en la fórmula.

Rango Intercuartil = Q3 – Q1

RI = Q3 – Q1
40 – 15 = 25
VARIANZA

La varianza es otra medida de dispersión que se basa en la


diferencia entre el valor de cada dato (Xi) y la media (x)
VARIANZA
• Fórmula para calcular la varianza:
( xi  x )
2 2

S =  N 1

Veamos como calculamos la varianza en el siguiente ejemplo:

Se tienen los siguientes datos: 15, 12, 18, 20 y 25.

Primero, calculamos la media:


x
 x 12  15  18  20  25
N 5
VARIANZA
• Segundo, buscamos la desviación estándar respecto a la media ( x i  x ), que es la diferencia
entre cada valor de (Xi) y el promedio ( x) luego, calculamos la sumatoria ∑( x i  x )2 , como se
presenta a continuación:

xi  x) ∑( x i  x )2
2
Xi X (
12 18 -6 36
15 18 -3 9
18 18 0 0
20 18 2 4
25 18 7 49

total 98
VARIANZA
• Ahora, sustituimos las variables de la fórmula por los valores obtenidos como
se presenta a continuación:


2
2 ( x x ) 98 98
S=  i = = = 24.5
N 1 5 1 4
VARIANZA
DESVIACION ESTANDAR
Es una medida de la variabilidad de un conjunto de
datos. Se calcula sacando la raíz cuadrada de la
varianza. Nos indica cuánto tienden a alejarse los
datos del promedio. Si los datos son de una
muestra, la desviación estándar se representa
como:

S= 2
s
DESVIACION ESTANDAR

En el ejemplo anterior la desviación estándar es:

2
S= s

S= 24 .5

S = 4.95
DESVIACION ESTANDAR
MEDIDAS DE FORMA

1. Kurtosis (curtosis)

Mide la forma de la distribución


respecto de la distribución normal.
Valor = 0 implica que tiene una forma
normal, menor a 0 que es platicurtico y
mayor a 0 leptocúrtico.
Kurtosis
MEDIDAS DE FORMA
2. Skewness (Asimetría)

Mide el la forma de la distribución respecto a la distribución normal en forma de


sesgo (desplazamiento horizontal). Cuando es igual a 0 no existe sesgo. Menor a 0
es sesgada a la izquierda y mayor a 0 es sesgada a la derecha.
Asimetría
DIAGRAMA BOX - PLOT

Min Max

Q1 mediana Q3
DIAGRAMA BOX - PLOT
ANALISIS BIDIMENSIONAL DE DATOS
Estadística Descriptiva con dos variables
a) Dos Variables Cuantitativas
Si se quiere representar la relación entre dos variables cuantitativas entonces se usa un diagrama de
dispersión (Scatterplot).
Correlación entre variables
Dos Variables Cuantitativas
COEFICIENTE DE CORRELACIÓN

Llamado también coeficiente de correlación de Pearson, se representa por r y es una medida que representa el grado de asociación entre
dos variables cuantitativas X e Y.

Sxx es llamada la Suma de Cuadrados corregida de X


Syy es la Suma de Cuadrados Corregida de Y
Sxy es la Suma de Productos de X e Y.
Tanto Sxx como Syy no pueden ser negativas,
Sxy si puede ser positiva o negativa

La correlación varia entre -1 y 1.


Estadística Descriptiva con dos variables
EJEMPLO COEFICIENTE CORRELACIÓN

El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de
experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan
los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la
empresa.
EJEMPLO COEFICIENTE CORRELACIÓN
Interpretación:
Existe una buena relación lineal entre los años de experiencia y las unidades que vende el
vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se
puede usar los años de experiencia para predecir las unidades que venderá anualmente a
través de una línea recta.
EJEMPLO COEFICIENTE CORRELACIÓN
Interpretación:
Existe una buena relación lineal entre los años de experiencia y las unidades que vende el
vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se
puede usar los años de experiencia para predecir las unidades que venderá anualmente a
través de una línea recta.
EJEMPLO COEFICIENTE CORRELACIÓN
EJEMPLO COEFICIENTE CORRELACIÓN
Data Profiling
• Data Prep

También podría gustarte