Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fuente: AWS - ML
CRISP - DM
Fase de entendimiento de los datos
a) Recopilación de datos.
b) Usar análisis exploratorio de datos para familiarizarse con los
datos y descubrir ideas iniciales.
c) Evaluar la calidad de los datos.
d) Si es mucha data trabajar con muestras.
CRISP - DM
Objeto
• El mundo esta lleno de
objetos y nuestra labor es
encontrar relaciones entre
los mismos.
• Como puedo representar
este auto en palabras o
que forma se les ocurre
Objeto
• Mediante características/ features
que nos permiten representar un
objeto, en este caso un auto.
• Un feature puede ser la velocidad.
• ¿Qué otras características se les
ocurre?
Objeto
• Tamaño del tanque de Gasolina.
• Caballos de fuerza.
• Cantidad de Aceite usado
Objeto
• ¿Que características se puede
ver en este conjunto de
personas?
• Ya que queremos encontrar
relaciones, será que alguna de
estas características tienen qu
Objetos
• Los objetos interactúan entre
si de maneras complejas, aun
una piedra en el piso.
• Características que
permitan
representar un
Extraer sistema, entender o
aproximar la forma
como funciona …
como se relaciona.
Objetos
• No se puede capturar todas las
características, así que se
captura algunas que son objeto
de nuestro estudio y que son
extraídas de acuerdo a una
característica de validación
(población de estudio).
• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)
1. ORDENAR RESUMIR
2. AGRUPAR INFORMACIÓN
ESTADÍSTICA DESCRIPTIVA
El formato general de una TABLA DE FRECUENCIAS O TABLA
DE DISTRIBUCIÓN DE FRECUENCIAS es el siguiente:
Nombre de la Frecuencia
variable
Categorías o Frecuencias
Recorrido de la variable Observadas
(clases)
TOTAL n
ESTADÍSTICA DESCRIPTIVA
Aplicación base Telco
ESTADÍSTICA DESCRIPTIVA
Representaciones Gráficas
Para hacer más clara y evidente la información que nos dan las tablas se utilizan
los gráficos. Existen múltiples tipos de gráficos, pero aquí trataremos solamente
los usados más frecuentemente. Estos son: gráfico de barras, gráfico de
sectores o circular (pastel), histograma, polígono de frecuencias, la ojiva y el
pictograma.
GRÁFICOS
Diagrama de barras
Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente,
en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el
otro para la escala de clasificación utilizada.
GRÁFICOS
Histogramas
Está formado por rectángulos, cuyas bases corresponden con los intervalos de clase y sus
Áreas son iguales o proporcionales a sus frecuencias.
Este gráfico se usa para representar una distribución de frecuencias de una variable cuantitativa continua. Habitualmente se
representa la frecuencia observada en el eje Y, y en el eje X la variable
GRÁFICOS
Diagrama de sectores o gráfico circular
Gráfico circular: Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o
cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la
clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para
obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de
tres).
MEDIDAS DE RESUMEN
Entre las medidas que permiten resumir información
proveniente de una población se puede considerar las
medidas de posición, medidas de dispersión y medidas
de forma.
Medidas de Posición
Tienen por objeto, obtener un valor que resuma en sí todos
los casos de una determinada variable.
La mayoría de ellas trata de ubicar el centro de la
distribución, razón por la cual, se llaman MEDIDAS DE
TENDENCIA CENTRAL; estas son: Media, Mediana y Moda.
MEDIDAS DE TENDENCIA CENTRAL
Sea X una variable cuantitativa y x1, x2,…, xn una muestra de tamaño "n" de
valores de la variable, se define la media aritmética de X como:
x1 x2 x3 ..... xn
n
X x i
n X i 1
n
PROMEDIO PARA DATOS TABULADOS
Para calcular la media aritmética de un conjunto de datos, se suma cada uno de los valores y se divide entre el
total de casos.
Sea X una variable estadística que toma los valores , con frecuencias absolutas , respectivamente, la media
viene dada por:
x1 f 1 x 2 f 2 ... x n f n
x
i 1
i fi
x
f 1 f 2 ... f n n
f i 1
i
Ejemplo N°1
10 18 25 32 12 5 7 7
10 18 25 32 12 5 7 7
x
8
Es decir la edad promedio de estas personas es de 14,5 años.
Media Aritmética
Mediana (Me)
Sea X una variable ordinal y sea x1, x2,…xn una muestra de tamaño n de
observaciones de la variable, se define como Mediana "Me" un valor tal que
supera a no más del 50% de las observaciones y es superado por no más del 50%
de las observaciones, cuando estas han sido ordenadas según magnitud.
5 7 7 10 12 18 25 32
Como la cantidad de datos es par, entonces la mediana corresponde al
promedio de los datos centrales, por lo tanto la mediana es 11.
Mediana Aritmética
Moda (Mo)
Mo = 48 kilos
Mo = 78 kilos.
Esto significa que la mayoría de estas personas pesa 48 kilos y 78 kilos.
Esta distribución es bimodal.
Moda
Moda
MEDIDAS DE DISPERSIÓN
Indican como los datos se dispersan al rededor de su punto central (Ej. la media). Miden
la variabilidad de los datos y reflejan la tendencia de los datos de cómo se desvían de la
media. Las medidas de dispersión más utilizadas son; el rango, rango intercuartil,
varianza y desviación estándar.
MEDIDAS DE DISPERSIÓN
RANGO
RANGO INTERCUARTIL
VARIANZA
DESVIACIÓN ESTÁNDAR
PERCENTIL
La mediana divide a la variable cuantitativa en 2 partes un 50% por arriba y un
50% por debajo del valor.
Entonces el percentil 99 indica que el 99% de los valores se encuentran por debajo del valor y
existe un 1% que se encuentra por encima.
CUARTILES
• Los cuartiles dividen en cuatro partes las
observaciones.
• El primer cuartil Q1 es un valor que deja por
debajo el 25% de las observaciones y por encima
el 75% de las observaciones.
• El Q2 es la mediana (50%)
• y Q3 deja por debajo al 75% y por encima al
25% de las observaciones
CUARTILES
75% 25%
Q3
Q1
25% 75%
• Rango – es la medida de dispersión más sencilla. Se determina restando el valor mayor del valor menor.
Ejemplo: Se tienen los siguientes valores de datos; 20, 25, 10, 5, 30, 35, 31, 23.
Determine el rango intercuartil para los datos siguientes; 30, 40, 35, 5,
10, 20, 15, 30 y 45:
P 25
= i n = 2.25 i 9
100 100
5 10 15 20 30 30 35 40 45
Q1 = 15
PASOS PARA CALCULAR EL RANGO
INTERCUARTIL
• Cuartil tres
Q3 = 75 percentil
P 75
= i n = 6.75 i 9
100 100
5 10 15 20 30 30 35 40 45
Q3 = 40
PASOS PARA CALCULAR EL RANGO
INTERCUARTIL
Rango Intercuartil = Q3 – Q1
RI = Q3 – Q1
40 – 15 = 25
VARIANZA
S = N 1
xi x) ∑( x i x )2
2
Xi X (
12 18 -6 36
15 18 -3 9
18 18 0 0
20 18 2 4
25 18 7 49
total 98
VARIANZA
• Ahora, sustituimos las variables de la fórmula por los valores obtenidos como
se presenta a continuación:
2
2 ( x x ) 98 98
S= i = = = 24.5
N 1 5 1 4
VARIANZA
DESVIACION ESTANDAR
Es una medida de la variabilidad de un conjunto de
datos. Se calcula sacando la raíz cuadrada de la
varianza. Nos indica cuánto tienden a alejarse los
datos del promedio. Si los datos son de una
muestra, la desviación estándar se representa
como:
S= 2
s
DESVIACION ESTANDAR
2
S= s
S= 24 .5
S = 4.95
DESVIACION ESTANDAR
MEDIDAS DE FORMA
1. Kurtosis (curtosis)
Min Max
Q1 mediana Q3
DIAGRAMA BOX - PLOT
ANALISIS BIDIMENSIONAL DE DATOS
Estadística Descriptiva con dos variables
a) Dos Variables Cuantitativas
Si se quiere representar la relación entre dos variables cuantitativas entonces se usa un diagrama de
dispersión (Scatterplot).
Correlación entre variables
Dos Variables Cuantitativas
COEFICIENTE DE CORRELACIÓN
Llamado también coeficiente de correlación de Pearson, se representa por r y es una medida que representa el grado de asociación entre
dos variables cuantitativas X e Y.
El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de
experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan
los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la
empresa.
EJEMPLO COEFICIENTE CORRELACIÓN
Interpretación:
Existe una buena relación lineal entre los años de experiencia y las unidades que vende el
vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se
puede usar los años de experiencia para predecir las unidades que venderá anualmente a
través de una línea recta.
EJEMPLO COEFICIENTE CORRELACIÓN
Interpretación:
Existe una buena relación lineal entre los años de experiencia y las unidades que vende el
vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se
puede usar los años de experiencia para predecir las unidades que venderá anualmente a
través de una línea recta.
EJEMPLO COEFICIENTE CORRELACIÓN
EJEMPLO COEFICIENTE CORRELACIÓN
Data Profiling
• Data Prep