Está en la página 1de 42

“Ciencia y Tecnología al Servicio del País”

23/04/2024 Dra. Lupe Pizan Toscano/41 1


FIEE

Curso: Aprendizaje de Maquina y Minería de Datos


CIB12
Docente: Dra. Ing. Lupe Pizán Toscano

23/04/2024 Dra. Lupe Pizan Toscano/42 2


CAPITULO 03:
Limpieza de Datos Atípicos.

23/04/2024 Dra. Lupe Pizan Toscano/42 3


RECOLECCIÓN DE INFORMACIÓN
LIMPIEZA DE DATOS

23/04/2024 Dra. Lupe Pizan Toscano/42 4


Limpieza de Datos Atípicos
Hay dos formas principales de limpiar los datos raros o
que salen del grueso de los datos (los datos atípicos):
➢Por cuartiles
➢Por Desviaciones estándar.

23/04/2024 Dra. Lupe Pizan Toscano/42 5


Limpieza de Datos Atípicos
por Cuartiles
➢Los cuartiles son valores que dividen a una muestra de datos en
cuatro partes iguales. Generalmente es 25%, 50% y 75%.
➢Tres divisiones que generan cuatro segmentos.
➢Con los cuartiles se puede valorar rápidamente la dispersión y
tendencia de los datos, es decir, nos dice rápidamente cómo está
formada, cómo se distribuye en una dimensión.

23/04/2024 Dra. Lupe Pizan Toscano/42 6


Limpieza de Datos Atípicos
por Cuartiles
➢Vamos a utilizar una gráfica llamada gráfica de caja.
➢ En esta “caja” está contenida la mayoría de los datos (el 50%
de la información).
➢A partir de ella salen unas líneas que muestran el rango de los
datos.

23/04/2024 Dra. Lupe Pizan Toscano/42 7


Limpieza de Datos Atípicos
por Cuartiles
➢La posición de estas líneas, llamadas bigotes, se establecen a
partir de 1.5 veces el rango inter cuartil.
➢El rango inter cuartil:
Tercer cuartil - Primer cuartil
➢El rango inter cuartil multiplicado por 1.5 nos da el rango de
nuestra información.
➢Lo que sale de los valores de este rango de datos son los
llamados datos atípicos.
23/04/2024 Dra. Lupe Pizan Toscano/42 8
Limpieza de Datos Atípicos
por Cuartiles
➢Cuartiles: Son valores que dividen a una variable en cuatro
partes iguales, para calcularlos:
➢Ordenar de menor a mayor los valores de la variable.
➢En el primer cuartil está contenido hasta el 25% de datos de la variable.
➢En el segundo cuartil está contenido hasta el 50% de datos la variable.
➢En el tercer cuartil está contenido hasta el 75% de datos la variable.

23/04/2024 Dra. Lupe Pizan Toscano/42 9


Limpieza de Datos Atípicos
por Cuartiles
➢Ejemplo: Si tenemos “20” datos, se ordenan estos de menor a mayor, seguidamente
se separan en cuatro grupos donde en cada grupo se tiene el 25% de los datos.
Como son 20 datos cada grupo tiene cinco datos y ordenados de menor a mayor donde:
➢1.- En el primer cuartil se contiene hasta el 25% de datos de la variable.
➢2.-En el segundo cuartil se contiene hasta el 50% de datos la variable.
➢3.- En el tercer cuartil se contiene hasta el 75% de datos la variable.

23/04/2024 Dra. Lupe Pizan Toscano/42 10


ESTUDIANTE PUBLICACIONES
ESTUDIANTE-1 0
ESTUDIANTE-2 1
ESTUDIANTE-3 1
ESTUDIANTE-4 1
ESTUDIANTE-5 2 Q1 CONTIENE HASTA EL 25%
ESTUDIANTE-6 2
ESTUDIANTE-7 3
ESTUDIANTE-8 3
ESTUDIANTE-9 3
ESTUDIANTE-10 4 Q2 CONTIENE HASTA EL 50%
ESTUDIANTE-11 4
ESTUDIANTE-12 4
ESTUDIANTE-13 4
ESTUDIANTE-14 5
ESTUDIANTE-15 5 Q3 CONTIENE HASTA EL 75%
ESTUDIANTE-16 5
ESTUDIANTE-17 6
ESTUDIANTE-18 10
ESTUDIANTE-19 10
ESTUDIANTE-20 15

23/04/2024 Dra. Lupe Pizan Toscano/42 11


ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

23/04/2024 Dra. Lupe Pizan Toscano/42 12


ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

23/04/2024 Dra. Lupe Pizan Toscano/42 13


ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

23/04/2024 Dra. Lupe Pizan Toscano/42 14


ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

23/04/2024 Dra. Lupe Pizan Toscano/42 15


ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

23/04/2024 Dra. Lupe Pizan Toscano/42 16


ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

23/04/2024 Dra. Lupe Pizan Toscano/42 17


ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

23/04/2024 Dra. Lupe Pizan Toscano/42 18


23/04/2024 Dra. Lupe Pizan Toscano/42 19
ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

➢Cual es el contenido de la variable?


➢La variable es el numero de publicaciones de los estudiantes
➢Q1=2 y Q3=5.
➢El 50% de los participantes se distribuye entre estos valores de
estas variables.
➢El 50% de los participantes tiene entre 2 y 5 publicaciones.

23/04/2024 Dra. Lupe Pizan Toscano/42 20


ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

➢El valor que esta en el medio es la mediana


➢El valor central es 4 publicaciones
Los limites de la variable entre los cuales se distribuye la variable:
➢Los valores limites típicos serán mínimo de 1 publicación y hasta 6
publicaciones
➢ Los valores extremos, los valores atípicos: Hay cuatro.
➢El valor que tiene el primer estudiante.
➢El Est18,Est19 y el valor que tiene el caso 20.
23/04/2024 Dra. Lupe Pizan Toscano/42 21
23/04/2024 Dra. Lupe Pizan Toscano/42 22
➢Caso Es1: Error.
➢El grafico nos ayuda a
identificar errores porque
los datos que se salen de
la escala de la variable
aparecen como valores
atípicos.
➢Caso Es18 y 19: Valores
extremos leves.
➢Caso Es 20: Valor
demasiado elevado para
considerarlo adecuado
para análisis de datos.
23/04/2024 Dra. Lupe Pizan Toscano/42 23
Limpieza de Datos Atípicos
por Cuartiles
➢Con los cuartiles se puede valorar rápidamente la dispersión y
tendencia de los datos,
➢Nos dice rápidamente cómo está formada nuestra información,
cómo se distribuye en un eje.
➢Utilizamos una gráfica de caja.
➢Pandas nos va a ayudar con la función llamada boxplot.
➢Si la ejecutamos, nos va a dar la gráfica.

23/04/2024 Dra. Lupe Pizan Toscano/42 24


23/04/2024 Dra. Lupe Pizan Toscano/42 25
Limpieza de Datos Atípicos
por Cuartiles
• Lo que nos dice esta gráfica es que la mayoría de los datos se encuentran
entre 120 mil dólares a 210 mil dólares aprox.
• Esto es lo que se encuentra dentro de la caja.
• Entre el bigote superior y el inferior se representa el grueso de nuestros
datos.
• Es decir, 1.5 veces el rango inter cuartil.
• Lo que se encuentre fuera de ese rango son datos que podemos considerar
aislados, entonces todos estos datos es posible que necesiten limpieza.

23/04/2024 Dra. Lupe Pizan Toscano/42 26


Limpieza de Datos Atípicos
por Cuartiles
• Usaremos el rango inter cuartil para poder limpiar los datos.

• El precio de venta de las casas lo vamos a guardar como sp para


tenerlo más local en vez de estar llamando a nuestro conjunto de
datos completo.
• Así vamos a pedir (calcular) que nos den los rangos inter cuartiles.

23/04/2024 Dra. Lupe Pizan Toscano/42 27


Limpieza de Datos Atípicos
por Cuartiles
• Calculo del límite superior, es decir, hasta dónde llega el
primer bigote.
• Esto es: a partir del Q3, que es el 0.75, mas el inter cuartil.
• Calculo del limite inferior,
• que es a partir del Q1, 0.25, menos el rango inter cuartil.

23/04/2024 Dra. Lupe Pizan Toscano/42 28


Limpieza de Datos Atípicos
por Cuartiles
• Así se tiene delimitado el límite superior y el límite
inferior.
• Se ejecutan y se guardan.
• Con estos límites calculados se va seleccionar todos los
datos que son atípicos.

23/04/2024 Dra. Lupe Pizan Toscano/42 29


Limpieza de Datos Atípicos
por Cuartiles
• Vamos a ordenar que de sp nos den todos los valores que están por
encima del límite superior (>= límite superior)
• "o" (lógico)
• Pedimos también los valores que son menores o iguales al límite inferior.
• Estos valores se obtienen y se van a guardar en la variable sp_clean,
• Así se obtienen todos los valores que son atípicos en sp_clean.

23/04/2024 Dra. Lupe Pizan Toscano/42 30


23/04/2024 Dra. Lupe Pizan Toscano/42 31
Limpieza de Datos Atípicos por Cuartiles
• Probemos a observar para verificar si los datos que nos da son efectivamente
atípicos.
• Por ejemplo el 59: Id 59 y su valor es 438,770.
• Si lo buscamos la gráfica podemos verificar que sale del límite superior por lo
tanto sí es un dato atípico.
• Entonces, Pandas nos va ayudar simplemente a eliminarlos ya que los tenemos
identificados.
• Podemos ordenar en el data frame "elimina, con sp_clean, su índice"
Entonces, lo estamos eliminando por el valor del Id.
• Lo eliminamos, y ya nos dan los valores limpios, sin valores valores atípicos.
• Recordemos que esto se hizo solo para “sells Price”, no con las demás
columnas, entonces esto se debe repetir para las columnas que más nos
interesen en nuestro estudio.

23/04/2024 Dra. Lupe Pizan Toscano/42 32


23/04/2024 Dra. Lupe Pizan Toscano/42 33
Limpieza de Datos Atípicos por Desviación Estándar
➢La desviación estándar es una de las medidas estadísticas más populares y
de mayor uso.
➢Esta medida indica el grado de dispersión alrededor de una media.
➢La media sería donde se concentra el centro de los datos, y a partir de ahí
se agrupan.
➢Una desviación estándar muy grande indica que los datos a partir de la
media están muy dispersos.
➢Una desviación pequeña indica que están muy concentrados alrededor de
la media.

23/04/2024 Dra. Lupe Pizan Toscano/42 34


Limpieza de Datos Atípicos por Desviación Estándar
➢Python nos puede ayudar a identificar la desviación estándar de un
conjunto de datos y a eliminar los datos atípicos: a partir de una
desviación, dos desviaciones o tres desviaciones.
➢Se utiliza una librería de spicy, “stats”.
➢Stats nos da un conjunto de medidas estadísticas las cuales podemos
importar directamente a Python.
➢Con el mismo conjunto datos, vamos a utilizar el df. El sell price que es
el costo de las casas y lo vamos a guardar igual como sp.

23/04/2024 Dra. Lupe Pizan Toscano/42 35


Limpieza de Datos Atípicos por Desviación Estándar
• Se Utiliza stats y se calcula el zscore.
• El zscore es la distribución normal.

23/04/2024 Dra. Lupe Pizan Toscano/42 36


Limpieza de Datos Atípicos
por Desviación Estándar

• Llamando a “zscore” nos da el número de desviaciones


estándar que una medida está por encima o por debajo de la
distribución normal, y la guardamos como z.
• Se quiere eliminar los datos que estén muy alejados de la
media aritmética que sería el elemento central.

23/04/2024 Dra. Lupe Pizan Toscano/42 37


Limpieza de Datos Atípicos
por Desviación Estándar
➢Una desviación son los elementos que están más o
menos dentro de un contexto cercano,
➢Dos desviaciones ya están más alejados,
➢Tres desviaciones es los elementos que ya están muy
muy alejados de la media, entonces estos son los que
queremos eliminar.

23/04/2024 Dra. Lupe Pizan Toscano/42 38


Limpieza de Datos Atípicos
por Desviación Estándar
➢Haremos un filtro dirigido a todos los elementos que estén por arriba
de tres desviaciones arriba y a todos los que están menores a menos
tres desviaciones. Los seleccionamos de sp.
➢A los seleccionados los guardamos en sp clean.

23/04/2024 Dra. Lupe Pizan Toscano/42 39


Limpieza de Datos Atípicos
por Desviación Estándar
➢Ordenamos para df "elimina estos elementos a través de su índice". Se
corre y ya los tenemos eliminados del conjunto de datos, se eliminaron
los datos atípicos para el precio de las casas.
➢Vamos a observar que quedan mas registros o filas que con el método
anterior.
➢En cada una de las diferentes formas de eliminar los valores atípicos
funciona de forma diferente por lo tanto no van a quedar los mismos
conjuntos. Esta decisión de cuál utilizar, uno u otro, depende del modelo
de estudio que estemos haciendo.

23/04/2024 Dra. Lupe Pizan Toscano/42 40


23/04/2024 Dra. Lupe Pizan Toscano/42 41
¡MUCHAS GRACIAS!

23/04/2024 Dra. Lupe Pizan Toscano/42 42

También podría gustarte