Cib12 Cap03 5 Limpieza de Datos2 Atipicos

“Ciencia y Tecnología al Servicio del País”
23/04/2024 Dra. Lupe Pizan Toscano/41 1

FIEE
Curso: Aprendizaje de Maquina y Minería de Datos

CIB12
Docente: Dra. Ing. Lupe Pizán Toscano

CAPITULO 03:
Limpieza de Datos Atípicos.

RECOLECCIÓN DE INFORMACIÓN
LIMPIEZA DE DATOS

Limpieza de Datos Atípicos
Hay dos formas principales de limpiar los datos raros o
que salen del grueso de los datos (los datos atípicos):
➢Por cuartiles
➢Por Desviaciones estándar.

por Cuartiles
➢Los cuartiles son valores que dividen a una muestra de datos en
cuatro partes iguales. Generalmente es 25%, 50% y 75%.
➢Tres divisiones que generan cuatro segmentos.
➢Con los cuartiles se puede valorar rápidamente la dispersión y
tendencia de los datos, es decir, nos dice rápidamente cómo está
formada, cómo se distribuye en una dimensión.

por Cuartiles
➢Vamos a utilizar una gráfica llamada gráfica de caja.
➢ En esta “caja” está contenida la mayoría de los datos (el 50%
de la información).
➢A partir de ella salen unas líneas que muestran el rango de los
datos.

por Cuartiles
➢La posición de estas líneas, llamadas bigotes, se establecen a
partir de 1.5 veces el rango inter cuartil.
➢El rango inter cuartil:
Tercer cuartil - Primer cuartil
➢El rango inter cuartil multiplicado por 1.5 nos da el rango de
nuestra información.
➢Lo que sale de los valores de este rango de datos son los
llamados datos atípicos.
por Cuartiles
➢Cuartiles: Son valores que dividen a una variable en cuatro
partes iguales, para calcularlos:
➢Ordenar de menor a mayor los valores de la variable.
➢En el primer cuartil está contenido hasta el 25% de datos de la variable.
➢En el segundo cuartil está contenido hasta el 50% de datos la variable.
➢En el tercer cuartil está contenido hasta el 75% de datos la variable.

por Cuartiles
➢Ejemplo: Si tenemos “20” datos, se ordenan estos de menor a mayor, seguidamente
se separan en cuatro grupos donde en cada grupo se tiene el 25% de los datos.
Como son 20 datos cada grupo tiene cinco datos y ordenados de menor a mayor donde:
➢1.- En el primer cuartil se contiene hasta el 25% de datos de la variable.
➢2.-En el segundo cuartil se contiene hasta el 50% de datos la variable.
➢3.- En el tercer cuartil se contiene hasta el 75% de datos la variable.

ESTUDIANTE PUBLICACIONES
ESTUDIANTE-1 0
ESTUDIANTE-2 1
ESTUDIANTE-3 1
ESTUDIANTE-4 1
ESTUDIANTE-5 2 Q1 CONTIENE HASTA EL 25%
ESTUDIANTE-6 2
ESTUDIANTE-7 3
ESTUDIANTE-8 3
ESTUDIANTE-9 3
ESTUDIANTE-11 4
ESTUDIANTE-12 4
ESTUDIANTE-13 4
ESTUDIANTE-14 5
ESTUDIANTE-16 5
ESTUDIANTE-17 6
ESTUDIANTE-18 10
ESTUDIANTE-19 10
ESTUDIANTE-20 15

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3
➢Cual es el contenido de la variable?

➢La variable es el numero de publicaciones de los estudiantes
➢Q1=2 y Q3=5.
➢El 50% de los participantes se distribuye entre estos valores de
estas variables.
➢El 50% de los participantes tiene entre 2 y 5 publicaciones.

ESTUDIANTE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PUBLICACIONES -3 1 1 1 2 2 3 3 3 4 4 4 4 5 5 5 6 10 10 15
Q1 Q2 Q3
➢El valor que esta en el medio es la mediana

➢El valor central es 4 publicaciones
Los limites de la variable entre los cuales se distribuye la variable:
➢Los valores limites típicos serán mínimo de 1 publicación y hasta 6
publicaciones
➢ Los valores extremos, los valores atípicos: Hay cuatro.
➢El valor que tiene el primer estudiante.
➢El Est18,Est19 y el valor que tiene el caso 20.
➢Caso Es1: Error.
➢El grafico nos ayuda a
identificar errores porque
los datos que se salen de
la escala de la variable
aparecen como valores
atípicos.
➢Caso Es18 y 19: Valores
extremos leves.
➢Caso Es 20: Valor
demasiado elevado para
considerarlo adecuado
para análisis de datos.
por Cuartiles
➢Con los cuartiles se puede valorar rápidamente la dispersión y
tendencia de los datos,
➢Nos dice rápidamente cómo está formada nuestra información,
cómo se distribuye en un eje.
➢Utilizamos una gráfica de caja.
➢Pandas nos va a ayudar con la función llamada boxplot.
➢Si la ejecutamos, nos va a dar la gráfica.

por Cuartiles
• Lo que nos dice esta gráfica es que la mayoría de los datos se encuentran
entre 120 mil dólares a 210 mil dólares aprox.
• Esto es lo que se encuentra dentro de la caja.
• Entre el bigote superior y el inferior se representa el grueso de nuestros
datos.
• Es decir, 1.5 veces el rango inter cuartil.
• Lo que se encuentre fuera de ese rango son datos que podemos considerar
aislados, entonces todos estos datos es posible que necesiten limpieza.

por Cuartiles
• Usaremos el rango inter cuartil para poder limpiar los datos.
• El precio de venta de las casas lo vamos a guardar como sp para

tenerlo más local en vez de estar llamando a nuestro conjunto de
datos completo.
• Así vamos a pedir (calcular) que nos den los rangos inter cuartiles.

por Cuartiles
• Calculo del límite superior, es decir, hasta dónde llega el
primer bigote.
• Esto es: a partir del Q3, que es el 0.75, mas el inter cuartil.
• Calculo del limite inferior,
• que es a partir del Q1, 0.25, menos el rango inter cuartil.

por Cuartiles
• Así se tiene delimitado el límite superior y el límite
inferior.
• Se ejecutan y se guardan.
• Con estos límites calculados se va seleccionar todos los
datos que son atípicos.

por Cuartiles
• Vamos a ordenar que de sp nos den todos los valores que están por
encima del límite superior (>= límite superior)
• "o" (lógico)
• Pedimos también los valores que son menores o iguales al límite inferior.
• Estos valores se obtienen y se van a guardar en la variable sp_clean,
• Así se obtienen todos los valores que son atípicos en sp_clean.

Limpieza de Datos Atípicos por Cuartiles
• Probemos a observar para verificar si los datos que nos da son efectivamente
atípicos.
• Por ejemplo el 59: Id 59 y su valor es 438,770.
• Si lo buscamos la gráfica podemos verificar que sale del límite superior por lo
tanto sí es un dato atípico.
• Entonces, Pandas nos va ayudar simplemente a eliminarlos ya que los tenemos
identificados.
• Podemos ordenar en el data frame "elimina, con sp_clean, su índice"
Entonces, lo estamos eliminando por el valor del Id.
• Lo eliminamos, y ya nos dan los valores limpios, sin valores valores atípicos.
• Recordemos que esto se hizo solo para “sells Price”, no con las demás
columnas, entonces esto se debe repetir para las columnas que más nos
interesen en nuestro estudio.

Limpieza de Datos Atípicos por Desviación Estándar
➢La desviación estándar es una de las medidas estadísticas más populares y
de mayor uso.
➢Esta medida indica el grado de dispersión alrededor de una media.
➢La media sería donde se concentra el centro de los datos, y a partir de ahí
se agrupan.
➢Una desviación estándar muy grande indica que los datos a partir de la
media están muy dispersos.
➢Una desviación pequeña indica que están muy concentrados alrededor de
la media.

➢Python nos puede ayudar a identificar la desviación estándar de un
conjunto de datos y a eliminar los datos atípicos: a partir de una
desviación, dos desviaciones o tres desviaciones.
➢Se utiliza una librería de spicy, “stats”.
➢Stats nos da un conjunto de medidas estadísticas las cuales podemos
importar directamente a Python.
➢Con el mismo conjunto datos, vamos a utilizar el df. El sell price que es
el costo de las casas y lo vamos a guardar igual como sp.

• Se Utiliza stats y se calcula el zscore.
• El zscore es la distribución normal.

por Desviación Estándar
• Llamando a “zscore” nos da el número de desviaciones

estándar que una medida está por encima o por debajo de la
distribución normal, y la guardamos como z.
• Se quiere eliminar los datos que estén muy alejados de la
media aritmética que sería el elemento central.

➢Una desviación son los elementos que están más o
menos dentro de un contexto cercano,
➢Dos desviaciones ya están más alejados,
➢Tres desviaciones es los elementos que ya están muy
muy alejados de la media, entonces estos son los que
queremos eliminar.

➢Haremos un filtro dirigido a todos los elementos que estén por arriba
de tres desviaciones arriba y a todos los que están menores a menos
tres desviaciones. Los seleccionamos de sp.
➢A los seleccionados los guardamos en sp clean.

➢Ordenamos para df "elimina estos elementos a través de su índice". Se
corre y ya los tenemos eliminados del conjunto de datos, se eliminaron
los datos atípicos para el precio de las casas.
➢Vamos a observar que quedan mas registros o filas que con el método
anterior.
➢En cada una de las diferentes formas de eliminar los valores atípicos
funciona de forma diferente por lo tanto no van a quedar los mismos
conjuntos. Esta decisión de cuál utilizar, uno u otro, depende del modelo
de estudio que estemos haciendo.

¡MUCHAS GRACIAS!

Cib12 Cap03 5 Limpieza de Datos2 Atipicos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cib12 Cap03 5 Limpieza de Datos2 Atipicos

Cargado por

Copyright:

Formatos disponibles

“Ciencia y Tecnología al Servicio del País”

23/04/2024 Dra. Lupe Pizan Toscano/41 1

Curso: Aprendizaje de Maquina y Minería de Datos

23/04/2024 Dra. Lupe Pizan Toscano/42 2

23/04/2024 Dra. Lupe Pizan Toscano/42 3

23/04/2024 Dra. Lupe Pizan Toscano/42 4

23/04/2024 Dra. Lupe Pizan Toscano/42 5

23/04/2024 Dra. Lupe Pizan Toscano/42 6

23/04/2024 Dra. Lupe Pizan Toscano/42 7

23/04/2024 Dra. Lupe Pizan Toscano/42 9

23/04/2024 Dra. Lupe Pizan Toscano/42 10

23/04/2024 Dra. Lupe Pizan Toscano/42 11

23/04/2024 Dra. Lupe Pizan Toscano/42 12

23/04/2024 Dra. Lupe Pizan Toscano/42 13

23/04/2024 Dra. Lupe Pizan Toscano/42 14

23/04/2024 Dra. Lupe Pizan Toscano/42 15

23/04/2024 Dra. Lupe Pizan Toscano/42 16

23/04/2024 Dra. Lupe Pizan Toscano/42 17

23/04/2024 Dra. Lupe Pizan Toscano/42 18

➢Cual es el contenido de la variable?

23/04/2024 Dra. Lupe Pizan Toscano/42 20

➢El valor que esta en el medio es la mediana

23/04/2024 Dra. Lupe Pizan Toscano/42 24

23/04/2024 Dra. Lupe Pizan Toscano/42 26

• El precio de venta de las casas lo vamos a guardar como sp para

23/04/2024 Dra. Lupe Pizan Toscano/42 27

23/04/2024 Dra. Lupe Pizan Toscano/42 28

23/04/2024 Dra. Lupe Pizan Toscano/42 29

23/04/2024 Dra. Lupe Pizan Toscano/42 30

23/04/2024 Dra. Lupe Pizan Toscano/42 32

23/04/2024 Dra. Lupe Pizan Toscano/42 34

23/04/2024 Dra. Lupe Pizan Toscano/42 35

23/04/2024 Dra. Lupe Pizan Toscano/42 36

• Llamando a “zscore” nos da el número de desviaciones

23/04/2024 Dra. Lupe Pizan Toscano/42 37

23/04/2024 Dra. Lupe Pizan Toscano/42 38

23/04/2024 Dra. Lupe Pizan Toscano/42 39

23/04/2024 Dra. Lupe Pizan Toscano/42 40

23/04/2024 Dra. Lupe Pizan Toscano/42 42

También podría gustarte