Está en la página 1de 13

Mtodos de deteccin de valores desviados (outliers) en datos univariados

Es una observacin que se desva del resto de observaciones, por lo que se sospecha que fue generada por un mecanismo diferente (Hawkins, 1980) Es una observacin (o un grupo de observaciones) que aparecen como inconsistentes considerando el resto de la base de datos (Barnet & Lewis, 1994) Una observacin que se sita fuera de un patrn general de comportamiento en una distribcuin (Moore & McCabe, 1999) Son aquellos registros que no siguen un patrn de aplicacin (Chen et al., 2003)

La presencia de valores errneos se atribuye a las siguientes causas: Error: la medicin es observada, registrada o incorporada incorrectamente

Contaminacin: la medicin proviene de una diferente poblacin Variabilidad inherente: la medicin correcta, pero representa un evento raro es

La nocin de outlier es altamente dependiente del sistema a estudiar

Valores desviados en una distribucin que tiende a la normalidad

Valores desviados en un patrn lineal

Valores desviados en datos obtenidos con monitoreo temporal/ series de tiempo

Aplicaciones de la deteccin de outliers Eliminacin de datos errneos (Control de Calidad) Deteccin de fraudes (Manejo financiero en Bolsa de Valores ; Manejo de Tarjeta de Crdito ; Votaciones) Anlisis de alto rendimiento (proceso de scouting en empresas o atletas de alto rendimiento) Prediccin climtica (proteccin ambiental, riesgo) Deteccin de anomalas en tiempo real (sistemas de salud, transporte)

800

Ago1909 791 mm

Tormenta # 5

Monterrey, N.L.
Huracn Beulah
Ago1967 489 mm

600
Sep1904 425 mm

Sep1932 538 mm Sep1923 438 mm Ago1938 454 mm

Huracn Huracn Emily Gilberto


Sep1988 427 mm Sep2004 438 mm

400

Huracn # 3

200

Precipita

0 1900 1925 1950 1975 2000

Dificultades de la deteccin de outliers 1er. Problema : El proceso de deteccin es cclico


El modelo propuesto representa el sistema Por ejemplo: Los datos pertenecen a una distribucin normal Identificacin correcta de outliers Seleccin de pruebas estadsticas

Falacia de crculo vicioso: Qu fue primero el huevo o la gallina?

2do. Problema : Enmascaramiento (Masking) o Desbordamiento (Swamping)


Si el sistema contiene un valor desviado el problema es simple. Sin embargo, la presencia de ms de un outlier puede complicar se debido a estos efectos
Enmascaramiento (5) La prueba de deteccin falla en detectar los valores desviados (falso negativo) Desbordamiento (3, 7, 8) La prueba de deteccin falla sealando incorrectamente valores desviados (falso positivo)

Pruebas de deteccin de outliers (Velasco y Verma, 2000)

Pruebas de deteccin de outliers (Velasco y Verma, 2000)

Considerar la serie de datos:


4 , 4 , 4 , 5 , 5 , 5 , 6 , 6 , 7 , 50
7 6 5 4 3 2 1

n = 10 x = 9.6 s = 14.22

Nme

-5

10 15 20 25 30 35 40 45 50 55

Deteccin de valores desviados: Prueba N1(u) = (50 9.6) / 14.22 = 2.84

Valor crtico N1 n = 10 / 2.41 a 99%


N1(u) > VcN1 a 99% El valor 50 es detectado como desviado por N1