Está en la página 1de 4

Test 05

DBSCAN

DBSCAN es otro algoritmo de agrupación en clúster muy popular, que pertenece a los algoritmos
basados en densidad.

Para los principiantes puede parecer muy atractivo porque no requiere definir de antemano el
número de clústeres.

Pero no hay almuerzo gratis y confiar en DBSCAN para encontrar el número correcto de clústeres
por sí solo puede ser una gran trampa.

Ilustremos esto jugando con el hiperparámetro eps de DBSCAN, que define la distancia máxima
entre puntos dentro del mismo grupo.
¿Qué sucedió en cada una de las asignaciones del hiperparámetro eps?

Pues que se definen clusters de acuerdo a la distancia máxima entre puntos dentro del mismo
grupo, al empezar con un valor bajo esta toma todo el conjunto de datos como un todo, en el
segundo grafico se crean otros clusters de acuerdo a la distancia máxima, lo que ocaciona que se
vayan excluyendo los demás puntos fuera del grupo, y en la tercera como el hiperparametro es de
un valor mayor, la distancia que tomara el algoritmo sea mayor y el cluster naranja aumente, se
puede observar como una forma de densidad.

¿Qué podría concluir de lo sucedido?

Que no debemos confiarnos en los clústeres que se forman con este algoritmo DBSCAN. Y que el
hiperparametro cuando mayor sea el valor, mayor será la distancia máxima entre puntos para que
sean parte del grupo.

Test 06
Realmente, ¿Qué tan sin supervisión?

Al evaluar el rendimiento de los modelos de detección de anomalías, la mayoría de las veces utiliza
métricas del dominio de:

a) Aprendizaje Supervisado
b) Aprendizaje No Supervisado

Test 07
El algoritmo de referencia

 A pesar de ser un poco más intensivo computacionalmente que otros métodos, ¿Qué
algoritmo se usa comúnmente para la detección de anomalías?

a) One-Class SVM
b) Isolation Forest
c) Robust Covariance
Test 08
El impar hacia afuera

El algoritmo IsolationForest() es una excelente primera opción cuando se necesita una detección
de anomalías o valores atípicos.

En este ejercicio, desea examinar cómo la relación entre valores típicos y valores atípicos (también
conocida como relación señal / ruido) afecta su capacidad para detectar anomalías.

El algoritmo IsolationForest() ya está cargado en la variable llamada isolation_forest, y también se


cargó una función auxiliar make_fake_data().

Se aumentará gradualmente el número de valores atípicos y observará la diferencia en los


resultados en cada iteración. ¿Qué ha observado?

Test08 continuación

Se observa primero que al empezar con los datos limpios y al añadir el ruido el plot de la derecha
muestra que el grupo amarillo ha disminuido de tamaño debido a que los valores atípicos es un
poco bajo que solo es el 5% de 1000.

Test08 continuación
Al aumentar el porcentaje el plot de la derecha donde es detectado el ruido por el isolation forest
este grupo amarillo aumenta el tamaño al igual como aumentamos la cantidad de datos atípicos.

Test08 continuación

De igual manera que la anterior al ser un tamaño más grande los valores atípicos el isolation forest
detecta el ruido y aumenta el tamaño del grupo amarillo debido a que los datos atípicos es la
mitad de los típicos osea el 50% de 1000.

Test 09

También podría gustarte