Variante Vecinos Cercanos I

[MÚSICA] Bienvenidos a un nuevo video de nuestro curso de Minería de Datos.

En este video veremos el primer algoritmo de clasificación
llamado K vecinos cercanos.
Reproduce el video desde ::15 y sigue la transcripción0:15
La idea principal en la que se basa éste clasificador
es en usar los datos más parecidos para clasificar, por ejemplo,
¿cuál sería la clase del objeto que aparece en amarillo usando esta idea?
Notar que como estamos hablando de clasificación
asumimos que tenemos un conjunto de entrenamiento con datos
previamente etiquetados en este caso los datos rojos y verdes.
También notar que en los datos en este ejemplo
están representados por puntos que viven en dos variables V1 y V2.
Reproduce el video desde ::48 y sigue la transcripción0:48
Si usamos por ejemplo el clasificador de un vecino cercanos significa que tenemos
que encontrar el dato más parecido a nuestro dato en cuestión
y usar su clase para predecir la clase del dato que vemos en amarillo.
Reproduce el video desde :1:5 y sigue la transcripción1:05
Considerar que para hablar del dato más parecido necesitamos definir previamente
una noción de distancia entre datos asumiendo qu en los datos más parecidos
son los que están más cerca en el espacio de las variables V1 y V2.
Típicamente para medir la
distancias usamos una métrica conocida como por ejemplo la distancia euclideana.
Como ustedes you saben, esa distancia simplemente corresponde a la raíz de
la suma de las diferencias al cuadrado.
Estas diferencias se van calculando para cada una de las variables
que se están usando para representar los datos, notar que esta métrica de distancia
funciona también para un número mayor de variables.
Volviendo a nuestro ejemplo entonces, visualmente notamos las tres
distancias más pequeñas, vemos que la distancia menor corresponde a V1,
por lo tanto ese dato es el más parecido, es decir, el vecino más cercano.
Entonces usando la técnica de un vecino cercano la clasificación de nuestro dato
sería verde.
¿Cómo sería la técnica entonces si usamos K vecinos cercanos?
De forma análoga el clasificador de K vecinos cercanos encuentra los
datos más parecidos al dato en cuestión y luego genera la clasificación
usando la clase que más se repite entre los K vecinos.
Éste modelo asume que el valor de K está previamente definido.
Por ejemplo si el valor de K es tres,
tenemos que encontrar los tres datos más similares al dato en cuestión.
En este caso están marcados por un círculo verde.
Tenemos entonces que hay unanimidad para la clasificación
you que los tres vecinos más cercanos pertenecen a la clase verde,
por lo tanto esa será la predicción para el dato de clase desconocida.
Aquí tenemos otro ejemplo, supongamos que el valor de K es 6.
¿Cuál será la clasificación para el dato amarillo?
Vemos marcados con un círculo verde a los seis vecinos más cercanos.
En este caso nuestro clasificador tiene cuatro votos a favor de la clase roja y
dos votos a favor de la clase verde, por
lo tanto la clasificación sería clase roja.
Aquí vemos otro ejemplo, en este caso el dato a clasificar es más complicado you
que se encuentra en una zona donde no es claro a que clase pertenecen los vecinos.
Si por ejemplo el valor de K es 2,
¿cuál sería la predicción para la clase del dato amarillo?
Vemos marcado con un círculo verde los dos vecinos más cercanos al dato amarillo.
El problema es que cada uno pertenece a una clase distinta,
por lo tanto no hay claridad sobre la clasificación que deberíamos proponer.
Más adelante veremos algunas modificaciones a esta técnica
que podrían ayudarnos a resolver este tipo de casos.
En resumen, vimos hasta ahora
que el algoritmo de vecinos cercanos es un algoritmo de clasificación,
está basado en la idea de usar los datos más similares para clasificar.
Es muy importante notar que requiere de la definición de una métrica de distancia
y del valor de K.
Una consideración importante es que esta técnica sólo utiliza tiempo computacional
a la hora de realizar la clasificación you que es ahí donde debe encontrar los
vecinos y calcular la cantidad de votos de cada clase, como sólo trabaja cuando
le preguntan este algoritmo es catalogado como un logaritmo de aprendizaje flojo.
Veremos más adelante otros algoritmos que si gastan tiempo computacional
antes de que se les pida realizar alguna clasificación.

Variante Vecinos Cercanos I

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Variante Vecinos Cercanos I

Cargado por

Copyright:

Formatos disponibles

[MÚSICA] Bienvenidos a un nuevo video de nuestro curso de Minería de Datos.

También podría gustarte