Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En este video veremos el primer algoritmo de clasificación
llamado K vecinos cercanos.
Reproduce el video desde ::15 y sigue la transcripción0:15
La idea principal en la que se basa éste clasificador
es en usar los datos más parecidos para clasificar, por ejemplo,
¿cuál sería la clase del objeto que aparece en amarillo usando esta idea?
Notar que como estamos hablando de clasificación
asumimos que tenemos un conjunto de entrenamiento con datos
previamente etiquetados en este caso los datos rojos y verdes.
También notar que en los datos en este ejemplo
están representados por puntos que viven en dos variables V1 y V2.
Reproduce el video desde ::48 y sigue la transcripción0:48
Si usamos por ejemplo el clasificador de un vecino cercanos significa que tenemos
que encontrar el dato más parecido a nuestro dato en cuestión
y usar su clase para predecir la clase del dato que vemos en amarillo.
Reproduce el video desde :1:5 y sigue la transcripción1:05
Considerar que para hablar del dato más parecido necesitamos definir previamente
una noción de distancia entre datos asumiendo qu en los datos más parecidos
son los que están más cerca en el espacio de las variables V1 y V2.
Típicamente para medir la
distancias usamos una métrica conocida como por ejemplo la distancia euclideana.
Reproduce el video desde :1:28 y sigue la transcripción1:28
Como ustedes you saben, esa distancia simplemente corresponde a la raíz de
la suma de las diferencias al cuadrado.
Estas diferencias se van calculando para cada una de las variables
que se están usando para representar los datos, notar que esta métrica de distancia
funciona también para un número mayor de variables.
Reproduce el video desde :1:48 y sigue la transcripción1:48
Volviendo a nuestro ejemplo entonces, visualmente notamos las tres
distancias más pequeñas, vemos que la distancia menor corresponde a V1,
Reproduce el video desde :1:59 y sigue la transcripción1:59
por lo tanto ese dato es el más parecido, es decir, el vecino más cercano.
Reproduce el video desde :2:5 y sigue la transcripción2:05
Entonces usando la técnica de un vecino cercano la clasificación de nuestro dato
sería verde.
¿Cómo sería la técnica entonces si usamos K vecinos cercanos?
De forma análoga el clasificador de K vecinos cercanos encuentra los
datos más parecidos al dato en cuestión y luego genera la clasificación
usando la clase que más se repite entre los K vecinos.
Éste modelo asume que el valor de K está previamente definido.
Reproduce el video desde :2:37 y sigue la transcripción2:37
Por ejemplo si el valor de K es tres,
tenemos que encontrar los tres datos más similares al dato en cuestión.
En este caso están marcados por un círculo verde.
Reproduce el video desde :2:48 y sigue la transcripción2:48
Tenemos entonces que hay unanimidad para la clasificación
you que los tres vecinos más cercanos pertenecen a la clase verde,
por lo tanto esa será la predicción para el dato de clase desconocida.
Reproduce el video desde :3:2 y sigue la transcripción3:02
Aquí tenemos otro ejemplo, supongamos que el valor de K es 6.
¿Cuál será la clasificación para el dato amarillo?
Reproduce el video desde :3:11 y sigue la transcripción3:11
Vemos marcados con un círculo verde a los seis vecinos más cercanos.
En este caso nuestro clasificador tiene cuatro votos a favor de la clase roja y
dos votos a favor de la clase verde, por
lo tanto la clasificación sería clase roja.
Reproduce el video desde :3:32 y sigue la transcripción3:32
Aquí vemos otro ejemplo, en este caso el dato a clasificar es más complicado you
que se encuentra en una zona donde no es claro a que clase pertenecen los vecinos.
Reproduce el video desde :3:45 y sigue la transcripción3:45
Si por ejemplo el valor de K es 2,
¿cuál sería la predicción para la clase del dato amarillo?
Reproduce el video desde :3:53 y sigue la transcripción3:53
Vemos marcado con un círculo verde los dos vecinos más cercanos al dato amarillo.
El problema es que cada uno pertenece a una clase distinta,
por lo tanto no hay claridad sobre la clasificación que deberíamos proponer.
Reproduce el video desde :4:6 y sigue la transcripción4:06
Más adelante veremos algunas modificaciones a esta técnica
que podrían ayudarnos a resolver este tipo de casos.
Reproduce el video desde :4:15 y sigue la transcripción4:15
En resumen, vimos hasta ahora
que el algoritmo de vecinos cercanos es un algoritmo de clasificación,
está basado en la idea de usar los datos más similares para clasificar.
Es muy importante notar que requiere de la definición de una métrica de distancia
y del valor de K.
Reproduce el video desde :4:36 y sigue la transcripción4:36
Una consideración importante es que esta técnica sólo utiliza tiempo computacional
a la hora de realizar la clasificación you que es ahí donde debe encontrar los
vecinos y calcular la cantidad de votos de cada clase, como sólo trabaja cuando
le preguntan este algoritmo es catalogado como un logaritmo de aprendizaje flojo.
Veremos más adelante otros algoritmos que si gastan tiempo computacional
antes de que se les pida realizar alguna clasificación.