Está en la página 1de 2

[MÚSICA] Bienvenidos a un nuevo video de nuestro curso de Minería de Datos.

 
En este video veremos el primer algoritmo de clasificación 
llamado K vecinos cercanos.
Reproduce el video desde ::15 y sigue la transcripción0:15
La idea principal en la que se basa éste clasificador 
es en usar los datos más parecidos para clasificar, por ejemplo, 
¿cuál sería la clase del objeto que aparece en amarillo usando esta idea? 
Notar que como estamos hablando de clasificación 
asumimos que tenemos un conjunto de entrenamiento con datos 
previamente etiquetados en este caso los datos rojos y verdes. 
También notar que en los datos en este ejemplo 
están representados por puntos que viven en dos variables V1 y V2.
Reproduce el video desde ::48 y sigue la transcripción0:48
Si usamos por ejemplo el clasificador de un vecino cercanos significa que tenemos 
que encontrar el dato más parecido a nuestro dato en cuestión 
y usar su clase para predecir la clase del dato que vemos en amarillo.
Reproduce el video desde :1:5 y sigue la transcripción1:05
Considerar que para hablar del dato más parecido necesitamos definir previamente 
una noción de distancia entre datos asumiendo qu en los datos más parecidos 
son los que están más cerca en el espacio de las variables V1 y V2. 
Típicamente para medir la 
distancias usamos una métrica conocida como por ejemplo la distancia euclideana.
Reproduce el video desde :1:28 y sigue la transcripción1:28
Como ustedes you saben, esa distancia simplemente corresponde a la raíz de 
la suma de las diferencias al cuadrado. 
Estas diferencias se van calculando para cada una de las variables 
que se están usando para representar los datos, notar que esta métrica de distancia 
funciona también para un número mayor de variables.
Reproduce el video desde :1:48 y sigue la transcripción1:48
Volviendo a nuestro ejemplo entonces, visualmente notamos las tres 
distancias más pequeñas, vemos que la distancia menor corresponde a V1,
Reproduce el video desde :1:59 y sigue la transcripción1:59
por lo tanto ese dato es el más parecido, es decir, el vecino más cercano.
Reproduce el video desde :2:5 y sigue la transcripción2:05
Entonces usando la técnica de un vecino cercano la clasificación de nuestro dato 
sería verde. 
¿Cómo sería la técnica entonces si usamos K vecinos cercanos? 
De forma análoga el clasificador de K vecinos cercanos encuentra los 
datos más parecidos al dato en cuestión y luego genera la clasificación 
usando la clase que más se repite entre los K vecinos. 
Éste modelo asume que el valor de K está previamente definido.
Reproduce el video desde :2:37 y sigue la transcripción2:37
Por ejemplo si el valor de K es tres, 
tenemos que encontrar los tres datos más similares al dato en cuestión. 
En este caso están marcados por un círculo verde.
Reproduce el video desde :2:48 y sigue la transcripción2:48
Tenemos entonces que hay unanimidad para la clasificación 
you que los tres vecinos más cercanos pertenecen a la clase verde, 
por lo tanto esa será la predicción para el dato de clase desconocida.
Reproduce el video desde :3:2 y sigue la transcripción3:02
Aquí tenemos otro ejemplo, supongamos que el valor de K es 6. 
¿Cuál será la clasificación para el dato amarillo?
Reproduce el video desde :3:11 y sigue la transcripción3:11
Vemos marcados con un círculo verde a los seis vecinos más cercanos. 
En este caso nuestro clasificador tiene cuatro votos a favor de la clase roja y 
dos votos a favor de la clase verde, por 
lo tanto la clasificación sería clase roja.
Reproduce el video desde :3:32 y sigue la transcripción3:32
Aquí vemos otro ejemplo, en este caso el dato a clasificar es más complicado you 
que se encuentra en una zona donde no es claro a que clase pertenecen los vecinos.
Reproduce el video desde :3:45 y sigue la transcripción3:45
Si por ejemplo el valor de K es 2, 
¿cuál sería la predicción para la clase del dato amarillo?
Reproduce el video desde :3:53 y sigue la transcripción3:53
Vemos marcado con un círculo verde los dos vecinos más cercanos al dato amarillo. 
El problema es que cada uno pertenece a una clase distinta, 
por lo tanto no hay claridad sobre la clasificación que deberíamos proponer.
Reproduce el video desde :4:6 y sigue la transcripción4:06
Más adelante veremos algunas modificaciones a esta técnica 
que podrían ayudarnos a resolver este tipo de casos.
Reproduce el video desde :4:15 y sigue la transcripción4:15
En resumen, vimos hasta ahora 
que el algoritmo de vecinos cercanos es un algoritmo de clasificación, 
está basado en la idea de usar los datos más similares para clasificar. 
Es muy importante notar que requiere de la definición de una métrica de distancia 
y del valor de K.
Reproduce el video desde :4:36 y sigue la transcripción4:36
Una consideración importante es que esta técnica sólo utiliza tiempo computacional 
a la hora de realizar la clasificación you que es ahí donde debe encontrar los 
vecinos y calcular la cantidad de votos de cada clase, como sólo trabaja cuando 
le preguntan este algoritmo es catalogado como un logaritmo de aprendizaje flojo. 
Veremos más adelante otros algoritmos que si gastan tiempo computacional 
antes de que se les pida realizar alguna clasificación.

También podría gustarte