Está en la página 1de 28

Algoritmo de k vecinos

más cercanos

Curso de Electiva profesional de


ciencias de la computación
Asesor: Carlos Pineda 
Tabla de contenido y
tiempos de la presentación

Inicio

Desarrollo

Desenlace

Pag. 2
Inicio 
• Presentación de los
integrantes.

• Frase celebre o reflexión


del tema.

Pag. 3
• Algoritmos de k vecinos (KNN)
• Calcula KNN: métricas de distancia
Desarrollo • Calcule KNN: definido k
• Aplicaciones de K-NN in Machine
Learning
• Ventajas y desventajas del algoritmo
KNN
• Próximos pasos

Pag. 4
Cierre 

EJEMPLO DE KNN. CONCLUSIÓN. REFERENCIAS


BIBLIOGRÁFICAS.

Pag. 5
Inicio

Integrantes.

Faber Alemán Mendoza


Iván Darío Flórez Albonis

Pag. 6
Inicio

Miguel de Cervantes

“dime con quién andas y te


diré quién eres”
Desarrollo

Algoritmo de k vecinos más cercanos.

Pag. 8
Pag.
Desarrollo
El algoritmo de k vecinos más cercanos, también conocido como KNN o k-NN, es un clasificador de
aprendizaje supervisado no paramétrico, que utiliza la proximidad para hacer clasificaciones o
predicciones sobre la agrupación de un punto de datos individual

https://
colab.research.google.com/drive/
13QiNZyWy-
IKrURjp4mRoS4pzPKLDiCix
Desarrollo Ejemplo: análisis de KNN.

Ilustración del algoritmo de clasificación de KNN en dos dimensiones (características ClassA y ClassB). En el la
imagen , los ejemplos de capacitación se muestran como puntos azules y verdes, y un punto de consulta que
queremos clasificar se muestra como un signo de interrogación. En la grafica, y la línea discontinua indica el
vecino más cercano del punto de consulta, suponiendo una distancia euclidiana métrico. La etiqueta de clase
pronosticada es la etiqueta de clase del punto de datos más cercano en el conjunto de entrenamiento
Desarrollo

Calcular KNN: métricas de distancia

Pag. 11
Desarrollo

Distancia euclidiana (p=2)

Determine sus métricas de distancia:


Estas métricas de distancia ayudan a
formar límites de decisión, que dividen
los puntos de consulta en diferentes
regiones. Por lo general, verá límites
de decisión visualizados con
Distancia Manhattan (p=1)  diagramas de Voronoi.

Pag. 12
Desarrollo

Distancia minkowski. Como ejemplo, si tuviera las siguientes cadenas, la


distancia de hamming sería 2 ya que solo dos de los
valores difieren.

Distancia de hamming

Pag. 13
Desarrollo

Calcular KNN: definiendo k

Pag. 14
Pag. 14
Desarrollo

El valor k en el algoritmo k-NN define cuántos vecinos


se verificarán para determinar la clasificación de un
punto de consulta específico El siguiente fragmento de código muestra un
ejemplo de cómo crear y predecir un modelo
KNN usando las bibliotecas de scikit-learn o
sklearn
Scikit-learn proporciona una clase
KNeighborClassifier para
implementar el modelo de
Ajustar el clasificador a los datos en la línea 5 clasificación de vecino más cercano
K. Su prototipo es: línea 3
almacenar los valores de respuesta pronosticados
Pipeline nos ayudará pasando los módulos
uno por uno a través de GridSearchCV para
los que queremos obtener los mejores
parámetros. Así que estamos creando una
canalización de objetos para crear una
canalización para los dos objetos
preprocessor y classifier  en la linea 4
Desarrollo

Aplicaciones de K-NN in Machine Learning

Pag. 16
Desarrollo

El algoritmo k-NN se ha utilizado en una variedad de


aplicaciones, principalmente dentro de la clasificación.
Algunos de estos paquetes incluyen:

Preprocesamiento de datos: Los conjuntos de datos suelen tener valores faltantes, pero el algoritmo KNN puede estimar esos valores en un
proceso conocido como imputación de datos faltantes.

-Motores de recomendación : utilizando datos de flujo de clics de sitios web, el algoritmo KNN se ha utilizado para proporcionar
recomendaciones automáticas a los usuarios sobre contenido adicional.

-Finanzas: También se ha utilizado en una variedad de casos de uso económico y financiero. Por ejemplo, un artículo (PDF, 439 KB)  (enlace
externo a ibm.com)  muestra cómo el uso de KNN en datos crediticios puede ayudar a los bancos a evaluar el riesgo de un préstamo para una
organización o individuo.

-Cuidado de la salud: KNN se ha aplicado dentro de la industria de la salud, haciendo predicciones sobre el riesgo de ataques cardíacos y
cáncer de próstata. El algoritmo funciona calculando las expresiones genéticas más probables.

- Reconocimiento de patrones: KNN también ha ayudado a identificar patrones, como en texto y clasificación de dígitos  (enlace externo a
ibm.com). Esto ha sido particularmente útil para identificar números escritos a mano que puede encontrar en formularios o sobres de correo. 
Desarrollo

Ventajas y desventajas del algoritmo KNN

Pag. 18
Desarrollo
Ventajas
Desventajas
- Fácil de implementar: Dada la simplicidad y - No escala bien: Dado que KNN es un algoritmo perezoso, ocupa
precisión del algoritmo, es uno de los primeros más memoria y almacenamiento de datos en comparación con
clasificadores que aprenderá un nuevo científico de otros clasificadores. Esto puede ser costoso desde una perspectiva
datos. de tiempo y dinero.

- -La maldición de la dimensionalidad: El algoritmo KNN tiende a


-Se adapta fácilmente: A medida que se agregan ser víctima de la maldición de la dimensionalidad, lo que significa
nuevas muestras de entrenamiento, el algoritmo se que no funciona bien con entradas de datos de alta dimensión.
ajusta para tener en cuenta cualquier dato nuevo, ya Esto a veces también se conoce como fenómeno de pico  
que todos los datos de entrenamiento se almacenan en - -Propenso al sobreajuste: Debido a la "maldición de la
la memoria. dimensionalidad", KNN también es más propenso al sobreajuste.
Si bien se aprovechan las técnicas de selección de características
- Pocos hiperparámetros: KNN solo requiere un valor y reducción de dimensionalidad para evitar que esto ocurra, el
valor de k también puede afectar el comportamiento del modelo.
k y una métrica de distancia, que es baja en Sin embargo, si el valor de k es demasiado alto, entonces puede
comparación con otros algoritmos de machine ajustarse mal a los datos. 
learning.
Próximos pasos

Pag. 20
Nodo k-NN e IBM Cloud Pak for Data
Cloud Pak for Data es un conjunto de herramientas
que ayuda a preparar los datos para la
implementación de IA. El nodo k-NN es un
método de modelado disponible en IBM Cloud
Pak for Data, que facilita mucho el desarrollo de
modelos predictivos. El complemento se
implementa en cualquier nube y se integra a la
perfección en su infraestructura de nube
existente.
Desenlace

Ejemplo de Box KNN en colab.

Pag. 22
Desenlace

Realizar un algoritmo KNN en Colab.

• Paso 1: Seleccionar el número de k vecinos


• Paso 2: Tomar los k vecinos más cercanos al nuevo dato de acuerdo
a la distancia euclidiana
• Paso 3: Entre los k vecinos, contar el número de elementos que
pertenece a cada categoría
• Paso 4: Asignar el nuevo dato a la categoría donde se contaron
más vecinos

https://colab.research.google.com/drive/1DqCXzwZd7RS08uVslYpWP8JIu
JxAWJH1?usp=sharing
Desenlace

Conclusión

Pag. 24
Desenlace

El grafico de cajas y bigotes o Box Plot es una


herramienta de análisis estadístico que sintetiza mucha
información y la visualiza de forma que la
interpretación de este sea clara.
Desenlace

Referencias bibliográficas

Pag. 26
Desenlace

• Frases y citas celebres de Arthur Miller. Extensión: https://www.ofrases.com/frase/40877


• Diagrama Box Plot. Extensión: https://www.pgconocimiento.com/diagrama-boxplot/
• Crear un diagrama de caja. Extensión:
https://support.microsoft.com/en-us/office/create-a-box-plot-10204530-8cdf-40fe-a711-2eb9785e510f
• Medidas de dispersión y formas, y los gráficos de caja tallo y hojas. Extensión:
https://www.monografias.com/trabajos90/medidas-posicion-y-forma/medidas-posicion-y-forma.shtml
Desenlace

También podría gustarte