Si confesares con tu boca que Jess es el Seor y creyeres en tu corazn que Dios le levant de los muertos, sers salvo. Firma: El Rey Eterno, inmortal, invisible.
Espacio de atributos Los atributos pueden ser mucho mas complejos Opciones frente a un conjunto discreto grande Si el conjunto no es ordenado (por ejemplo 4 diferencias que tienen los carros), use atributos binarios para codificar los valores(1000, 0100, 0010, 0001) Si el conjunto es ordenado, trtelo como valores reales Espacio de atributos Los atributos pueden ser mucho mas complejos Opciones frente a un conjunto discreto grande Si el conjunto no es ordenado (por ejemplo 4 diferencias que tienen los carros), use atributos binarios para codificar los valores(1000, 0100, 0010, 0001) Si el conjunto es ordenado, trtelo como valores reales Valores reales: trate que las entradas cuyos atributos tiene valores cercanos vayan a tener salidas cercanas Prediciendo la bancarrota L R B 3 0.2 No 1 0.3 No 4 0.5 No 2 0.7 No 0 1.0 No 1 1.2 No 1 1.7 No 6 0.2 Si 7 0.3 Si 6 0.7 Si 3 1.1 Si 2 1.5 Si 4 1.7 Si 2 1.9 Si
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0
Si No L: # de pagos tardos / ao R: gastos / ingresos El querido vecino cercano Recuerde todos sus datos Cuando alguien hace una consulta Encuentre el punto de datos viejo mas cercano Retorne la respuesta asociada con el
? Qu significa el ms cercano?
Se necesita una funcin de la distancia en las entradas Tpicamente usamos distancia Euclidiana (longitud de una lnea recta entre dos puntos) D(x i , x k ) = (x i j ,- x k j ) j
Qu significa el ms cercano?
Se necesita una funcin de la distancia en las entradas Tpicamente usamos distancias Euclidianas (longitud de una lnea recta entre dos puntos) D(x i , x k ) = (x i j , x k j ) j
La distancia entre cadenas de caracteres podra ser el nmero de ediciones requeridas para cambiar el uno en otro Escalamiento Que pasa si tratamos de predecir el kilometraje de combustible de un carro? F1 = peso en libras F2 = nmero de cilindros
Escalamiento Que pasa si tratamos de predecir el consumo de combustible de un carro? F1 = peso en libras (cientos) F2 = numero de cilindros(4 y 8) cualquier efecto de f2 ser completamente perdido debido a la escala relativa
Escalamiento Que pasa si tratamos de predecir el consumo de combustible de un carro? F1 = peso en libras F2 = numero de cilindros cualquier efecto de f2 ser completamente perdido debido a la escala relativa Por tanto re- escalamos las entradas Escalamiento Que pasa si tratamos de predecir el consumo de combustible de un carro? F1 = peso en libras F2 = numero de cilindros cualquier efecto de f2 ser completamente perdido debido a la escala relativa Por tanto re- escalamos las entradas X= (X X) / X
PROMEDIO DESVIACIN ESTANDARD varianz a Escalamiento Que pasa si tratamos de predecir el consumo de combustible de un carro? F1 = peso en libras F2 = numero de cilindros cualquier efecto de f2 ser completamente perdido debido a la escala relativa Por tanto, re- escalamos las entradas X= (X X) / X
O, construir conocimiento por medio de escalar atributos diferenciados O usar validacin-cruzada para escoger pesos de los atributos PROMEDIO DESVIACIN ESTANDARD Prediciendo la bancarrota
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0
Si No D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
Prediciendo la bancarrota
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0
Si No D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
R=0.3 L=2 Y? Prediciendo la bancarrota
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0
Si No D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
Prediciendo la bancarrota
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0
Si No D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
Prediciendo la bancarrota
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0
Si No D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
Prediciendo la bancarrota
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0
Si No D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
Prediciendo la bancarrota 8 7 6 5 L 4 3 2 1 0
Si No D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
0 0.5 1 1.5 2 R la hiptesis? Es diferente porque no esta construyendo Hiptesis D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
Si No
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0 Hiptesis D(x i , x k ) = (Li, Lk) 2 + (5R i - 5R k ) 2 j
Si No
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0 Tiempo y espacio El aprendizaje es rpido Tiempo y espacio Aprendizaje es rpido Buscar toma cerca de m*n clculos M= cantidad de puntos en el conj de entrenamiento N= cantidad de atributos Almacenar datos en un ingenioso estructura de datos(rbol KD ) reduce esto en promedio a log(m)*n Tiempo y espacio Aprendizaje es rpido Buscar toma cerca de m*n clculos Almacenar datos en un ingenioso estructura de datos(rbol KD ) reduce esto en promedio a log(m)*n
Memoria pude saturarse con todos los datos Tiempo y espacio Aprendizaje es rpido Buscar toma cerca de m*n clculos Almacenar datos en un ingenioso estructura de datos(rbol KD ) reduce esto en promedio a log(m)*n
Memoria pude saturarse con todos los datos Borre los puntos que estn lejos de las fronteras Ruido
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0 Al menos dos formas de tratar con esta situacin Si No Ruido
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0 consulta Si No Ruido
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0 consulta Si No Ruido
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0 Cambiando el algoritmo a k vecinos ms cercanos. Encontrando los k puntos mas cercanos Si No Ruido
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0 Encontrando los k puntos mas cercanos Prediciendo la salida de acuerdo a la mayora Si No Ruido
0 0.5 1 1.5 2 R 8 7 6 5 L 4 3 2 1 0 Encontrando los k puntos mas cercanos Prediciendo la salida de acuerdo a la mayora Escoja k con validacin cruzada Si No Curso de dimensionalidad El vecino mas cercano es mejor en dimensiones bajas (cerca de 6) Cuando n se incrementa, las cosas se ponen raras: Curso de dimensionalidad El vecino mas cercano es mayor en dimensiones bajas (cerca de 6) Cuando n se incrementa, las cosas se ponen raras: En la alta dimensin, casi todos los puntos estn lejos uno de otro. Ellos casi siempre estn cerca de la frontera. Curso de dimensionalidad El vecino mas cercano es mayor en dimensiones bajas (cerca de 6) Cuando n se incrementa, las cosas se ponen raras: En la alta dimensin, casi todos los puntos estn lejos uno de otro. Ellos casi siempre estn cerca de la frontera.
Imagine los puntos datos dispersos uniformemente en un cubo de 10 dimensiones Para capturar 10% de los puntos, necesitar un cubo con lados .63! Remedio: seleccione los atributos o los modelos ms globales. Evaluacin del domino Enfermedades cardacas: predecir si una persona tiene una limitacin significativa en las arterias, basada en examenes 26 caractersticas 297 puntos datos Evaluacin del domino Enfermedades cardacas: predecir si una persona tiene una limitacin significativa en las arterias, basada en evaluaciones 26 caractersticas 297 puntos dato
Carro MPG: predecir si un auto hace mas de 22 millas por galn, basado en atributos del carro 12 atributos 385 puntos dato Enfermedad cardiaca Relativamente insensible a k 1 0.8
0.6
0.4 0.2 0 0 20 40 K Exactitud de la validacin cruzada del vecino mas cercano sobre datos de enfermedades cardiacas.
Afectacin del corazn Relativamente insensible a k Importancia de la normalizacin Normalizada 1 0.8
0.6
0.4 0.2 0 0 20 40 k Carro MPG Relativamente insensible a k Normalizacin no importa mucho 1 0.8
0.6
0.4 0.2 0 0 20 40 k Carro MPG Ahora la normalizacin importa mucho Observe la escala de sus grafos Normalizada 0.95 0.93
0.91
0.89 0.87 0.85 0 20 40 K Tomado del Instituto Tecnolgico de Massachusetts www.owc.mit.edu 6.034 Artificial Intelligence 2004
Archivo: ch6-mach2.pdf
Ejercicio 1 Use la tcnica del vecino mas cercano para conocer la salida adecuada a la consulta que esta en la ltima fila. Ejercicio 2:Aplicando la tcnica del k-vecino mas cercano, encuentre la respuesta a la consulta (k=3): Ejercicio 3:La nueva consulta es 1000, utilizando la tcnica del KNN=3 Cul seria la clasificacin?