Está en la página 1de 4

2.

3 Clasificacin de vecino ms cercano Vecino ms cercano de clasificacin se utiliza principalmente cuando todos los valores de los atributos son continuo, aunque puede ser modificado para tratar con atributos categricos. La idea es calcular la clasificacin de una instancia no se ve con el clasificacin de la instancia o las instancias que estn ms cerca de l, en algn sentido que tenemos que definir. Cul debera ser su clasificacin? Incluso sin saber lo que representan los seis atributos, parece intuitivamente obvio que la instancia invisible est ms cerca de la primera instancia que al segundo. En ausencia de cualquier otra informacin, que podra razonablemente prever su clasificacin con la de la primera instancia, es decir, como 'negativa'. En la prctica hay probabilidades de ser muchos casos ms en el conjunto de entrenamiento pero el mismo principio se aplica. Es habitual que basar la clasificacin en los de los vecinos ms cercanos (k, donde k es un entero pequeo como 3 o 5), y no slo de la ms cercano. El mtodo se conoce entonces como k-vecino ms cercano o simplemente k-NN clasificacin (figura 2.4). Basic k-Vecinos ms cercana algoritmo de clasificacin - Encuentra las instancias de capacitacin k que estn ms cerca a la instancia no se ve. - Tome la clasificacin que ocurre ms frecuentemente para estos casos k. Figura 2.4 La base k-ms cercano algoritmo de clasificacin Vecino Podemos ilustrar k-NN clasificacin esquemticamente cuando la dimensin (Es decir, el nmero de atributos) es pequeo. El siguiente ejemplo ilustra el caso en el que la dimensin es 2. En aplicaciones del mundo real de minera de datos que Por supuesto, puede ser considerablemente mayor. La Figura 2.5 muestra un conjunto de entrenamiento con 20 casos, cada uno dando los valores de dos atributos y una clasificacin asociada. Cmo podemos estimar la clasificacin para un 'no visto' caso en que el atributos primero y segundo son 9,1 y 11,0, respectivamente? Para este pequeo nmero de atributos que puede representar el conjunto de entrenamiento el 20 puntos en un grfico de dos dimensiones con los valores de los atributos de la primera y segunda medido a lo largo de los ejes horizontal y vertical, respectivamente. Cada punto es marcado con un smbolo + o - para indicar que la clasificacin es positivo o negativo, respectivamente. El resultado se muestra en la Figura 2.6. Un crculo se ha aadido para encerrar los cinco vecinos ms prximos de lo invisible ejemplo, que se muestra como un crculo pequeo cerca del centro de la ms

grande. Los cinco vecinos ms cercanos estn marcados con tres signos + y - dos signos, por lo que un bsico de 5-NN clasificador clasificara la instancia no se ve como positiva por un forma de votacin por mayora. Hay otras posibilidades, por ejemplo los 'votos' de cada uno de los k vecinos ms prximos se pueden ponderar, de modo que las clasificaciones de los vecinos ms cercanos se les da un peso mayor que las clasificaciones de ms distantes. No vamos a seguir esta aqu. Podemos representar dos puntos en dos dimensiones ("en un espacio bidimensional" es el trmino habitual) como (A1, A2) y (b1, b2) y visualizarlos como puntos en un plano. Cuando hay tres atributos que pueden representar los puntos (a1, a2, a3) y (b1, b2, b3) y pensar en ellos como puntos en un cuarto con tres ejes de la derecha ngulos. A medida que el nmero de dimensiones (atributos) aumenta rpidamente se convierte en imposible visualizar, al menos para alguien que no es fsico (y la mayora de los que son).
Deshacer cambios

2.3.1 Las medidas de distancia Hay muchas formas posibles de medir la distancia entre dos casos con los valores de los atributos n, o, equivalentemente, entre dos puntos en n-dimensional espacio. Por lo general, imponen tres requisitos en cualquier medida de distancia que utilizamos. Vamos a utilizar la notacin dist (X, Y), que indica la distancia entre dos puntos X e Y. 1. La distancia de cualquier punto A de s mismo es cero, es decir, dist (A, A) = 0. 2. La distancia de A a B es la misma que la distancia de B a A, es decir dist (A, B) = dist (B, A) (la condicin de simetra). La tercera condicin se conoce como la desigualdad del tringulo (Figura 2.7). Se corresponde a la idea intuitiva de que "la distancia ms corta entre dos puntos es una lnea recta ". La condicin dice que para cualquiera de los puntos A, B y Z: dist (A, B) dist (A, Z) + dist (Z, B). La igualdad slo se produce si Z es el mismo punto como A o B o en la directa ruta entre ellos. Hay muchas posibles medidas de distancia, pero el ms popular es casi sin duda la distancia eucldea (Figura 2.8). Esta medida lleva el nombre del Matemtico griego Euclides de Alejandra, que vivi alrededor del 300 aC, y es celebrado como el fundador de la geometra. Es la medida de la distancia supone en la Figura 2.6. Vamos a empezar por el que ilustra la frmula para la distancia euclidiana en dos dimensiones.

Si denotamos una instancia en el conjunto de la formacin de (A1, A2) y lo invisible por ejemplo (B1, B2) la longitud de la lnea recta que une los puntos es ? (A1 - B1) 2 + (a2 - b2) 2 por el teorema de Pitgoras. Si hay dos puntos (a1, a2, a3) y (B1, B2, B3) en una de tres dimensiones espacio de la frmula correspondiente es ? (A1 - B1) 2 + (a2 - b2) 2 + (a3 - b3) 2 La frmula para la distancia eucldea entre los puntos (a1, a2, ..., an) y (B1, b2, ..., bn) en el espacio n-dimensional es una generalizacin de estos dos resultados. La distancia eucldea viene dada por la frmula ? (A1 - B1) 2 + (a2 - b2) 2 + ... + (Uno - mil millones) 2 La distancia entre el bloque de la Ciudad de los puntos (4, 2) y (12, 9) en la Figura 2.9 es (12 - 4) + (9 - 2) = 8 + 7 = 15. Una tercera posibilidad es la distancia mxima dimensin. Este es el mayor diferencia absoluta entre cualquier par de valores de los atributos correspondientes. (El diferencia absoluta es la diferencia convertida a un nmero positivo si es negativo.) Por ejemplo, la distancia mxima dimensin entre instancias Un problema importante cuando se utiliza la frmula de la distancia eucldea (y muchos otros mide la distancia) es que los valores grandes con frecuencia inundan los pequeos. Supongamos que dos casos son los siguientes por alguna problema de clasificacin asociada con los coches (las propias clasificaciones se omiten). Cuando la distancia de estos casos de un uno no se ve se calcula, el atributo de kilometraje es casi seguro que contribuir con un valor de varios miles millones cuadrados, es decir, varios, a la suma del total de cuadrados. El nmero de puertas probablemente contribuir con un valor menor que 10. Es evidente que en la prctica el atributo nico que importa al momento de decidir que los vecinos son los ms cercanos utilizando la frmula de la distancia euclidiana es el kilometraje. Esto es irrazonable como el unidad de medida, aqu la milla, es totalmente arbitraria. Podramos haber optado por una medida alternativa de la distancia recorrida como milmetros o quizs aos luz. Del mismo modo que podra haber medido edad en alguna otra unidad como milisegundos o milenios. Las unidades escogidas no deberan afectar la decisin de que son los vecinos ms cercanos. Para superar este problema por lo general normalizar los valores de continua los atributos. La idea es hacer que los valores de cada atributo ejecuta desde 0 a 1. Supongamos que, para algunos atributo Un valor ms pequeo se encuentra en los datos de entrenamiento es -8.1 y el ms grande es de 94,3. En primer lugar, ajustar cada valor de A por adicin de 8,1 a que, por lo que ahora se ejecutan los valores 0 a 94.3 8.1 = 102.4. La difusin de los valores de

de mayor a menor ahora es 102.4 unidades, por lo que dividimos todos los valores por los que el nmero de hacer que la propagacin de valores de 0 a 1. En general, si el menor valor del atributo A es mnimo y el valor ms alto es Max, que se convierte cada valor de A, por ejemplo una, a (a - min) / (max - min). Utilizando este enfoque todos los atributos continuos se convierten en nmeros pequeos 0 a 1, por lo que el efecto de la eleccin de la unidad de medida en el resultado se reduce considerablemente. Ntese que es posible que una instancia invisible puede tener un valor de A que es menor que min o mayor que mx. Si queremos mantener los nmeros ajustados en el rango de 0 a 1, se puede simplemente convertir los valores de A que son menores que min o mayor que MAX a 0 1, respectivamente. Otro problema que se produce con la medicin de la distancia entre dos puntos es la ponderacin de las contribuciones de los diferentes atributos. Podemos creer que el kilometraje de un automvil es ms importante que el nmero de puertas tiene (aunque sin duda no mil veces ms importante, ya que con la valores desnormalizados). Para lograr esto se puede ajustar la frmula de Euclides distancia a ? W1 (A1 - B1) 2 + w2 (a2 - b2) 2 + ... + Wn (uno - mil millones) 2 donde W1, W2,. . . , Wn son los pesos. Es costumbre a escala los valores de peso de modo que la suma de todos los pesos es una. 2.3.3 Tratamiento de los atributos categricos Una de las falencias del mtodo del vecino ms cercano a la clasificacin es que no hay manera enteramente satisfactoria de tratar con los atributos categricos. Una posibilidad es decir que la diferencia entre dos valores idnticos de el atributo es cero y que la diferencia entre dos valores diferentes es 1. En efecto, esto equivale a decir (para un atributo de color) rojo - rojo = 0, rojo - azul = 1, azul - verde = 1, etc A veces no es una orden (o una ordenacin parcial) de los valores de una atributo, por ejemplo, podramos tener buenos valores, regulares y malos. Podramos el tratamiento de la diferencia entre el bien y el promedio o entre regulares y malos, como 0,5 y la diferencia entre el bien y el mal como 1. Esto todava no parece toda la razn, pero puede ser lo mejor que podemos hacer en la prctica.

También podría gustarte