Está en la página 1de 8

INSTITUTO TECNOLOGICO SUPERIOR DE

MISANTLA

INGENIERIA EN SISTEMAS COMPUTACIONALES

RECONOCIMIENTO DE PATRONES

REPORTE DE K-MEANS

M.I.A. ROBERTO ANGEL MELENDEZ ARMENTA

JOSE ALBERTO ALVAREZ PEREZ
VENANCIO CELIS CATARINO
JOSE LUIS LOPEZ CRUZ
JOSE GUADALUPE MONTERO



10 / JULIO / 2014

INTRODUCCIN
Debido al desarrollo alcanzado con los microprocesadores se pueden manejar grandes
volmenes de datos como puntos en espacios de una alta dimensionalidad, stos aparecen
en varias esferas de la vida real, en bases de datos de corporaciones financieras,
telecomunicaciones, medicina, imgenes de satlite, etc., numerosas son las aplicaciones
en las que se requiere del manejo de bases de datos espaciales con el objetivo de conocer
acerca de la identificacin de grupos, para descubrir importantes distribuciones del espacio
en estudio, lo cual puede ser resuelto con el empleo de algn algoritmo de agrupamiento
conveniente, por lo que el estudio, aplicacin y creacin de nuevos algoritmos constituye
un desafo importante en la actualidad.
El algoritmo de k-means clustering es el referente principal entre los diversos mtodos para
seleccionar grupos representativos entre los datos.
Existen una serie matrices que constituyen el fundamento para la implementacin de este
tipo de algoritmo, entre ellas:
- Matriz de datos
- Matriz de distancias
- Matriz de centroides
- Matriz de pertenencias

Sus diferentes variantes se basan fundamentalmente en la forma de medir distancias entre
los datos y los grupos, el criterio para definir la pertenencia de los datos a cada grupo y la
forma de actualizar dichos grupos.


MARCO TERICO

A continuacin se hablara sobre el modelo de agrupamiento de datos como es el k
means, no solo es este algoritmo ya mencionado existen varios tipos de
agrupamiento. Uno de los puntos usados es los Cluster que a continuacin se
definir junto a otros trminos que se ocuparon en la realizacin del proyecto
nombrado en este documento.
Cluster: un punto usado para representa un conjunto de valores entre todos los
iniciales que tienen algo en comn, y se pueden agrupar en funcin de determinado
rasgo.

Algoritmos de agrupamiento: tienen como objetico devolver al usuario una serie de
puntos que en cierto modo representan al resto de puntos iniciales por si privilegiada
con respecto al total.
Aprendizaje no supervisado: no requiere del uso del error entre la salida del sistema
y el modelo que se pretende obtener para adaptar los parmetros: comprensin de
imagen e voz, reconocimiento de formas, procesamiento de datos, fusin sensorial,
procesamiento de imagen.
Matriz de datos: conjunto de valores de entrada.
Matriz de distancias: se almacena la distancia de cada punto de la matriz de datos
a cada centro de grupo o centroides.

K -means: Es un mtodo de agrupamiento, que tiene como objetivo la [particin [de
un conjunto]] n observaciones en k grupos en el que cada observacin pertenece al
grupo ms cercano a la media. Es un mtodo utilizado en minera de datos.

Desarrollo de K-means
Es uno de los algoritmos de aprendizaje no supervisado ms simples que resuelvan el
problema de la agrupacin conocida. El procedimiento sigue una forma sencilla y fcil de
clasificar un conjunto a travs de un cierto nmero de grupos (se supone k grupos) fijos
dados de datos. La idea principal es definir los centros de k, una para cada grupo. Estos
centros deben ser colocados de manera astuta debido a diferentes causas ubicacin
diferente resultado.
Por lo tanto, la mejor opcin es colocar ellos tanto como sea posible lejos el uno del otro.
El siguiente paso es tomar cada punto que pertenece a un conjunto de datos determinado
y asociarlo al centro ms cercano. Cuando hay punto est pendiente, el primer paso se
completa y un grupo de edad temprana se hace. En este punto tenemos que volver a
calcular k nuevos centroides como baricentro de las agrupaciones resultantes de la etapa
anterior.
Despus tenemos estos nuevos k centroides, una nueva unin que hay que hacer entre los
mismos puntos del conjunto de datos y el nuevo centro ms cercano. Un bucle se ha
generado. Como resultado de este bucle se puede notar que los centros k cambian su fase
de ubicacin a paso hasta que se realicen ms cambios, o en otras palabras, los centros
no se mueven ms. Por ltimo, este algoritmo tiene como objetivo minimizar una funcin
objetivo saben funcin de error como cuadrado dada por:


Donde:

Es la distancia eucldea entre

Es el nmero de puntos de datos en

cluster.
Es el nmero de centros de conglomerados

Algoritmo de K-means

Para X = {x1,x2,x3,..,xn} como el conjunto de puntos de datos y V = {v1,v2,.,vc}
como el conjunto de los centros.
1) Seleccionar aleatoriamente 'c' centros de los conglomerados.
2) Calcular la distancia entre cada punto de datos y centros de los conglomerados.
3) Asignar los datos apuntan a la agrupacin centro cuya distancia desde el centro de la
agrupacin es mnimo de todos los centros de los conglomerados..



4) Vuelva a calcular el nuevo centro de clster mediante:

Donde:

Es el nmero de puntos de datos en

cluster.
5) Vuelva a calcular la distancia entre cada punto de datos y nuevos centros de los
conglomerados obtenidos.

6) En caso fue reasignado ningn punto de datos y luego se detiene, de lo contrario repita
desde el paso 3).

Demostracin del Algoritmo de K-Means

1) k centroides iniciales (en este caso k=3)


Son generados aleatoriamente dentro de un conjunto de datos en este caso podra ser una matriz
de valores (mostrados en color rojo, verde y azul).

2) k grupos son generados asocindole el punto


3) EL centroides de cada uno de los k grupos se recalcula.


4) Pasos 2 y 3 se repiten hasta que se logre la convergencia.


Como se trata de un algoritmo heurstico, no hay ninguna garanta de que convergen al ptimo
global, y el resultado puede depender de los grupos iniciales. Como el algoritmo suele ser muy
rpido, es comn para ejecutar varias veces con diferentes condiciones de partida.


CONCLUSIN:

Con este reporte de prctica se muestran los resultados del estudio realizado sobre el
algoritmo de agrupamiento K-means el cual es define k centroides (uno para cada grupo) y
luego tomar cada punto de la base de datos y situarlo en la clase de su centroides ms
cercano. El prximo paso es recalcular el centroides de cada grupo y volver a distribuir
todos los objetos segn el centroides ms cercano. El proceso se repite hasta que ya no
hay cambio en los grupos de un paso al siguiente.
El problema de formar grupos en un conjunto de datos es muy importante para el
conocimiento del comportamiento de una poblacin de la cual solo se tiene una cantidad n
de sus elementos.
El Reconocimiento de Formas constituye un amplio conjunto de tcnicas para el tratamiento
de datos entre las que se puede mencionar: la seleccin y extraccin de caractersticas, la
clasificacin de un objeto en un grupo dado y la divisin de los datos en grupos
(agrupamiento).

También podría gustarte