Está en la página 1de 14

Ing.

Jhon Abel Ordoñez Ingali


 Clustering: aprendizaje desde datos sin etiquetas
 Es realmente útil
 Se intenta determinar la estructura en los datos
 Agrupa los datos juntos basados sobre los datos de los features

 Aplicaciones
 Segmentacion de mercado
 Social networks analysis
 Organización de clusters de computadoras
 Astronomical Data Analysis
 Se requiere de un algoritmo que automáticamente agrupe los datos en grupos
coherentes
 K mean es por lejos el algoritmo de clustering mas ampliamente usado
 Dado el siguiente conjunto de datos sin etiquetas(Unlabeled data ). Se quiere
agrupar en 2 grupos
1. Aleatoriamente se localizan 2 puntos como cluster centroids
 Se tienen tantos centroides como el numero de cluster que queremos(K cluster centroids)
 Para este ejemplo sólo 2 clusters

2. Asignación de cluster
 A través de cada example y dependiendo si se encuentra mas cerca de uno u otro
centroide(Rojo o azul) se asigna a cada punto uno de los grupos
 Como se muestra en la imagen dependiendo de la distancia se tienen los puntos rojos y
azules
1. Centroides
2. Asignación
3. Traslación del centroide
 Se toma cada centroide y se mueve al promedio de sus correspondientes puntos
asignados
4. Repetir hasta la convergencia
 Input
 K (número de clusters)
 Training set

 Algoritmo
 Se inicializa randómicamente los K clusters centroids como {μ1, μ2, μ3 ... μK}

 El primer for asigna el cluster tomando en cuenta la distancia, se asigna para cada training
example. La distancia se mide de la siguiente manera:

 Podemos decir que cada entrada sensorial se
hace corresponder a un área
correspondiente de la corteza cerebral; en
otras palabras, la corteza es un mapa de
cálculo de auto-organización en el cerebro
humano.
 Kohonen formuló el principio de formación
de mapa topográfico(1990). Este principios
enuncia que una locación espacial de una
neurona de salida en un mapa fotográfico
corresponde a un feature particular del
patrón de entrada
 En la imagen se muestra a la neurona
ganadora y a sus vecinos
cercanos(neighbours)
 La proximidad es determinada por el diseñador de la red. Puede incluir 1, 2 o mas
neuronas dentro de la vecindad.
 La red de Kohonen consiste en una sóla capa de neuronas, pero tienen dos tipos de
conecciones. La primera es forward connections desde el input layer y las
neuronas, y el otro es lateral connections entre neuronas del output layer. The
lateral connections son usadas para crear una competencia entre neuronas. La
neurona con un nivel de activación mayor en el output layer se convierte en el
ganador(winner). Esta neurona es la única que produce una señal de salida.
 Las señales de feedback lateral produce efectos de exitación o inhibición,
dependiendo de la distancia de la neurona. Esto puede ser logrado mediante el
uso de Mexican hat function el cual describe la sinapsis de pesos entre neuronas
del Kohonen layer
 Representa el relacionamiento
entre la distancia desde la
neurona ganadora y la fuerza de
conexiones del Kohonen layer.
De acuerdo a esta función los
vecinos cercanos tiene una
fuerte exitación y lo vecinos
lejanos tienen un efecto
inhibidor
 Solo la neurona ganadora y su
vecindad están permitidos de
aprender. Los demás no tienen
efectos en sus pesos.
 Standard Competitive learning rule

 Donde xi es la señal de entrada y alpha es el learning rate entre 0 y 1

 Distancia euclidiana
 Step 1: Inicializacion
 Asignar valores aleatorios a los pesos en un intervalo de 0 y 1 y un valor pequeño al
learning rate
 Step 2: Activación y asignación
 Se activan las neuronas aplicando los valores de entrada para encontrar el ganador
winner-takes-all (best matching)

 Donde n es el número de features y m es número de neuronas en el output layer


(Kohonen Layer)
 Step 3: Learning
 Se actualizan los pesos
 Step 3: Learning

 Donde la corrección de pesos se determina por the competitive learning rule

 Aquí lo importante es the neighbourhood function, el cual esta centreado a la


neurona ganadora. Usualmente esta función tiene amplitud constante, esto quiere
decir que todas las neuronas topológicamente localizadas por vecindad se
actualizan simultáneamente

También podría gustarte