Está en la página 1de 37

Clasificacin

Divisiva no
supervisada
Mtodos I de Anlisis de Datos

Introduccin
Una

de las tareas ms comunes en el anlisis de datos

es la deteccin y la construccin de grupos


homogneos
de los objetos en una poblacin , tal que los objetos del
mismo grupo muestran una alta similitud , mientras
que los objetos de diferentes grupos suelen ser ms
diferentes.
Tales grupos son generalmente llamados clusters y
deben ser construidos sobre la base de los datos que se
registraron para los objetos. Esto comnmente se
denomina el problema de agrupamiento.

El mtodo descrito en este captulo es una agrupacin

mtodo de divisin simblico para una matriz de


datos en un arreglo ;. Por la definicin de un mtodo
de agrupacin divisivo, el algoritmo comienza con
todos los objetos en un cluster, y sucesivamente
cada grupo se divide en dos (los ms pequeos) hasta
que una regla de parada adecuada evita que se
realicen ms divisiones.
Este algoritmo contina de una manera monottica
(Chavent, 1998). En otras palabras, el algoritmo
asume vectores de datos como entrada y procede de
tal manera que cada divisin se lleva a cabo mediante
el uso de slo una nica variable (que se
selecciona de manera ptima).


La estructura de clasificacin resultante es una

particin tal que:


Los clusters generados son disjuntos.

Cada cluster es no vaco.

La unin de todas las clases es todo el

conjunto de objetos:

Donde es el conjunto inicial de objetos.

Datos de Entrada: Datos de Intervalo

Este algoritmo estudia el caso donde objetos


simblicos son descritos por
variables
intervalares . El valor de variable de intervalo se
mide para cada elemento del conjunto inicial .
Para cada elemento , se denota el intervalo por
lo tanto
) es la parte baja (superior) del
intervalo .

Ejemplo: Consideremos la
siguiente tabla:

Aqu el cuarto punto es descrito por la cuarta

fila de la tabla, el vector de intervalos:

El mtodo de agrupacin de
rboles
Se propone un algoritmo recursivo para la
organizacin de una poblacin dada de objetos
simblicos en clases. De acuerdo con el mtodo
de agrupacin de rbol, los nodos se dividen de
forma recursiva por la eleccin de la mejor
variable de intervalo.

La contribucin original de este mtodo radica


en la forma de un nodo se divide. De hecho, el
corte se basar en el nico supuesto de que la
distribucin de los puntos puede ser modelado
por un proceso de Poisson no homogneo,
donde la intensidad se calcula por el mtodo de
ncleo. El corte entonces se realizar con el fin
de maximizar la funcin de verosimilitud.

Proceso de Poisson homogneo

y no homogneo
Un proceso de Poisson es un proceso natural
puntual
que se puede utilizar en los datos
distribuidos al azar y de forma independiente.
Este proceso se caracteriza por dos elementos:
las variables que cuentan el nmero de
puntos
en
intervalos
disjuntos
son
independientes. el nmero promedio de
puntos en cada rea
del espacio es
proporcional a la medida de Lebesgue de
esta rea.

En particular se considera un proceso tal que,


, es una variable que representa la
cardinalidad de . Un proceso de puntos es un
proceso de Poisson de tasa en , donde , si:
,
) ) , variables independientes.

, and ,
Donde es la medida de Lebesgue de
Si la tasa es constante, el proceso de Poisson
es un proceso de Poisson homogneo. Si la
tasa es dependiente de los puntos, el
proceso de Poisson es no-homogneo.

Hiptesis General: Proceso no homogneo de Poisson

Consideremos un problema de agrupamiento,


donde los puntos son independientes e
idnticamente distribuidos.
En particular los puntos observados son
generados por un proceso de Poisson no
homogneo con intensidad , y son observados
en , donde es la unin de campos convexos
disjuntos.

La
funcin
de
verosimilitud,
observaciones con , es:

para

Donde y la integral de intensidad y


proceso de intensidad. (

las

es el


En consecuencia, si se conoce la intensidad del

proceso, la maximizacin de la verosimilitud


corresponder a campos convexos disjuntos
que contienen todos los puntos para los que la
suma de las intensidades de la integral es
mnima. Cuando la intensidad es desconocida,
se estima.

El mtodo del ncleo


Para estimar la intensidad de un proceso de
Poisson no homogneo, utilizaremos un
mtodo no paramtrico, el mtodo del
ncleo. Debido a que este algoritmo
contina de una manera monottica, que no
necesitamos para extender a ms de una
dimensin la frmula.
El estimador de ncleo, que es una suma de
golpes, cada uno de los cuales se coloca
en una observacin, est definido por:


Donde es la anchura de la ventana, tambin llamado
el parmetro de suavizado, que determina la
anchura de los golpes, y K es el ncleo con las
siguientes propiedades:
1. Es simtrico.
2. Es continuo.
3.
4. Se determina la forma de esos golpes.

La eleccin del parmetro de suavizado ser


importante. Si es demasiado pequea, el estimador
degenera en una sucesin de picos situados en cada
punto de la muestra. Si es demasiado grande, la
estimacin se aproxima a una uniforme y luego
vamos a tener una prdida de informacin. Entonces,

Golpes y multimodalidades

En el contexto de agrupamiento, Silverman


(1981,1986) ha distinguido claramente el concepto
de modo desde el concepto de golpe: un modo en
una densidadser de un mximo local, mientras que
un golpe se caracteriza por un intervalo de tal
manera que la densidad es cncava en este
intervalo, pero no en un intervalo mayor.
En el marco de la estimacin de la densidad por el
mtodo del ncleo, el nmero de modos ser
determinado por el parmetro de suavizado: por
cada grandes valores de, la estimacin de la
densidad ser unimodal; para
decreciente, el
nmero de modos aumentar. En palabras de
Silverman: "el nmero de modos es una funcin


Esto
ha sido mostrar al menos para el ncleo
normal. En consecuencia, para estimar la intensidad
del proceso de Poisson no homogneo, vamos a
utilizar el mtodo de ncleo con este ncleo
normales, definido por:

Debido a que utilizamos el ncleo normal, este es un


valor crtico del parmetro de suavizado para que la
estimacin cambie de unimodal a multimodal.
Nuestro criterio de divisin buscar este valor.

Criterio de Divisin

Para cada variable, por un proceso dicotmico,


nos encontramos con el mayor valor del
parmetro , dando una serie de modos de las
intensidades asociadas estrictamente mayor que
uno. Una vez se ha determinado este ,
particionamos E en dos campos convexos
disjuntos y , de manera que , para que la
funcin de verosimilitud:

Se maximice, para los que la integral de la


densidad es ms pequea.

Dado que estamos procediendo variable


por
variable, vamos a ser capaces de
seleccionar la ms adecuada, la que genera
la mayor funcin de verosimilitud. Este
procedimiento se realiza de forma recursiva
hasta que se satisface alguna regla de parada: el
nmero de puntos en un nodo debe estar por
debajo de un valor de corte.

Conjunto de preguntas binarias


de datos de intervalo

En el marco del mtodo de agrupamiento de

divisin, un nodo se divide sobre la base de


una sola variable (elegido adecuadamente) y
respuestas a una pregunta binaria especfica de
la forma , donde es el llamado valor de corte.
Un objeto responde la pregunta si o
no de acuerdo a una funcin binaria


La particin ,) de

inducida por la respuesta


binaria, es como sigue:

Consideremos el caso de una variable intervalo.


Sea el punto medio de es
1. La pregunta binaria es: Es ?
2. La funcin est definida por:

La particin ,) de inducida por la respuesta


binaria, es como sigue:

Mtodo de poda
Al final del proceso de divisin, obtenemos un
enorme rbol. a continuacin, se selecciona el
mejor sub-rbol.
De hecho, hemos desarrollado, bajo la hiptesis
de un proceso de Poisson no homogneo, un
mtodo de poda de rboles que toma la forma
de una prueba de hiptesis clsica, la prueba
de brecha (Kubushishi, 1996;Rasson and
Kubushishi, 1994).

realidad, estamos probando cada corte,


En
queremos saber si cada corte es buena (prueba
de brecha satisfecho) o malo (prueba de brecha
no satisfecha). En el caso de dos clases, y ,
con , las hiptesis son:
existen puntos en
Versus
existen puntos en y puntos en con

Este mtodo de poda cruza la rama de un


rbol por rama, desde la raz hasta las
hojas, con el fin de indexar los buenos
cortes y los malos cortes. Las hojas para
los que hay slo malos cortes se podan.

Aplicacin a datos de
intervalo

El problema actual es la aplicacin de este

nuevo mtodo a los datos simblicos del tipo de


intervalo. A continuacin se define el espacio de
intervalo:
Decidimos para representar cada intervalo por
sus coordenadas del punto medio (longitud
media), en el espacio .

Como
usamos un mtodo de divisin, las

separaciones deben respetar el orden de las


clases de los centros, y por lo tanto se nos lleva
a considerar, en el semiplano , solamente
particiones invariante en relacin con .
Hay que reducir al mnimo, en el caso ms
general de un proceso de Poisson no
homognea, la intensidad integrada,

y elegir como nuestra particin la generada por


cualquier punto que se encuentra dentro del
intervalo que maximiza.

Datos de Salida y
Resultados

Despus
de ejecutar el algoritmo y el procedimiento

de poda, se obtiene la agrupacin final en forma de


rbol. Los nodos del rbol representan las preguntas
binarias seleccionadas por el algoritmo y las hojas
del rbol definen
la -particin. Cada grupo se
caracteriza por una regla, es decir, el camino en el
rbol del cual provienen. Por lo tanto, las
agrupaciones se convierten en nuevos objetos
simblicos definidos de acuerdo con las preguntas
binarias que conducen desde la raz hasta las hojas
correspondientes.

Ejemplo
La agrupacin mtodo descrito ha sido probado
con el conocido conjunto de datos aceites de
Ichino. El conjunto de datos se compone de
ocho aceites que se describen en trminos de
cuatro variables de intervalo. Nuestro algoritmo
de divisin produce la particin del rbol en
clusters que se muestran en la figura 9.1.

Tabla de aceites y
grasas

Tabla 9.2
Gravedad Especfica: Indica la densidad del lquido comparada
con la densidad de un volumen de igual agua a una temperatura de
15C.
Punto de Congelamiento: Temperatura a la que los aceites se
solidifican

Clasificacin en
clsteres

Figura 9.1
Cada nodo terminal corresponde a un clster

Se observa que al generar los clsteres se tiene


en cuenta una variable de corta y un valor de
corte en funcin de esa variable.
Dos preguntas binarias corresponden a dos
funciones binarias:

Cada clster corresponde a un objeto simblico.


,
,

La particin en tres clsteres resultante es:

También podría gustarte