Está en la página 1de 6

S.E.P.

TecNM

INSTITUTO TECNOLÓGICO DE CIUDAD


JUAREZ

INGENIERIA EN TECNOLOGIAS DE LA INFORMACION


Y COMUNICACIONES

Análisis Inteligente de Datos


DENDROGRAMAS

PROFESOR:
Eduardo Pérez Carrillo

P R E S E N T A:

OROZCO HERNANDEZ CARLOS OMAR

18110559

26 de abril de 2021
DENDOGRAMAS

Un dendrograma es un diagrama que muestra las distancias de atributos entre cada


par de clases fusionadas de manera secuencial. Para evitar cruzar líneas, el
diagrama se expone gráficamente de tal modo que los miembros de cada par de
clases que se fusionan son elementos próximos.

La herramienta Dendrograma utiliza un algoritmo de clustering jerárquico. El


programa primero calcula las distancias entre cada par de clases en el archivo de
firma de entrada. Después, se fusiona iterativamente el par de clases más cercano
y se fusiona sucesivamente el siguiente par de clases más cercano y el siguiente
más cercano hasta que se fusionan todas las clases. Después de cada fusión, se
actualizan las distancias entre todos los pares de clases. Las distancias a las que
se fusionan las firmas de clases se utilizan para construir un dendrograma.

Cuando no está activada la opción Utilizar varianza en cálculos de distancia


(MEAN_ONLY en Python), la distancia dmn entre un par de clases m y n se mide
como una distancia entre sus valores medios:

donde:

m y n: Id. de las clases

i: un número de capa

µ: una media de la clase m o n de la capa i

Cuando la opción de varianza está activada (VARIANCE en Python), la herramienta


Dendrograma mide las distancias entre los pares de clases en función de los valores
medios y las varianzas usando la siguiente fórmula:

donde V es una varianza de una clase m o n en la capa i.


Las nuevas estadísticas (valores medios y varianzas) que describen la clase
fusionada se basan en el valor medio y la varianza original de las muestras que
constituyen la clase fusionada. Por lo tanto, la clase fusionada se produce utilizando
el valor medio y la varianza de forma conjunta. Las dos firmas que se utilizan para
crear la clase fusionada se reemplazan por una firma única de la clase combinada.
La nueva firma de valor medio se calcula en base a las ubicaciones en el espacio
de atributos multidimensional de todas las celdas miembro de la clase fusionada. La
nueva firma mantiene el número más bajo de las dos clases de entrada para el Id.
de clase fusionada.

Los niveles de valores, o las distancias a las que se fusionan cada par de clases,
se pueden interpolar utilizando las barras de escala del gráfico de dendrograma.
Debido a la limitación del tamaño de un carácter (la resolución gruesa del gráfico),
se redondean los niveles de fusión para la visualización. Sin embargo, los valores
precisos de los niveles de fusión se presentan como DISTANCE en la tabla asociada
con el dendrograma.

Las varianzas, no las covarianzas, se utilizan para calcular la distancia después que
se fusiona un par de clases. El algoritmo que utiliza Dendrograma no usa la distancia
de Mahalanobis para determinar la distancia entre clases. Por lo tanto, es posible
que las distancias entre las clases y las clases fusionadas no coincidan con los
resultados de las herramientas de cuadrícula que se basan en la distancia de
Mahalanobis, como Editar firmas, Clasificación de máxima verosimilitud y
Probabilidad de clase.

El dendrograma se puede utilizar para reducir la mala clasificación estadística del


análisis proporcionando la información necesaria para combinar o separar las
clases de datos. Si las clases en su análisis son estadísticamente muy cercanas (es
decir, puede ser difícil diferenciar las dos clases según sus estadísticas), puede
resultar en una mala clasificación. En este caso, considere la fusión de las clases.
No hay normas definitivas de cuándo las clases se deben y no se deben fusionar.
¿Cuándo se deben fusionar las clases? Esto depende de la heterogeneidad de su
área de estudio y los datos, la cantidad de clases en las que están intentando
clasificar los datos y sus objetivos. Por ejemplo, si su área de estudio es muy
heterogénea, tiene el potencial para muchas clases diferentes, dispares, de esa
manera es posible que no sea necesario fusionar las clases. En otra situación
posible, sus datos pueden ser más homogéneo, y podría estar intentando clasificar
los datos en demasiadas clases. En la segunda situación, las clases pueden ser
estadísticamente demasiado cercanas; por tanto, puede resultar adecuado fusionar
algunas de las clases.

Si su análisis no requiere clases detalladas, es posible que desee fusionar las clases
en categorías más generales para disminuir el riesgo de que se produzcan malas
clasificaciones. El dendrograma identifica qué clases son estadísticamente más
cercanas, pero le corresponde a usted, mediante su conocimiento de la zona y de
sus objetivos, determinar cuál es el momento adecuado para fusionar las clases.

Por ejemplo, podría ser apropiado fusionar dos clases si ha especificado una clase
como zonas húmedas generales y una segunda clase como ciénagas. No obstante,
las estadísticas determinadas a partir de los ejemplos de capacitación son muy
similares entre las dos clases; por consiguiente, estas dos clases estarán cerca en
el dendrograma resultante. Si solo está interesado en la identificación de las zonas
húmedas, puede fusionar las ciénagas con la clase de zonas húmedas general.

El dendrograma no solo identifica qué clases se pueden fusionar, también puede


identificar cuándo podría ser beneficioso agregar clases. Si una clase está
estadísticamente lejos de otra clase, puede agregar clases para perfeccionar la
clasificación. Por ejemplo, puede haber una clase especificada como los cultivos y
una segunda clase como la hierba. Sobre el dendrograma resultante, estas dos
clases pueden ser muy distantes. Sin embargo, supongamos que tienen un ráster
multibanda de alta resolución. Si analiza la salida agrícola para la zona, los datos
de resolución más alta le permiten perfeccionar las clases de cultivos y hierba en
tipos de cultivos específicos.
Ejemplo

En el siguiente ejemplo, las clases 3 y 5 son los vecinos más próximos en el espacio
de atributos; por lo tanto, se fusionan al nivel 3,443. Este valor indica el grado de
similitud relativo, que también se puede visualizar como la distancia en el espacio
multidimensional. Las dos clases se fusionan y se tratan como una clase única. Se
calculan las estadísticas para la clase fusionada y las distancias desde la clase
fusionada a las otras clases. Después se identifican las siguientes dos clases más
cercanas. Las dos candidatas son las clases 4 y 6. La distancia entre ellas es de
3,609, y se fusionan. El proceso itera. Todas las clases se fusionan secuencialmente
en clases más grandes hasta que todas las clases se fusionan en una clase única.

Configuraciones que se utilizan en el cuadro de diálogo de la herramienta


Dendrograma:

Archivo de firma de entrada: isoclust12.gsg

Archivo de dendrograma de salida: isodendro.txt

Utilizar varianza en cálculos de distancia: {predeterminado}

Ancho de línea del dendrograma: 78

El archivo de dendrograma de salida será el siguiente:

Distances between pairs of combined classes (in the sequence of merging):

Remaining Merged Between-Class

Class Class Distance

----------------------------------

3 5 3.442680

4 6 3.608904

7 9 3.899360

2 7 3.795288
3 4 4.883098

2 8 6.073256

1 3 6.257798

1 2 9.350019

----------------------------------

Dendrogram of /discb/topdir/myspace/isoclust12.gsg

También podría gustarte