Análisis de conglomerados y estadístico para investigación agrícola

Diseños Experimentales y Análisis
Estadístico para la Investigación
Ing. M.Sc Johnny Fernando Granja

Análisis de Conglomerados
Algoritmos de clasificación
(Métodos de agrupamiento)
Medidas de
distancia
El criterio “Filas” agrupa entre las distintas
variables y muestra el criterio genotipo en el
ejemplo. Mientras que “Columnas” agruparía por
variable ya que los datos usualmente se ordena
las variables en distintas columnas y los grupos
se mostrarían por variables evaluadas
En el análisis de conglomerados jerárquico para agrupar n muestras
(cada una p-dimensional) se calcula primero una matriz de
distancias. Luego sobre esa matriz se aplica un procedimiento de
conglomeración jerárquico, el cual comienza uniendo las
observaciones más parecidas (menor distancia)
Una característica de los métodos jerárquicos es que una vez que
un objeto es colocado en un conglomerado, su ubicación no
cambia, es decir, en el próximo agrupamiento no se lo vuelve a
asignar a ningún grupo.
Los métodos jerárquicos producen agrupamientos de tal manera que un

conglomerado puede estar contenido completamente dentro de otro, pero
no está permitido otro tipo de superposición entre ellos. Los algoritmos de
conglomeración jerárquicos utilizados con fines de agrupamiento pueden
ser aglomerativos o divisivos (utilizan fusiones o divisiones sucesivas de
los objetos a agrupar).
No arroja gráfico dendrograma. InfoStat permite el
agrupamiento de objetos mediante el procedimiento no-
jerárquico
K-means, la clasificación de entidades depende de la

relación entre sumas de cuadrados entre y dentro de
un número determinado de grupos, que se hipotetiza a
priori. En el método k-means el usuario decide formar k
grupos o conglomerados y el algoritmo evaluara
múltiples particiones de los objetos en k grupos tal que
la distancia entre grupos sea máxima y dentro de
grupos sea mínima.
Para la selección de un métrica de distancia es importante
recordar la clasificación de las mismas según la naturaleza del
dato.
Para datos continuos distancia del tipo de Minkowski (Manhattan,
Euclidea, etc).
Para datos binarios, la selección de un índice de similitud (S) como

emparejamiento simple, emparejamiento positivos, Jaccard, Dice y
luego la conversión del mismo a distancia utilizando una función
como 1-S o raíz(1-S).
Para variables ordinales, la selección de una medida de similitud

basada en coeficientes de correlación.
Para mezcla de tipos de variables, por ejemplo cuantitativas y

binarias, la distancia de Gower es recomendada.
Si se realizan varios análisis con distintas medidas de distancia ej no solo se midió “Euclidea” si
no también “Mahalanobis” se observa en los resultados el valor de Correlación cofenética el
mayor valor indica que es mejor modelo
Dejando los datos por defecto promedio (Average linkage) y distancia Euclidea obtenemos este
valor
En la práctica, se recomienda aplicar varios algoritmos de agrupamiento y de selección o
combinación de variables para cada conjunto de datos. Seleccionando, finalmente, desde los
agrupamientos realizados la interpretación más apropiada
Cuando se elige una distancia como medida de asociación (por ejemplo,
la distancia euclídea) los grupos formados contendrán individuos
parecidos de forma que la distancia entre ellos ha de ser pequeña.
ƒCuando se elige una medida de similaridad (por ejemplo, el coeficiente

de correlación) los grupos formados contendrán individuos con una
similaridad alta entre ellos.
La Distancia ecuclídea mide el parecido entre unidades

de análisis que han sido evaluadas en un conjunto de
variables métricas (cuantitativas)
Lo que cambia es la distancia a la cual se fija el corte. Este criterio es arbitrario y debe estar basado en
el conocimiento y los objetivos del investigador. Según un autor considera que se puede como referencia
un punto medio entre las variables analizadas, siendo subjetiva la línea de corte en función de la
interpretación de los clusters.
Mientras más separados estén los grupos mas diferencias pueden haber entre ellos
Dividirlo en 3 grupos
o conglomerados
Una vez que hemos observado 3 grupos principales para que cada grupo tenga un conlgomerado o
color diferente debemos repetir el proceso anterior colocando el numero de conglomerados que
queremos
Dendrograma: o árbol jerárquico, es una representación gráfica del resultado del proceso
de agrupamiento en forma de árbol.
Con 2 Conglomerados.
Para ver las características del conglomerado puedo ir a medidas de resumen….
Y cambio la clasificación en lugar de genotipo ya se genero la categoría conglomerado…
Generalmente en dendrogramas
siempre se necesita acompañar
de los promedios de todos los
grupos formados
Se puede o no activar la casilla CV

(coeficiente de variacon en las medidas de
resumen)
En algunos casos cuando existe un alto numero de variables se
considera el coeficiente de variación de las variables el cual
debe ser mayor a un 20 % y se usa como criterio para ser
considerada en el análisis de conglomerados.
Ejemplo: Sobre el mismo ejercicio realice un nuevo análisis de

conglomerados tomando las variable que presente solo CV
(coeficientes de variación) mayor al 18% y analice si existen
diferencias respecto a los grupos creados
El razonamiento es que las variables que tienen CV menor a 20% indican una
baja variabilidad dentro de ellas por tanto no influirán determinantemente en el
cluster
Para obtener el CV no se usa criterio de clasificación
pues se quiere saber el CV de la variable completa
Entonces se realiza un análisis de conglomerados con
las variables cuyo CV es mayor a 18 y se ejecuta el
análisis
“Ejercicio Clase8 Conglomerados”
• La base contiene datos de lluvias anuales registradas en el período
1980-2009 (30 años) pertenecientes a 13 estaciones pluviométricas
de la región pampeana central de la Argentina. De las 13 estaciones,
7 se encuentran ubicadas en la provincia de Córdoba, Argentina (en
las localidades de Córdoba, Laboulaye, Marcos Juárez, Pilar, Río
Cuarto, Villa Dolores y Villa María de Río Seco), 5 en la provincia de
Santa Fe (en las localidades de Ceres, El Trébol, Rosario, Sauce Viejo
y Venado Tuerto) y 3 en la provincia de Entre Ríos (en las localidades
de Gualeguaychú, Paraná y Concordia). La primer columna
corresponde al identificador de la estación, la segunda a la provincia
en la cual se encuentra y las siguientes 30 columnas a las
precipitaciones anuales de los años comprendidos entre 1980 y 2009.
Los datos son gentileza de la Ing. Leticia Vicario (Vicario et al.
“Caracterización de las sequías meteorológicas en la región central
de la Argentina”, Tecnología y Ciencias del Agua, en prensa)
Consigna:
• Identifique grupos de estaciones hidro-meterológicamente

similares mediante un Análisis de Conglomerados
utilizando los 30 valores de lluvia anuales, la distancia
Euclídea y el método de Encadenamiento promedio
1) ¿En este caso conviene estandarizar los datos? ¿Por qué?
2) Compare los dendrogramas resultantes del análisis de
conglomerados identificando 2, 3, 4 y 5 grupos. ¿En qué se
diferencian? ¿Cuál considera que es el número óptimo de
grupos?
3) Guarde la clasificación del análisis de conglomerados con 3
grupos. Indique en el dendrograma a qué distancia es posible
separarlos. ¿Qué grupos se formaron?
4) ¿Cuál es la precipitación media del año 2009 en cada grupo
formado (3 grupos)?
5) Realice un gráfico de perfiles multivariados del tipo dot
plot para los tres grupos formados. ¿Se pueden observar
diferencias entre grupos? Describa dichas diferencias.
Observando el dendrograma ¿qué grupos esperaría que tengan
un comportamiento más similar entre sí?
6) Realice un ACP e identifique en el biplot los tres grupos
formados según el Análisis de Conglomerados. Interprete
Biplot resultante del ACP realizado sobre
los datos de lluvia anual entre 1980 y 2009
de 13 estaciones pluviométricas de la
región central de Argentina. Los distintos
colores corresponden a estaciones
pertenecientes a distintos grupos
obtenidos mediante un Análisis de
conglomerados
Ejemplo Tesis: Yaguana, F. 2018. Caracterización
morfológica de poblaciones nativas de chirimoya (annona
cherimola mill.) con fines de aprovechamiento en la
provincia de Loja
Análisis de correspondencia de 128 entradas de chirimoya

Análisis de conglomerados y estadístico para investigación agrícola

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de conglomerados y estadístico para investigación agrícola

Cargado por

Copyright:

Formatos disponibles

Diseños Experimentales y Análisis

Estadístico para la Investigación

Ing. M.Sc Johnny Fernando Granja

Los métodos jerárquicos producen agrupamientos de tal manera que un

K-means, la clasificación de entidades depende de la

Para datos binarios, la selección de un índice de similitud (S) como

Para variables ordinales, la selección de una medida de similitud

Para mezcla de tipos de variables, por ejemplo cuantitativas y

ƒCuando se elige una medida de similaridad (por ejemplo, el coeficiente

La Distancia ecuclídea mide el parecido entre unidades

Se puede o no activar la casilla CV

Ejemplo: Sobre el mismo ejercicio realice un nuevo análisis de

• Identifique grupos de estaciones hidro-meterológicamente

También podría gustarte