Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medidas de
distancia
El criterio “Filas” agrupa entre las distintas
variables y muestra el criterio genotipo en el
ejemplo. Mientras que “Columnas” agruparía por
variable ya que los datos usualmente se ordena
las variables en distintas columnas y los grupos
se mostrarían por variables evaluadas
En el análisis de conglomerados jerárquico para agrupar n muestras
(cada una p-dimensional) se calcula primero una matriz de
distancias. Luego sobre esa matriz se aplica un procedimiento de
conglomeración jerárquico, el cual comienza uniendo las
observaciones más parecidas (menor distancia)
Una característica de los métodos jerárquicos es que una vez que
un objeto es colocado en un conglomerado, su ubicación no
cambia, es decir, en el próximo agrupamiento no se lo vuelve a
asignar a ningún grupo.
Una vez que hemos observado 3 grupos principales para que cada grupo tenga un conlgomerado o
color diferente debemos repetir el proceso anterior colocando el numero de conglomerados que
queremos
Dendrograma: o árbol jerárquico, es una representación gráfica del resultado del proceso
de agrupamiento en forma de árbol.
Con 2 Conglomerados.
Con 8 Conglomerados.
Con 4 Conglomerados.
Para ver las características del conglomerado puedo ir a medidas de resumen….
Y cambio la clasificación en lugar de genotipo ya se genero la categoría conglomerado…
Generalmente en dendrogramas
siempre se necesita acompañar
de los promedios de todos los
grupos formados
El razonamiento es que las variables que tienen CV menor a 20% indican una
baja variabilidad dentro de ellas por tanto no influirán determinantemente en el
cluster
Para obtener el CV no se usa criterio de clasificación
pues se quiere saber el CV de la variable completa
Entonces se realiza un análisis de conglomerados con
las variables cuyo CV es mayor a 18 y se ejecuta el
análisis
“Ejercicio Clase8 Conglomerados”
• La base contiene datos de lluvias anuales registradas en el período
1980-2009 (30 años) pertenecientes a 13 estaciones pluviométricas
de la región pampeana central de la Argentina. De las 13 estaciones,
7 se encuentran ubicadas en la provincia de Córdoba, Argentina (en
las localidades de Córdoba, Laboulaye, Marcos Juárez, Pilar, Río
Cuarto, Villa Dolores y Villa María de Río Seco), 5 en la provincia de
Santa Fe (en las localidades de Ceres, El Trébol, Rosario, Sauce Viejo
y Venado Tuerto) y 3 en la provincia de Entre Ríos (en las localidades
de Gualeguaychú, Paraná y Concordia). La primer columna
corresponde al identificador de la estación, la segunda a la provincia
en la cual se encuentra y las siguientes 30 columnas a las
precipitaciones anuales de los años comprendidos entre 1980 y 2009.
Los datos son gentileza de la Ing. Leticia Vicario (Vicario et al.
“Caracterización de las sequías meteorológicas en la región central
de la Argentina”, Tecnología y Ciencias del Agua, en prensa)
Consigna: