Está en la página 1de 44

UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO

ESCUELA DE POSTGRADO

MAESTRIA EN ESTADISTICA

ASIGNATURA: MINERÍA DE DATOS

DOCENTE: MGT. CARLA PATRICIA ZUÑIGA VILCA

ESTUDIANTES

• LUIS ALBERTO HUILLCA VARGAS

• ALEX SANDRO CAYLLAHUA CHIRE

• DAYANA GIANINA ARQUE PACCORI

CUSCO - PERÚ

2022
Análisis de Cluster

Análisis cluster con r, aplicado a las emisiones de gases de efecto invernadero de


los países de la Unión Europea.
Principalmente se desarrollará clasificaciones diferentes, basadas por un lado, en los países
más y menos emisores de gases, y por otro, en los países que más o menos han reducido sus
emisiones de gases, incluso los que las han aumentado y vamos hacer el perfilamiento de
los cluster, para indicar que diferencia a un cluster de otro. La data se llama emisiones.xlsx.
Los pasos que vamos a seguir son:
• Definición del problema

• Descripción de la data

• Objetivo

• Número de Clusters óptimo

• Análisis Cluster con Kmeans

• Análisis Cluster con algoritmo PAM

• Análisis Cluster Jerárquico: método aglomerativo

• Dendograma

• Conclusiones

Definición del problema


El análisis de conglomerados consiste en dividir la población en al menos dos grupos que
sean lo más diferentes posible pero cuyos elementos sean lo más parecidos. El objetivo es
maximizar la distancia entre grupos y minimizar la distancia dentro de cada grupo.

Descripción de la data
Los datos se descargaron de EUROSTAT. Se analizan las emisiones de gases de efecto
invernadero por país y por año desde 1990. La información se mide en toneladas por
persona.

Objetivo
El objetivo es situar a los países en relación con sus emisiones.
Número de grupos
En esta fase del análisis, la pregunta más habitual es cuántos grupos hay que crear para
optimizar la clasificación. En teoría, cuantos más conglomerados se tengan, menos
dispersión habrá dentro de los conglomerados. Esto es positivo, pero si hay muchas
divisiones, la interpretación de los grupos es demasiado complicada y las diferencias se
vuelven demasiado insignificantes.
library(cluster)
library(fpc)

## Warning: package 'fpc' was built under R version 4.2.1

library(mclust)

## Warning: package 'mclust' was built under R version 4.2.1

## Package 'mclust' version 5.4.10


## Type 'citation("mclust")' for citing this R package in publications.

library(flexmix)

## Warning: package 'flexmix' was built under R version 4.2.1

## Loading required package: lattice

library(prabclus)

## Warning: package 'prabclus' was built under R version 4.2.1

## Loading required package: MASS

##
## Attaching package: 'prabclus'

## The following object is masked from 'package:fpc':


##
## con.comp

library(diptest)
library(trimcluster)

## Warning: package 'trimcluster' was built under R version 4.2.1

library(plyr)

## Warning: package 'plyr' was built under R version 4.2.1

library(modeltools)

## Loading required package: stats4

##
## Attaching package: 'modeltools'
## The following object is masked from 'package:plyr':
##
## empty

library(mvtnorm)

##
## Attaching package: 'mvtnorm'

## The following object is masked from 'package:mclust':


##
## dmvnorm

library(robustbase)

## Warning: package 'robustbase' was built under R version 4.2.1

library(kernlab)

##
## Attaching package: 'kernlab'

## The following object is masked from 'package:modeltools':


##
## prior

## The following object is masked from 'package:flexmix':


##
## prior

Metodos Particionales

K-Medias o Kmeans
library(readxl)

## Warning: package 'readxl' was built under R version 4.2.1

emisiones <- read_excel("emisiones.xlsx")


emisiones=data.frame(emisiones)
colnames(emisiones) <- tolower(colnames(emisiones)) # para poner en minuscula
los nombres de columna
nombres=emisiones[,1]
emisiones=emisiones[,-1]
rownames(emisiones) <- nombres # para asignar nombres a las filas.
head(emisiones)

## a1990 a1991 a1992 a1993 a1994 a1995 a1996 a1997 a1998 a1999 a2000
## UE27 11.7 11.4 11.1 10.8 10.8 10.9 11.1 10.9 10.8 10.6 10.6
## UE28 12.0 11.8 11.4 11.2 11.1 11.2 11.4 11.2 11.1 10.9 10.8
## Belgium 15.0 15.2 15.1 14.9 15.3 15.5 15.9 15.1 15.6 15.0 15.1
## Bulgaria 11.8 9.7 9.2 9.2 8.8 9.0 9.0 8.7 8.3 7.4 7.3
## Czechia 19.3 17.6 16.9 16.2 15.4 15.4 15.6 15.2 14.6 13.7 14.7
## Denmark 14.1 16.1 14.9 15.3 16.0 15.4 17.8 15.9 15.1 14.6 13.8
## a2001 a2002 a2003 a2004 a2005 a2006 a2007 a2008 a2009 a2010 a2011
## UE27 10.7 10.6 10.8 10.8 10.7 10.6 10.5 10.3 9.5 9.7 9.5
## UE28 10.9 10.8 11.0 10.9 10.8 10.8 10.7 10.4 9.6 9.8 9.5
## Belgium 14.8 14.7 14.7 14.7 14.3 13.9 13.5 13.5 12.1 12.7 11.6
## Bulgaria 7.9 7.7 8.4 8.3 8.4 8.6 9.2 9.0 7.9 8.3 9.1
## Czechia 14.8 14.5 14.8 14.9 14.7 14.8 14.9 14.3 13.3 13.5 13.4
## Denmark 14.0 13.8 14.7 13.6 12.8 14.2 13.3 12.5 11.9 11.9 10.9
## a2012 a2013 a2014 a2015 a2016 a2017 a2018
## UE27 9.3 9.1 8.8 8.9 8.9 8.9 8.7
## UE28 9.3 9.1 8.7 8.8 8.7 8.8 8.6
## Belgium 11.3 11.2 10.6 11.0 10.8 10.8 10.8
## Bulgaria 8.4 7.7 8.2 8.7 8.4 8.8 8.3
## Czechia 12.9 12.4 12.2 12.3 12.5 12.4 12.2
## Denmark 10.1 10.3 9.6 9.0 9.3 8.9 8.9

CLUSTER
res<-kmeans(scale(emisiones),4) # con scale estadarizamos, se desea formar 4
grupos
res

## K-means clustering with 4 clusters of sizes 11, 1, 16, 7


##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
## 1 -0.0427767 0.01498913 0.07023714 0.1054059 0.1450676 0.2157732
## 2 3.9264650 4.13357310 4.38826446 4.4545834 4.1946558 3.5478785
## 3 -0.6000642 -0.62229176 -0.66294954 -0.6696896 -0.7154473 -0.7922419
## 4 0.8778723 0.80831637 0.77804565 0.7287123 0.8081082 0.9649266
## a1996 a1997 a1998 a1999 a2000 a2001
a2002
## 1 0.2512941 0.2458249 0.2514387 0.2388996 0.2226334 0.2206571
0.1859707
## 2 3.3367478 3.2231561 2.9191985 3.1544777 3.2717426 3.4306100
3.7465260
## 3 -0.8109387 -0.8297966 -0.8400364 -0.8121275 -0.8058360 -0.7994205
-0.7691678
## 4 0.9820053 1.0499308 1.1079370 1.0302382 1.0246666 0.9904129
0.9306403
## a2003 a2004 a2005 a2006 a2007 a2008
a2009
## 1 0.1873914 0.1391938 0.1455474 0.1507542 0.1292292 0.1466497
0.1718941
## 2 3.7725659 4.1525123 4.3007823 4.1171485 3.9144384 3.9502019
4.0275376
## 3 -0.7734767 -0.7313422 -0.7135924 -0.7376161 -0.7542388 -0.7558010
-0.7553462
## 4 0.9345365 0.8596902 0.7879535 0.8609161 0.9616946 0.9327810
0.8810239
## a2010 a2011 a2012 a2013 a2014 a2015
a2016
## 1 0.1246362 0.1224834 0.1281341 0.1259628 0.1049368 0.1124959
0.1190867
## 2 3.9416199 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.1195365
## 3 -0.7626961 -0.7444776 -0.7501492 -0.7715442 -0.7594599 -0.7681388
-0.7819834
## 4 0.9843600 0.9373603 0.9490150 1.0480244 1.0682243 1.0954663
1.1546064
## a2017 a2018
## 1 0.08649293 0.07162595
## 2 3.12169800 3.23963847
## 3 -0.75100497 -0.74549916
## 4 1.13470848 1.12863752
##
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia
## 1 1 4 3 4
## Denmark Germany Estonia Ireland Greece
## 1 1 4 4 1
## Spain France Croatia Italy Cyprus
## 3 3 3 3 1
## Latvia Lithuania Luxembourg Hungary Malta
## 3 3 2 3 3
## Netherlands Austria Poland Portugal Romania
## 4 1 1 3 3
## Slovenia Slovakia Finland Sweden United Kingdom
## 1 3 4 3 1
## Iceland Liechtenstein Norway Switzerland Turkey
## 4 3 1 3 3
##
## Within cluster sum of squares by cluster:
## [1] 33.20526 0.00000 49.33515 36.37672
## (between_SS / total_SS = 87.9 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss"
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"

Los cluster que han sido escogidos por Agrupación de K-means son 3 clusters de tamaños
13, 1, 10, 11
El país UE27 pertenece al grupo 1, … , el país Turquía pertenece al grupo 4.
El indice de homogeneidad es 88.5%
La suma de cuadrados en el cluster 1 es 33.87231
La suma de cuadrados en el cluster 2 es 0.00000 La suma de cuadrados en el cluster 3 es
56.47946 La suma de cuadrados en el cluster 3 es 22.59696

Determinar numero de conglomerados


kmeansruns(scale(emisiones),criterion="ch") # criterio: calinski harabats

## K-means clustering with 10 clusters of sizes 3, 6, 1, 3, 1, 8, 6, 5, 1, 1


##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
## 1 0.1259201 0.1456109 0.23343182 0.286985353 0.33325221 0.40952501
## 2 -0.1000904 -0.0625842 -0.01078354 -0.004298378 0.00815122 0.07773391
## 3 3.9264650 4.1335731 4.38826446 4.454583355 4.19465582 3.54787848
## 4 -0.9803418 -1.0331838 -1.11768170 -1.159830543 -1.25907917 -1.44850514
## 5 0.5541505 0.4212495 0.46813229 0.555862643 0.51238949 0.76083324
## 6 -0.6123313 -0.5991997 -0.66889634 -0.654085164 -0.69429914 -0.78492294
## 7 -0.3855773 -0.4437865 -0.40406540 -0.410815234 -0.42310520 -0.40238732
## 8 0.5719935 0.6288581 0.71551927 0.759441163 0.85872157 0.99503872
## 9 2.3741298 2.0750808 1.19126347 0.575068164 0.77114334 0.71399214
## 10 0.6612081 0.7203466 0.86775741 0.959178579 1.04980134 1.34634694
## a1996 a1997 a1998 a1999 a2000 a2001
## 1 0.40841414 0.43741350 0.49079344 0.52992550 0.52109116 0.50806156
## 2 0.06878781 0.08616769 0.09031963 0.07021095 0.07340448 0.06211411
## 3 3.33674781 3.22315610 2.91919849 3.15447767 3.27174261 3.43061001
## 4 -1.43311528 -1.46819594 -1.53713779 -1.48446008 -1.40678479 -1.38721510
## 5 0.71030421 0.94611432 1.18097172 1.37412859 1.33580024 1.08938591
## 6 -0.79254229 -0.82222664 -0.82885299 -0.80429150 -0.82701038 -0.83077620
## 7 -0.44819893 -0.43060775 -0.41666318 -0.40622049 -0.39041505 -0.36392497
## 8 1.10879910 1.03816495 1.03271120 0.90271221 0.86633421 0.86004151
## 9 0.77822947 0.84921893 0.69529071 0.47141638 0.39202833 0.42046474
## 10 1.32163160 1.52748669 1.76890136 1.80040935 1.84398511 1.85386725
## a2002 a2003 a2004 a2005 a2006
a2007
## 1 0.45355953 0.42364788 0.37527134 0.35996815 0.35897977
0.381437140
## 2 0.03417229 0.04481099 0.02473193 0.05598342 0.01800194
-0.001751721
## 3 3.74652599 3.77256593 4.15251227 4.30078227 4.11714851
3.914438432
## 4 -1.32495301 -1.29627158 -1.22719451 -1.18559278 -1.16800792
-1.135990747
## 5 1.06710753 0.95401951 0.95473444 0.87271348 1.29296253
1.454365949
## 6 -0.79392334 -0.81041327 -0.76755866 -0.76715596 -0.79460013
-0.830397631
## 7 -0.36191565 -0.37948632 -0.35442293 -0.31758818 -0.35633243
-0.369613026
## 8 0.82479490 0.85855262 0.73153384 0.59583100 0.71923026
0.672660674
## 9 0.34482951 0.61306632 0.63281049 0.65296548 0.55911893
1.247443964
## 10 1.64958980 1.47681441 1.27665838 1.37813388 1.24848716
1.155478638
## a2008 a2009 a2010 a2011 a2012
a2013
## 1 0.417971181 0.47612363 0.39801676 0.4092179739 0.42612024
0.41737801
## 2 0.005216135 0.01939131 -0.00429598 -0.0001231101 0.02549437
0.01439235
## 3 3.950201860 4.02753761 3.94161991 4.0028018059 3.94980688
3.62294580
## 4 -1.145735434 -1.06908293 -1.04868361 -1.0213213933 -1.03070110
-1.01138935
## 5 1.735612288 1.72253335 1.55212604 1.5467553020 1.70994406
1.78203401
## 6 -0.815332958 -0.82257553 -0.83127217 -0.8414267590 -0.82014489
-0.83508312
## 7 -0.363882127 -0.40319281 -0.43099131 -0.3706845124 -0.41155203
-0.46644282
## 8 0.611648548 0.65198692 0.69873538 0.5901898215 0.53538184
0.57307702
## 9 0.973602973 0.62125353 1.35706532 1.5467553020 1.49142085
1.97436808
## 10 1.140292511 1.03103207 0.86941351 0.7453085481 0.86316665
0.93026886
## a2014 a2015 a2016 a2017 a2018
## 1 0.48751908 0.543287046 0.5626082 0.49737222 0.44713327
## 2 -0.01462011 -0.008892238 -0.0398864 -0.02749294 -0.04737286
## 3 3.51948331 3.384500451 3.1195365 3.12169800 3.23963847
## 4 -0.96629342 -0.972696078 -0.9166875 -0.87310902 -0.84246114
## 5 1.97002525 2.239983390 2.2672271 2.36355944 2.42515779
## 6 -0.84195419 -0.896143950 -0.9326071 -0.90226820 -0.89094214
## 7 -0.47371879 -0.415496983 -0.4121595 -0.40656222 -0.41098030
## 8 0.52386439 0.547302895 0.5743642 0.46821304 0.48785731
## 9 1.97002525 1.426773900 1.7088175 1.95533099 1.78520868
## 10 1.02313421 1.215941810 1.2679677 1.16803325 1.17434817
##
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia
## 2 2 8 7 8
## Denmark Germany Estonia Ireland Greece
## 8 1 9 10 2
## Spain France Croatia Italy Cyprus
## 7 7 4 7 1
## Latvia Lithuania Luxembourg Hungary Malta
## 4 6 3 6 6
## Netherlands Austria Poland Portugal Romania
## 8 2 2 6 6
## Slovenia Slovakia Finland Sweden United Kingdom
## 7 7 8 6 2
## Iceland Liechtenstein Norway Switzerland Turkey
## 5 6 1 6 4
##
## Within cluster sum of squares by cluster:
## [1] 2.611517 7.029234 0.000000 2.959890 0.000000 7.713589 5.021590
6.503359
## [9] 0.000000 0.000000
## (between_SS / total_SS = 96.8 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss"
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault" "crit"
## [11] "bestk"

Segun el criterio de calinski harabats nos dice que seleccionemos con 10 clusters de
tamaños 3, 3, 1, 1, 6, 5, 6, 1, 1, 8
El país UE27 pertenece al grupo 5, … , el país Turquía pertenece al grupo 2.
El indice de homogeneidad es 96.8%
La suma de cuadrados en el cluster 1 es 2.611517 . . . La suma de cuadrados en el cluster 10
es 7.713589
kmeansruns(scale(emisiones),criterion="asw") # silueta

## K-means clustering with 2 clusters of sizes 23, 12


##
## Cluster means:
## a1990 a1991 a1992 a1993 a1994 a1995
a1996
## 1 -0.4675514 -0.4752771 -0.4866656 -0.4870806 -0.5139719 -0.5466443
-0.5615718
## 2 0.8961401 0.9109478 0.9327758 0.9335712 0.9851129 1.0477350
1.0763459
## a1997 a1998 a1999 a2000 a2001 a2002
a2003
## 1 -0.5673496 -0.573926 -0.5610335 -0.5538479 -0.54864 -0.5344655
-0.5382684
## 2 1.0874201 1.100025 1.0753141 1.0615417 1.05156 1.0243922
1.0316811
## a2004 a2005 a2006 a2007 a2008 a2009
a2010
## 1 -0.5130521 -0.4897241 -0.5169916 -0.5338844 -0.5266029 -0.525681
-0.5394762
## 2 0.9833499 0.9386379 0.9909006 1.0232785 1.0093222 1.007555
1.0339960
## a2011 a2012 a2013 a2014 a2015 a2016
a2017
## 1 -0.5226184 -0.5204178 -0.5403103 -0.5462847 -0.5492859 -0.561878
-0.540948
## 2 1.0016853 0.9974674 1.0355947 1.0470456 1.0527979 1.076933
1.036817
## a2018
## 1 -0.5393495
## 2 1.0337533
##
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia
## 1 1 2 1 2
## Denmark Germany Estonia Ireland Greece
## 2 2 2 2 1
## Spain France Croatia Italy Cyprus
## 1 1 1 1 2
## Latvia Lithuania Luxembourg Hungary Malta
## 1 1 2 1 1
## Netherlands Austria Poland Portugal Romania
## 2 1 1 1 1
## Slovenia Slovakia Finland Sweden United Kingdom
## 1 1 2 1 1
## Iceland Liechtenstein Norway Switzerland Turkey
## 2 1 2 1 1
##
## Within cluster sum of squares by cluster:
## [1] 134.5915 302.5709
## (between_SS / total_SS = 55.7 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss"
"tot.withinss"
## [6] "betweenss" "size" "iter" "ifault" "crit"
## [11] "bestk"

Segun el criterio del indice de silueta nos dice que seleccionemos 2 clusters de tamaños 12,
23
El país UE27 pertenece al grupo 2, … , el país Turquía pertenece al grupo 2.
El indice de homogeneidad es 55.7%
Por recomendación de ambos criterios, vamos a trabajar con cluster
res=kmeans(scale(emisiones),4)
plotcluster(emisiones,res$cluster)
clusplot(emisiones,res$cluster, color = TRUE,
shade = TRUE, labels =2,lines=0,
main ="Gráfico de Conglomerados")
En este caso, se
obtienen 4 clusters. Uno de ellos sólo tiene una observación. Esto es Luxemburgo. Esto
puede explicarse por el hecho de que está demasiado lejos de los demás y, por tanto, no
consigue unirse a ellos. Los otros 3 grupos están bien diferenciados. Los que emiten poco y
reducen sus emisiones aparecen en azul. Los que no reducen sus emisiones pero no
contaminan mucho aparecen en negro. Por último, los que producen gases de efecto
invernadero y no los reducen aparecen en rojo.
En el grupo 1 tenemos a los paises: UE27, UE28, Bulgaria, Grecia, España, Francia, Italia,
Austria, Polonia, Eslovenia, Eslovaquia, Reino Unido y Noruega.
En el grupo 2 tenemos a los paises: Croacia Letonia Lituania Hungría Malta Portugal
Rumanía Suecia Liechtenstein Suiza y Turquía
En el grupo 3 tenemos al país: Luxemburgo
En el grupo 4 tenemos a los paises: Bélgica Chequia Dinamarca Alemania Estonia Irlanda
Chipre Países Bajos Finlandia y Islandia
Ademas estos componentes explican el 96.64% de los puntos de variabilidad.
res$cluster

## UE27 UE28 Belgium Bulgaria Czechia


## 1 1 4 2 4
## Denmark Germany Estonia Ireland Greece
## 4 4 4 4 1
## Spain France Croatia Italy Cyprus
## 2 2 2 1 4
## Latvia Lithuania Luxembourg Hungary Malta
## 2 2 3 2 2
## Netherlands Austria Poland Portugal Romania
## 4 1 1 2 2
## Slovenia Slovakia Finland Sweden United Kingdom
## 1 1 4 2 1
## Iceland Liechtenstein Norway Switzerland Turkey
## 4 2 1 2 2

En el grupo 1 tenemos a los paises: UE27, UE28, Bulgaria, Grecia, España, Francia, Italia,
Austria, Polonia, Eslovenia, Eslovaquia, Reino Unido y Noruega.
En el grupo 2 tenemos a los paises: Croacia Letonia Lituania Hungría Malta Portugal
Rumanía Suecia Liechtenstein Suiza y Turquía
En el grupo 4 tenemos al país: Luxemburgo
En el grupo 3 tenemos a los paises: Bélgica Chequia Dinamarca Alemania Estonia Irlanda
Chipre Países Bajos Finlandia y Islandia

Perfilado y caracterización de clusters

Adicionar los cluster a la base de datos


emisiones.new<-cbind(emisiones,res$cluster)
colnames(emisiones.new)<-c(colnames(emisiones.new[,-length(emisiones.new)]),
"cluster.km")
head(emisiones.new)

## a1990 a1991 a1992 a1993 a1994 a1995 a1996 a1997 a1998 a1999 a2000
## UE27 11.7 11.4 11.1 10.8 10.8 10.9 11.1 10.9 10.8 10.6 10.6
## UE28 12.0 11.8 11.4 11.2 11.1 11.2 11.4 11.2 11.1 10.9 10.8
## Belgium 15.0 15.2 15.1 14.9 15.3 15.5 15.9 15.1 15.6 15.0 15.1
## Bulgaria 11.8 9.7 9.2 9.2 8.8 9.0 9.0 8.7 8.3 7.4 7.3
## Czechia 19.3 17.6 16.9 16.2 15.4 15.4 15.6 15.2 14.6 13.7 14.7
## Denmark 14.1 16.1 14.9 15.3 16.0 15.4 17.8 15.9 15.1 14.6 13.8
## a2001 a2002 a2003 a2004 a2005 a2006 a2007 a2008 a2009 a2010 a2011
## UE27 10.7 10.6 10.8 10.8 10.7 10.6 10.5 10.3 9.5 9.7 9.5
## UE28 10.9 10.8 11.0 10.9 10.8 10.8 10.7 10.4 9.6 9.8 9.5
## Belgium 14.8 14.7 14.7 14.7 14.3 13.9 13.5 13.5 12.1 12.7 11.6
## Bulgaria 7.9 7.7 8.4 8.3 8.4 8.6 9.2 9.0 7.9 8.3 9.1
## Czechia 14.8 14.5 14.8 14.9 14.7 14.8 14.9 14.3 13.3 13.5 13.4
## Denmark 14.0 13.8 14.7 13.6 12.8 14.2 13.3 12.5 11.9 11.9 10.9
## a2012 a2013 a2014 a2015 a2016 a2017 a2018 cluster.km
## UE27 9.3 9.1 8.8 8.9 8.9 8.9 8.7 1
## UE28 9.3 9.1 8.7 8.8 8.7 8.8 8.6 1
## Belgium 11.3 11.2 10.6 11.0 10.8 10.8 10.8 4
## Bulgaria 8.4 7.7 8.2 8.7 8.4 8.8 8.3 2
## Czechia 12.9 12.4 12.2 12.3 12.5 12.4 12.2 4
## Denmark 10.1 10.3 9.6 9.0 9.3 8.9 8.9 4

Tabla de medias
med<-aggregate(x = emisiones.new[,1:7],by =
list(emisiones.new$cluster.km),FUN = mean)
med

## Group.1 a1990 a1991 a1992 a1993 a1994 a1995


a1996
## 1 1 11.570000 11.220000 10.84 10.690000 10.690000 10.840000
11.090000
## 2 2 8.671429 8.271429 7.65 7.435714 7.257143 7.271429
7.407143
## 3 3 34.400000 35.600000 34.50 34.400000 32.200000 26.100000
26.000000
## 4 4 16.230000 16.010000 15.04 14.680000 14.870000 14.700000
15.360000

Describir variables
par(mfrow=c(2,4))
for (i in 1:length(emisiones.new[,1:29])) {

boxplot(emisiones.new[,i]~emisiones.new$cluster.km,
main=names(emisiones.new[i]), type="l")
}
En el año 1991: En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2
presenta muy bajo porcentaje de emisiones de gases, En el grupo 3 presenta alto porcentaje
de emisiones de gases, En el grupo 3 presenta muy alto porcentaje de emisiones de gases. . .
. En el año 2018: En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo
2 presenta muy bajo porcentaje de emisiones de gases, En el grupo 3 presenta alto
porcentaje de emisiones de gases, En el grupo 3 presenta muy alto porcentaje de emisiones
de gases.

PAM

metodo particional
res=pam(scale(emisiones),4) # normalizacion Z
res

## Medoids:
## ID a1990 a1991 a1992 a1993 a1994
## UE27 1 -0.1238809 -0.1241630 -0.06470121 -0.07791954 -0.06483063
## Netherlands 21 0.4827788 0.5971890 0.77260857 0.82473993 0.87066405
## Hungary 19 -0.5877972 -0.6343876 -0.74977285 -0.69249621 -0.72166733
## Luxembourg 18 3.9264650 4.1335731 4.38826446 4.45458335 4.19465582
## a1995 a1996 a1997 a1998 a1999
## UE27 -0.01204485 -0.03687372 -0.04706348 -0.04601189 -0.05516575
## Netherlands 1.06530036 1.09521404 1.09145741 1.15540956 0.94784782
## Hungary -0.85518459 -0.82933515 -0.89489818 -0.91512527 -0.83250126
## Luxembourg 3.54787848 3.33674781 3.22315610 2.91919849 3.15447767
## a2000 a2001 a2002 a2003 a2004
## UE27 -0.0435587 -0.0573361 -0.07455773 -0.09157029 -0.09688378
## Netherlands 0.8760139 0.8027054 0.74091745 0.65852674 0.63281049
## Hungary -0.8663342 -0.8218174 -0.84343433 -0.81893710 -0.78365486
## Luxembourg 3.2717426 3.4306100 3.74652599 3.77256593 4.15251227
## a2005 a2006 a2007 a2008 a2009
a2010
## UE27 -0.09417771 -0.1302493 -0.1550273 -0.1455982 -0.1470812
-0.1546553
## Netherlands 0.58704108 0.5146436 0.5117214 0.5687855 0.6980870
0.7718831
## Hungary -0.77539651 -0.8418552 -0.8907499 -0.9076075 -0.9154160
-0.9105156
## Luxembourg 4.30078227 4.1171485 3.9144384 3.9502019 4.0275376
3.9416199
## a2011 a2012 a2013 a2014 a2015
a2016
## UE27 -0.1336976 -0.1201878 -0.1138304 -0.1246125 -0.0791696
-0.08397137
## Netherlands 0.6677492 0.6992742 0.7379348 0.7361975 0.9147531
0.88589800
## Hungary -0.9351443 -0.9942806 -1.0205481 -0.9567289 -0.8923791
-0.84811088
## Luxembourg 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.11953654
## a2017 a2018
## UE27 -0.1149705 -0.1346386
## Netherlands 0.7889640 0.7089306
## Hungary -0.7856315 -0.7454992
## Luxembourg 3.1216980 3.2396385
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia
## 1 1 2 3 2
## Denmark Germany Estonia Ireland Greece
## 2 2 2 2 1
## Spain France Croatia Italy Cyprus
## 1 3 3 1 2
## Latvia Lithuania Luxembourg Hungary Malta
## 3 3 4 3 3
## Netherlands Austria Poland Portugal Romania
## 2 1 1 3 3
## Slovenia Slovakia Finland Sweden United Kingdom
## 1 1 2 3 1
## Iceland Liechtenstein Norway Switzerland Turkey
## 2 3 1 3 3
## Objective function:
## build swap
## 1.574956 1.574956
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"

Para el clusters 1 el país UE27 forma el centro


Para el clusters 2 el país Paises Bajos forma el centro
Para el clusters 3 el país Hungría forma el centro
Para el clusters 4 el país Luxenburgo forma el centro
Envase a ellos se van a formar el resto, ademas vemos sus coordenadas estandarizadas
plot(res)
Vemos 2 graficos: 1 grafico el clusters y el grafico de silueta
El grafico de clusters indica que estos 2 componentes explican el 96.64% de la variabilidad
de los puntos
El grafico de siluesta con n=35 tiene un indice se silueta de 0.41
El clusters 1 con n=11 tiene un indice se silueta de 0.42
El clusters 2 con n=10 tiene un indice se silueta de 0.36
El clusters 3 con n=13 tiene un indice se silueta de 0.46
El clusters 3 con n=1 tiene un indice se silueta de 0.0
Probando un pam con 10 clusters
asw<-numeric()
for(h in 2:10){
res<-pam(scale(emisiones),h)
asw[h-1]<-res$silinfo$avg.width
}
plot(2:10,asw,type="b",xlab="k",ylab="ASW")

El asw empezo en 2 clusters con 0.5, paso a 3 clusters y disminuyo a 0.35,


4 clusters a 0.40,
5 clusters a 0.33,
6 clusters a 0.34,
7 clusters a 0.32,
8 clusters a 0.33,
9 clusters a 0.32,
10 clusters a 0.29.
Por tanto, el que tiene mayor homogeneidad seria con 2 cluster.

Grafico de siluestas
par(mfrow=c(1,3))
for(h in 2:4){
res=pam(scale(emisiones),h)
plot(res,which.plots=2)
}

La silueta 1 con 2 clusters tiene un promedio de indice de 0.5


La silueta 2 con 3 clusters tiene un promedio de indice de 0.35
La silueta 3 con 4 clusters tiene un promedio de indice de 0.41
Nos quedamos con 2 clusters debido a que el promedio de silueta es mayor con 2 clusters
coeficientes promedio de silueta
pamk(scale(emisiones),criterion="asw")

## $pamobject
## Medoids:
## ID a1990 a1991 a1992 a1993 a1994
## Switzerland 34 -0.6948548 -0.5991997 -0.5404454 -0.5772631 -0.6221466
## Netherlands 21 0.4827788 0.5971890 0.7726086 0.8247399 0.8706641
## a1995 a1996 a1997 a1998 a1999
a2000
## Switzerland -0.6678202 -0.7161264 -0.7495551 -0.710628 -0.6569739
-0.6485407
## Netherlands 1.0653004 1.0952140 1.0914574 1.155410 0.9478478
0.8760139
## a2001 a2002 a2003 a2004 a2005
a2006
## Switzerland -0.6545871 -0.7036386 -0.7507465 -0.7192701 -0.7094721
-0.7306668
## Netherlands 0.8027054 0.7409175 0.6585267 0.6328105 0.5870411
0.5146436
## a2007 a2008 a2009 a2010 a2011
a2012
## Switzerland -0.8217759 -0.7647308 -0.6849156 -0.6666897 -0.7800256
-0.7211266
## Netherlands 0.5117214 0.5687855 0.6980870 0.7718831 0.6677492
0.6992742
## a2013 a2014 a2015 a2016 a2017
a2018
## Switzerland -0.6633563 -0.7558732 -0.8020225 -0.8187209 -0.873109
-0.8909421
## Netherlands 0.7379348 0.7361975 0.9147531 0.8858980 0.788964
0.7089306
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia
## 1 1 2 1 2
## Denmark Germany Estonia Ireland Greece
## 2 2 2 2 2
## Spain France Croatia Italy Cyprus
## 1 1 1 1 2
## Latvia Lithuania Luxembourg Hungary Malta
## 1 1 2 1 1
## Netherlands Austria Poland Portugal Romania
## 2 1 2 1 1
## Slovenia Slovakia Finland Sweden United Kingdom
## 1 1 2 1 2
## Iceland Liechtenstein Norway Switzerland Turkey
## 2 1 2 1 1
## Objective function:
## build swap
## 3.034255 2.589189
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"
##
## $nc
## [1] 2
##
## $crit
## [1] 0.0000000 0.4988386 0.3548675 0.4060404 0.3231428 0.3339764 0.3160318
## [8] 0.3222885 0.3155829 0.2842144

Segun el promedio de silueta recomieda 2 cluster para agrupar

CH CALINSKI HARABATZ
pamk(scale(emisiones),criterion="ch")

## $pamobject
## Medoids:
## ID a1990 a1991 a1992 a1993
a1994
## UE28 2 -0.07035214 -0.05378722 -0.007611907 -0.001097458
-0.005118208
## Belgium 3 0.46493588 0.54440711 0.696489502 0.709506809
0.830855770
## Italy 14 -0.56995429 -0.51122995 -0.426266799 -0.404413394
-0.423105197
## Estonia 8 2.37412979 2.07508084 1.191263465 0.575068164
0.771143343
## Ireland 9 0.66120815 0.72034662 0.867757412 0.959178579
1.049801335
## Croatia 13 -0.99818470 -1.17980008 -1.206487280 -1.191839745
-1.259079174
## Hungary 19 -0.58779722 -0.63438760 -0.749772852 -0.692496205
-0.721667332
## Luxembourg 18 3.92646503 4.13357310 4.388264459 4.454583355
4.194655822
## Iceland 31 0.55415054 0.42124945 0.468132288 0.555862643
0.512389492
## a1995 a1996 a1997 a1998 a1999
## UE28 0.05821679 0.03105155 0.02560807 0.03067459 0.02006027
## Belgium 1.06530036 1.04993053 0.97033817 1.18097172 1.04814918
## Italy -0.36335308 -0.44442531 -0.41042121 -0.32719563 -0.25576846
## Estonia 0.71399214 0.77822947 0.84921893 0.69529071 0.47141638
## Ireland 1.34634694 1.32163160 1.52748669 1.76890136 1.80040935
## Croatia -1.39385720 -1.37273727 -1.35515131 -1.37524412 -1.25878203
## Hungary -0.85518459 -0.82933515 -0.89489818 -0.91512527 -0.83250126
## Luxembourg 3.54787848 3.33674781 3.22315610 2.91919849 3.15447767
## Iceland 0.76083324 0.71030421 0.94611432 1.18097172 1.37412859
## a2000 a2001 a2002 a2003 a2004
## UE28 0.004839856 -0.009556017 -0.02795915 -0.04610986 -0.07542218
## Belgium 1.045408882 0.922155614 0.88071320 0.79490802 0.74011847
## Italy -0.237152941 -0.248456435 -0.23765277 -0.22795157 -0.20419176
## Estonia 0.392028331 0.420464736 0.34482951 0.61306632 0.63281049
## Ireland 1.843985111 1.853867246 1.64958980 1.47681441 1.27665838
## Croatia -1.205124128 -1.108497941 -1.02982866 -0.97804860 -0.93388603
## Hungary -0.866334212 -0.821817439 -0.84343433 -0.81893710 -0.78365486
## Luxembourg 3.271742612 3.430610006 3.74652599 3.77256593 4.15251227
## Iceland 1.335800238 1.089385907 1.06710753 0.95401951 0.95473444
## a2005 a2006 a2007 a2008 a2009
a2010
## UE28 -0.07220291 -0.08577393 -0.1090446 -0.1217854 -0.1214701
-0.1302727
## Belgium 0.69691508 0.60359430 0.5347127 0.6164111 0.5188089
0.5768224
## Italy -0.18207691 -0.24143772 -0.2929753 -0.3122877 -0.3775817
-0.3740986
## Estonia 0.65296548 0.55911893 1.2474440 0.9736030 0.6212535
1.3570653
## Ireland 1.37813388 1.24848716 1.1554786 1.1402925 1.0310321
0.8694135
## Croatia -0.90724531 -0.90856827 -0.8677585 -0.8837947 -0.8641937
-0.9105156
## Hungary -0.77539651 -0.84185521 -0.8907499 -0.9076075 -0.9154160
-0.9105156
## Luxembourg 4.30078227 4.11714851 3.9144384 3.9502019 4.0275376
3.9416199
## Iceland 0.87271348 1.29296253 1.4543659 1.7356123 1.7225333
1.5521260
## a2011 a2012 a2013 a2014 a2015
a2016
## UE28 -0.1336976 -0.1201878 -0.1138304 -0.1533062 -0.1092885
-0.1427513
## Belgium 0.4092180 0.4261202 0.4631718 0.3918735 0.5533267
0.4744383
## Italy -0.3663757 -0.3933418 -0.5259748 -0.5837112 -0.5309527
-0.5248211
## Estonia 1.5467553 1.4914209 1.9743681 1.9700252 1.4267739
1.7088175
## Ireland 0.7453085 0.8631666 0.9302689 1.0231342 1.2159418
1.2679677
## Croatia -0.9092912 -0.9942806 -1.0205481 -1.0141162 -1.0128546
-0.9656708
## Hungary -0.9351443 -0.9942806 -1.0205481 -0.9567289 -0.8923791
-0.8481109
## Luxembourg 4.0028018 3.9498069 3.6229458 3.5194833 3.3845005
3.1195365
## Iceland 1.5467553 1.7099441 1.7820340 1.9700252 2.2399834
2.2672271
## a2017 a2018
## UE28 -0.1441296 -0.1637272
## Belgium 0.4390539 0.4762219
## Italy -0.5815173 -0.5418790
## Estonia 1.9553310 1.7852087
## Ireland 1.1680333 1.1743482
## Croatia -0.9022682 -0.9200307
## Hungary -0.7856315 -0.7454992
## Luxembourg 3.1216980 3.2396385
## Iceland 2.3635594 2.4251578
## Clustering vector:
## UE27 UE28 Belgium Bulgaria Czechia
## 1 1 2 3 2
## Denmark Germany Estonia Ireland Greece
## 2 2 4 5 1
## Spain France Croatia Italy Cyprus
## 3 3 6 3 2
## Latvia Lithuania Luxembourg Hungary Malta
## 6 7 8 7 7
## Netherlands Austria Poland Portugal Romania
## 2 1 1 7 7
## Slovenia Slovakia Finland Sweden United Kingdom
## 3 3 2 7 1
## Iceland Liechtenstein Norway Switzerland Turkey
## 9 7 1 7 6
## Objective function:
## build swap
## 0.9879691 0.9744464
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"
##
## $nc
## [1] 9
##
## $crit
## [1] 0.00000 38.85648 30.03803 78.94525 71.80541 81.01012 73.40502
77.03702
## [9] 82.89823 80.51983

Segun CALINSKI HARABATZ recomieda 9 cluster para agrupar


res=pam(scale(emisiones),2)
plotcluster(emisiones,res$clustering)
clusplot(emisiones,res$clustering, color = TRUE,
shade = TRUE, labels =2,lines=0,
main ="Gráfico de Conglomerados")
En este caso, se obtienen 4 clusters. Uno de ellos sólo tiene una observación. Esto es
Luxemburgo. Esto puede explicarse por el hecho de que está demasiado lejos de los demás
y, por tanto, no consigue unirse a ellos. Los otros 3 grupos están bien diferenciados. Los que
emiten poco y reducen sus emisiones aparecen en rojo. Los que no reducen sus emisiones
pero no contaminan mucho aparecen en negro. Por último, los que producen gases de
efecto invernadero y no los reducen aparecen en verde.
En el grupo 1 tenemos a los paises: UE27, UE28, Bulgaria, Grecia, España, Francia, Italia,
Austria, Polonia, Eslovenia, Eslovaquia, Reino Unido y Noruega.
En el grupo 3 tenemos a los paises: Croacia Letonia Lituania Hungría Malta Portugal
Rumanía Suecia Liechtenstein Suiza y Turquía
En el grupo 4 tenemos al país: Luxemburgo
En el grupo 2 tenemos a los paises: Bélgica Chequia Dinamarca Alemania Estonia Irlanda
Chipre Países Bajos Finlandia y Islandia
#PERFILAMIENTO
DATANUEVA= cbind(emisiones,clu=res$clustering)

attach(DATANUEVA)

par(mfrow=c(2,4))
boxplot(a1990~clu)
boxplot(a1991~clu)
boxplot(a1992~clu)
boxplot(a1993~clu)
boxplot(a2015~clu)
boxplot(a2016~clu)
boxplot(a2017~clu)
boxplot(a2018~clu)
En el año 1991: En
el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2 presenta alto
porcentaje de emisiones de gases, En el grupo 3 presenta my bajo porcentaje de emisiones
de gases, En el grupo 3 presenta muy alto porcentaje de emisiones de gases. . . . En el año
2018: En el grupo 1 presenta bajo porcentaje de emisiones de gases, En el grupo 2 presenta
alto porcentaje de emisiones de gases, En el grupo 3 presenta my bajo porcentaje de
emisiones de gases, En el grupo 3 presenta muy alto porcentaje de emisiones de gases.
library(factoextra)

## Warning: package 'factoextra' was built under R version 4.2.1

## Loading required package: ggplot2

##
## Attaching package: 'ggplot2'

## The following object is masked from 'package:kernlab':


##
## alpha

## Welcome! Want to learn more? See two factoextra-related books at


https://goo.gl/ve3WBa
Cluster Jerárquico Aglomerativo

Usando el enlace de Ward


res.hc=hclust(dist(scale(emisiones)),method="ward.D") #la matriz de
disimilaridades = distancias #puedes usar una base de datos con variables
cualis y cuantis esto no se podria hacer en el de k medias
plot(res.hc)

Este es el dedrograma, podemos visualizar muy claramente 2 grupos, 1 un grupo a la


izquierda y otro a la derecha.

Cortando el dendrograma considerando cuatro conglomerados


(res.hc4=cutree(res.hc, k=4))

## UE27 UE28 Belgium Bulgaria Czechia


## 1 1 2 1 2
## Denmark Germany Estonia Ireland Greece
## 2 2 2 2 1
## Spain France Croatia Italy Cyprus
## 1 1 3 1 2
## Latvia Lithuania Luxembourg Hungary Malta
## 3 3 4 3 3
## Netherlands Austria Poland Portugal Romania
## 2 1 1 3 3
## Slovenia Slovakia Finland Sweden United Kingdom
## 1 1 2 3 2
## Iceland Liechtenstein Norway Switzerland Turkey
## 2 3 2 3 3

fviz_dend(res.hc, cex = 0.6, k = 4, palette = "jco")

## Warning: `guides(<scale> = FALSE)` is deprecated. Please use


`guides(<scale> =
## "none")` instead.

Le hemos dicho 4
grupos y a pintado de 4 colores (azul, amarillo, plomo y rojo) diferentes la jerarquizacion,
Si se corta a la altura de 15 se tendría 5 grupos
Si se corta a la altura de 5 se tendría 7 grupos

Cortando el dendrograma considerando una altura de 4


(res.hc4=cutree(res.hc, h=4))

## UE27 UE28 Belgium Bulgaria Czechia


## 1 1 2 3 2
## Denmark Germany Estonia Ireland Greece
## 4 4 5 6 1
## Spain France Croatia Italy Cyprus
## 3 3 7 3 4
## Latvia Lithuania Luxembourg Hungary Malta
## 7 7 8 9 9
## Netherlands Austria Poland Portugal Romania
## 2 1 1 9 9
## Slovenia Slovakia Finland Sweden United Kingdom
## 3 3 2 9 4
## Iceland Liechtenstein Norway Switzerland Turkey
## 6 9 4 9 7

fviz_dend(res.hc, cex = 0.6, h = 4, palette = "jco")

## Warning: `guides(<scale> = FALSE)` is deprecated. Please use


`guides(<scale> =
## "none")` instead.

Para una altura de 4 ha encontrado 10 grupos

Clustering jerarquico aglomerativo usando Agnes


library(cluster)

Usando el enlace simple


res.hc.s=hclust(dist(scale(emisiones)),method="single")
plot(res.hc.s)
Con el enlace
simple crea muchos grupos

Usando el enlace completo


res.hc.s=hclust(dist(scale(emisiones)),method="complete")
plot(res.hc.s)
Con el enlace completo encuentra 3 grupos
res.hc.s=hclust(dist(scale(emisiones)),method="average")
plot(res.hc.s)
Con el enlace promedio encuentra 2 grupos
res.hc.s=hclust(dist(scale(emisiones)),method="centroid")
plot(res.hc.s)
Con el metodo centroide encuentra 2 grupos
Notar que en aspectos de distancias y jerarquías , mejor es el metodo ward.d, se logra
mostrar con gran precision los grupos, tiene una muy buena jerarquizacion.

AGNES aglomerative nesting


Tecnica aglomerativo, ventaja nos da un coeficeinte de aglomeracion
res.agnes.single = agnes(scale(emisiones), method="single")
res.agnes.single

## Call: agnes(x = scale(emisiones), method = "single")


## Agglomerative coefficient: 0.8805756
## Order of objects:
## [1] UE27 UE28 Austria Spain Italy
## [6] France Slovenia Slovakia Greece Hungary
## [11] Romania Sweden Liechtenstein Switzerland Malta
## [16] Portugal Cyprus Norway Poland Bulgaria
## [21] Germany Belgium Netherlands Czechia Finland
## [26] Denmark Croatia Latvia Lithuania Turkey
## [31] United Kingdom Ireland Estonia Iceland
Luxembourg
## Height (summary):
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2637 0.9191 1.3031 1.7481 1.6511 13.8463
##
## Available components:
## [1] "order" "height" "ac" "merge" "diss" "call"
## [7] "method" "order.lab" "data"

0.8805756 este valor tiende a 1 el dendrogrma ayuda a diferenciar mejor el grupo


res.agnes.single

## Call: agnes(x = scale(emisiones), method = "single")


## Agglomerative coefficient: 0.8805756
## Order of objects:
## [1] UE27 UE28 Austria Spain Italy
## [6] France Slovenia Slovakia Greece Hungary
## [11] Romania Sweden Liechtenstein Switzerland Malta
## [16] Portugal Cyprus Norway Poland Bulgaria
## [21] Germany Belgium Netherlands Czechia Finland
## [26] Denmark Croatia Latvia Lithuania Turkey
## [31] United Kingdom Ireland Estonia Iceland
Luxembourg
## Height (summary):
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2637 0.9191 1.3031 1.7481 1.6511 13.8463
##
## Available components:
## [1] "order" "height" "ac" "merge" "diss" "call"
## [7] "method" "order.lab" "data"

plot(res.agnes.single)
Tenemos 2 graficos: grafico de banner y el grafico del dendrograma con el metodo simple
El coeficiente aglomeracion es 0.88 con el metodo simple
res.agnes.ward=agnes(scale(emisiones),method="ward")
res.agnes.ward

## Call: agnes(x = scale(emisiones), method = "ward")


## Agglomerative coefficient: 0.9362388
## Order of objects:
## [1] UE27 UE28 Austria Greece Poland
## [6] Bulgaria Slovakia Spain Italy France
## [11] Slovenia Croatia Latvia Turkey Lithuania
## [16] Hungary Romania Sweden Liechtenstein Malta
## [21] Switzerland Portugal Belgium Netherlands Finland
## [26] Czechia Ireland Denmark United Kingdom Germany
## [31] Cyprus Norway Estonia Iceland
Luxembourg
## Height (summary):
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2637 1.2231 1.7617 3.9932 3.4618 32.9763
##
## Available components:
## [1] "order" "height" "ac" "merge" "diss" "call"
## [7] "method" "order.lab" "data"

plot(res.agnes.ward)
El coeficiente aglomeracion es 0.94 con el metodo ward, ya que tiende a uno es una manera
eficiente de agrupar en el dendrograma.
Usando matriz de disimilaridad
diss.emisiones=daisy(scale(emisiones))
res.agnes.ward2 =agnes(diss.emisiones,method="ward")
plot(res.agnes.ward2)
Usando matriz de disimilaridad daysi, con el metodo ward tenemos el coeficiente
aglomeracion es 0.94 con el metodo ward, ya que tiende a uno es una manera eficiente de
agrupar en el dendrograma.
Determinando el número optimo de conglomerados

Indice de Silueta
par(mfrow=c(1,3))
for(h in 2:4){
conglomerados=cutree(res.agnes.ward2,k=h)
plot(silhouette(conglomerados,diss.emisiones))
}

La silueta 1 con 2 clusters tiene un promedio de indice de 0.52


La silueta 2 con 3 clusters tiene un promedio de indice de 0.52
La silueta 3 con 4 clusters tiene un promedio de indice de 0.41
De este grafico de indice de silueta aceptamos el 1er y 2do grafico de silueta ya que tienen
el coeficiente de 0.52 con 2 y3 clusters reséctivamente.
par(mfrow=c(1,1))
fviz_dend(res.agnes.ward2, cex = 0.7,
k = 2,
palette = "jco"
)
## Warning: `guides(<scale> = FALSE)` is deprecated. Please use
`guides(<scale> =
## "none")` instead.

Nuevamente se uso 2 conglomerados por que es el que esta maximizando el indice de la


silueta
Le hemos dicho 2 grupos y a pintado de 2 colores (azul y amarillo) diferentes la
jerarquizacion,

Conclusión:
Hemos probado diferentes modelos y se recomienda utilizar 2 y 4 clusters, dependiendo de
la información que queramos introducir.
Existen grandes diferencias entre los países de la UE en cuanto a las emisiones de gases de
efecto invernadero. Esto se debe a las toneladas de estos gases emitidas, pero también a la
reducción de estas emisiones en las últimas décadas.
Las naciones más avanzadas en este sentido son : Croacia Letonia Lituania Hungría Malta
Portugal Rumanía Suecia Liechtenstein Suiza y Turquía (Clusters 2)
También podemos distinguir los países que están haciendo progresos significativos, como
UE27, UE28, Bulgaria, Grecia, España, Francia, Italia, Austria, Polonia, Eslovenia, Eslovaquia,
Reino Unido y Noruega (Clusters 1)
Por último, los países que emiten demasiado pero que no tienen mucho margen de
reducción: Bélgica Chequia Dinamarca Alemania Estonia Irlanda Chipre Países Bajos
Finlandia y Islandia (Clusters 3)
El país más destacado es Luxemburgo. Es un país bastante rico y social y económicamente
avanzado, pero emiten mucho, e y no está reduciendo sus emisiones. Una posible
explicación de este fenómeno en Luxemburgo es que hay muchos trabajadores
transfronterizos. Contaminan y al final del día regresan a sus países de origen. Así que no
cuentan como habitantes pero contribuyen a las emisiones de gases.

También podría gustarte