Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MÚLTIPLES
Resumen: Se realizará un análisis de correspondencias múltiples con una base de datos real, identificando las respuestas
más frecuentes con base a unas pregunta de interés, adicional, se realzara una regresión logística de respuestas binarias
y con esto, hacer una comparación entre ambos métodos analizando diferencias entre los resultados.
1. INTRODUCCIÓN 2. METODOLOGÍA
En la mayoría de los casos, no es posible trabajar con Para fortalecer el análisis de consistencia de la
variables cualitativas o categóricas nominales, debido información se elaboran documentos de contexto
que, al hacer un modelo de regresión o un análisis por actividad, en los cuales se describen los aspectos más
de componentes principales, la codificación que se importantes del comportamiento económico del país en
le asigna a cada característica suelen ser arbitrarias el período correspondiente. Adicionalmente, de acuerdo
a la codificación son arbitrarios y las estimaciones o con la disponibilidad de los datos, para cada una de
conclusiones pueden variar. las actividades investigadas, se comparan los resultados
de la encuesta con otras fuentes de información, con el
propósito de cotejar la consistencia de los resultados que
Por esto, en este caso se emplearan otras alternativas se publican en la EAS. Los anexos estadísticos de la MMH
para trabajar con variables cualitativas o categóricas, y la MTS) o bien externas, tales como la información
como lo es el análisis de correspondencias multiples, el producida por gremios, ministerios, superintendencias,
cual permite describir grandes tablas binarias, donde las institutos de investigación, etc. Antes de ser publicados,
filas son en general los individuos u observaciones y las los resultados y el boletín de prensa se presentan ante el
columnas son las modalidades de variables nominales, Comité Interinstitucional de Servicios, conformado por
la mayorías de las veces modalidades de respuestas a un delegado del Banco de la República, del Ministerio de
las preguntas (Lebart and et al). Y los modolos logísticos Comercio, Industria y Turismo, del DNP y del DANE (2).
de respuesta binaria, permiten estimar o predecir el
comportamiento de una o más variables a partir de
otras variables, con las que se encuentran fuertemente 2.2 Base de datos
correlacionadas. Además, se hará una comparación entre
ambos métodos para determinar que diferencias existen La base de datos seleccionada fue, encuesta anual de
entre cada uno. A partir de 1999 se ha utilizado para servicios del año 201 (1), este censo se realizo en
estudiar como los individuos toman decisiones (3). empresas donde se realizan prestaciones de servicios.
Jhonathan Daniel Cano Rivera; Taína Targelia Sánchez Valencia– ACM
figura 1, Las variables que más contribuyen a los ejes son utilizan el servicio de internet que comparten estas
características de manera global.
Contribution of variables to Dim−1
no
si
i
o.s
t.s
s.s
.s
.s
.s
.s
.s
.n
.n
t.n
s.n
o.n
.n
.n
.n
til.
io
rio
do
ne
C
til.
ble
io
do
ne
C
ne
ad
ble
ta
ic
ne
ad
pra
ito
ho
ta
M
ic
or
rv
pra
ho
A.D
Ta
io
r
re
rv
Po
A.D
r
Ta
io
re
it
cr
tp
Po
Se
ac
om
C
cr
tp
Se
ac
om
C
Es
ar
PD
Es
lic
ar
PD
lic
C
Sm
C
Sm
Ap
Ap
0.4
0.0
30
34
48
71
74
76
4
23
10
32
45
48
57
83
91
88
12
12
16
24
25
Figura 2. Contribuciones de los individuos. este eje son: Tablet, Smartphone, portátil y aplicaciones y
creado, ya que en sus ambas modalidades presentan un
porcentaje por encima del 20 %, ya en el eje 2 cambian
un poco las variables que son más significativas, las
cuales son servicio, comprado y aplicaciones pero sus
1.5
● ●
●
●
●
●
●
1.0
●
●
●
● ●
●
●
●
●
● ●
●
●
0.5
0.0
−0.5
● ●
También se puede observar que existe una alta También, el individuo 231, se encuentra muy alejado del
correlación entre estas modalidades lo que permite resto, pero con altos valores de la primera componente
identificar de manera óptima a los individuos que y muy cercano a ese eje, por lo que posiblemente esta
1
PDA.DMC.si
entre si, por lo que se puede pensar que no existen
Servicio.no
muchas diferencias en el comportamiento de los datos y
Tablet.si
Aplicaciones.no
Creado.no
Comprado.si
Escritorio.si
Smartphone.si
Portatil.si por ende la variabilidad no es muy alta. es decir que usar
PDA.DMC.no
Servicio.si
Creado.si
Smartphone.no
Aplicaciones.si Pero, aún así hay modalidades e individuos que están
−1
Portatil.no
Comprado.no
muy dispersos, esto se debe a que su frecuencia es muy
mínima o no tengan ninguna repetición.
Escritorio.no
−2
−1.5 −1.0 −0.5 0.0 0.5 1.0
Dim1 (20.7%)
eje 1.
329
106
−6
−8 LAN.no
PDA.DMC.si
1 727
550 −12
●
843
805
26 820
●
869
296
97
89
79
64
740
● Internet.no
949
944
925
924
897
859
857
855
801
796
793
772
743
731
706
633
600
565
491
487
450
443
421
384
377
354
349
306
305
291
276
268
259
232
200
173
149
147
135
109
95
50
41
27
1 115 ●
●
●
Servicio.no 687
671
636
363 ●
888 −10 −5 0 5 10 15 20
999
991
989
982
977
962
961
935
923
911
900
886
881
877
862
854
848
847
846
835
833
815
811
802
776
762
760
758
751
749
732
728
726
721
715
713
708
703
702
699
696
690
689
683
677
676
667
656
651
647
641
640
629
610
607
597
594
591
590
587
584
571
555
533
529
528
527
522
518
507
506
504
492
472
463
454
451
449
446
441
439
438
437
436
434
432
428
424
423
418
413
412
411
409
401
398
395
391
388
382
366
358
352
347
346
336
332
321
319
315
301
299
294
290
278
269
255
214
213
207
197
191
190
188
178
169
164
162
137
117
111
105
102
88
81
80
77
44
42
32
24
18
11 ● 34
30
● 970
885
839
830
735
638
603
593
442
419
408
322
168
123
96
14 Tablet.si
516
249
●
794 ●
519
Aplicaciones.no511
868
807
797
783
741
634 813 952
918
861
812
800
786
754
753
692
642
625
602
589
582
568
564
552
539
525
523
470
468
370
357
351
311
295
258
248
247
246
225
218
186
183
142
129
103
62
45 ●
●
990
871
787
782
769
392
345
Smartphone.si ● Factor 1: 0.1864 (18.6%)
Comprado.si 47 ●
937
852
622
471
402
338
273
159
113
40 ● ●
101
986
981
978
964
933
905
887
878
863
858
828
792
785
780
765
756
734
700
685
684
674
646
627
616
614
612
606
596
546
541
538
514
505
494
486
484
482
480
469
466
456
448
427
390
383
381
380
337
312
282
262
240
227
215
210
206
204
203
202
199
195
189
182
175
161
154
150
138
116
104
94
93
82
72
68
66
54
52
51
49
25
16 Creado.no 983
980
972
950
884
853
850
842
826
818
804
791
720
714
705
697
665
664
655
650
639
623
619
608
569
561
560
545
509
495
488
478
440
429
414
394
385
362
361
353
343
335
333
331
328
324
298
271
256
233
221
217
181
170
153
143
139
132
124
107
36
35
33
29
28
9151
959
953
893
845
837
827
819
790
609
502
393
374
339
327
297
279
229
194
185
172
22
●
Portatil.si 489 231
992
966
899
898
883
733
718
678
670
663
657
530
513
433
425
313
303
286
280
220
160
156
58
37 ● Escritorio.si
● ●
39 932
831
709
601
576
547
405
342
314
285
266
261
252
174
56
287
934
866
816
554
399
316
300 ●
998
810
809
645
630
517
265
253
55 ● 15 532 ●
770 ●
●
644 140 ● 971
954
902
879
767
717
654
649
575
567
526
485
396
264
166
108
736 ● ●
3
0 ●
874 764
635
621
152 21
PDA.DMC.no
●
●
985
948
940
917
822
710
628
613
574
534
459
323
176
122
7325 ●
955
586
158
880
49899 ●
43148
993
947
920
919
916
803
799
788
778
739
694
682
653
637
588
573
572
479
415
387
375
359
356
320
308
270
242
216
201
155
90
86
61
798
795
759
515
251
226
224
4
●
8177
958
951
942
773
707
668
520
462
260
250● ●
92
968
967
840
832
829
825
789
784
745
652
643
605
553
543
542
465
457
455
453
430
304
293
288
277
267
235
212
211
208
125
57
19 59 Tablet.no
909 693
579
307
272
141
78
891
867
● ● ●
922
736
63
17
974
939
915
907
838
757
724
719
673
672
666
648
624
617
611
544
540
496
461
444
426
397
386
309
234
209
205
187
145
100
5 994●521
821
281
● ● ● ● 963
936
892
870
865
817
711
658
632
626
598
585
580
570
558
501
476
473
404
403
378
373
369
318
254
241
167
128
127
76
74
71
48
163 ● 134
Dim2 (13.9%)
● ● 938
595
91 ●
−1 ●
310
913
836
577
481
452
329
106 ● Comprado.no
●
906
●
Escritorio.no
−2
−1.5 −1.0 −0.5 0.0 0.5 1.0
Dim1 (20.7%)
3.4 Nube de variables para este caso se realizo el modelo tomando como
variable de respuesta, y = B_3 ¿La empresa usó internet
en el año de referencia para el desarrollo de sus
Se evidencia variable más alejada del resto es la de
actividades?, donde y =0 si la respuesta es no y 1 si es
PDA-DMC.si (Asistente Digital Personalizado) en el
si.
primer cuadrante del gráfico, lo que indica que la
Como variables independientes se tomaron las siguientes
frecuencia de los usuarios o individuos que usan este
modalidades. ted in R 3.5.2 by xtable 1.8-3 package Al
dispositivo es muy alta con respecto al resto.
ANEXOS
3.7 Logit Vs ACM
• Base de datos.
Al realizar ambos métodos se puede observar tienen
un poco de relación al momento de seleccionar aquellas
variables con mayor peso al momento de describir
una característica. debido a que si, revisamos en el
caso del ACM las contribuciones gran parte de las
modalidades correspondientes al no, contienen la mayor
influencia en la formación de los ejes y con los valores
correspondientes más altos, Por otro lado, si se análiza
el gráfico ambas modalidades del seleccionadas en el
modelo logit demasiado alejadas del resto y con valores
que duplican los demás. Esta es la estructura general de la base de
datos, como se puede observar, son 10 variables
cualitativas dicotomicas en donde se le pregunta al
4. CONCLUSIONES usuario si utiliza o no o conoce o no los distintos
criterios para acceder a internet. Se tomaron 999
• El análisis de correspondencia múltiple (ACM) datos por medio de un sample por medio del
es muy útil debido a su amplia capacidad software estadistico R
de análisis cuando existe información cualitativa
que en ocasiones es muy difícil trabajar con
técnicas normales, especialmente en los casos
particulares donde existen demasiadas variables
es particularmente efectiva el ACM. Este ejercicio
fue muy enriquecedor de realizar ya que se
logra adquirir un conocimiento fundamental en el
análisis estadístico y fortaleciendo las bases con
las que se propone realizar investigaciones mas
adelante.
colnames(tablas) = c("Escritorio","Portatil","Tablet","Smartphone","PDA-DMC","Comprado","Servicio",
"Creado","Aplicaciones","Internet","LAN","WAN","Extranet")
attach(tabla)
attach(tablas)
fix(tabla)
library("ade4")
library("FactoMineR")
n<-nrow(tabla)
tablas <- list(tab=tabla[,1:9,11:14],funcion = tabla[,10])
table(Internet,Internet)
t <- list(tab=tabla[,10],funcion = tabla[,10])
p<-acm.burt(t$tab,t$tab)
s<-ncol(tablas$tab)
str(tablas)
p.disj<-acm.disjonctif(tablas$tab)
p.disj
xtable( matrix(colnames(p.disj),6,3))
attach(p.disj)
fix(p.disj)
p<-ncol(p.disj)
str(tablas)
p.burt5<-acm.burt(tablas$tab,tablas$tab)
attach(p.burt5)
str(tabla)
a <- t(as.matrix(p.disj))%*%as.matrix(p.disj)
p.acm<-dudi.acm(tablas$tab,scannf=FALSE,nf=14)
p.acm_burt<-dudi.acm(p.burt,scannf=FALSE,nf=2)
barplot(L)
L<-p.acm$eig
sum(L) ## Inercias
Fi<-p.acm$li ## Coordenadas de los individuos
s.label(Fi)
dim(Fi)
dim(G)
G <-p.acm$co ## Coordenadas de las modalidades
s.label(G)
windows()
biplot(p.acm,col=c(2,3))
##
biplot(p.acm)
scatter(p.acm)
boxplot(p.acm) ## como se hace
## Hacer la representacion simultanea
xx<-data.frame(p.acm$li[,1],p.acm$li[,2])
boxplot(xx,names = c("Eje 1","Eje 2"))
boxplot(p.acm$li[,1])
boxplot(p.acm$li[,2])
yy<-data.frame(p.acm$li[,3],p.acm$li[,4])
fviz_mca_ind(p.acm,repel = T)
a
#--- O por nombres:
windows()
fviz_mca_var(p.acm,
select.var= list(name = c("Escritorio.si","Portatil.si","Tablet.si","Smartphone.si",
"PDA-DMC.si","Comprado.si","Servicio.si","Creado.si",
"Aplicaciones.si","LAN.si","WAN.si","Extranet.si")))
windows()
fviz_mca_var(p.acm,
select.var= list(name = c("Escritorio.no","Portatil.no","Tablet.no","Smartphone.no",
"PDA-DMC.no","Comprado.no","Servicio.no","Creado.no",
"Aplicaciones.no","LAN.no","WAN.on","Extranet.no")))
windows()
fviz_mca_var(p.acm,
select.var= list(name = c("LAN.si","WAN.si")))
#--- y la visualización conjunta:
fviz_mca_biplot(p.acm, repel = TRUE) + theme_minimal()
## cluster
# biplot chevere
windows()
fviz_mca_biplot(p.acm, select.ind = list(contrib = 999), select.var = list(contrib = 18)) + theme_minimal()
###
windows()
fviz_screeplot(p.acm, addlabels = TRUE,
main="Valores propios",ylab="Porcentaje de Variación")
#####
## Cluster Mixto
library(FactoClass)
?FactoClass
attach(tabla)
attach(tablas)
fix(tabla)
M2 <- glm(Internet~ Escritorio.no+Escritorio.si+Portatil.no+ Portatil.si+Tablet.no+
Tablet.si+Smartphone.no+Smartphone.si+`PDA-DMC.no`+`PDA-DMC.si`+Comprado.no+Comprado.si+Servicio.no+
Servicio.si+Creado.no+Creado.si+Aplicaciones.no+Aplicaciones.si,family = binomial(link = logit),dat=p.disj)
library(xtable)
xtable(summary(M2))
Mfinal <- step(M2, test = "Chisq")
xtable(Mfinal)