Está en la página 1de 26

Ana lisis multivariante

Luis Cayuela Junio de 2010

EcoLab, Centro Andaluz de Medio Ambiente, Universidad de Granada Junta de Andaluc a, Avenida del Mediterr aneo s/n, E-18006, Granada. E-mail: lcayuela@ugr.es.

154

An alisis multivariante (versi on 1.0)


Publicado por: Luis Cayuela

Se autoriza a cualquier persona a utilizar, copiar, distribuir y modicar esta obra con las siguientes condiciones: (1) que se reconozca la autor a de la misma; (2) que no se utilice con nes comerciales; y (3) que si se altera la obra original, el trabajo resultante sea distribuido bajo una licencia similar a esta.

Para cualquier comentario o sugerencia por favor remitirse al autor de la obra.

155

Indice
1. Introducci on 2. An alisis de componentes principales (PCA) 158 158

2.1. Ejemplo: Modelando la riqueza de plantas ex oticas en Reino Unido a partir del clima . . . . . . . . . . . . . . . . . . . . . . . . . 159 3. An alisis de la varianza multivariado (MANOVA) 166

3.1. Ejemplo: Qu e variables determinan la composici on or stica en bosques tropicales montanos? . . . . . . . . . . . . . . . . . . . . 167 4. Escalamiento multidimensional no m etrico (NMDS) 169

4.1. Ejemplo: Gradientes de composici on or stica en bosques tropicales montanos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 5. An alisis de correspondencias can onico (CCA) 176

5.1. Ejemplo: C omo se relaciona la estructura de comunidades de plantas con las variables ambientales? . . . . . . . . . . . . . . . 177 6. M as ejemplos 179

156

Indice

157

Luis Cayuela

An alisis multivariante

1.

Introducci on

En un sentido amplio, el an alisis multivariante hace referencia a cualquier m etodo estad stico que analice simult aneamente m ultiples caracter sticas en cada uno de los individuos o muestras objeto de la investigaci on. Una de las dicultades en denir qu e es el an alisis multivariante reside en el hecho de que el t ermino multivariante (o multivariado) no ha sido usado de manera consistente en la literatura. Algunos investigadores usan el t ermino multivariado simplemente para referirse a las relaciones existentes entre m as de dos variables. Sin embargo, para que un an alisis sea considerado verdaderamente multivariante, todas las variables deben de ser aleatorias y deben de estar interrelacionadas de tal manera que los diferentes efectos no puedan ser interpretados signicativamente de manera independiente. Por ejemplo, si queremos ver el efecto de una variable ambiental sobre las diferentes especies de peces que hay en un r o, tiene sentido considerar todas las abundancias de cada una de las especies en su conjunto y no la abundancia de cada una de las especies por separado, ya que las diferentes especies se interrelacionan entre s por medio de interacciones bi oticas (competencia por recursos, predaci on, etc) y es dif cil de separar estos efectos de los efectos puramente ambientales. Podemos considerar como t ecnicas multivariantes, entre otras:
An alisis de componentes principales An alisis discriminante An alisis cluster (t ecnica de agrupaci on) An alisis de correspondencias Escalamiento multidimensional An alisis de correspondencias can onico Modelo de ecuaciones estructurales (an alisis causal) An alisis de la varianza multivariado (incluyendo la regresi on

multivariada) En esta sesi on veremos algunas de ellas, prestando especial atenci on al an alisis de comunidades biol ogicas.

2.

An alisis de componentes principales (PCA)

El an alisis de componentes principales (PCA) es una t ecnica estad stica de s ntesis de la informaci on, o reducci on de la dimensi on (n umero de variables). Es decir, ante un banco de datos con muchas variables, el objetivo ser a reducirlas a un menor n umero perdiendo la menor cantidad de informaci on posible. Los nuevos componentes principales o factores ser an una combinaci on lineal de las variables originales, y adem as ser an independientes entre s . 158

Luis Cayuela

An alisis multivariante

Un aspecto clave en PCA es la interpretaci on de los factores, ya que esta no viene dada a priori, sino que ser a deducida tras observar la relaci on de los factores con las variables iniciales (habr a, pues, que estudiar tanto el signo como la magnitud de las correlaciones). Esto no siempre es f acil, y ser a de vital importancia el conocimiento que el experto tenga sobre la materia de investigaci on. Fases de un an alisis de componentes principales: 1. An alisis de la matriz de correlaciones. Un an alisis de componentes principales tiene sentido si existen altas correlaciones entre las variables, ya que esto es indicativo de que existe informaci on redundante y, por tanto, pocos factores explicar an gran parte de la variabilidad total. 2. Selecci on de los factores. La elecci on de los factores se realiza de tal forma que el primero recoja la mayor proporci on posible de la variabilidad original; el segundo factor debe recoger la m axima variabilidad posible no recogida por el primero, y as sucesivamente. Del total de factores se elegir an aqu ellos que recojan el porcentaje de variabilidad que se considere suciente. A estos se les denominar a componentes principales. Esta decisi on puede ser m as o menos arbitraria (p.e. que capturen el 80 % de la variabilidad de los datos) o estar basada en criterios estad sticos. El paquete nFactors ofrece una serie de funciones para la selecci on de factores (ver http://www.statmethods.net/advstats/factor.html). 3. An alisis de la matriz factorial. Una vez seleccionados los componentes principales, se representan en forma de matriz. Cada elemento de esta representa los coecientes factoriales de las variables (las correlaciones entre las variables y los componentes principales). La matriz tendr a tantas columnas como componentes principales y tantas las como variables. 4. Interpretaci on de los factores. Para que un factor sea f acilmente interpretable debe tener las siguientes caracter sticas, que son dif ciles de conseguir: - Los coecientes factoriales deben ser pr oximos a 1. - Una variable debe tener coecientes elevados s olo con un factor. - No deben existir factores con coecientes similares. 5. C alculo de las puntuaciones factoriales. Son las puntuaciones que tienen los componentes principales para cada caso, que nos permitir an su an alisis posterior y su representaci on gr aca.

2.1.

Ejemplo: Modelando la riqueza de plantas ex oticas 1 en Reino Unido a partir del clima

En este ejemplo queremos modelar la riqueza de especies ex oticas en el Reino Unido utilizando variables clim aticas. Para ello se ha dividido todo el Reino
1 Datos cedidos por Fabio Suzart, Universidad de Alcal a. Estos datos no pueden ser usados para otros nes que no sean docentes sin permiso del autor.

159

Luis Cayuela

An alisis multivariante

Unido en celdas de 10 x 10 kms y se han utilizado los registros de colecciones bot anicas para contar el n umero de especies ex oticas. Las variables clim aticas se han extraido del WorldClim (http://www.worldclim.org/). Los datos est an accesibles en la siguiente direcci on http://tinyurl.com/yan3b9j. Vamos a leer los datos directamente de la direcci on web con la funci on url(). > clima <- read.table("http://tinyurl.com/exoticas", header = T, + sep = "\t") > str(clima)

'data.frame': 2243 obs. of 13 variables: $ Alien : int 23 32 25 46 35 89 38 46 40 4 ... $ Mean.Temperature : num 6.86 7.39 5.3 7.71 7.39 ... $ Mean.Jan.Temperature: num 3.27 3.46 2.29 3.31 2.91 ... $ Rango.de.temperatura: num 4.84 6 3.98 6.46 6.53 ... $ PET : num 518 600 592 607 601 ... $ Min.pET : num 8.44 13.89 12.98 12.7 11.82 ... $ Max.pET : num 89.9 101.8 101.5 105.4 105.5 ... $ Insolation : num 2.79 2.8 3.04 3.28 3.2 ... $ Growth.Season : num 282 291 205 275 263 ... $ AET : num 459 484 434 459 451 ... $ Water.Defcit : num 58.4 115.6 158 148.8 150.4 ... $ Precipitation : num 1392 1605 855 959 958 ... $ Rainfall : num 1392 1605 855 959 958 ...
La primera variable ser a la variable respuesta en nuestro modelo y el resto de variables ser an variables explicativas. Sin embargo, al ser todas las variables explicativas variables clim aticas es muy posible que haya mucha colinealidad (es decir, correlaci on entre variables), lo que har a cualquier modelo estad stico basado en dichas variables muy inestable. Vamos a ver si realmente existe correlaci on entre las variables explicativas con la funci on cor() y/o pairs(). > pairs(clima[, -1]) As que vemos que realmente existe mucha correlaci on entre las variables explicativas. Una soluci on a este problema ser a utilizar an alisis de componentes principales para reducir la dimensionalidad de los datos y luego utilizar los factores principales que nos resumen los datos para modelar la riqueza de especies ex oticas. Para ello podemos utilizar varias funciones, como prcomp(), princomp() o factanal(). El paquete psych tiene otras funciones relacionadas con el an alisis de componentes principales como los PCA jer arquicos. > pca1 <- prcomp(clima[, -1], scale = T) > summary(pca1)

160

Luis Cayuela

An alisis multivariante

Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 Standard deviation 2.644 1.718 0.9815 0.7172 0.4772 0.4000 0.3572 0.20319 Proportion of Variance 0.582 0.246 0.0803 0.0429 0.0190 0.0133 0.0106 0.00344 Cumulative Proportion 0.582 0.828 0.9088 0.9516 0.9706 0.9839 0.9946 0.99800 PC9 PC10 PC11 PC12 Standard deviation 0.12922 0.08389 0.01386 0.00734 Proportion of Variance 0.00139 0.00059 0.00002 0.00000 Cumulative Proportion 0.99939 0.99998 1.00000 1.00000 Como podemos ver, los dos primeros factores recogen cerca del 83 % de la variabilidad de las variables clim aticas utilizadas. Tomaremos estos dos componentes para representar la variabilidad en el clima. Ahora es importante interpretar qu e signican estos componentes principales. Para ello podemos utilizar la matriz de correlaci on de las variables clim aticas con los factores. > pca1$rotation[, 1:2] PC1 PC2 Mean.Temperature 0.34852153 -0.16985773 Mean.Jan.Temperature 0.30722684 -0.31362840 Rango.de.temperatura 0.21576733 0.13711343 PET 0.35433070 -0.09847938 Min.pET 0.27654607 -0.28400149 Max.pET 0.31976844 0.21453683 Insolation 0.33246966 -0.05442222 Growth.Season 0.32063663 -0.26539819 AET -0.01362093 -0.54991427 Water.Defcit 0.23318824 0.40121923 Precipitation -0.28774698 -0.30042944 Rainfall -0.28741001 -0.30094185 Tambi en es conveniente dibujar los componentes seleccionados del PCA en un gr aco. Para ello utilizaremos la funci on biplot().

161

PC2
q

q
q

q
q
q

0.6
q
q
q

0.4
q
q
q
q

0.2
q
q

0.0
q

0.2
q

0.4
q
261

0.6

Luis Cayuela

q
q
q
q
q
q

q
q

0.8
q

q
q

q
q
288

418

230

q
q

260

q
q
207

232

q
q
q

265

q
q
q

335

309

q
q

417

395

q
q

128

q
350 327

q
q

q
415 874 313

q
q
q

237

q
q

325 88 283

328

180 259 333

q q
q

278

349 329 281

308

q
q

398 312

158

334

q
q
373 89 289

206

q
q

181

326

830

q
q

332

99

304

q
q

q
q

0.6
453

48

300

416

282 421

266

q
q
q

97

q
q

q
q

q
q
q
394 374

299 396 662 310 287

372

q
q
255 157 307

q
q

306

238

q
q

1193

471

280

86 352 353

101

314

311

q
q

1161

437 455 98 331

111 640 845 264

243

q q

254

472

23

457

q
q

256

37

305 284 330 336

q
q
q
231 397

q
q

155

q
q

855

678 375

681

290

q
q
q

qq

351 399

q
q

100

159

285

q q

q
q

411 59 817 354 262

q
q
301 439 440 918 208 90 51 209

q
q

489 936 881 114 242

880

q
q

422

q
q
719

q
q
257 419 899

q q q
q

253

202

277

370

454

108

452 10 846 831 236

q
q

320

506

275

917

315

q
q
378 234 50 212 188 213 239

q
q

412 47 324

154

451

q
q

q
q
q
132 219 360 357

153 233 683 639

q q

q
q

438

110

q q

91

q
156 229 179 1484

q
q
q

109 898 641 210 337 359 267

q
q

470

742 841 938 816 599

q
q

347

857

36

456

252 130 815 832 291 286

400

q
q

488

125

68

316 214

q
q

478 42 218 358

129

856

1294

1445

24 77

q
q

q
112 677

Precipitation Rainfall
96 58 379

q
q

0.4
402 268

q
q
q
q

201

858

204

970

q
q

346

876

1566

893

720

182

83 55

q
q

q
q

660

35 458 709

441

684

468

505

1088

699

661 659

q
q
131 688 25

241

q
q
q

q
937

1225

546 1524 303 919 423

369

877

q
q
q

321 414 511 636 79 292

203

434

706

631 730

382

263

490 1258

qq

1226

679

78 670 21 217 187

244

qq

q q q

522 696 492

q
q

322

436

1293

127

1699

1745

1067

935 663

279

1330 220

60

317

503

1295

377

710

380

829

617

361

62

190

qq

450

368

473

698

708

q q

587

q
q

276 258 49

348

1329

1819

22

57

420

1260

700

798

178

1261

376

613

685

113

664

618

52

689

362

q
q

q
403

862

355

1744 33

1565

1444

183

669

193

64

45

q
q

q
q

367

54

q
189

840

743

76

1011

39

216

87

897

qq

q
q
392 205 85 66 882 228 442 900

443

q
q
69 298 435 323

q
q
q

1257

251

371

566

697

1196

612

707

954

637

731

818

184

847

194

600

431

875

1743

226

766

474

955

192

240

q
q

q q

q
q

859

1028

1143

839

1659

38

956

477

94

65

638

43

126

1703

642

q
q
1224 449 123 46 34

q q

q q q q q

q
q qq
2187

q
q

432

469

525

608

1227

878

1087

491

1192

150

302 245

389

739

916

512

705

1175

658

1113

1406

873

718

107

727

702

754

686

70

479

102

799

687

863

576

648

575

819

q
q

63

598

383

338

185

690

356

167

578

72

q q

1784

q q q

177

149

1328

1291

345

607

151

504

413

567

1523

11

1027

1485

703

635

28

628

2010

67

682

591

879

1068

657

235

574

384

164

580

166

888

160

53

qq

q
q
q
1525 616 71 115

559

221

qq

q q

2217

344

391

106

1259

676

1047

q
q
q

1486

920

597

560

61

222

q q q

q
q
q
q
1972

qq
1610 1407 755 901 800 73

989

826

680

q q

0.2
q q

q
q
q
227 2186 1368 1611 56 1048

1292

467

547

12

722

510

729

27

29

318

579

271

q
q
q

592

1112

825

401

957

1487

939

41

qq q
81

q
q

390 569 40 732 92 848

704

581

712

133

619

170

215

343

586

523

433

430

544

1405

507

2011

894

1483

1746

629

952

585

971

969

q q

q q q q

1162

q
q
152 95 1742 740 717 1527 404 103 543

652 508 74

487

1366

518

q
695 169

953

565

656

721

738

746

13

1012

753

1207

26

614

16

32

44

615

30

711

q
577 833 647 1089 1448 1176 552 31 733 293 596 381

734

294

20

191

q
q

808

1223 1701 668 1567 723

385

365

673

842

PC1
520 124 1700 524 1818

2205 393 502 1029 459 1569 17 906 713 908

1609

892

767 195

1787

1044

991

1656

745

655

728

q q

1164

1144

1447

1197

992

15

555

561

339

142

196

691

595

246

270

341

651

q
q
1026 1045 1046 1208 665

q qq

q q q

1194

1256 854 611 975 1114 909 620

426

qq

qq q

q qq

485

1786

1195

qq

366 486 1608

2204

q q

q
q
501 1783 521 801 296 763

1973

1652

630

527

1446

528

1561

809

14

797

553

925

1655

q
q
q
q q

qq

q
q

564 568

1365

q
q
1367 1785 762

75

770

988

716

990

1369

590

593

889

1331

675

1010

475

934

974

634

1229

860

726

776

1142

532

476

1174

18

907

777

498

80

444

211

861

297

643

146

573

143

165

269

168

1290

250

q q

1222

q q

q q q

2182 1650

653

1647 1522 424 556 895 790 1747 701 724

84 1648 526 1651 570 750

1327

1698

1564

744

741

896

972

q q

519 542 2012 176 509 911 870 1163 1066 1612 571 973 493 529 1228 1613

789

791

1296

1526

785

788

993

1488

1449

827

1145

480

19

554

147

319

144

186

174

163

197

601

82

666

272

517

247

594

q
756

481

562

2200 1653 1820 765 494 531 752 1412 921

499

883

693

864

887

340

175

172

408

582

145

140

409

173

407

224

139

667

274

891

121

105

q q q q

q qq

qq q
q

q q q

qq

qq

1971 541 725 1657 749 4 843

563

2201

1607

2155

915

1199

932

1209

1237

1238

461

342 1782 540 1562 1411 913 2045 1009 1570 533 1069 951 910 2050 1025 1821 769 530

462

q q

551

814

148

273

844

772

141

q q

735

692

363

223

199

644

949

429

225

171

771

200

982

198

802

295

621

405

602

q
q
q

778

902

qq

q q q

q q

2181

912

764 871

768

495

q
2160 784 786 1239 589 838 654 633 1568 775 1606 872

1262

824

748

751

1408

1528

1206

460

1166

1178

976

958

828

890

135

1130

q q

AET
q
534 1649

0.0
1781 1691 588 497 813 1654 548 931 674 1008 933 747 1822 1230 1332 994 950 1205 1521 1254 1693 122 2159 761 1778 545 787 610 812 1198 500 482

249

161

964

650

427

905

820

387

849

364

134

386

757

558

834

248

758

466

694

93

606

627

649

646

2150

q q q q

q
q
1694 1482 2013 2089 811 1177 2188 2051 1733 1013 1489 1695 496

1269

120

714

q
q

119

445

965

793

736

463

671

116

672

388

803

138

406

779

603

425

104

626

645

930

q q

2216 1605 1049

qq q q q
940 807 792 513 1111 572

483

q q q q q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q qq q q q q q q q q q qq q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q qq qq q q q q qq q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q qqq q q q qq q q q q q q q q qq q q q q q q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q qq q q q q q q q q qq q q q qqqqq q q q q q qq q q q q qq qq q q q q q q q q q qq q q q q q q q q q q q qq q qq qq q q q q q q q q q qq q q q q q q q q q q q q q q q qq qq q q q q q q q qq qq q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q qq qq q q q q q q q q q q q q q q qq q q q q qq qq q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q qq q q q q q q qq q q q qq q q q q q q qq q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q qq qq q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq qq q q q q q q q q q q q q q q q q qqq q q q qq q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q qq q qq q q qq q q q q q q q q qq q qq q q q qq q qq q q q q q q q q q q q q q qq q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q qq q q qq q qq q q q q q q qq q q qq q q q q q q q q


584 539 464 583 928 465 948 446 836 137 850 622

Lo que hemos hecho ha sido, por un lado, representar la relaci on de las variables clim aticas con los dos primeros componentes del PCA. Pero adem as, hemos representado en este gr aco cada una de las celdas de 10 x 10 km con un tama no (cex) que es proporcional a su riqueza de especies ex oticas. De esta manera podemos interpretar el signicado de los ejes y empezar a vislumbrar si existe alguna relaci on entre estos ejes y nuestra variable respuesta. Tanto el gr aco como las correlaciones de las variables con los ejes parecen apuntar a que el primer componente est a relacionado con la temperatura (Mean.Temperature, Mean.Jan.Temperature), la evapotranspiraci on potencial (PET, Max.PET) y la duraci on de la estaci on de crecimiento (Growth.Season), mientras que el segundo componente est a relacionado fundamentalmente con la evapotranspiraci on real (AET) y el d ecit h drico (Water.Decit). Por tanto podr amos decir que el primer componente est a vinculado a la entrada de energ a en el sistema y el segundo al d ecit h drico (ya que esta y la AET est an correlacionadas negativamente). Adem as, vemos que la riqueza de especies nativas parece estar asociada positivamente con el eje 1 (entrada de energ a en el sistema).
2206 1255 2084 1740 1696 1443 806 1131 1370 1165 1563 1941 1692 2009 1452 428 926 865 557 625 624

> biplot(pca1, cex = c(0.01, 1), scale = 0.5, ylim = c(-0.6, 0.6)) > points(x = pca1$x[, 1], y = pca1$x[, 2], cex = clima[, 1]/300, + col = "grey")

> lm.exoticas <- lm(clima$Alien ~ pca1$x[, 1:2])


q
1741

Vamos a ajustar ahora el modelo estad stico para explicar la riqueza de especies nativas est a realmente explicada por estas dos nuevas variables.

162
2183 2158 2231 2088 1086 2052 1979 1160 1697 914 2130 2092 1702 550 1658 1134 1450 1236 1529 2212 1739 1852 1851 2242 1007 549 1704 774 1297 1030 2083 1736 1210 1453 995 1270 1451 1267 516

929

966

605

1240

1146

1490

162

927

1975

2006

2213 2049 2090 2093 1064 609 1063 1043 2208

1646 1404 2165 1065 1062 1853 823 2235 1748 1751 810 1660

1690

715

1371

1372

1235

484

1413

1268

515

737

1179

410

759

804

869

760

2121

1050

2085 2129

2243 2239 2122 968 2133 2134 1061 1604 632 1006 2221 2209 2203 1780

1850

987 2029

1790

1167

2020

q q q qq
q
1409 1141 1949 1173 1705 1755 1614 1115 1794 1754

514

1960

1891

1892

1492

996

1303

837

944

1124

1345

947

822

447

1386

780

835

851

821

924

781

538

136

1135

623

853

2179

2240 2210 2087 1974 2170 1788 1024 1132 2202 2169 1887 1042 2109 2062

2211 2021

1711

1884

1241

2228

1737

2156

2185

1414

1491

1375

977

1668

1341

1271

1305

1211

535

1212

1156

1970 2218 2086 1881 1882 2135 1005 2005 2214 2189 2014 2007 1041 1940 2229 986 1023 1779 1942 1981

1735

1603

773

2157

q
2222 2237 2232 1191 2047 1082 2108 1789 2100 2123 2167 1060 1081 2223 2166 1253 1128 2125 1943 2110 2069 2068 1734 1689 1129 1103 2131 1738 1980 2120 2048 2091 2022 2199 2161 2061 2124 2132 2077 2078 2031 2060

1750

794

796

1824

1950

795

1410

1948

1916

1373

1304

1339

967

1306

1340

983

1099

943

886

1098

1031

448

945

884

2044

866

604

1158

1101

1014

1496

2004

2037

1888

1989

1917

1090

1202

1915

1712

1233

1804

1893

1908

1266

2038

2036

1918

1982

qq q

q q
2224 2126 1910 2114 2136 1102

2227 1817 1978

1777

2184

2171

1110

2030

1138

2067

2039

1994

1133

1170

1263

1988

1571

1756

1574

783

1265

1338

1814

1302

1021

922

1078

1502

963

537

1383

1387

117

1313

867

1252

946

885

1015

1497

1377

2177

1573

805

1946

1803

1961

1530

1204

1234

1264

1495

1070

1378

1180

985

536

2154

1714

1147

1002

118

1583

1670

1532

1299

2035

1990

1615

1457

1959

2230 1815 2127

q q qq
2234 1776 2220 2128 1083 2019 1108 2118 2097 2117 2101 2059 2076 1080 1085 2116 1109 2032

2058

1913

1140

1793

1333

1951

1965

1993

1795

1749

2028

2040

q
q q
2215 1883 2162 2193 2164 2233 2046 2238 2198 1816 2094 2172 2053 2236 1127 2151 2008 2192

q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q qqq q q qq
1159 2113 2153 1911 1084 2103 2015 1912 2140 1105 2111 2070 2099 2107 1106 2079 2098 1107 1171 1200 1958 1231 1172 1203 1298 1947 1890 1964 2003 1919 1983 2102 1139 2023 2027 2025 2026 1136 2034 1966 1985 1987 1945 1997 1707 1992 1986 1991 1920 1889 1169 1914 1661

1334

1493

1894

1572

1454

1765

1242

1531

1376

1272

1157

1125

959

782

1344

1463

903

1464

1001

1155

1312

1349

1348

1040

1016

1188

1503

962

1300

1764

1301

1284

1321

1287

1359

1285

997

1346

1627

1628

1117

1148

1213

1456

1417

1379

1757

1498

1243

1288

1232

1805

1931

1796

1895

1289

1458

1616

1713

1335

1337

1618

1201

Water.Defcit

Max.pET q Rango.de.temperatura q q qq q q qq q qq q q q q q q q Insolation q PET Mean.Temperature q


1999 1962 1533 1418 1663 1930 1662 1455

1415

1273

1126

1416

1419

1715

1374

1004

1459

1092

1116

1322

1308

1286

1051

1758

1307

1032

1100

1091

1460

1719

1537

1541

1672

1079

1058

1420

1320

1828

978

1181

941

1584

1582

1673

1462

984

981

1424

904

1314

868

852

1425

1123

1465

1311

1602

960

942

1542

1625

1676

1536

1059

1380

1038

1336

1766

1325

1669

1319

1360

1342

1324

1309

1323

1722

1190

1538

1721

1671

1057

1398

1397

1421

1003

1626

1716

1274

1499

1623

Growth.Season Min.pET q q qq Mean.Jan.Temperature q

0.2
q q q q q
2168 2112 2119 2196 2095 1885 2115 1854 2137 2152 2106 2219 2195 2194 2075 2096 1791

2138

2071

1104

2139

2074

2065

2063

1823

2018

q q

q
2241 2226 2190 2191 2197 2207 1909 2163 2141

2064

2080

2073

1137

2041

1995

2033

2024

1957

1929

1984

1952

1996

2002

1619

1998

1802

1022

1168

1706

1967

1825

1921

2176

2173

1939

2149

2174

1977

2054

1886

2066

2072

1944

2017

2081

2043

1968

1953

1954

1963

1039

1923

1326

1807

1667

1617

1624

1361

1362

1400

1244

1675

1037

1358

1033

1343

1052

1859

1384

923

1077

1461

1076

1097

1189

980

1020

1017

1422

1385

1382

961

1096

1000

1149

1718

1279

1350

1426

1837

998

1629

1501

1539

1720

1399

1540

1381

1500

1860

1674

1034

1439

1036

1724

1071

1221

1438

1581

1762

1437

1543

1056

979

1019

1423

1681

1035

1122

1585

1586

1680

999

1504

1182

1018

1388

1278

1187

1347

1436

1150

1152

1121

1856

1938

1466

1775

1119

1427

1247

1865

1053

1761

1072

1587

1725

1806

1535

1797

1363

1767

1364

1578

1763

1520

1403

1723

1677

1631

1481

1401

1827

1478

1276

1310

1579

1477

1396

2042

1753

1924

1955

1922

1494

1275

1402

1580

1441

1476

1440

1630

2180

1054

1214

1251

1075

1594

1595

1280

1118

1717

1154

1095

1315

1475

1596

1153

1357

1442

1248

1544

1726

1055

1829

1184

1094

1151

1545

1120

1838

1546

1220

1638

1479

1185

1559

1682

1283

1518

1183

1249

1356

1217

1093

1435

2175

2148

2147

2056

2057

1956

1664

2001

1896

1575

2000

1898

1560

1811

1759

1801

2104

2178

2105

2225

2144

1976

2055

2146

2082

1855

1932

1897

1534

1969

1928

1708

1792

1752

1933

1710

1899

1800

1808

1666

1799

1760

1622

1577

1798

1645

1809

1810

1858

1601

1553

1770

1514

1554

1600

1599

1515

1555

1073

1516

1557

1558

1395

1480

1245

1683

1597

1218

1186

1519

1351

1219

1074

1277

1216

1506

1839

1866

1868

1935

1250

1505

1679

1771

1517

1389

1727

1637

1556

1474

1215

1318

1639

1355

1678

1861

1632

1434

1598

1281

1246

1684

1588

1467

1282

1864

1869

1728

1316

1640

1641

1428

1354

1317

1862

1633

1642

1468

1394

1547

1590

1830

1591

1769

1768

1644

1688

1643

1513

1812

1772

1685

1352

1593

1552

1473

1732

1390

1589

1634

1392

1472

1393

1507

1433

1353

1471

1863

1548

1730

1773

1729

1731

1687

1508

1509

1469

1635

1511

1636

1686

1429

1470

1840

1870

1867

1880

1431

1549

1510

1391

1831

1836

1432

1430

1832 1833

2145

2016

q q
2142

qq

2143

1936

1937

1576

1621

1826

1774

1813

1550

1512

1592

1551

1871 1846

1842

1841

1845

1620

1904

1934

1925

1665

1857

1835

1927

1905

1906

1709

1926

1834

1907

1872

1844

1847

1900

1878

1848

1901

1903

qq q qq q

1902

1873

1874

1849

1877

1879

q q qq q q q q q
1843

0.4 4

qq
1876

q q qq q
q
1875

q
q

An alisis multivariante

Luis Cayuela

An alisis multivariante

> summary(lm.exoticas) Call: lm(formula = clima$Alien ~ pca1$x[, 1:2]) Residuals: Min 1Q -144.568 -43.123 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 155.9568 1.3266 117.562 <2e-16 *** pca1$x[, 1:2]PC1 29.8974 0.5019 59.567 <2e-16 *** pca1$x[, 1:2]PC2 -0.3346 0.7722 -0.433 0.665 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 62.83 on 2240 degrees of freedom Multiple R-squared: 0.613, Adjusted R-squared: 0.6127 F-statistic: 1774 on 2 and 2240 DF, p-value: < 2.2e-16 Vemos que la primera variable es signicativa y positiva y que el modelo explica cerca del 60 % de la variabilidad de la riqueza de ex oticas. Vamos a revisar los residuos del modelo.

Median -7.342

3Q 32.691

Max 365.614

163

Luis Cayuela

An alisis multivariante

> par(mfcol = c(2, 2)) > plot(lm.exoticas)

400

Residuals vs Fitted
Standardized residuals
q 1885 1902 q 1800 q q q q qq q q q qq q q qq qq qq q q q q q q q q q q q q q q qq q q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q

ScaleLocation
q 1885 1902 q 1800 q q q q qq q q q qq q q qq qq qq qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq q q q q q q q qq q q q qq q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q qq q

Residuals

200

200

100

100

200

300

0.0

1.0

2.0

100

100

200

300

Fitted values

Fitted values

Normal QQ
Standardized residuals Standardized residuals 6 6 2 4
q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq

Residuals vs Leverage
1885 q 1800 q 1902 q
q 1885 q q 1902 qq qq q q q 1872 q q q q q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q qq q q q q q qq q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

qq

Cook's distance 0.004

0.000

0.002

0.006

Theoretical Quantiles

Leverage

No parece que el modelo sea muy id oneo. Es claramente heteroced astico y no lineal. Adem as, tengamos en cuenta que la variable respuesta es un conteo y, por tanto, predicciones que no sean enteros o con valores por debajo de 0 (que son posibles asumiendo una distribuci on de errores normal) no tienen sentido. Probemos un modelo Poisson. > glm.exoticas <- glm(clima$Alien ~ pca1$x[, 1:2], family = poisson) > summary(glm.exoticas) Call: glm(formula = clima$Alien ~ pca1$x[, 1:2], family = poisson) Deviance Residuals: Min 1Q -12.8684 -3.4042 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 4.8574493 0.0020704 2346.14 <2e-16 *** pca1$x[, 1:2]PC1 0.2581541 0.0008915 289.56 <2e-16 *** pca1$x[, 1:2]PC2 -0.0303083 0.0010245 -29.59 <2e-16 *** --164

Median -0.6294

3Q 2.4196

Max 20.9990

Luis Cayuela

An alisis multivariante

Signif. codes:

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

(Dispersion parameter for poisson family taken to be 1) Null deviance: 153463 Residual deviance: 45873 AIC: 60635 on 2242 on 2240 degrees of freedom degrees of freedom

Number of Fisher Scoring iterations: 4 Ahora las dos variables son signicativas. La primera, relacionada con la entrada de energ a en el sistema, se relaciona positivamente con la riqueza de nativas. Y la segunda, que es una indicadora del d ecit h drico, lo est a negativamente. As que a mayor d ecit h drico, menor riqueza de especies ex oticas. Vamos a ver si esta vez los residuos son adecuados. > par(mfcol = c(2, 2)) > plot(glm.exoticas)

Residuals vs Fitted
q q q q q q qq q q qqq q q qq q qq q q q qq q q q qq q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq qq q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q qqq q q q q q qqq q q q q q qq qq q qq q

ScaleLocation
1013 q q 621 q 536 q q q q q q q qq q qqq q qq qq q q q q q q q qq qq q qq q q q q qq qq q q q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q qq q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q qq q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q qq q q q q q q q qq q q
q

1013 q q 621 q 536 q

Std. deviance resid.

20

Residuals

10

10

2.5

3.5

4.5

5.5

2.5

3.5

4.5

5.5

Predicted values

Predicted values

Std. deviance resid.

10

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

Std. Pearson resid.

20

1013 q q 621 q 536 q

30

Normal QQ
20

Residuals vs Leverage
qq q 2150 q q q 1885 q q q q q q qq 517 q qq q q q q q q qq q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q

10

1
q q q q

10

10

0.5

Cook's distance 0.004 Leverage

0.5

0.000

0.008

Theoretical Quantiles

Si vemos los residuos observaremos que el modelo, aunque no es perfecto, es bastante m as adecuado que el modelo normal.

165

Luis Cayuela

An alisis multivariante

3.

An alisis de la varianza multivariado (MANOVA)

El An alisis de la Varianza Multivariante (MANOVA) es una extensi on del an alisis de la varianza (ANOVA) que permite cubrir los casos d onde hay m as de una variable dependiente que no pueden ser combinadas de manera simple. Por tanto, frente al ANOVA o la regresi on, en d onde tendr amos la siguiente formulaci on del modelo: y x1 + x2 + . . . + xn en el MANOVA el modelo quedar a formulado de la siguiente forma: y1 + y2 + . . . + yk x1 + x2 + . . . + xn Por lo general, se ha aceptado la terminolog a de MANOVA para referirse a an alisis que contemplan varias variables respuesta continuas, pero sin prestar mucha atenci on a si las variables explicativas son continuas o discretas. En un sentido estricto, si las variables explicativas fueran continuas tendr amos una regresi on m ultiple multivariante, si fueran discretas estar amos ante un caso de an alisis de la varianza multifactorial multivariante, y si fueran de ambos tipos el an alisis ser a del tipo ANCOVA multivariante. Sin embargo, es muy com un referirse a cualquiera de ellos como MANOVA, y est a ser a la terminolog a usada aqu . El MANOVA, al igual que los modelos lineales, se basa en una serie de supuestos:
las muestras son independientes entre s ; cada variable tiene una distribuci on normal; en conjunto las k variables dependientes tienen la distribuci on normal

conjunta;
las varianzas de cada variable son iguales al compararlas de tratamiento

a tratamiento;
las correlaciones entre dos variables de un mismo grupo son las mismas

de grupo a grupo. Estos supuestos son muchas veces dif ciles de cumplir. Por ello, una alternativa eciente al MANOVA es el MANOVA semi-param etrico, que utiliza las distancias entre cada par de observaciones para obtener una matriz de distancia sobre la que luego se calcula la signicaci on de las variables explicativas con simulaciones de Monte Carlo. Este tipo de enfoque es muy similar al del escalamiento multidimensional no m etrico (NMDS), en tanto que la partici on de la varianza se hace utilizando una matriz de distancias, por lo que ambos m etodos se complementan bastante bien. Hay que considerar que la interpretaci on de un MANOVA (ya sea param etrico o semi-param etrico) es bastante m as compleja que la de un ANOVA o una 166

Luis Cayuela

An alisis multivariante

regresi on. Por medio de este an alisis s olo es posible saber si la(s) variables explicativa(s) tienen un efecto sobre el conjunto de las variables respuesta, pero dif cilmente sabremos c omo es este efecto a no ser qu e utilicemos otras t ecnicas complementarias como el NMDS. Por tanto, al realizar un an alisis de este tipo nos jaremos en la signicaci on de los coecientes y, cuando sea posible, en la variabilidad explicada por cada una de las variables explicativas. En R hay, por lo menos, dos funciones que nos permiten ajustar un MANOVA. La funci on manova() se encuentra dentro del paquete stats y ajusta MANOVAs param etricos, por lo que es importante evaluar la idoneidad del modelo mirando los residuos. La funci on adonis(), dentro del paquete vegan, permite ajustar MANOVAs semi-param etricos, por lo que la evaluaci on de los residuos del modelo no es necesaria. Nos centraremos en esta u ltima para el an alisis de comunidades biol ogicas.

3.1.

Ejemplo: Qu e variables determinan la composici on 2 or stica en bosques tropicales montanos?

Se quiere investigar qu e variables ambientales afectan la composici on or stica de arboles en parcelas de 0.1 hect areas muestreadas en distintos tipos de bosques tropicales en los Altos de Chiapas, M exico (bosque de pino-encino (POF), bosque de encino (OF), bosque de pino (PF), bosque nublado (MCF) y bosque transicional a selva baja caducifolia (TF)). El tipo de bosque es el resultado de factores ambientales (clima) y el uso humano. Para este caso de estudio se han seleccionado las 86 especies m as abundantes sobre un total de 231 en 204 parcelas de 0.1 hect areas. Para cada especie tenemos su abundancia total en cada parcela. Queremos construir un modelo en d onde la composici on de arboles quede en funci on por un lado del tipo de bosque y, por otro, de la productividad (medida a partir del ndice de vegetaci on NDVI obtenido de una imagen Landsat del a no 2000) y la elevaci on. La matriz de parcelas (las) x especies (columnas) est a disponible en la siguiente direcci on http://tinyurl.com/MANOVA-bio. Las variables ambientales para las parcelas muestreadas (tipo de bosque, productividad, elevaci on) est an disponibles en la siguiente direcci on http://tinyurl.com/MANOVA-env. Vamos primero a cargar la matriz de parcelas x especies y los datos ambientales en R. > bio <- read.table("http://tinyurl.com/MANOVA-bio", header = T, + sep = "\t") > env <- read.table("http://tinyurl.com/MANOVA-env", header = T, + sep = "\t") Ahora vamos a ajustar un MANOVA en d onde la composici on de especies (bio) va a estar en funci on de las variables que hay en el arreglo de datos env (Forest type, Productivity, Elevation).
L., Golicher, D.J., Rey Benayas, J.M., Gonz alez-Espinosa, M. & Ram rezMarcial, N. 2006. Fragmentation, disturbance and tree diversity conservation in tropical montane forests. Journal of Applied Ecology 43: 1172-1181
2 Cayuela,

167

Luis Cayuela

An alisis multivariante

> > > >

library(vegan) attach(env) manova1 <- adonis(bio ~ Forest.type + Productivity + Elevation) manova1

Call: adonis(formula = bio ~ Forest.type + Productivity + Elevation) Df SumsOfSqs Forest.type 4.00000 14.48614 Productivity 1.00000 1.01881 Elevation 1.00000 5.40130 Residuals 197.00000 57.89472 Total 203.00000 78.80096 --Signif. codes: 0 *** 0.001 ** MeanSqs 3.62153 1.01881 5.40130 0.29388 F.Model R2 Pr(>F) 12.32310 0.1838 0.001 *** 3.46673 0.0129 0.002 ** 18.37914 0.0685 0.001 *** 0.7347 1.0000

0.01 * 0.05 . 0.1 1

Los resultados muestran que todas las variables son signicativas. Las sumas de cuadrados (SumsOfSqs) nos dicen qu e cantidad de variabilidad est a explicada por cada una de las variables y la variabilidad residual (esto es, no explicada por el modelo). En este ejemplo podemos ver que la composici on de a rboles en bosques tropicales montanos est a explicada fundamentalmente por el tipo de bosque (14.49/78.80 = 18 %), pero tambi en por la productividad (1.018/78.80 = 1 %) y la elevaci on (5.40/78.80 = 7 %). Es decir, que dependiendo del tipo de bosque vamos a encontrar distintas especies. Pero adem as existe un gradiente altitudinal que condiciona en parte la composici on de estos bosques. Podr a ser interesante explorar si este gradiente altitudinal afecta de manera distinta a los distintos tipos de bosque. Para ello vamos a incluir la interacci on entre estas variables en un nuevo modelo. > manova2 <- adonis(bio ~ Forest.type + Productivity + Elevation + + Forest.type:Elevation) > manova2 Call: adonis(formula = bio ~ Forest.type + Productivity + Elevation + Df SumsOfSqs Forest.type 4.00000 14.48614 Productivity 1.00000 1.01881 Elevation 1.00000 5.40130 Forest.type:Elevation 4.00000 4.32304 Residuals 193.00000 53.57168 Total 203.00000 78.80096 --Signif. codes: 0 *** 0.001 ** 0.01 * MeanSqs 3.62153 1.01881 5.40130 1.08076 0.27757 F.Model 13.04712 3.67041 19.45898 3.89360

Forest.type:Elevation)

R2 Pr(>F) 0.1838 0.001 *** 0.0129 0.001 *** 0.0685 0.001 *** 0.0549 0.001 *** 0.6798 1.0000

0.05 . 0.1 1

Y vemos que, efectivamente, el cambio en la composici on de especies a lo largo del gradiente altitudinal va a ser distinto seg un el tipo de bosque (y explica 168

Luis Cayuela

An alisis multivariante

cerca de un 5 % de la variabilidad en la composici on de especies). Esto podr a indicar, por ejemplo, que algunos tipos de bosque no van a sufrir ning un cambio en la composici on de especies a lo largo del gradiente altitudinal y otros s . Sin embargo, no es posible conocer el sentido de esta interacci on a partir u nicamente de los resultados de este an alisis. Podr amos hacer MANOVAS individuales para cada uno de los tipos de bosque o podr amos utilizar otras t ecnicas multivariantes que nos van a ayudar a interpretar estos resultados visualmente, como veremos en la siguiente secci on.

4.

Escalamiento multidimensional no m etrico (NMDS)

El escalamiento multidimensional no m etrico (NMS, MDS, NMDS o NMMDS) es una t ecnica multivariante de interdependencia que trata de representar en un espacio geom etrico de pocas dimensiones las proximidades existentes entre un conjunto de objetos. El NMDS es un m etodo de ordenaci on adecuado para datos que no son normales o que est an en una escala discontinua o arbitraria. Una ventaja del NMDS frente a otras t ecnicas de ordenaci on es que, al estar basada en rangos de distancias, tiende a linealizar la relaci on entre las distancias ambientales y las distancias biol ogicas (esto es, calculadas a partir de una matriz de sitios x especies). Una de las desventajas de esta t ecnica es la dicultad para alcanzar una soluci on estable u nica. A pesar de ello, el NMDS es una t ecnica ampliamente utilizada en ecolog a para detectar gradientes en comunidades biol ogicas. El NMDS se implementa de la siguiente forma: 1. Se calcula la matriz de disimilaridad X a partir de la matriz de datos de sitios x especies. Esta matriz nos indica c omo de iguales son cada par de sitios utilizando para ello la similaridad entre sus especies. Supongamos que tenemos tres especies (sp1, sp2, sp3) y tres sitios (A, B, C). El sitio A tiene sp1 = 3, sp2 = 0 y sp3 = 8. El sitio B tiene sp1 = 3, sp2 = 0 y sp3 = 6. El sitio C tiene sp1 = 0, sp2 = 5 y sp3 = 1. Por tanto, podemos calcular una matriz de disimilaridad que nos indique con n umeros que los sitios A y B son muy iguales, mientras que los sitios A y C y B y C son muy distintos entre s . Cuando se trata de datos biol ogicos la distancia m as usada es la distancia de Sorensen (Bray-Curtis) en vez de la distancia Eucl dea. 2. Se asignan los sitios (unidades muestrales) a una conguraci on inicial aleatoria en un espacio k -dimensional (d onde k es el n umero de especies), aunque en realidad, la ordenaci on se va a realizar principalmente sobre unas pocas dimensiones (2 o 3). 3. Se calculan las distancias sobre este nuevo espacio geom etrico y se calcula una matriz de distancia Y . 4. Se comparan las matrices de distancia X e Y y se mide c omo son de parecidas entre ellas (stress). 169

Luis Cayuela

An alisis multivariante

5. A partir de la conguraci on inicial, se reasignan los sitios (unidades muestrales) para reducir las distancias con la matriz X . 6. Se repite este proceso de manera iterativa hasta que se consigue una soluci on optima en d onde la matriz de distancias Y es muy parecida a la matriz de distancias X . Esto es, se minimiza el stress. La ventaja del NMDS es que nos permite, al igual que el PCA, reducir la dimensionalidad de nuestros datos originales. El resultado de la ordenaci on se puede visualizar en un gr aco de ordenaci on. Posteriormente podemos relacionar los ejes resultantes de dicha ordenaci on con distintas variables ambientales para determinar de manera indirecta el efecto de estas sobre la matriz de sitios x especies. Aunque en ecolog a se utiliza t picamente esta t ecnica para analizar datos de comunidades biol ogicas (matriz de sitios x especies) tambi en se puede aplicar a otro tipo de datos, como por ejemplo m ultiples variables f sico-qu micas medidas en distintos cuerpos de agua (r os, embalses, pantanos). Esta t ecnica se utiliza tambi en mucho en otras disciplinas, como la psicolog a o la econom a. En R tenemos una implementaci on de esta funci on (metaMDS) en el paquete vegan.

4.1.

Ejemplo: Gradientes de composici on or stica en bosques tropicales montanos3

Al igual que en ejemplo anterior, se quiere investigar qu e variables ambientales afectan la composici on or stica de arboles en parcelas de 0.1 hect areas muestreadas en distintos tipos de bosques tropicales en los Altos de Chiapas, M exico. El tipo de bosque es el resultado de factores ambientales (clima) y el uso humano. Se seleccionaron las 86 especies m as abundantes sobre un total de 231 en 204 parcelas de 0.1 hect areas. Para cada especie tenemos su abundancia total en cada parcela. Queremos construir un modelo en d onde la composici on de arboles quede en funci on por un lado del tipo de bosque y, por otro, de la productividad (medida a partir del ndice de vegetaci on NDVI obtenido de una imagen Landsat del a no 2000) y la elevaci on. Los objetivos concretos son: 1. Explorar visualmente c omo son de similares o distintas las parcelas muestreadas en funci on de las especies que contienen. 2. Investigar la relaci on entre esta ordenaci on y las variables ambientales por medio de correlaciones de dichas variables con los ejes de ordenaci on y el ajuste de supercies de tendencia. La matriz de parcelas (las) x especies (columnas) est a disponible en http://tinyurl.com/MANOVA-bio. Las variables ambientales para las parcelas
3 Cayuela, L., Golicher, D.J., Rey Benayas, J.M., Gonz alez-Espinosa, M. & Ram rezMarcial, N. 2006. Fragmentation, disturbance and tree diversity conservation in tropical montane forests. Journal of Applied Ecology 43: 1172-1181

170

Luis Cayuela

An alisis multivariante

muestreadas (tipo de bosque, productividad, elevaci on) est an disponibles en http://tinyurl.com/MANOVA-env. Al igual que en el caso anterior es necesario cargar la matriz de parcelas x especies y los datos ambientales en R. Si se ha realizado el ejercicio anterior en esta misma sesi on se puede saltar este paso. > bio <- read.table("http://tinyurl.com/MANOVA-bio", header = T, + sep = "\t") > env <- read.table("http://tinyurl.com/MANOVA-env", header = T, + sep = "\t") Vamos ahora a realizar el escalamiento multidimensional no m etrico. Como la conguraci on inicial de las parcelas es aleatoria, cada vez que realicemos el NMDS vamos a tener un resultado ligeramente distinto. Para evitar esto vamos a utilizar el comando set.seed() que genera unos datos semilla a partir de los cuales se establece la conguraci on inicial de las parcelas en los ejes del NMDS. De esta manera, cada vez que realicemos el an alisis obtendremos el mismo resultado.

171

Luis Cayuela

An alisis multivariante

> set.seed(0) > nmds1 <- metaMDS(bio) Square root transformation Wisconsin double standardization Using step-across dissimilarities: Too long or NA distances: 3643 out of 20706 (17.6%) Stepping across 20706 dissimilarities... Run 0 stress 20.58713 Run 1 stress 21.49227 Run 2 stress 22.13124 Run 3 stress 22.2231 Run 4 stress 24.14967 Run 5 stress 21.73649 Run 6 stress 20.77451 Run 7 stress 23.69372 Run 8 stress 20.98569 Run 9 stress 22.35428 Run 10 stress 21.94549 Run 11 stress 21.27711 Run 12 stress 21.64029 Run 13 stress 21.26395 Run 14 stress 22.31659 Run 15 stress 21.74069 Run 16 stress 22.03471 Run 17 stress 21.23971 Run 18 stress 21.90118 Run 19 stress 21.30491 Run 20 stress 21.26796 > plot(nmds1)

+ + + q + + ++
q q q q q q

+
q

q +

+
q q q

+ +
q + + +q + q q q q q

++
q q q q q q q q

+
q q q

qq

NMDS2

+
q q

q q q q + q+ q + q qqq q q q q q

+ +
q

q q q q q q

+
q

+ q

+
q q q q q

++ +
q q q+ q q q q qq

q qq q qq q q + q ++ ++ ++ + + q + q + + q q

+ +q

+
q

+
q+

q q q

+ q q+ +

q q q q q q + q q q q q qq q q q q q qq q + + q q + q q+q qq + + q q + q + q q q q q q q q q q q + q q q+ q + +++ q qq q q q qq + q q qq q + q q q q qq q q q q q q q q q q q +q q q

+q

+ q +q
q q

qq q

+ q q q q q
q

+
q q

0 NMDS1

172

Luis Cayuela

An alisis multivariante

Este gr aco no es muy informativo. Vamos a personalizarlo para poder obtener m as informaci on sobre los tipos de bosque.

> plot(nmds1, type = "n") > points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type) + cex = 1.5) > legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest", + "Pine forest", "Pine-oak forest", "Transitional forest"), + pch = c(1:5), col = c(1:5))

NMDS2

q q q q q q q q qq qq

q q q q q q qq q qq q q

q q q q q q q q q qq q q q q q qq qq q q q Cloud forest q q q q q q q q q Oak forest q q q q

Pine forest Pineoak forest Transitional forest 2 1

0 NMDS1

Vemos que los distintos tipos de bosque se diferencian bastante bien en cuanto a la composici on de especies que los componen. Algunos grupos son m as compactos, como los bosques transicionales, y otros m as heterog eneos, como los bosques de niebla (que parece que forman dos subgrupos) y los bosques de encino y pino-encino. Vamos a insertar en la gr aca los vectores de las variables ambientales utilizando para ello la funci on envt() del paquete vegan.

173

Luis Cayuela

An alisis multivariante

> > + > + + > >

plot(nmds1, type = "n") points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type) cex = 1.5) legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest", "Pine forest", "Pine-oak forest", "Transitional forest"), pch = c(1:5), col = c(1:5)) ef <- envfit(nmds1, env, permu = 1000) plot(ef)

Forest.typeTF

NMDS2

q q q q q q q qq q qq

q q q q q q qq q qq q q

q q q qq q Productivity q q qq q qq q q q q qq q q q Cloud forest q q q q q q q q q Oak forest q q q q

Forest.typeCF q

Forest.typeOF Forest.typePOF Forest.typePF

Pine forest Pineoak forest Transitional forest 2 1

Elevation

0 NMDS1

Vemos los centroides de los distintos tipos de bosque. Tambi en observamos que la elevaci on est a relacionada con el eje 2 y la productividad con ambos ejes marcando un gradiente desde la parte superior derecha de la gr aca (menor productividad) a la parte inferior izquierda (mayor productividad). Sin embargo, las respuestas multivariantes a variables ambientales rara vez son lineales. Por ello vamos a utilizar otra t ecnica que nos va a permitir ajustar supercies de tendencia para las variables continuas.

174

Luis Cayuela

An alisis multivariante

> > + > + + >

plot(nmds1, type = "n") points(nmds1$points, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type) cex = 1.5) legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest", "Pine forest", "Pine-oak forest", "Transitional forest"), pch = c(1:5), col = c(1:5)) ordisurf(nmds1, env$Productivity, add = T)

Family: gaussian Link function: identity Formula: y ~ s(x1, x2, k = knots) Estimated degrees of freedom: 8.0797 total = 9.079708 GCV score: 0.0126316 > ordisurf(nmds1, env$Elevation, add = T, col = "green") Family: gaussian Link function: identity Formula: y ~ s(x1, x2, k = knots) Estimated degrees of freedom: 8.7164 total = 9.716417 GCV score: 10561.37

0.5

1600
0. 8

0.55
0.6

NMDS2

.9 q q q q q q q 0 0 qq q 20q q

0. 85

1700

q q q q q q qq q qq q 2100 q 2200
1800
1900

0.6

0.9

q 2400 q qq q q q qq q q 26 q 00 qq q q q qq q q q q Cloud forest q q q q q q q 2q q q 0 Oak forest 70 q q q


2500

2300

0.7

0.7

Pine forest Pineoak forest Transitional forest 2 1

0.55

175
NMDS1

Luis Cayuela

An alisis multivariante

Ahora tenemos una visi on mucho m as completa de qu e est a pasando. Vemos que las zonas de mayor altitud van a determinar la presencia de bosque nublado, pero no de bosque de pino, como parec a indicar la gr aca anterior. Por otro lado la productividad va a condicionar (en mucha menor medida como vimos en el ejemplo anterior) la formaci on de bosques transicionales y pinares. Los bosques de encino y pino-encino muestran una heterogeneidad bastante amplia en cuanto a su respuesta a la productividad y la elevaci on y, nalmente, los bosques de niebla son los que m as productividad tienen (por algo son bosques siempre-verdes frente al resto -excepto los bosques de pinoque son mixtos caducifolios).

5.

An alisis de correspondencias can onico (CCA)

Qu e es el an alisis de correspondencias can onico? El an alisis de correspondencias can onico (CCA) es una t ecnica multivariante que permite representar en un espacio geom etrico de pocas dimensiones las proximidades existentes entre un conjunto de objetos condicionado por una serie de variables predictoras. El CCA es una t ecnica de ordenaci on restringida (constrained ordination ), lo que signica que la ordenaci on de los objetos representa solamente la estructura de los datos que maximiza la relaci on con una segunda matriz de variables predictoras. Normalmente el CCA relaciona dos matrices: la matriz de variables dependientes (p.e. una matriz de sitios x especies) y la matriz de variables independientes (p.e. una matriz de variables ambientales). La relaci on entre ambas matrices se hace por medio de t ecnicas de regresi on multivariante. Cuando se utiliza CCA es importante tener en cuenta lo siguiente: 1. El CCA incluye la aplicaci on de t ecnicas de regresi on y, por tanto, todas los supuestos y consideraciones de los modelos lineales han de ser tenidos en cuenta. 2. A medida que el n umero de variables ambientales aumenta con respecto al n umero de observaciones (muestras), el resultado del CCA se hace m as dudoso, independientemente de que las relaciones observadas sean aparentemente fuertes. 3. Los usuarios de esta t ecnica han de tener en cuenta que su interpretaci on no supone una descripci on de los datos de la matriz de variables dependientes per se, sino m as bien de la parte de la estructura de los datos que est a relacionada con las variables predictoras. En el CCA, la variabilidad explicada por los ejes de ordenaci on est a representada por el t ermino inercia (Inertia). Hay una inercia total que representar a la variabilidad total de los datos (como la devianza del modelo nulo en GLM) y una devianza de la ordenaci on restringida (constrained inertia) que informa de la parte de la variabilidad total explicada por las variables predictoras en el CCA. Asimismo es interesante ver qu e proporci on de dicha 176

Luis Cayuela

An alisis multivariante

variabilidad queda explicada por cada uno de los ejes del CCA, teniendo en cuenta que habr a tantos ejes como variables predictoras incluyamos en el modelo, si bien generalmente la mayor parte de la variabilidad va a quedar resumida en los 2 o 3 primeros ejes.

5.1.

Ejemplo: C omo se relaciona la estructura de comunidades de plantas con las variables ambientales?4

Siguiendo con el ejemplo anterior (ver secciones 3.1 y 4.1) queremos seguir profundizando en la relaci on entre las variables ambientales y la composici on de arboles en bosques tropicales montanos. Los objetivos espec cos de este caso de estudio son: 1. Investigar cu al es la relaci on entre especies y sitios explicada por variables ambientales; 2. Visualizar los datos con distintas funciones gr acas y entender los resultados de un CCA. Los datos son los mismos que hemos utilizado en los ejemplos 3.1 y 4.1. > cca1 <- cca(bio ~ Forest.type + Productivity + Elevation, data = env) > cca1 Call: cca(formula = bio ~ Forest.type + Productivity + Elevation, data = env) Inertia Rank Total 12.775 Constrained 2.288 6 Unconstrained 10.487 85 Inertia is mean squared contingency coefficient Eigenvalues for constrained axes: CCA1 CCA2 CCA3 CCA4 CCA5 CCA6 0.73472 0.58627 0.51578 0.24928 0.12219 0.08012 Eigenvalues for unconstrained axes: CA1 CA2 CA3 CA4 CA5 CA6 CA7 CA8 0.6702 0.5871 0.4999 0.4946 0.4819 0.4276 0.3761 0.3420 (Showed only 8 of all 85 unconstrained eigenvalues)
4 Cayuela, L., Golicher, D.J., Rey Benayas, J.M., Gonz alez-Espinosa, M. & Ram rezMarcial, N. 2006. Fragmentation, disturbance and tree diversity conservation in tropical montane forests. Journal of Applied Ecology 43: 1172-1181

177

Luis Cayuela

An alisis multivariante

> > > > > + +

plot(cca1, type = "n") points(cca1, pch = as.numeric(env$Forest.type), col = as.numeric(env$Forest.type)) points(cca1, display = "bp", col = "red") text(cca1, display = "bp") legend(x = "bottomleft", legend = c("Cloud forest", "Oak forest", "Pine forest", "Pine-oak forest", "Transitional forest"), pch = c(1:5), col = c(1:5))

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

CCA2

Productivity Elevation Forest.typeTF Forest.typeOF Forest.typePF Forest.typePOF

Cloud forest Oak forest Pine forest Pineoak forest Transitional forest 6 4 CCA1 2 0

La varianza de la composici on de especies explicada por las variables ambientales es de 2.288/12.775 (es decir, un 17.9 %). De esta variabilidad, la mayor parte est a explicada por los ejes 1 (0.734/12.775), 2 (0.586/12.775) y 3 (0.515/12.775). En la gr aca, tambi en vemos que el eje 1 del CCA, que est a relacionado con el tipo de bosque de transici on, nos separa este tipo de bosque del resto. El eje 2 est a m as relacionado con la productividad, la elevaci on y el resto de tipo de bosques. Ser a interesante ver otros ejes del CCA para lo cual podemos hacer representaciones dos a dos del eje 1 con el 3, y del 2 con el 3, o probar a representar los tres primeros ejes con una gr aca tridimensional. El paquete scatterplot3d y rgl contienen funciones que nos pueden ayudar a esto.

178

Luis Cayuela

An alisis multivariante

> > > > > >

library(scatterplot3d) op <- ordiplot3d(cca1, angle = 25, type = "n") text(op, "points", col = "grey", pos = 3, cex = 0.6) text(op, "arrows", col = "blue", pos = 3) text(op, "centroids", col = "blue", pos = 3) points(op, "points", col = as.numeric(env$Forest.type))

Elevation
Bazom24 Yasht4 Bazom22 Yasht3 Huitep18 qq Bazom20 Huitep17 q TzontA6 q TzontA3 TzontA1 TzontA9 Bazom4 Mitzit2 TzontB9 TzontA5 Mitzit3 TzontB10 Bazom8 TzontA8 Barre5 TzontB5 Barre1 Mitzit1 q Barre3 TzontB7 Yasht5 q TzontB4 TzontB1 Barre4 TzontB6 qTzontB8 TzontA4 TzontA2 q q TzontA7 Mitzit5 Bazom2 q Yalcuk3 q TzontA10 q Yalcuk2 Barre10 q q Mitzit4 Barre9 Bazom21 TzontB2 q Bazom3 TzontB3 SAnton5 q q q q Mitzit6 Bazom12 q Bazom16 Bazom26 q SAnton4 SAnton8 Santia8 Chilil2 Bazom17 Bazom19 q q Bazom25 q SAnton9 q Santia3 Chilil8 Santia10 Mitzit8 SAnton3 Chilil3 Huitep16 q Santia7 Santia2 Mitzit7 Bazom5 Yasht8 Bazom15 Huitep12 Huitep10 q q Bazom23 Huitep8 q SAnton1 Bazom7 q Chilil6 Huitep1 q Bazom1 q Santia5 Yasht9 Naven6 Santia4 Bazom10 q Bazom6 qq Huitep4 SAnton2 Huitep3 Yalcuk9 Bazom11 Santia9 q Huitep7 Santia6 qq Barre6 q Yalcuk8 Naven4 Huitep13 Huitep11 Yalcuk4 SAnton6 q q Huitep14 Bazom18 Naven10 Bazom9 Yasht2 q q Chilil10 q Yalcuk5 q Huitep2 q Bazom14 Huitep9 Huitep5 Chilil4 Chilil1 q Chilil5 Naven9 Yalcuk10 Naven5 Barre7 Yasht6 Naven3 q q Yasht10 Mitzit9 q q q q q q q Huitep15 q Yalcuk6 q Chilil7 q q Bazom13 q Huitep6 Naven2 q Naven1 q BVista7 SAnton10 q Barre2 q Yalcuk7 q q BVista10 Naven7 Yasht1 q q q q q q Yalcuk1 q q q q q q q Mitzit10 q q q q q q q Yasht7 q q q q q q q BVista6 qq q qq q SAnton7 Santia1 q Naven8 q q q q q q q q q qq Chilil9 q qq SJTunas6 q q qq q BVista9 SJTunas1 q SJTunas9 SJTunas4 q BVista2 q Cholol1 q Barre8 SJTunas8 BVista8 qq Cholol7 q BVista5 BVista1 q q q q q q BVista4 Cruzto2 SJTunas10 q SJTunas7 Cruzto8 Cruzto4 SJTunas2 Epalch6 q Epalch10 q Cruzto5 SJTunas5 q SJTunas3 q q Cruzto7 q q q BVista3 q q Cholol6 q Epalch3 Epalch9 Epalch7 Epalch1 Cruzto10 Cruzto6 q Epalch2 q q q q Epalch8 q q Cruzto3 q q q Carid4 Cholol2 Cholol9 q Epalch4 Carid8 qq Cholol5 q Cholol3 q Cholol4 q q q q Cruzto1 q Cholol8 Cholol10 Carid10 Carid2 q Cruzto9 Carid5 q q q Epalch5 Carid3 q Carid1 Carid6 q q

Forest.typePF Forest.typeTF Forest.typePOF Forest.typeCF Productivity Forest.typeOF

+ + +

CCA3

q q

2 8 6 4 2 0 2

CCA1

Por u ltimo, podemos utilizar las gr acas interactivas del paquete rgl para representar los resultados del CCA. > library(rgl) > ordirgl(cca1, display = "sites")

6.

M as ejemplos

Se pueden encontrar m as ejemplos resueltos en http://curso-r-ceama2009.wikispaces.com/An%C3%A1lisis+multivariante.

179

CCA2

Carid9 Carid7

q qq q