Está en la página 1de 30

Análisis Multivariante

PRÁCTICA 2. ANÁLISIS DISCRIMINANTE


Ejercicio 1. El fichero 27-Vinos2wp.xls contiene 45 tipos de vinos de 5 denominaciones de
origen diferente sobre los que se tienen datos de 17 componentes químicos diferentes. Realiza
un análisis discriminante para analizar qué componentes químicos son los que más discriminan
entre los vinos de diferentes denominaciones de origen y obtén las funciones discriminantes
resultantes de la clasificación.

Ejercicio 2. En un estudio sobre tamaño de piezas florales, se trata de discriminar entre tres
especies de género Iris (setosa, versicolor y virgínica) a partir de las medidas realizadas en 150
ejemplares de lirios. Las variables analizadas como discriminantes son la longitud y la anchura
de los pétalos y sépalos de las flores cuyos valores se almacenan en el fichero 12-Iris.xls:

a) Estudiar si existe algún tipo de relación entre las variables morfológicas que permita
agruparlas en distintos factores
b) Describir las diferencias entre los tres tipos de lirios
c) Construir reglas que nos permitan clasificar lirios en alguna de las tres especies
consideradas teniendo en cuenta las características de las variables discriminantes
medidas sobre ellos
d) Clasificar el lirio con amplitud del pétalo 0,3 cm; longitud del pétalo 0,9 cm; amplitud
del sépalo 3,2 cm y longitud del sépalo 5,3 cm en uno de los tres tipos
e) ¿Cuál es la variable relevante en la cual se basa fundamentalmente la clasificación de
los lirios en los grupos setosa, versicolor y virgínica?
f) Calcula las tasas de error por grupos, es decir, el porcentaje de observaciones de cada
grupo clasificadas incorrectamente

Ejercicio 3 (Opcional). En el fichero 23-Tortugas.xls se presentan datos biométricos


correspondientes a 48 tortugas (machos y hembras) de diferentes edades. Las variables
consideradas son: LONGITUD, ANCHURA, PESO de los caparazones.
a) ¿Es posible distinguir entre las tortugas machos y las tortugas hembras según la
longitud, anchura y peso de sus caparazones? Para el estudio aplica un análisis
discriminante y justifica los resultados obtenidos.
b) ¿Cuáles son las variables que más discriminan entre las tortugas machos y hembras?

1
Análisis Multivariante

SOLUCIÓN:
Ejercicio 1

a
Matriz de componentes

Componente
1 2 3 4 5
PROPETIL ,413 ,420 -,462 -,182 ,183
ACEISOBU -,379 ,505 ,230 -,250 -,398
BUTIETIL ,237 ,486 -,357 -,146 ,137
ISOACETA -,663 ,185 ,164 -,198 ,090
BUTANOL ,454 ,594 ,347 ,270 -,226
PROPANOL ,584 -,362 ,247 -,128 ,222
ACEHEXIL -,272 ,354 ,150 ,488 ,364
LACETILO -,009 ,815 ,071 ,073 ,091
CIS3HEXA -,624 ,577 ,227 -,147 ,025
OCTAETIL -,703 -,200 ,065 ,143 ,542
DECAETIL ,329 ,409 ,236 ,551 -,094
BUTIROLA ,534 -,079 ,683 ,141 ,187
ACISOVAL ,417 -,343 ,432 -,037 ,133
SUCCIETI ,592 ,466 -,082 -,303 ,186
GLUTAETI ,523 ,198 -,453 ,144 ,372
LACTETIL ,233 -,228 -,459 ,533 -,378
FENILETA ,735 ,019 ,228 -,386 -,096
Método de extracción: Análisis de componentes principales.
a. 6 componentes extraídos

a
Matriz de componentes rotados

Componente
1 2 3 4 5
PROPETIL -,077 ,772 -,089 ,036 -,124
ACEISOBU -,373 -,118 ,627 ,249 -,251
BUTIETIL -,161 ,646 ,048 ,099 -,064
ISOACETA -,284 -,197 ,586 -,152 ,249
BUTANOL ,149 ,195 ,082 ,836 -,195
PROPANOL ,718 ,078 -,220 -,096 -,140
ACEHEXIL -,107 ,020 ,130 ,378 ,649
LACETILO -,204 ,424 ,401 ,532 ,134
CIS3HEXA -,385 -,037 ,754 ,166 ,223
OCTAETIL -,106 -,273 ,223 -,358 ,767
DECAETIL ,083 ,075 -,150 ,775 ,091
BUTIROLA ,807 -,091 ,001 ,392 ,009
ACISOVAL ,677 -,142 -,105 ,016 -,087
SUCCIETI ,261 ,725 ,109 ,186 -,246
GLUTAETI ,096 ,693 -,405 ,075 ,133
LACTETIL -,297 -,088 -,777 ,168 -,129
FENILETA ,577 ,297 ,000 ,105 -,565

2
Análisis Multivariante

Método de extracción: Análisis de componentes principales.


Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 9 iteraciones.

Matriz de estructura

Componente
1 2 3 4 5
PROPETIL ,184 ,114 -,046 ,079 ,781
ACEISOBU ,226 ,303 -,468 -,594 -,157
BUTIETIL ,110 ,178 -,160 -,059 ,640
ISOACETA -,273 -,107 -,416 -,604 -,301
BUTANOL ,242 ,859 ,157 -,055 ,283
PROPANOL ,214 -,103 ,754 ,230 ,126
ACEHEXIL -,641 ,387 -,173 -,184 -,006
LACETILO -,090 ,619 -,281 -,415 ,409
CIS3HEXA -,232 ,245 -,542 -,769 -,133
OCTAETIL -,791 -,362 -,211 -,292 -,385
DECAETIL -,070 ,755 ,117 ,152 ,163
BUTIROLA ,075 ,386 ,793 ,009 -,025
ACISOVAL ,143 -,005 ,689 ,119 -,097
SUCCIETI ,348 ,285 ,256 -,102 ,747
GLUTAETI -,072 ,106 ,167 ,373 ,730
LACTETIL ,056 ,059 -,122 ,789 ,015
FENILETA ,651 ,147 ,607 ,048 ,361
Método de extracción: Análisis de componentes principales.
Metodo de rotación: Normalización Oblimin con Kaiser.

Pruebas de igualdad de las medias de los grupos


Lambda de Wilks F gl1 gl2 Sig.
PROPETIL ,780 2,827 4 40 ,037
ACEISOBU ,569 7,580 4 40 ,000
BUTIETIL ,832 2,018 4 40 ,110
ISOACETA ,680 4,700 4 40 ,003
BUTANOL ,744 3,442 4 40 ,017
PROPANOL ,618 6,194 4 40 ,001
ACEHEXIL ,839 1,925 4 40 ,125
LACETILO ,705 4,192 4 40 ,006
CIS3HEXA ,317 21,526 4 40 ,000
OCTAETIL ,491 10,382 4 40 ,000
DECAETIL ,839 1,912 4 40 ,127
BUTIROLA ,721 3,863 4 40 ,010
ACISOVAL ,675 4,819 4 40 ,003
SUCCIETI ,820 2,202 4 40 ,086
GLUTAETI ,824 2,137 4 40 ,094
LACTETIL ,730 3,689 4 40 ,012
FENILETA ,794 2,597 4 40 ,051

3
Análisis Multivariante

Resultados de la prueba

M de Box 157,315

F Aprox. 2,792

gl1 40

gl2 1311,272

Sig. ,000

Contrasta la hipótesis nula de que


las matrices de covarianzas
poblacionales son iguales.

a,b,c,d
Variables introducidas/excluidas
Lambda de Wilks
F exacta F aproximada
Paso Introducidas Estadístico gl1 gl2 gl3 Estadístico gl1 gl2 Sig. Estadístico gl1 gl2 Sig.
1 CIS3HEXA ,317 1 4 40,000 21,526 4 40,000 ,000
2 OCTAETIL ,170 2 4 40,000 13,912 8 78,000 ,000
3 BUTIROLA ,091 3 4 40,000 12,364 12 100,830 ,000
4 BUTANOL ,057 4 4 40,000 10,990 16 113,674 ,000
En cada paso se introduce la variable que minimiza la
lambda de Wilks global.
a. El número máximo de pasos es
34.
b. La F parcial mínima para entrar
es 3.84.
c. La F parcial máxima para salir
es 2.71
d. El nivel de F, la tolerancia o el VIN son insuficientes para
continuar los cálculos.

Variables en el análisis
Paso Tolerancia F para salir Lambda de Wilks
1 CIS3HEXA 1,000 21,526
2 CIS3HEXA 1,000 18,425 ,491
OCTAETIL 1,000 8,465 ,317
3 CIS3HEXA ,975 18,043 ,265
OCTAETIL ,711 14,885 ,234
BUTIROLA ,700 8,173 ,170
4 CIS3HEXA ,971 13,599 ,142
OCTAETIL ,708 7,627 ,105
BUTIROLA ,397 14,546 ,148
BUTANOL ,463 5,434 ,091

4
Análisis Multivariante

Lambda de Wilks
F exacta F aproximada
Paso Número de variables Lambda gl1 gl2 gl3 Estadístico gl1 gl2 Sig. Estadístico gl1 gl2 Sig.
1 1 ,317 1 4 40 21,526 4 40,000 ,000
2 2 ,170 2 4 40 13,912 8 78,000 ,000
3 3 ,091 3 4 40 12,364 12 100,830 ,000
4 4 ,057 4 4 40 10,990 16 113,674 ,000

5
Análisis Multivariante

Autovalores

Correlación
Función Autovalor % de varianza % acumulado canónica
a
1 3,339 55,8 55,8 ,877
a
2 2,501 41,8 97,6 ,845
a
3 ,144 2,4 100,0 ,355
a
4 ,001 ,0 100,0 ,028

a. Se han empleado las 4 primeras funciones discriminantes canónicas en


el análisis.

Lambda de Wilks

Contraste de Lambda de
las funciones Wilks Chi-cuadrado gl Sig.

1 a la 4 ,057 112,815 16 ,000

2 a la 4 ,249 54,844 9 ,000

3 a la 4 ,873 5,347 4 ,254

4 ,999 ,030 1 ,862

Coeficientes estandarizados de las funciones


discriminantes canónicas

Función

1 2 3 4

BUTANOL -,603 ,845 ,274 1,004

CIS3HEXA ,541 ,735 ,130 -,425

OCTAETIL ,905 -,044 -,212 ,739

BUTIROLA 1,152 -,807 ,654 -,338

6
Análisis Multivariante

Matriz de estructura

Función

1 2 3 4
*
CIS3HEXA ,407 ,800 ,042 -,440
a *
ISOACETA ,312 ,348 -,263 -,074
a *
BUTIETIL -,093 ,302 -,137 ,111
*
BUTIROLA ,165 -,257 ,951 ,056
*
BUTANOL -,169 ,243 ,836 ,461
*
OCTAETIL ,539 ,012 -,678 ,499
a *
FENILETA -,379 -,208 ,447 -,098
a *
PROPANOL ,237 -,163 ,383 -,050
a *
LACETILO -,062 ,326 ,331 ,008
a *
ACISOVAL -,109 -,021 ,313 -,205
a *
SUCCIETI -,238 ,075 ,274 ,031
a *
GLUTAETI -,027 -,040 ,085 ,006
a *
DECAETIL -,149 ,126 ,336 ,424
a *
ACEISOBU -,028 -,032 ,088 -,389
a *
ACEHEXIL ,243 -,111 -,005 ,332
a *
LACTETIL ,059 ,072 -,044 ,093
a *
PROPETIL -,002 -,009 ,064 -,083

Correlaciones intra-grupo combinadas entre las variables


discriminantes y las funciones discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la correlación con la función.

*. Mayor correlación absoluta entre cada variable y cualquier función


discriminante.

a. Esta variable no se emplea en el análisis.

Coeficientes de las funciones canónicas discriminantes

Función

1 2 3 4

BUTANOL -,375 ,526 ,171 ,625

CIS3HEXA 3,321 4,509 ,800 -2,609

OCTAETIL 1,798 -,087 -,421 1,467

BUTIROLA ,338 -,236 ,192 -,099

(Constante) -4,724 -,213 -2,164 -1,310

7
Análisis Multivariante

Coeficientes de las funciones canónicas discriminantes

Función

1 2 3 4

BUTANOL -,375 ,526 ,171 ,625

CIS3HEXA 3,321 4,509 ,800 -2,609

OCTAETIL 1,798 -,087 -,421 1,467

BUTIROLA ,338 -,236 ,192 -,099

(Constante) -4,724 -,213 -2,164 -1,310

Coeficientes no tipificados

Funciones en los centroides de los grupos

Función
SUBDE
NOM 1 2 3 4

1 -1,569 -,069 -,953 -,007

2 -1,818 ,169 ,337 -,055

3 -1,392 -,286 ,195 ,029

4 1,672 2,382 ,003 ,002

5 2,152 -2,049 -,002 -,006

Funciones discriminantes canónicas no tipificadas


evaluadas en las medias de los grupos

Probabilidades previas para los grupos

Casos utilizados en el análisis


SUBDE
NOM Previas No ponderados Ponderados

1 ,111 5 5,000

2 ,133 6 6,000

3 ,311 14 14,000

4 ,222 10 10,000

5 ,222 10 10,000

Total 1,000 45 45,000

8
Análisis Multivariante

a
Resultados de la clasificación

Grupo de pertenencia pronosticado

SUBDENOM 1 2 3 4 5 Total
Original Recuento 1 1 0 4 0 0 5
2 0 0 6 0 0 6
3 0 0 14 0 0 14
4 0 0 2 8 0 10
5 0 0 0 0 10 10
% 1 20,0 ,0 80,0 ,0 ,0 100,0
2 ,0 ,0 100,0 ,0 ,0 100,0
3 ,0 ,0 100,0 ,0 ,0 100,0
4 ,0 ,0 20,0 80,0 ,0 100,0
5 ,0 ,0 ,0 ,0 100,0 100,0
a. Clasificados correctamente el 73,3% de los casos agrupados originales.

9
Análisis Multivariante

AD SOBRE ACP

Resultados de la prueba

M de Box 90,419

F Aprox. 1,605

gl1 40

gl2 1311,272

Sig. ,010

Contrasta la hipótesis nula de que


las matrices de covarianzas
poblacionales son iguales.

a,b,c,d
Comparaciones de grupos por pares
Paso SUBDENOM 1 2 3 4 5
1 1 F ,292 ,526 28,341 1,888
Sig. ,592 ,472 ,000 ,177
2 F ,292 ,011 25,128 ,678
Sig. ,592 ,918 ,000 ,415
3 F ,526 ,011 37,572 ,818
Sig. ,472 ,918 ,000 ,371
4 F 28,341 25,128 37,572 23,400
Sig. ,000 ,000 ,000 ,000
5 F 1,888 ,678 ,818 23,400
Sig. ,177 ,415 ,371 ,000
2 1 F 2,209 4,672 14,190 13,060
Sig. ,123 ,015 ,000 ,000

10
Análisis Multivariante

2 F 2,209 ,216 17,700 4,370


Sig. ,123 ,806 ,000 ,019
3 F 4,672 ,216 30,240 4,261
Sig. ,015 ,806 ,000 ,021
4 F 14,190 17,700 30,240 36,570
Sig. ,000 ,000 ,000 ,000
5 F 13,060 4,370 4,261 36,570
Sig. ,000 ,019 ,021 ,000
3 1 F 1,436 3,232 17,101 12,156
Sig. ,248 ,033 ,000 ,000
2 F 1,436 ,340 20,210 6,863
Sig. ,248 ,797 ,000 ,001
3 F 3,232 ,340 29,599 6,672
Sig. ,033 ,797 ,000 ,001
4 F 17,101 20,210 29,599 24,947
Sig. ,000 ,000 ,000 ,000
5 F 12,156 6,863 6,672 24,947
Sig. ,000 ,001 ,001 ,000
4 1 F 1,165 2,554 16,043 9,598
Sig. ,342 ,055 ,000 ,000
2 F 1,165 ,250 17,319 6,703
Sig. ,342 ,908 ,000 ,000
3 F 2,554 ,250 25,382 7,684
Sig. ,055 ,908 ,000 ,000
4 F 16,043 17,319 25,382 29,437
Sig. ,000 ,000 ,000 ,000
5 F 9,598 6,703 7,684 29,437
Sig. ,000 ,000 ,000 ,000
a. 1, 40 grados de libertad para el paso 1.
b. 2, 39 grados de libertad para el paso 2.
c. 3, 38 grados de libertad para el paso 3.
d. 4, 37 grados de libertad para el paso 4.

Autovalores

11
Análisis Multivariante

Función Autovalor % de varianza % acumulado Correlación canónica


a
1 3,821 71,7 71,7 ,890
a
2 1,330 25,0 96,7 ,755
a
3 ,174 3,3 99,9 ,385
a
4 ,003 ,1 100,0 ,056
a. Se han empleado las 4 primeras funciones discriminantes canónicas en el análisis.

Lambda de Wilks

Contraste
de las Lambda de
funciones Wilks Chi-cuadrado gl Sig.

1 a la 4 ,076 102,005 16 ,000

2 a la 4 ,364 39,876 9 ,000

3 a la 4 ,849 6,469 4 ,167

4 ,997 ,124 1 ,725

Coeficientes estandarizados de las funciones discriminantes canónicas

Función

1 2 3 4

REGR factor score 1 for


-,743 ,755 ,391 -,159
analysis 1

REGR factor score 3 for


1,158 ,321 ,061 -,342
analysis 1

REGR factor score 4 for


,570 -,354 ,789 ,379
analysis 1

REGR factor score 5 for


,473 ,781 -,250 ,611
analysis 1

Matriz de estructura

Función

1 2 3 4

REGR factor score 2 for *


a
,099 ,311 -,143 ,001
analysis 1

REGR factor score 4 for *


,149 -,191 ,846 ,475
analysis 1

12
Análisis Multivariante

REGR factor score 1 for *


-,300 ,630 ,647 -,308
analysis 1

REGR factor score 5 for *


,134 ,457 -,290 ,830
analysis 1

REGR factor score 3 for *


,543 ,312 ,117 -,771
analysis 1

Correlaciones intra-grupo combinadas entre las variables discriminantes y las


funciones discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la correlación con la función.

a. Esta variable no se emplea en el análisis.

*. Mayor correlación absoluta entre cada variable y cualquier función


discriminante.

Coeficientes de las funciones canónicas discriminantes

Función

1 2 3 4

REGR factor score 1 for


-,988 1,004 ,519 -,211
analysis 1

REGR factor score 3 for


1,660 ,461 ,087 -,490
analysis 1

REGR factor score 4 for


,610 -,379 ,844 ,405
analysis 1

REGR factor score 5 for


,527 ,869 -,279 ,680
analysis 1

(Constante) ,000 ,000 ,000 ,000

Coeficientes no tipificados

Funciones en los centroides de los grupos

Función
SUBDE
NOM 1 2 3 4

1 -,643 -1,604 -,921 ,025

2 -,882 -,929 ,225 -,121

3 -,839 -,479 ,380 ,050

4 3,418 ,262 -,004 -,002

5 -1,394 1,768 -,202 -,007

13
Análisis Multivariante

Funciones en los centroides de los grupos

Función
SUBDE
NOM 1 2 3 4

1 -,643 -1,604 -,921 ,025

2 -,882 -,929 ,225 -,121

3 -,839 -,479 ,380 ,050

4 3,418 ,262 -,004 -,002

5 -1,394 1,768 -,202 -,007

Funciones discriminantes canónicas no tipificadas


evaluadas en las medias de los grupos

Probabilidades previas para los grupos

Casos utilizados en el análisis


SUBDE
NOM Previas No ponderados Ponderados

1 ,111 5 5,000

2 ,133 6 6,000

3 ,311 14 14,000

4 ,222 10 10,000

5 ,222 10 10,000

Total 1,000 45 45,000

14
Análisis Multivariante

a
Resultados de la clasificación

Grupo de pertenencia pronosticado

SUBDENOM 1 2 3 4 5 Total
Original Recuento 1 4 0 0 0 1 5
2 1 0 5 0 0 6
3 2 0 11 0 1 14
4 0 0 0 10 0 10
5 0 0 2 0 8 10
% 1 80,0 ,0 ,0 ,0 20,0 100,0
2 16,7 ,0 83,3 ,0 ,0 100,0
3 14,3 ,0 78,6 ,0 7,1 100,0
4 ,0 ,0 ,0 100,0 ,0 100,0
5 ,0 ,0 20,0 ,0 80,0 100,0
a. Clasificados correctamente el 73,3% de los casos agrupados originales.

15
Análisis Multivariante

Ejercicio 2

1. ANÁLISIS FACTORIAL

Matriz de correlaciones

lsepal wsepal lpetal wpetal


Correlación lsepal 1,000 -,118 ,872 ,818
wsepal -,118 1,000 -,428 -,366
lpetal ,872 -,428 1,000 ,963
wpetal ,818 -,366 ,963 1,000

Varianza total explicada

Sumas de las saturaciones al cuadrado


Autovalores iniciales de la extracción
% de la % de la
Componente Total varianza % acumulado Total varianza % acumulado
1 2,918 72,962 72,962 2,918 72,962 72,962
2 ,914 22,851 95,813 ,914 22,851 95,813
3 ,147 3,669 99,482
4 ,021 ,518 100,000
Método de extracción: Análisis de Componentes principales.

Matriz de componentes(a)

Componente
1 2
lsepal ,890 ,361
wsepal -,460 ,883
lpetal ,992 ,023
wpetal ,965 ,064
Método de extracción: Análisis de componentes principales.
a 2 componentes extraídos

Componente 1: Longitud del pétalo y sépalo y amplitud del pétalo


Componente 2: Amplitud del sépalo

16
Análisis Multivariante

2. ANÁLISIS DISCRIMINANTE DESCRIPTIVO

Una vez comprobado el cumplimiento de los supuestos subyacentes al modelo matemático se


persigue obtener una serie de funciones lineales a partir de las variables independientes que
permitan interpretar las diferencias entre los grupos y clasificar a los individuos en alguna de
las subpoblaciones definidas por la variable dependiente. Estas funciones lineales se
denominan funciones discriminantes y son combinaciones lineales de las variables
discriminantes.

Estadísticos de grupo
N válido (según lista)
species Media Desv. típ. No ponderados Ponderados
Setosa lsepal 5,006 ,3525 50 50,000
wsepal 3,428 ,3791 50 50,000
lpetal 1,462 ,1737 50 50,000
wpetal ,246 ,1054 50 50,000
Virgínica lsepal 5,936 ,5162 50 50,000
wsepal 2,770 ,3138 50 50,000
lpetal 4,260 ,4699 50 50,000
wpetal 1,326 ,1978 50 50,000
Versicolor lsepal 6,588 ,6359 50 50,000
wsepal 2,974 ,3225 50 50,000
lpetal 5,552 ,5519 50 50,000
wpetal 2,026 ,2747 50 50,000
Total lsepal 5,843 ,8281 150 150,000
wsepal 3,057 ,4359 150 150,000
lpetal 3,758 1,7653 150 150,000
wpetal 1,199 ,7622 150 150,000

En primer lugar nos planteamos si las medias de estas variables para cada uno de los grupos
son significativamente distintas. Para ello realizamos un análisis de la varianza, considerando
cada una de las variables independientes como la variable a explicar y como variable
explicativa la variable dependiente (el grupo al que pertenece la observación).

Pruebas de igualdad de las medias de los grupos


Lambda de Wilks F gl1 gl2 Sig.
lsepal ,381 119,265 2 147 ,000
wsepal ,599 49,160 2 147 ,000
lpetal ,059 1180,161 2 147 ,000
wpetal ,071 960,007 2 147 ,000

17
Análisis Multivariante

La tabla ANOVA con estadísticos F permite contrastar la hipótesis de la igualdad de medias


entre los grupos en cada variable independiente. La tabla ANOVA incluye también el
estadístico lambda de Wilks univariante además del test F ya conocido. En ambos casos se
plantea en el contraste de hipótesis la igualdad de medias en la hipótesis nula.

La información de esta tabla suele utilizarse como prueba preliminar para detectar si los
grupos difieren en las variables de clasificación seleccionadas; sin embargo, debe tenerse en
cuenta que una variable no significativa a nivel univariante podría aportar información
discriminativa a nivel multivariante.

En este ejemplo, como la significación es pequeña se rechaza Ho y podemos concluir que hay
diferencias significativas entre las medias de los grupos para cada una de las variables.

Resultados de la prueba

M de Box 146,663
F Aprox. 7,045
gl1 20
gl2 77566,751
Sig. ,000
Contrasta la hipótesis nula de que las matrices de covarianzas poblacionales son iguales.

El resultado de la prueba M de Box permite rechazar la hipótesis de igualdad de matrices de


varianzas-covarianzas y como en este caso la significatividad es menor que 0,05, se concluye
que los grupos considerados no poseen la misma variabilidad. Como ya se dijo en las primeras
clases, el análisis discriminante es robusto frente a la violación de supuestos.

3. SELECCIÓN DE VARIABLES DISCRIMINANTES (estadístico por


pasos)

Variables introducidas/excluidasa,b,c,d

Lambda de Wilks
F exacta
Paso Introducidas Estadístico gl1 gl2 gl3 Estadístico gl1 gl2 Sig.
1 lpetal ,059 1 2 147,000 1180,161 2 147,000 ,000
2 wsepal ,037 2 2 147,000 307,105 4 292,000 ,000
3 wpetal ,025 3 2 147,000 257,503 6 290,000 ,000
4 lsepal ,023 4 2 147,000 199,145 8 288,000 ,000
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
a. El número máximo de pasos es 8.
b. La F parcial mínima para entrar es 3.84.
c. La F parcial máxima para salir es 2.71
d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.

Puede observarse que el valor del estadístico lambda de Wilks va disminuyendo en cada paso,
lo cual significa que conforme se van incorporando variables al modelo, los grupos van estando
cada vez menos solapados. Los valores de la Lambda de Wilks son valores próximos a cero
(0,059, 0,037, 0,025, 0,023) por lo que los grupos están claramente separados.
En la columna F exacta se encuentra el valor transformado de la lamda de Wilks y su
significación.

18
Análisis Multivariante

Variables en el análisis

Lambda
Paso Tolerancia F para salir de Wilks
1 lpetal 1,000 1180,161
2 lpetal ,857 1112,954 ,599
wsepal ,857 43,035 ,059
3 lpetal ,736 38,724 ,038
wsepal ,749 54,577 ,044
wpetal ,669 34,569 ,037
4 lpetal ,365 35,590 ,035
wsepal ,609 21,936 ,031
wpetal ,649 24,904 ,032
lsepal ,348 4,721 ,025

Las tablas “Variables en el análisis” y “Variables introducidas/excluidas”, nos muestran que las
variables introducidas para discriminar en el modelo son las cuatro. En la etapa 1 se seleccionó
lpetal, en la etapa 2 wsepal, en la etapa 3 wpetal y finalmente lsepal.

La tabla anterior muestra una división horizontal por cada paso del análisis. En cada paso se
listan las variables incorporadas al modelo hasta ese momento y, para cada variable, el nivel
de tolerancia, el valor del estadístico F para salir (el cual permite valorar si alguna de las
variables incorporadas al modelo debe ser expulsada) y la lamda de Wilks global que se
obtendría en el caso de eliminar del modelo cada una de las variables ya incorporadas.
La información de esta tabla permite valorar el efecto de la expulsión de cada variable
(mediante F y lambda) y el grado de colinealidad entre las variables independientes (mediante
el nivel de tolerancia). Puesto que las variables utilizadas en el ejemplo se encuentran muy
relacionadas entre sí, la tolerancia disminuye sensiblemente en el momento de incorporar una
nueva variable al modelo (recuérdese que la tolerancia es la proporción de varianza de una
variable que no está explicada por el resto de variables independientes). En el paso 0, todas las
variables tienen tolerancia igual a 1 pues todavía no existen variables en el modelo. En el paso
1 permanece ese valor para la primera variable pues, al estar sola, no existen variables que
puedan explicar nada de ella. En el segundo paso, al incorporarse la variable wsepal, la
tolerancia no se reduce mucho y eso significa que no existe una alta correlación entre las
variables (-0,11). Y así sucesivamente.

Variables no incluidas en el análisis

Tolerancia Lambda
Paso Tolerancia mín. F para entrar de Wilks
0 lsepal 1,000 1,000 119,265 ,381
wsepal 1,000 1,000 49,160 ,599
lpetal 1,000 1,000 1180,161 ,059
wpetal 1,000 1,000 960,007 ,071
1 lsepal ,428 ,428 34,323 ,040
wsepal ,857 ,857 43,035 ,037
wpetal ,765 ,765 24,766 ,044
2 lsepal ,358 ,358 12,268 ,032
wpetal ,669 ,669 34,569 ,025
3 lsepal ,348 ,348 4,721 ,023

La tabla “Variables no incluidas en el análisis” muestra detalles sobre las variables candidatas a
ser incluidas en el modelo en cada paso. La tabla muestra las variables no introducidas en cada

19
Análisis Multivariante

caso. Se van introduciendo aquellas que hacen disminuir en mayor grado la lambda de Wilks.
En el paso 0 la variable lpetal es la que tiene una lambda de Wilks más próxima a cero, por
tanto es la primera variable candidata a introducir en el modelo.

Lambda de Wilks

Número de F exacta
Paso variables Lambda gl1 gl2 gl3 Estadístico gl1 gl2 Sig.
1 1 ,059 1 2 147 1180,161 2 147,000 ,000
2 2 ,037 2 2 147 307,105 4 292,000 ,000
3 3 ,025 3 2 147 257,503 6 290,000 ,000
4 4 ,023 4 2 147 199,145 8 288,000 ,000

Los p-valores de la tabla “Lambda de Wilks” y los estadísticos F exacta certifican la


significatividad de las cuatro variables discriminantes, con lo que su capacidad explicativa será
buena. Luego el modelo formado por las cuatro variables es significativo (p-valores nulos)

Comparaciones de grupos por paresa,b,c,d

Paso species Setosa Virgínica Versicolor


1 Setosa F 1056,874 2258,262
Sig. ,000 ,000
Virgínica F 1056,874 225,348
Sig. ,000 ,000
Versicolor F 2258,262 225,348
Sig. ,000 ,000
2 Setosa F 804,511 1473,231
Sig. ,000 ,000
Virgínica F 804,511 116,038
Sig. ,000 ,000
Versicolor F 1473,231 116,038
Sig. ,000 ,000
3 Setosa F 692,015 1381,163
Sig. ,000 ,000
Virgínica F 692,015 133,373
Sig. ,000 ,000
Versicolor F 1381,163 133,373
Sig. ,000 ,000
4 Setosa F 550,189 1098,274
Sig. ,000 ,000
Virgínica F 550,189 105,313
Sig. ,000 ,000
Versicolor F 1098,274 105,313
Sig. ,000 ,000
a. 1, 147 grados de libertad para el paso 1.
b. 2, 146 grados de libertad para el paso 2.
c. 3, 145 grados de libertad para el paso 3.
d. 4, 144 grados de libertad para el paso 4.

La tabla anterior ofrece estadísticos F que permiten contrastar las hipótesis de igualdad de
medias entre grupos por pares.

En este caso, observamos que desde el paso 1 se consigue discriminar entre los tipos de piezas
florales.

20
Análisis Multivariante

4. RESUMEN DE LAS FUNCIONES CANÓNICAS DISCRIMINANTES

Autovalores

Correlación
Función Autovalor % de varianza % acumulado canónica
1 32,192a 99,1 99,1 ,985
2 ,285a ,9 100,0 ,471
a. Se han empleado las 2 primeras funciones discriminantes
canónicas en el análisis.

Número máximo de funciones discriminantes: min(G-1,k). siendo G el número de grupos y k el


número de variables explicativas.

En este caso el número máximo de funciones son min(2,4): 2.

La tabla “Autovalores” muestra los autovalores y algunos estadísticos descriptivos


multivariantes. La función de esta tabla permite comparar de manera global la capacidad
discriminante de cada función. La primera función tiene mayor poder discriminatorio puesto
que explica el 99,1% de las diferencias existentes entre los sujetos de los grupos. Su interés
principal radica en que permite comparar cómo se distribuye la dispersión inter-grupos cuando
existe más de una función.

Además, una correlación canónica alta indica que las variables discriminantes permiten
diferenciar entre los grupos. En este caso, la primera función discriminante tiene una
correlación canónica de 0,985.

Lambda de Wilks

Contraste de Lambda
las funciones de Wilks Chi-cuadrado gl Sig.
1 a la 2 ,023 546,115 8 ,000
2 ,778 36,530 3 ,000

La tabla “Lambda de Wilks” muestra también la prueba de la lambda de Wilks de contraste


para las funciones discriminantes que permite rechazar la hipótesis nula de igualdad entre las
puntuaciones alcanzadas para los grupos por ambas funciones discriminantes y que además
nos dice que podemos considerar apropiado mantener las dos funciones como dimensiones
relevantes para la discriminación entre los grupos, aunque teniendo presente que la mayor
parte de la discriminación total corresponde a la primera de las funciones.

El estadístico lambda de Wilks contrasta de manera jerárquica la significación de las dos


funciones obtenidas. En la primera línea (1 a la 2) se contrasta la hipótesis nula de que el
modelo completo (ambas funciones discriminantes tomadas juntas) no permite distinguir
entre las medias de los grupos. Puesto que el valor de la lambda de Wilks tiene asociado un p-
valor menor que 0,05, puede concluirse que el modelo permite distinguir significativamente
entre los tres grupos. En la segunda línea (2) se contrasta la hipótesis nula de que las medias

21
Análisis Multivariante

de los grupos son iguales en la segunda función discriminante. En este caso la significación
también es menor que 0,05 puede concluirse que la segunda función permite discriminar
entre, al menos, dos de los grupos.

MATRIZ DE ESTRUCTURA

Matriz de estructura

Función
1 2
lpetal ,706(*) ,168
wsepal -,119 ,864(*)
wpetal ,633 ,737(*)
lsepal ,223 ,311(*)
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes
canónicas tipificadas
Variables ordenadas por el tamaño de la correlación con la función.
* Mayor correlación absoluta entre cada variable y cualquier función discriminante.

La matriz de estructura recoge las correlaciones entre las puntuaciones observadas en la


variable y las puntuaciones discriminantes. Un valor próximo a 1 ó -1 indicará que la variable
aporta la misma información que la función. La longitud del sépalo tiene la mayor correlación
con la primera función discriminante y las otras tres variables la tienen con la segunda. Luego
la clasificación de los lirios en los grupos setosa, versicolor y virgínica se basa
fundamentalmente en la longitud de los pétalos.

COEFICIENTES DE LAS FUNCIONES CANÓNICAS DISCRIMINANTES

Coeficientes de las funciones canónicas discriminantes

Función
1 2
lsepal -,829 ,024
wsepal -1,534 2,165
lpetal 2,201 -,932
wpetal 2,810 2,839
(Constante) -2,105 -6,661
Coeficientes no tipificados
Esta tabla nos muestras los coeficientes de las funciones canónicas discriminantes que nos
permiten escribir las ecuaciones como sigue:

ܻଵ = −2,105 + 2,810‫ ݈ܽݐ݁݌ݓ‬+ 2,201݈‫ ݈ܽݐ݁݌‬− 1,534‫ ݈ܽ݌݁ݏݓ‬− 0,829݈‫݈ܽ݌݁ݏ‬

FUNCIONES EN LOS CENTROIDES DE LOS GRUPOS

Funciones en los centroides de los grupos

Función
species 1 2

22
Análisis Multivariante

Setosa -7,608 ,215


Virgínica 1,825 -,728
Versicolor 5,783 ,513
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

Las funciones centroides de los grupos indican que las coordenadas alcanzadas por cada grupo
sobre el eje correspondiente a la primera función determinan una separación entre los tipos
de lirios considerablemente mayor que la registrada a lo largo del segundo eje discriminante.

La primera función distingue fundamentalmente entre las flores setosa y las flores versicolor.

Coeficientes de la función de clasificación

species
Setosa Virgínica Versicolor
lsepal 23,544 15,698 12,446
wsepal 23,588 7,073 3,685
lpetal -16,431 5,211 12,767
wpetal -17,398 6,434 21,079
(Constante) -86,308 -72,853 -104,368
Funciones discriminantes lineales de Fisher

En el diagrama de dispersión aparecen representadas todas las flores apreciándose que las
nubes de puntos que las representan discriminan mejor respecto de la primera función
discriminante.

funciones discriminantes canónicas

10 species
Setosa
Virgínica
Versicolor
Centroide de grupo

5
Función 2

Setosa Versicolor

0 Virgínica

-5

-10

-10 -5 0 5 10
Función 1

5. ESTADÍSTICOS DE CLASIFICACIÓN

23
Análisis Multivariante

Coeficientes de la función de clasificación

species
Setosa Virgínica Versicolor
lsepal 23,544 15,698 12,446
wsepal 23,588 7,073 3,685
lpetal -16,431 5,211 12,767
wpetal -17,398 6,434 21,079
(Constante) -86,308 -72,853 -104,368
Funciones discriminantes lineales de Fisher

Resultados de la clasificación(a)

Grupo de pertenencia pronosticado


species Setosa Virgínica Versicolor Total
Original Recuento Setosa 50 0 0 50
Virgínica 0 48 2 50
Versicolor 0 1 49 50
% Setosa 100,0 ,0 ,0 100,0
Virgínica ,0 96,0 4,0 100,0
Versicolor ,0 2,0 98,0 100,0
a Clasificados correctamente el 98,0% de los casos agrupados originales.

En esta tabla se recoge el porcentaje de flores que han sido bien clasificadas en cada una de las
tres variedades de lirios. Se observa que el índice de clasificación correcto ha sido del 98%

A continuación se presenta el mapa territorial que representa gráficamente los resultados de


clasificación indicando la zona que ocuparán los sujetos clasificados en cada grupo. Un nuevo
sujeto se clasificará en la zona que le corresponda de acuerdo a los valores que para él se
obtengan en las dos funciones discriminantes. Estos dos valores determinarán un punto en el
plano que caerá dentro de una región determinada del mapa.

24
Análisis Multivariante

25
Análisis Multivariante

Ejercicio 3.

Ejercicio 3.

Estadísticos de grupo

N válido (según lista)


No
Sexo ponderados Ponderados
Macho Longitud 24 24,000
Anchura 24 24,000
Peso 24 24,000
Hembra Longitud 24 24,000
Anchura 24 24,000
Peso 24 24,000
Total Longitud 48 48,000
Anchura 48 48,000
Peso 48 48,000

Pruebas de igualdad de las medias de los grupos

Lambda de
Wilks F gl1 gl2 Sig.
Longitud ,686 21,059 1 46 ,000
Anchura ,675 22,104 1 46 ,000
Peso ,541 38,988 1 46 ,000

Resultados de la prueba

M de Box 23,021
F Aprox. 7,313
gl1 3
gl2 380880,00
0
Sig. ,000
Contrasta la hipótesis nula de que las matrices de covarianzas poblacionales son iguales.

Variables introducidas/excluidasa,b,c,d

Lambda de Wilks
F exacta
Paso Introducidas Estadístico gl1 gl2 gl3 Estadístico gl1 gl2 Sig.
1 Peso ,541 1 1 46,000 38,988 1 46,000 ,000
2 Longitud ,418 2 1 46,000 31,344 2 45,000 ,000
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
a. El número máximo de pasos es 6.
b. La F parcial mínima para entrar es 3.84.
c. La F parcial máxima para salir es 2.71
d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.

26
Análisis Multivariante

Variables en el análisis

Lambda
Paso Tolerancia F para salir de Wilks
1 Peso 1,000 38,988
2 Peso ,079 28,871 ,686
Longitud ,079 13,287 ,541

Variables no incluidas en el análisis

Tolerancia Lambda
Paso Tolerancia mín. F para entrar de Wilks
0 Longitud 1,000 1,000 21,059 ,686
Anchura 1,000 1,000 22,104 ,675
Peso 1,000 1,000 38,988 ,541
1 Longitud ,079 ,079 13,287 ,418
Anchura ,097 ,097 8,344 ,457
2 Anchura ,057 ,047 ,403 ,414

Lambda de Wilks

Número de F exacta
Paso variables Lambda gl1 gl2 gl3 Estadístico gl1 gl2 Sig.
1 1 ,541 1 1 46 38,988 1 46,000 ,000
2 2 ,418 2 1 46 31,344 2 45,000 ,000

Autovalores

Correlación
Función Autovalor % de varianza % acumulado canónica
1 1,393(a) 100,0 100,0 ,763
a Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.

Lambda de Wilks

Contraste de Lambda de
las funciones Wilks Chi-cuadrado gl Sig.
1 ,418 39,266 2 ,000

27
Análisis Multivariante

Matriz de estructura

Función
1
Peso ,780
Anchura(
,617
a)
Longitud ,573
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes
canónicas tipificadas
Variables ordenadas por el tamaño de la correlación con la función.
a Esta variable no se emplea en el análisis.

Coeficientes de las funciones canónicas discriminantes

Función
1
Longitud -,130
Peso ,468
(Constante) -5,498
Coeficientes no tipificados

Funciones en los centroides de los grupos

Función
Sexo 1
Macho -1,155
Hembra 1,155
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

Probabilidades previas para los grupos

Casos utilizados en el análisis


No
Sexo Previas Ponderados ponderados
Macho ,500 24 24,000
Hembra ,500 24 24,000
Total 1,000 48 48,000

Coeficientes de la función de clasificación

Sexo
Macho Hembra
Longitud ,247 -,053
Peso ,392 1,474
(Constante) -22,672 -35,377
Funciones discriminantes lineales de Fisher

28
Análisis Multivariante

Función discriminante canónica 1

Sexo = Macho

Desviación típica =0,543

0
-4 -2 0 2 4

Función discriminante canónica 1

Sexo = Hembra

1
Desviación típica =1,306

0
-4 -2 0 2 4

29
Análisis Multivariante

Resultados de la clasificación(a)

Grupo de pertenencia
pronosticado

Sexo Macho Hembra Total


Original Recuento Macho 24 0 24
Hembra 5 19 24
% Macho 100,0 ,0 100,0
Hembra 20,8 79,2 100,0
a Clasificados correctamente el 89,6% de los casos agrupados originales.

Resúmenes de casosa

Puntuaciones Probabilidade Probabilidade


Grupo discriminante s de s de
pronosticado s de la pertenencia al pertenencia al
Número para el función 1 para grupo 0 para grupo 1 para
de caso análisis 1 el análisis 1 el análisis 1 el análisis 1
1 1 Macho -,26004 ,64587 ,35413
2 2 Macho -1,32645 ,95544 ,04456
3 3 Macho -1,58637 ,97506 ,02494
4 4 Macho -,36329 ,69836 ,30164
5 5 Macho -,96148 ,90220 ,09780
6 6 Macho -1,55966 ,97351 ,02649
7 7 Macho -,75318 ,85075 ,14925
8 8 Macho -1,01310 ,91223 ,08777
9 9 Macho -1,61128 ,97642 ,02358
10 10 Macho -1,32465 ,95526 ,04474
11 11 Macho -1,45461 ,96648 ,03352
12 12 Macho -1,58457 ,97496 ,02504
13 13 Macho -,04994 ,52882 ,47118
14 14 Macho -1,50623 ,97013 ,02987
15 15 Macho -1,50623 ,97013 ,02987
Total N 15 15 15 15
a. Limitado a los primeros 15 casos.

30

También podría gustarte