Técnicas Multivariadas I Actividad 4

Técnicas Multivariadas I
EVALUACIÓN ACTIVIDAD 4
ANÁLISIS DISCRIMINANTE
Claudio Alvarado | Técnicas multivariadas I | 18/12/2019

Enunciado:
Resuelva el ejercicio 11.24 en la página 656 del libro de Johnson y Wichern,
“Multi_Richard A.pdf”. Redacte un informe con el planteo y los resultados.
Comente exhaustivamente todas sus conclusiones.
Para realizar la actividad se utilizo la base de datos correspondiente a la tabla 11.4

sobre Bankruptcy Data (datos de quiebra).
Variables:
x1: CF/TD (Flujo de caja/total efectivo)
X2: NI/TA (Ingreso neto/activos totales)
X3: CA/CL (Activos corrientes/pasivos corrientes)
X4: CA/NS (Activos Corrientes/Ventas netas)
Population, i=1,2.
a) Utilizando un símbolo diferente para cada grupo, trace los datos para los pares de
observaciones (x1,x2),(x1,x3) y (x1,x4). ¿Al parecer los datos son aproximadamente
bivariados normales para cualquiera de estos pares de variables?
Test normalidad:
𝐻0 : 𝐿𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑝𝑟𝑜𝑣𝑖𝑒𝑛𝑒 𝑑𝑒 𝑢𝑛𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑐𝑜𝑛 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙 𝑚𝑢𝑙𝑡𝑖𝑣𝑎𝑟𝑖𝑎𝑑𝑎

𝐻1 : 𝐿𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑛𝑜 𝑝𝑟𝑜𝑣𝑖𝑒𝑛𝑒 𝑑𝑒 𝑢𝑛𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑐𝑜𝑛 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙 𝑚𝑢𝑙𝑡𝑖𝑣𝑎𝑟𝑖𝑎𝑑𝑎
Test--royston
Test H P-value MVN
Royston 84.28076 1.247739e-16 NO
En el test el valor p es pequeño, por lo tanto, existe evidencia significativa para rechazar la
hipótesis nula. La muestra no proviene de una población con distribución normal
multivariada.
-0.8 -0.6 -0.4 -0.2 0.0 1 2 3 4 5

0.6
-0.2 0.0 0.2 0.4 0.6
0.4
0.2
x1
-0.2 0.0
x1
-0.6
-0.6
5
0.0
4
-0.8 -0.6 -0.4 -0.2
x3
x2
2
1
-0.6 -0.2 0.0 0.2 0.4 0.6

-0.6 -0.2 0.0 0.2 0.4 0.6
0.2 0.4 0.6 0.8
0.6
0.4
0.2
x1
-0.2 0.0
-0.6
0.8
0.6
x4
0.4
0.2
-0.6 -0.2 0.0 0.2 0.4 0.6
Se puede apreciar que para los pares de
variables (x1,x2) y (x1,x3) están separados de forma marcada, no asi los pares de variables (x 1,x4).
b) Usando los pares de observación n1 = 21 (x1, x2) para empresas en quiebra y los pares de
observaciones n2 = 25 (x1, x2) para empresas no en bancarrota, calcule los vectores de muestra
promedio x1 y x2 y las matrices de covarianza de muestra s1 y s2.
Sol:
Promedio y Covarianzas de las Empresas en quiebra
Variables para realizar el análisis:
x1: CF/TD (Flujo de caja/total efectivo).
x2: NI/TA (Ingreso neto/activos totales).
Vector de medias
1: -0.06809524 2: -0.1885714.
Covarianza
x1 x2
x1 0.04406619 0.03209214
x2 0.03209214 0.09507286
Promedio y Covarianzas de las Empresas que no están en quiebra

Variables para realizar el análisis:
x1: CF/TD (Flujo de caja/total efectivo).
x2: NI/TA (Ingreso neto/activos totales).
Vector de medias
1: 0.2153846 2: 0.04307692
Covarianza
x1 x2
x1 0.047051000 0.008507167
x2 0.008507167 0.002375667
C) Utilizando los resultados en b y suponiendo que ambas muestras aleatorias son de
poblaciones normales bivariadas, construya la regla de clasificación (11-29) con p1 = p2 y
c (1 | 2) = c (2 | 1).
Clasificación
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[36] 2 2 2 2 2 2 2 2 2 2 2
Datos a utilizar para generar el gráfico:

Termino constante: 0.1327302
Inversa de matriz covarianza/ medias de las variables x1 y x2
x1 -4.698152
x2 -2.931571
0.0
-0.2
X2: NI/TA
-0.4
-0.6
-0.8
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6
x1: CF/TD
d) Evalúe el rendimiento de la regla de clasificación desarrollada en c) calculando la tasa
de error aparente (APER) de (11-34) y la tasa de error real esperada E (AER) de (11-36).
e) Repita las partes c y d, suponiendo que p1 = 0.05, p2 = 0.95 y c (1 | 2) = c (2 | 1).
¿Es razonable esta elección de probabilidades anteriores? Explique.

f) Usando los resultados en (b), forme la matriz de covarianza S agrupada y construya la
función discriminante lineal de la muestra de Fisher en (11-19). Use esta función para
clasificar las observaciones de la muestra y evaluar el APER. ¿Es la función discriminante
lineal de Fisher una opción sensata para un clasificador en este caso?
Solución:
La Covarianza combinada en b) es:
x1 x2
x1 0.04776511 0.02015032
x2 0.02015032 0.04672549
aplicando la formula de (11-19) queda resultado y el siguiente código:
Su<-(21*S1+25*S2)/(21+25-2) # 2x2
Su
Su.inv<-solve(Su)
ta<-t(x1-x2)
ta
a<-(ta)%*%Su.inv
[,1]
- 4.698152 x1 - 2.931571 x2
-
Las predicciones y clasificación de la variable x1 y x2 resultaron:
Clase predicha
Clase real 1 2
1 11 10
2 3 22
e) Repita las partes b-e usando los pares de observación (x1, x3) y (x1, x4). ¿Algunas
variables parecen ser mejores clasificadores que otras? Explique

Técnicas Multivariadas I Actividad 4

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Técnicas Multivariadas I Actividad 4

Cargado por

Copyright:

Formatos disponibles

Técnicas Multivariadas I

Claudio Alvarado | Técnicas multivariadas I | 18/12/2019

Para realizar la actividad se utilizo la base de datos correspondiente a la tabla 11.4

observaciones (x1,x2),(x1,x3) y (x1,x4). ¿Al parecer los datos son aproximadamente

bivariados normales para cualquiera de estos pares de variables?

𝐻0 : 𝐿𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑝𝑟𝑜𝑣𝑖𝑒𝑛𝑒 𝑑𝑒 𝑢𝑛𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑐𝑜𝑛 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙 𝑚𝑢𝑙𝑡𝑖𝑣𝑎𝑟𝑖𝑎𝑑𝑎

Test H P-value MVN

Royston 84.28076 1.247739e-16 NO

-0.8 -0.6 -0.4 -0.2 0.0 1 2 3 4 5

-0.6 -0.2 0.0 0.2 0.4 0.6

-0.6 -0.2 0.0 0.2 0.4 0.6

Se puede apreciar que para los pares de

promedio x1 y x2 y las matrices de covarianza de muestra s1 y s2.

Promedio y Covarianzas de las Empresas que no están en quiebra

Datos a utilizar para generar el gráfico:

-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6

e) Repita las partes c y d, suponiendo que p1 = 0.05, p2 = 0.95 y c (1 | 2) = c (2 | 1).

¿Es razonable esta elección de probabilidades anteriores? Explique.

clasificar las observaciones de la muestra y evaluar el APER. ¿Es la función discriminante

lineal de Fisher una opción sensata para un clasificador en este caso?

La Covarianza combinada en b) es:

aplicando la formula de (11-19) queda resultado y el siguiente código:

También podría gustarte