Está en la página 1de 6

EXAMEN T. E.

MULTIVARIANTES I DISCRIMINANTE
ALUMNO:

1. Consideremos el Análisis Discriminante realizado utilizando dos variables X 1 y X2, a partir


de una muestra en la que el número de observaciones en cada grupo es: n1=26 y n2= 76.
Las matrices que contienen la suma de cuadrados dentro de los grupos son:

Los centroides de cada grupo son:

a) Una nueva observación: x0= ser extrae aleatoriamente de la población. ¿a qué


grupo la asignarías? Formula las hipótesis que creas necesitar.
b) Calcular la probabilidad de acertar a que grupo pertenece sin realizar el análisis
discriminante.
2. En la siguiente salida se han clasificado a los turistas según los destinos preferidos:

Resultados de clasificacióna,c

Pertenencia a grupos pronosticada

Comunidad Galicia Madrid Andalucía Canarias Total

Original Recuento Galicia 17 0 0 4 21

Madrid 1 20 0 0 21

Andalucía 1 2 6 0 9

Canarias 4 1 0 7 12

a) Probabilidad de clasificar bien a un turista que prefiere Andalucía.


Diagonal de Andalucía / la marginal de Andalucía
6/9

b) Probabilidad de clasificar bien a un turista cualquiera.

La suma de la columna/N * la diagonal/la suma de la columna


P(g)*P(g/g) =23/63 * 17/23 + 23/63*20/23 + 6/63*6/6 + 11/63*7/11

c) ¿Se puede considerar que las funciones discriminantes clasifican bien? ¿En qué
comunidad clasifica mejor?

17+20+6+7=los que están bien clasificados


17+20+6+7/63=50/63=79.36%, al ser mayor que 70% clasifica bien
20/21 que es Madrid es el que mejor está clasificado
3. Con el fichero de “atletas” realizar un análisis discriminante.
a) Realiza un diagrama de dispersión con las dos variables que individualmente
mejor discriminan. A la vista de este gráfico ¿crees que pueden existir
funciones que nos ayuden a clasificar a los atletas?

Con el proc stepdisc veremos las variables que mejor discriminan.

PROC STEPDISC DATA=ATLETAS METHOD=STEPWISE SLE=0.05 SLS=0.10;


VAR ALTURA--ESTRES;
CLASS SPORT;
RUN;

Diagrama de dispersión:

/*DIAGRAMA DE DISPERSIÓN*/
PROC SGPLOT DATA=ATLETAS;
SCATTER X=DESCANSO Y=ENTREN2 / GROUP=SPORT;
run;
b) Realiza un discriminante por pasos y quédate con las cuatro variables que
mejor discriminen.
Lo vemos en el proc stepdisc de antes

Las cuatro variables que mejor discriminan son Descanso, Estrés, Altura y
Peso, que han sido seleccionadas en los 4 primeros pasos, según el Lambda
de Wilks.

Se puede hacer con el R^2 parcial o con la Lambda de Wilks, tú eliges.


En el primer caso no entraría peso y entraría entrenamiento y en el segundo
caso serían las cuatro primeras. 

c) ¿Qué variable discrimina más en la función1? ¿y en la función3? ¿todas las


funciones discriminan igual?

/*FUNCIONES DISCRIMINANTES CANÓNICAS*/


PROC CANDISC DATA=ATLETAS DISTANTE ANOVA;
VAR DESCANSO ESTRES ALTURA PESO;
CLASS SPORT;
RUN;

La variable que más discrimina en la funcion1 es Descanso (nos fijamos en la


primera columna y vemos que el numero mas grande esta en descanso). Y la
variable que más discrimina en la función3 es Estrés.

No discriminan igual ya que sus landas son distintas, si fueran iguales o


parecidas discriminarían igual. Uno discrimina un 71.15% y el otro un 60.67%

d) A la vista de los centroides, ¿qué características tienen los futbolistas que les
hace diferentes de los jugadores de baloncesto?
Del proc candisc de antes:
En el apartado anterior vimos que la variable que más discriminaba en la
funcion1 era descanso, y en la función 3 era estrés. En la función 2 la variable
que más discrimina es altura. Por tanto, can1 es descanso, can2 es altura y
can3 es estrés.

Voleibol= tienen menos descanso son más altos y tienen menos estrés
Baloncesto= tienen menos descanso, son menos altos y tienen más estrés
Los futbolistas tienen más descanso, son más altos y tienen menos estrés que
los de baloncesto.

e) A priori, ¿probabilidad de clasificar bien a un atleta? ¿y a posterior con las


funciones discriminantes?
No se si hay que coger la tabla del CROSS-VALIDATION O LA
RESUBSTITUTION O CLASSIFICATION SUMMARY USING QUADRATIC-
FUNCTIONS
SE COGE SOLO EL CROSS VALIDATION, TE SALEN LAS DOS
PREGUNTAS AHI

/*ANÁLISIS DISCRIMINANTE CON 4 VARIABLES*/


PROC DISCRIM DATA=ATLETAS
TESTDATA=ATLETAS OUT=SOL_ACTIVO TESTOUT=SOL_TEST OUTSTAT=ESTADISTICOS
POOL=TEST TESTLISTERR POSTERR DISTANCE CROSSVALIDATE CROSSLISTERR
CROSSLIST;
PRIORS PROPORTIONAL;
VAR DESCANSO ESTRES ALTURA PESO;
CLASS SPORT;
RUN;
En verde: probabilidades a priori
En amarillo: probabilidades a posteriori
Probabilidad de clasificar bien a un jugador de voleibol: 0.19
Probabilidad a posteriori de clasificar bien a un jugador de voleibol: 0.8702

También podría gustarte