Está en la página 1de 71

UNIVERSIDAD CATÓLICA BOLIVIANA “SAN PABLO”

UNIDAD ACADÉMICA REGIONAL COCHABAMBA


Departamento de Administración, Economía y Finanzas
Administración de Empresas

PRÁCTICA 2: ANALISIS CLUSTER Y DISCRIMINANTES

Probabilidad y Estadística III

Mariel Ríos Pinell


Isabella Claure Rojas

Cochabamba - Bolivia
Mayo 2020
1. (Investigación de Mercados). Se desea saber la actitud de los consumidores cuando salen
de compras, seleccionando una muestra al azar para responder a un cuestionario. De acuerdo
a la investigación previa se seleccionan seis variables de actitud, solicitando a los
entrevistados que expresas en su grado de acuerdo con las afirmaciones expuestas, se utiliza
una escala de siete puntos. Los datos obtenidos en la muestra:
V1: Salir de compras es divertido
V2: Salir de compras afecta al presupuesto
V3: Combinar salir de compras con comida fuera de casa
V4: Salir de compras, para hacer las mejores compras
V5: No me importa salir de compras
V6: Se puede ahorrar mucho dinero si se comparan precios
a) Realizar previamente un análisis exploratorio de los datos (Descriptivos y Box plots).

Podemos decir que el promedio de calificación a la variable V1 (Salir de compras es


divertido) con un mínimo de 1 y un máximo de 7, es de 3.85/7, es decir que la gente en
promedio considera esta variable como indiferente, ni muy aburrida ni muy divertida.
La variable V2 ( Salir de compras afecta al presupuesto) tiene un promedio de calificación de
4.10 en una escala de mínimo 2 y máximo 7 , esto significa que a un poco más de la mitad de
los encuestados concuerdan que salir de compras si afecta al presupuesto.
La variable V3 (combinar salir de compras con comida fuera de casa) con un mínimo de 1 y
un máximo de 7, tiene un promedio de 3.95/7, es decir que la gente en promedio considera
que combinar salir de compras y comer comida fuera de casa les resulta indiferente pero tiene
una tendencia a subir.
La variable V4 (salir de compras para hacer las mejores compras) tiene un promedio de
calificación de 3,45/7 en una escala de 1 mínimo y 7 máximo , eso significa que la mitad de
la gente piensa que salir de compras es para hacer las mejores compras y mitad no está de
acuerdo.
La variable V5 (no me importa salir de compras) con un mínimo de 1 y un máximo de 7,
tiene un promedio de 3.45/7, es decir que a la gente en promedio no le importa salir de
compras.
La variable V6 (se puede ahorrar mucho dinero si se comparan precios ) tiene un promedio de
calificación de 4.35/7 en una escala de 1 mínimo y 7 máximo , eso significa que la más
mitad de la gente piensa que se puede ahorrar mucho dinero si se comparan los precios.

b) Agrupar consumidores homogéneos frente a su actitud hacia las compras y...


Usando el método de Ward podemos observar los siguientes datos en este historial de
Conglomeración:

-Se puede observar que las primeros consumidores son el 14(N) y 16(P), son los primeros que
se reúnen en este historial por ser los más similares con una distancia de (1.00).
Posteriormente los consumidores que se unen son el 6(F) y 7(G) , son los segundos en
reunirse en este historial , con una distancia de ( 2.00). Esto significa que son los más
homogéneos frente a su actitud hacia las compras.

c) Cuántos clusters se llegan a formar óptimamente? (Incluye el Dendograma para justificar


tu respuesta)

Óptimamente se llegan a formar 3 clusters :


Cluster 1: A , C , F , G ,H , L ,O y Q.
Cluster 2: B , E, I , K , M y T.
Cluster 3: D , J , N , P , R y S.
Según el Dendograma hay 3 grupos con una distancia de 13 al momento de cortar .

En cada grupo se analizan los mismos consumidores que sacamos en el análisis de


pertenencia del Clúster :

- Conglomerado 1: Aquí se encuentran los consumidores A , C , F , G ,H , L ,O y Q

- Conglomerado 2 : Aquí se encuentran los consumidores B , E, I , K , M y T

- ‘ Conglomerado 3 : Aquí se encuentran los consumidores D , J , N , P , R y S.


d) Interpreta los grupos obtenidos en función de las variables originales.

Según esta matriz de correlaciones , podemos observar que las variables más
correlacionadas son V1 y V3 (r=0.838) , por otro lado las variables V2 y V3 ( r= -0.54) están
inversamente proporcional.
En la matriz de varianzas podemos
determinar que con 2 componentes
rescatamos ell 80.23% de varianza
total acomulada .
Componente 1: Está representado
por las variables V1 y V3.
Componente 2: Está representado
por V2 , V4 y V6.
En este cuadro existen 4 cuadrantes:

Cuadrante 1: En este cuadrante se encuentran los consumidores que se relacionan


principalmente con las variables V1 y V6 , pero también con las variables V2 y V3. Este es el
mejor cuadrante.

Cuadrante 2: En el segundo cuadrante se podría decir que se encuentran las variables V2 , V4


y un poco de influencia de la variable V5.

Cuadrante 3 : En el tercer cuadrante se encuentra la variable V5.

Cuadrante 4 : En este cuadrante se encuentran la variable V3 con una alta influencia de la


variable V1.

En la grafica podemos concluir que los consumidores que se encuentran en el cuadrante 1, los
cuales son D y S son aquellos consumidores que consideran que salir de compras es divertido
y que se puede ahorrar mucho dinero si se comparan precios. Pero también consideran que
salir de compras afecta al presupuesto y combinan salir de compras con comida fuera de casa.
Podemos decir que en este cuadrante están los consumidores que realizan sus compras
conscientemente y según su necesidad.
Los consumidores que se encuentran en el cuadrante 2 N , P , J y R son los que salen de
compras , para hacer las mejores compras, piensan también que salir de compras afecta al
presupuesto y tienen una influencia al momento de comparar los precios de las tiendas.

Por otro lado los consumidores que se encuentran en el cuadrante 3, B, M, I, K, E y T son


todos aquellos que no les interesa salir de compras.

Por último en el cuadrante 4 se encuentran los consumidores H , C , A , Q, F , G , O y L son


los consumidores que combinan salir de compras con comida fuera de casa. Pero también
consideran que salir de compras es divertidos.

2. Se desea determinar los segmentos de mercado de un determinado producto en una ciudad


pequeña basándose únicamente en la lealtad a las marcas y la lealtad a las tiendas. Para ello
se selecciona una muestra de 10 encuestados sobre los que se miden las dos variables lealtad
a la tienda (tienda) y lealtad a la marca (marca) en una escala de 0 a 10. Los datos se
muestran en la siguiente tabla :

a) Realizar un diagrama de dispersión y estudiar los grupos más homogéneos


Cuadrante 1: En este cuadrante no existen variables, pero si tiene influencia de las variables
lealtad marca y tienda.
Cuadrante 2: En este cuadrante se encuentra la variable lealtad a hacia la marca pero no a la
tienda.
Cuadrante 3: Este cuadrante es el peor , ya que no tiene lealtad a la tienda ni lealtad a la
marca.
Cuadrante 4: En este cuadrante se encuentra la lealtad a la tienda pero no a la marca.

En la grafica podemos concluir que la persona que se encuentran en el cuadrante 1, la cual es


E es aquella que no tiene una lealtad extrema a la marca pero tampoco a la tienda. POdemos
decir que es un intermedio entre ambas.

Los consumidores que se encuentran en el cuadrante 2 B, D, J e I son los que tienen lealtad a
la marca pero no a la tienda.

Por otro lado las personas que se encuentran en el cuadrante 3,C y A son todas aquellas que
no tienen ni lealtad a la marca , ni a la tienda. Son completamente indiferentes.

Por último en el cuadrante 4 se encuentran las personas F , G y H son las personas que
tienen una fuerte lealtad a la tienda pero no tienen lealtad a la marca.
b) Realizar un análisis de conglomerados.

En esta tabla de distancias podemos observar que las personas J y E son las primeras en
unirse con una distancia de 1.000 , esto significa que J y E son los que tienen mayor
similitud, posteriormente J y D , J e I , G y H , B y D , C e I , con una distancia de 2.000.
Las personas mas diferentes son A y B con una distancia de 58.000.
Óptimamente se llegan a formar 3 clusters :
Cluster 1: A , C, I.
Cluster 2: B , D, E, J
Cluster 3: F, G y H

3. El archivo de datos jóvenes.sav contiene información sobre 14 jóvenes respecto a su edad,


estudios, hábitos de lectura, fútbol, cine, teatro, concierto, tv, ámbito familiar… Se desea
clasificar a los 14 jóvenes encuestados por el número de veces que van anualmente al fútbol
(fútbol), la paga semanal que reciben (paga) y el número de horas semanales que ven la
televisión (tv) Se pide:
El archivo de datos jóvenes.sav contiene 14 datos y está formado por las siguientes variables:
Variables tipo cadena:
id (Identificación personal).
Variables tipo numérico:
centro (Tipo de centro de estudios {1, público}…),
estudios (Estudios que cursa {1, EGB}…);
estupadr (Estudios del padre {1, Sin estudios}…);
estumadr (Estudios de la madre {1, Sin estudios}..);
paga (Paga semanal en ptas/100);
numher (Nº hermanos incluido sujeto);
edad ;
califest (Calificación media en estudios);
lect ( Libros leídos anualmente);
cine (Asistencia anual al cine);
fútbol (Asistencia anual al futbol);
conciert (Asistencia anual conciertos);
tv (Horas semanales tv);
sexo ({1, hombre}…);
hábitat ({1, rural}…);
lectp (Segunda tasa de lectura);
univ (¿Deseas acceder a la universidad? {1, sí}…);
gustcine (Te gusta ir al cine… {1, solo}…);
tipocine (Tipo de película que te gusta {1, amor}…);
violen (Nivel de rechazo a la violencia {1, activo}…);
impdin (Importancia das al dinero {1, muy poca}..);
impest (Importancia de estudios {1, muy poca}…);
ingr (Ingresos mensuales {1, <100}…);
físico (Importancia al físico {1, muy poca}…);
depor (interés deporte {1,muy poca}…)

a) Realizar un diagrama de dispersión 3-D para mostrar la distribución de los datos y estudiar
los posibles grupos que se pueden hacer

En este gráfico podemos ver una formación de 3 grupos :


Grupo 1:14 , 10 , 9 , 3 y 1 .
Grupo 2:8 , 7 , 6 , 5 y 4.
Grupo 3: 13 , 12 ,11 y 2 .

b) Utilizar un análisis clúster jerárquico. (Etiquetar los casos mediante Identificación


personal, id )
Para el primer análisis de cluster jerárquico utilizamos el método : Vecino más lejano ( c )
c) Método: Vecino más lejano; Medida: Intervalo- Distancia Euclídea al cuadrado;
Transformar valores: Estandarizar las variables (puntuaciones Z)
d) Obtener el Historial de conglomeración, Matriz de distancia, Dendograma: Todos los
conglomerados
e) Analizar las tablas obtenidas y sacar conclusiones
Utilizando el metodo de Vecino mas cercano , podemos observar que los primeros en unirse
son el 9 ( C ) y 10 ( I ) porque son los mas similares, como tambien 7( B ) y 8 ( H ) que
tienen distancia 000 , eso signfica que estan completamente juntos , en el mismo punto ,
respecto a las caracteristicas obtienen los mismos valores.
Los individuos 5( K ) y 6( E ) tienen una distancia de 0.104 , que son los segundos en unirse.
Óptimamente utilizaremos 3 clusters :
Cluster 1: F , L y A.
Cluster 2:M , K , E, B y H .
Cluster 3: C, I, N , J , G y D.

Según el Dendograma hay 3 grupos con una distancia de 12 al momento de cortar .


En cada grupo se analizan los mismos consumidores que sacamos en el análisis de
pertenencia del Clúster :

- Conglomerado 1: Aquí se encuentran las personas :F , L y A.

- Conglomerado 2 : Aquí se encuentran las personas :M , K , E, B y H .

- Conglomerado 3 : Aquí se encuentran las personas :C, I, N , J , G y D

f) Guardar un rango de soluciones de 3 o 4 clusters ( MÉTODO VECINO MÁS LEJANO)


Usando 3 clusters:
C1: F , L A.
C2: M , K , E , B , H .
C3: C , I , N ,J ,G, D.

Usando 4 clusters:
C1:F , L , A .
C2: M , K , E , B , H .
C3:C, I , D .
C4: N , J , D .

g) Repetir el proceso anterior con el Método de Ward

Utilizando el método de Ward, podemos observar que los primeros en unirse son el 9 ( C ) y
10 ( I ) porque son los mas similares, como también 7( B ) y 8 ( H ) que tienen distancia
000 , eso significa que están completamente juntos , en el mismo punto , respecto a las
características obtienen los mismos valores.
Los individuos 12( J ) y 13( G ) tienen una distancia de 0.052 , que son los segundos en
unirse.
Observacion : A diferencia del metodo de Vecino mas Lejano , en este metodo de Ward los
segundos indiviuos en unirse son diferentes.

Optimamente utilizaremos 3 clusters :


Cluster 1: F , L y A.
Cluster 2:M , K , E, B y H .
Cluster 3: C, I, N , J , G y D.

Observación :Es la misma agrupación que en el método de Vecino más lejano.


Según el Dendograma hay 3 grupos con una distancia de 15 al momento de cortar .

En cada grupo se analizan los mismos consumidores que sacamos en el análisis de


pertenencia del Clúster :

- Conglomerado 1 : Aquí se encuentran las personas :C, I, N , J , G y D

- Conglomerado 2: Aquí se encuentran las personas :F , L y A.

- Conglomerado 3 : Aquí se encuentran las personas :M , K , E, B y H .

Observación : Podemos ver que a diferencia del método de Vecino más lejano , en el método
de Ward tenemos que hacer el corte en una distancia de 14 o más para tener 3
conglomerados.

h) Guardar un rango de soluciones de 3 o 4 clusters ( MÉTODO WARD)


Usando 3 clusters:
C1: F , L A.
C2: M , K , E , B , H .
C3: C , I , N ,J ,G, D.

Usando 4 clusters:
C1:F , L , A .
C2: M , K , E , B , H .
C3:C, I , D .
C4: N , J , D .

i) Obtener conclusiones ¿Nº de clúster?


En conclusión con los dos métodos se obtienen 3 clusters.
Cuadrante 1: En este cuadrante están las personas que tienen una alta paga semanal en
ptas/100 y también un gran consumo de horas semanales de TV.
Cuadrante 2: En este cuadrante se encuentran las personas que tienen un alto consumo de
horas semanales de TV y una cantidad cantidad reducida de asistencia anual al fútbol.
Cuadrante 3: Este cuadrante están las personas que tienen alta cantidad de asistencia anual al
fútbol y no tiene consumo de horas semanales de TV ni una paga semanal.
Cuadrante 4: En este cuadrante se encuentran las personas con alta paga semanal.
Las personas B , H , N , G ,J , M ,K y E se encuentran en el cuadrante 1 eso significa que
tienen una alta paga semanal en ptas/100 y también un gran consumo de horas semanales de
TV.
Las personas F , A , I , C ,D , L se encuentran en el cuadrante 3 eso significa que tienen un
alto consumo de horas semanales de TV y una cantidad cantidad reducida de asistencia anual
al fútbol.
4. Se considera en la siguiente tabla la esperanza de los años de vida clasificados por país,
edad y género: Archivo SPSS: Esperanza-Pais.sav
M0 - M75 = Esperanza de vida para varones.
W0 - W75 = Esperanza de vida para mujeres.

a) Se pide realizar un análisis de clúster más su interpretación.


En esta tabla de conglomerados podemos observar que los países 24 ( United S.) y 27 (United
S.) , con una distancia de 000 , esto significa que se encuentran en el mismo punto y tienen
las mismas características.
Los segundo países en unirse son 11 (Costa Rica ) y 21 ( Panamá) con una distancia de 1.00
Los países 1( Algeria) y 2( Cameroon ) son los paises mas diferentes con una distancia de
7012,516 , esto significa que es casi imposible que se unan.
Óptimamente utilizaremos 3 clusters :
Cluster 1: Se encuentran los países: 1 , 8 ,9, 10,
11, 12 , 13, 20, 21, 22 , 24, 26, 27 , 28 y 31.
Cluster 2: Se encuentran los países: 2 y 3
Cluster 3: Se encuentran los países; 4, 5, 6, 7,
14, 15, 16, 17, 18, 19, 23, 25, 29 y 30.
Según el Dendograma hay 3 grupos con una distancia de 5 al momento de cortar .

En cada grupo se analizan los mismos consumidores que sacamos en el análisis de


pertenencia del Clúster :

- Conglomerado 1 : Aquí se encuentran los países: USA , USA , Canadá , USA ,


Sudáfrica , Argentina , Costa Rica , Panamá , Dominicana , Nicaragua , Algeria , El
Salvador , Ecuador , Tunisia y Trinidad. Estos son los que mas esperanza de vida tienen.
- Conglomerado 2: Aquí se encuentran los países: Sudáfrica , Guatemala , Trinidad ,
USA , Grenada , Jamaica , Chile , Seychell, México , Colombia , Mauritiu , Greenland ,
Honduras ,y Reunión .

- Conglomerado 3 : Aquí se encuentran los países Cameroon y Madagascar, estos son los
países que tienen menor esperanza de vida.

b) Incluir los resultados y gráficos más importantes del análisis


BoxPlot de esperanza de Vida en Hombres:

Podemos observar que Trinidad es el más diferente de todos en la edad de 25 años , tienen
una esperanza de vida elevada. Trinidad es un caso atípico donde los hombres están muy por
encima del promedio, pero a los 25 años solamente, los hombres se encuentran muy
saludables.
Ecuador , Algeria, Nicaragua y Dominicana tambien estan por encima del promedio a los 50
años , son otro caso atípico.
También destacan Madagascar y Cameroon , los hombres tienen una esperanza de vida baja ,
está por debajo de la media y mediana . Su esperanza de vida a los 0 - 25 y 50 años es muy
pobre , podemos ver que no llegan a los 75 años.
Nicaragua y Alergia es donde los hombres tienen más esperanza de vida.
Boxplot de mujeres:

Claramente podemos observar


En Madagascar y Cameroon las mujeres tienen menos esperanza de vida, muy por debajo del
promedio, a los 0 - 25 y 50 años , no llegan a los 75 años. Al igual que los hombres de estos
países.
También podemos destacar que las mujeres que viven en el país de Turisia , tienen la mayor
esperanza de vida a los 75 años , superando el promedio.

Boxplot de hombres y mujeres por edades:


Podemos observar que en el Boxplot de hombres y mujeres , la esperanza de vida países
Madagascar y Cameroon es muy por debajo del promedio , no llegan a los 75 años. También
podemos ver que la esperanza de vida de las mujeres( 80 ) es mayor que la de hombres (60).

c) Realizar ACP

En esta matriz de correlaciones podemos observar que la correlación más alta de esperanza de
vida es en mujeres y hombres de 0 años. (r=0.980) como tambien existe una alta correlación
entre una esperanza de vida de mujeres de 25 años y una esperanza de vida de hombres de 0
años(r=0.874) , esto significa que en promedio una mujer tiene más esperanza de vida que un
hombre.

En la matriz de varianzas podemos determinar que con 2


componentes rescatamos el 87% de varianza total acomulada

Componente 1: Está representado por los hombres de 0 años,


de 50 años, mujeres de 0 años y mujeres de 25 y 50 años.
Componente 2: Está representado por hombres de 75 años.
Cuadrante 1: En este cuadrante están las personas que tienen una esperanza de vida alta a los
0, 25, 50, 75 años
en hombres y mujere
Cuadrante 2: En este cuadrante se encuentran las personas que tienen una esperanza de vida
alta a los 75 años en hombres y mujere
Cuadrante 3: Este cuadrante están las personas que tienen una esperanza de vida casi nula.
Cuadrante 4: En este cuadrante se encuentran las personas con una esperanza de vida a los 0
años en hombres y mujeres
En la grafica podemos concluir que los países que se encuentran en el cuadrante 1, los cuales
son Algeria, Dominicana, Seychell, Panamá, Argentina y Costa Rica son aquellos que tienen
una alta esperanza de vida a todas las edades.

Los Países que se encuentran en el cuadrante 2 son Tunisia, Nicaragua, El Salvador, Ecuador,
Chile, USA, Colombia y Guatemala son aquellos que tienen una esperanza de vida alta a los
75 años en hombre y mujeres.

Por otro lado los países que se encuentran en el cuadrante 3: Cameroon, Madagascar,
Sudáfrica, Reunión y Honduras son todas aquellas que tienen una esperanza de vida casi nula.

Por último en el cuadrante 4 se encuentran las paises Granada, Jamaica, México, Trinidad,
Greenland, USA, USA, USA, Canadá, Sudáfrica, Trinidad y Mauritiu son los países que
tienen una esperanza de vida alta a los 0 años en hombres y mujeres
5. Se considera otra muestra de 48 objetos de cerámica romana donde se miden diferentes
tipos de oxidación: Archivo SPSS: Cerámica.sav
Realizar una clasificación adecuada de los objetos en función de las variables estudiadas.
En este historial de conglomerados podemos observar que las variables 14 y 15 son las
primeras en unirse con una distancia de 0.004 , es una distancia tan corta que se encuentran
casi en el mismo punto , eso significa que estas variables tienen las mismas características al
igual que las variables 2 y 4 con una distancia de 0.008 .
Claramente también se puede observar que las variables 1 y 36 , son las variables más
diferentes con una distancia de 25775 , esto significa que es casi imposible que se unan.

Óptimamente trabajaremos con 3 clusters :

Cluster 1: 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,


14, 15, 16, 17, 18, 19, 20 y 21

Grupo 2 :22, 23, 24, 25, 26, 27, 28, 29, 30, 31,
32, 33, 34 y 25

Grupo 3 :36, 37, 38, 39, 40, 41, 42, 43, 44 y 45


Se
gún el Dendograma hay 3 grupos con una distancia de 5 al momento de cortar .

En cada grupo se analizan los mismos consumidores que sacamos en el análisis de


pertenencia del Clúster :
- Conglomerado 1 : Aquí se encuentran las variables 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,
14, 15, 16, 17, 18, 19, 20 y 21.

- Conglomerado 2: Aquí se encuentran las variables 22, 23, 24, 25, 26, 27, 28, 29, 30,
31, 32, 33, 34 y 25.

- Conglomerado 3 : Aquí se encuentran las variables 36, 37, 38, 39, 40, 41, 42, 43, 44 y
45.

Cuadrante 1: Las variables de este cuadrante se caracterizan por tener niveles altos de
MgO, , Na2O, Fe2O3 , MnO y K2O, pero pobres en los otros componentes; Al2O3, TiO2,
CaO, BaO.
Cuadrante 2:Las variables de este cuadrante , tienen un alto nivel Al2O3 , TiO2 , CaO, BaO,
Na2O, Fe2O3 y un nivel bajo de los demás componentes.
Cuadrante 3: En este cuadrante no existen componentes presenciales pero se podría decir que
las variables que se encuentran en este cuadrante tienen un nivel bajo de Al2O3 y TiO2. Y
son muy pobres de BaO y CaO.
Cuadrante 4: En este cuadrante tampoco existen componentes presenciales pero se podría
decir que las variables que se encuentran en este cuadrante tienen un nivel moderado de MgO
, K2O y MnO , y son muy pobres de Fe2O3 y Na2O.

Las cerámicas que se encuentren en los cuadrantes 3 y 4 , no son buenas cerámicas.


Cuadrante 1: En este cuadrante se encuentran las cerámicas 23 , 24, 26, 32, y 22 se
caracterizan por tener niveles altos de MgO, , Na2O, Fe2O3 , MnO y K2O, pero un nivel
bajo y regular en los otros componentes; Al2O3, TiO2, CaO, BaO. Son buenas cerámicas.

Cuadrante 2:En este cuadrante se encuentran las cerámicas 10 , 20 , 19 , 21, 12, 9 13 ,


3,2 ,6 ,4 , 5 , 17 , 1 ,14 , 15 , 7 , 16 , 18 tienen un alto nivel Al2O3 , TiO2 , CaO, BaO, Na2O,
Fe2O3 y un nivel bajo de los demás componentes. Son cerámicas regulares.

Cuadrante 3:En este cuadrante se encuentran las cerámicas 11 , 39 , 40 , 45, 44, 42, 37, 38, 43
, 41 , 36 tienen un nivel bajo de Al2O3 y TiO2. Y son muy pobres de BaO y CaO. No son
buenas cerámicas.

Cuadrante 4: En este cuadrante se encuentran las cerámicas 31 , 33, 30, 29 , 28, 34 , 27 , 35,
25, tienen un nivel moderado de MgO , K2O y MnO , y son muy pobres de Fe2O3 y Na2O.
No son buenas cerámicas .

6. Supongamos que un Museo realiza encuestas a un grupo de niños al terminar el recorrido;


dicha encuesta consta de distintas preguntas generales y algunas que pueden ayudarnos a
identificar grupos y diseñar estrategias que vayan acorde con los niños que están más
interesados en asistir a un museo. Las preguntas que encontramos en esta encuesta son las
siguientes:

-Sexo

-Edad

-¿Es divertido ir al museo?* divertid


-¿En el museo pido a mis papas que me compren algo de lo que venden adentro? *
pidocomp

-¿Puedo aprender en la escuela lo mismo que en el museo? * aprendom

-¿Prefiero ir al museo en excursiones con la escuela? * excur

-¿Ir al museo en mi tiempo libre me quita tiempo para jugar? * quitatie

-¿No me interesa en lo mas mínimo asistir al museo? * nomeint

-Te gustó la visita al Museo? (Si/No) gustovis

* De Totalmente en desacuerdo a Totalmente de acuerdo en una escala de 7 puntos.

Suponiendo que las preguntas de la sección denominada como “Opiniones generales que
tengo en relación al museo” son con las que se pretenden agrupar a los 25 niños que
respondieron la encuesta, se tendrían que hacer primero 2 consideraciones:

➢ Para identificar los grupos de niños, las preguntas que se elijan deben de estar en la
misma escala de medición. (En caso de que esto no sea posible, se deben de estandarizar los
valores)

➢ Justificar la aplicación del clúster análisis, lo cual se puede hacer demostrando que existe
fuerte asociación entre las variables que van a configurarlo.

➢ A partir de esta base de datos se empezaría a trabajar para poder identificar a niños que
tienen características similares en relación con sus opiniones de un museo.

➢ El siguiente paso es escoger las variables que se podrían utilizar para identificar a los
grupos (recordar que estas variables deben de estar en la misma escala de medición, o en su
defecto, deben tener estandarizados los valores).
Óptimamente trabajaremos con 3 Clústers:

Cluster 1: 1, 3, 6, 7, 8, 12, 15, 17, 21,y 22

Cluster 2: 2, 5, 9, 11, 13, 20,y 25

Cluster 3: 4, 10, 14, 16, 18, 19, 23,y 24

Según el Dendograma hay 3 grupos con una distancia de 7 al momento de cortar .


En cada grupo se analizan los mismos consumidores que sacamos en el análisis de
pertenencia del Clúster :

- Conglomerado 1 : Aquí se encuentran las variables 1, 3, 6, 7, 8, 12, 15, 17, 21,y 22

- Conglomerado 2: Aquí se encuentran las variables 2, 5, 9, 11, 13, 20,y 25

- Conglomerado 3 : Aquí se encuentran las variables 4, 10, 14, 16, 18, 19, 23,y 24

Utilizando el método de Ward , podemos observar que los primeros en unirse son el 7 y 6
porque son los más similares, que tienen distancia 0,763 .
Los individuos 12 y 21 tienen una distancia de 1.067, que son los segundos en unirse.
En este historial de conglomerados podemos observar que las variables 6 y 7 son las primeras
en unirse con una distancia de 0.881, posteriormente las variables 12 y 21 son las segundas en
unirse con una distancia de 0.925 .
Claramente también se puede observar que las variables 1 y 2 , son las variables más
diferentes con una distancia de 216000, esto significa que es casi imposible que se unan.
Cuadrante 1: En este cuadrante podemos observar que se encuentran la variables gustovis
(gusto la visita al museo ) , divertid (les parece divertido ir al museo ) , aprendom ( aprenden
en la escuela lo mismo que en el museo ) y quitatie (ir al museo en mi tiempo libre me quita
tiempo para jugar )

Cuadrante 2: En este cuadrante podemos encontrar a la variable excur. ( prefiero ir al museo


en excursiones con la escuela

Cuadrante 3: En este cuadrante podemos encontrar las variables edad , sexo y nomenit .( no
me interesa ir al museo )

Cuadrante 4:En este cuadrante se encuentra la variable Pidocomp. ( en el museo pido a mis
papas que me compren algo de lo que venden adentro.
Cuadrante 1: En este cuadrante se encuentran los niños 23 , 19, 14, 4, 21 y 15 los cuales
consideran que les gusto la visita al museo, les parece divertido ir al museo, aprenden en la
escuela lo mismo que en el museo e ir al museo en su tiempo libre les quita tiempo para
jugar.

Cuadrante 2: En este cuadrante se encuentran los niños 10 , 16, 18 y 24 quienes prefieren ir


al museo en excursiones con la escuela.

Cuadrante 3:En este cuadrante se encuentran los niños 19, 11, 9, 5, 25, 2 y 20 a quienes no les
interesa ir al museo

Cuadrante 4: En este cuadrante se encuentran los niños 17, 22, 7, 6, 1, 3, 8 y 12 quienes en el


museo piden a sus papás que les compren algo de lo que venden adentro.

7.Los fabricantes de automóviles deben adaptar sus estrategias de desarrollo de productos y


de marketing en función de cada grupo de consumidores para aumentar las ventas y el nivel
de fidelidad a la marca. La tarea de agrupación de los coches según variables que describen
los hábitos de consumo, sexo, edad, nivel de ingresos, etc. de los clientes puede ser en gran
medida automática utilizando el análisis de clúster.

Se desea hacer un estudio de mercado sobre las preferencias de los consumidores al adquirir
un vehículo, para ello disponemos una base de datos, de automóviles y camiones en los que
figura una serie de variables como el fabricante, modelo, ventas, etc. El archivo
correspondiente es ventas_vehículos.sav que contiene 157 datos y está formado por las
siguientes variables:
Variables tipo cadena:

marca (Fabricante); modelo (Variable de clasificación)

Variables tipo numérico:

ventas (en miles); → Condición reventa (Valor de reventa en 4 años); → No se tomará en


cuenta por tener valores perdidos. tipo (Tipo de vehículo: Valores: {0, Automóvil; 1,
Camión}); → Condición

precio (en miles); motor (Tamaño del motor); CV (Caballos); pisada (Base de neumáticos);
ancho (Anchura); largo(Longitud); peso_neto (Peso neto); depósito (Capacidad de
combustible); mpg (Consumo).

Se pide realizar el estudio de mercado sólo en automóviles de mayor venta (digamos sólo los
que se vendieron al menos 100.000 unidades). Para seleccionar estos casos se debe usar la
opción: Transformar – Seleccionar casos – Si se satisface la condición: (tipo = 0) & (ventas >
100)

Para ello se deberá utilizar el procedimiento Análisis de conglomerados jerárquico para


agrupar los automóviles de mayor venta en función de las últimas 9 variables que refieren a
las propiedades físicas de los autos; según el Modelo.

En el box plot solo se puede observar un dato atípico, que es la marca de autos corola se
encuentra debajo del promedio
En la matriz de proximidades podemos observar que la variable 59 ( Accord ) y la variable
138 (Camry) tienen una la menor distancia (0.227) por lo que se deduce que estos estarán en
el mismo conglomerado ya que presentan características muy similares.

La variable 137 ( Corolla ) y la variable 58 ( Civic ) también tienen una pequeña distancia de
0.959 , que significa que sus características son muy similares.

En el historial de conglomeración podemos observar que los primeros en unirse son el 59 y


138 , con una distancia de (r=0.114) , posteriormente el 21 y 120 con una distancia mínima de
(r=0.275)

También podemos deducir que los automóviles 20 y 51 son los que tienen las características
más diferentes con una distancia de (r=31428) , eso significa que es casi imposible que se
unan y formen un grupo.
Óptimamente trabajaremos con 3 clusters:
C1uster 1: 20, 59, 138
Cluster 2: 21, 28, 48, 50, 120.
Cluster 3 : 51, 58, 137.

S
egún el Dendograma hay 3 grupos con una distancia de 4 al momento de cortar .
En cada grupo se analizan los mismos consumidores que sacamos en el análisis de
pertenencia del Clúster :

- Conglomerado 1 : Aquí se encuentran las marcas de autos Accord , Camry , Cavaliere ,


Impala y Taurus

- Conglomerado 2: Aquí se encuentran las marcas de autos Malibu , Grand AM y


Mustang.
- Conglomerado 3 : Aquí se encuentran las marcas de autos Focus , Civic y Corolla.

8. Qué se debe hacer si las variables originales están medidas en escalas diferentes de
valores?
Si las variables originales están medidas en escalas de diferentes valores, se las debe
estandarizar.
9. Cuándo se utiliza el análisis de clúster jerárquico?
El método jerárquico se utiliza cuando los valores se dividen en aglomerativos y disociativos,
este método busca agrupar clusters para formar uno nuevo o separar alguno ya existente para
dar origen a otros dos de forma que maximice una medida de similaridad o se minimice
alguna distancia.

10. Se tiene la situación de 6 países europeos en 1996, con respecto a los 4 criterios
exigidos por la UE para ingresar en la Unión Monetaria: Inflación , Interés, Déficit y
Deuda pública; y vienen dados en la siguiente tabla:

a) La matriz de distancias e interpretación de la misma


Existe una gran similitud entre los países Alemania-Francia ( con una distancia de 1.00); al
igual que los países Italia- Alemania , RU-Francia , RU-Italia , España-Francia , Italia-España
(con la misma distancia de 1.00). Los Paises mas diferentes son Francia-Grecia , que son los
paises mas alejados el uno con el otro ( con una distancia de 4.00).

b) Utilizar un análisis de conglomerados jerárquicos aglomerativos

Usando el método de Ward podemos observar los siguientes datos en el historial de


conglomeración:
Los primeros países en formar un grupos son Alemania y España ( 1 y 2),
posteriormente Italia y RU ( 5 y 6).

Elegimos 3 clusters , ya que es más


fácil al momento de analizar ya que
se analiza de la siguiente forma:
Cluster Conglomerado 1: Alemania,
España y Francia
Cluster 2: Grecia
Cluster 3:Italia y RU
Según el dendrograma hay tres grupos con una distancia de 12 al momento de cortar.
En cada grupo se analizan los mismos países que sacamos en el análisis de
pertinencia del cluster.
Conglomerado 1: (3) Aquí se encuentran los países Alemania, España y Francia esto
significa que son los paises mas similares en características del problema entre sí.
Conglomerado 2: (2) Aquí se encuentran los países Italia y RU
Conglomerado 3: (1) Aqui esta el país de Grecia, el cual es el más diferente a los
demás.

c) Realiza el mismo ejercicio definiendo a priori 3 grupos (K-means)


Analizando con el método de k-medias podemos ver que se clasificó en dos grupos:
Grupo 1: Grecia e Italia( con una distancia al centroide de 0.707 )
Grupo 2: Alemania, España, Francia (con una distancia al centroide de 0.559 ) y
Reino Unido ( con una distancia al centroide de 0.901)

11. Que diferencias hay entre distancia y similaridad


Cuando se mide la distancia entre el grupo formado y un individuo, se toma la
distancia máxima de los individuos del grupo al nuevo individuo.Cuando se mide la
similitud o similaridad entre el grupo formado y un individuo, se toma la mínima de
los individuos del grupo al nuevo individuo.

12. Indica algunas distancias que se utilizan en algoritmos para el análisis de


cluster
Datos binarios :Jaccard - Rusel y Rao ,etc
Variables Discretas: Chi-Cuadrado , Phi-Cuadrado.
Variables continuas: Distancia euclídea , Distancia euclídea al cuadrado , Coseno de
vectores , Correlación de Pearson , Distancia de Mikowski.

13. La técnica de clustering (realizar ) es un método estadístico multivariado


cuyo análisis es netamente exploratorio.
VERDADERO FALSO

14. (ESTUDIO DE CASO) Plantea un ejemplo ( describiendo variables e


individuos ) en el área empresarial donde se pueda aplicar el análisis de
conglomerados .
CLASES ONLINE
Por la situación que vamos atravesando , nos vemos en la obligación de adaptarnos y
pasar clases ONLINE.
Se realizó una encuesta a 50 estudiantes de la universidad Católica Boliviana
(Regional Cochabamba) de acuerdo a su semestre , calificando esta modalidad de
aprendizaje del 0 al 5, siendo 5 totalmente satisfecho y 0 totalmente insatisfecho, con
la finalidad de analizar la percepción que tienen los estudiantes ante esta situación y
cómo consideran que son sus clases virtuales, exámenes y/o trabajos, así como
también ver la reacción que tienen los estos si es que esta situación durará todo el año.
Tomando en cuenta las siguientes variables :
Estudiante : 1- 50 ( Est.)
Género : Hombre - Mujer ( Género )
Semestre Actual ( Sem. )
Método de aprendizaje en clases virtuales ( Metod. )
Satisfacción en una escala del 0 al 5 : ( Sat )
Clases virtuales en general (Sat.Gral)
aprendizaje en clases virtuales ( Sat. Apren )
método de enseñanza de los docentes (Sat.Doc.)
metodo de realizacion de examenes (Sat. Exam.)
notas obtenidas clases virtuales (Sat. Notas.)
acabar el año en clases virtuales ( Sat. Fin)

15. Con tu ejemplo , del anterior inciso , realiza una pequeña encuesta ( 50 personas) , y
a continuación efectuar un análisis de conglomerados , indicando todas las etapas y
algoritmos que vayas ejecutando . Describe e interpreta los resultados obtenidos .
a) Historial de conglomerado
En el historial de conglomeración
podemos observar que los primeros
estudiantes en unirse son el 47(VV) y
48(WW) , 47(VV) y 46(UU) ,43 (RR) y
44(SS) , 41(PP) y 42 (QQ) , 38(MM) y
39(NN) , 36(JJ) y 37(LL) , 33(GG) y
34(HH) , 30(DD) y 31(EE) , 25(Y) y
26 (Z) , 22(V)y 23(W), 14(N)y 15(O) ,
13(M) y 14(N) , 4(D)y 5(E) , 2(B) y
3(C) , 1(A)y 2(B) , todos estos
estudiantes tienen una distancia de 0.00
eso significa que están en el mismo
punto y tienen las mismas
características. Posteriormente el
estudiante 4(D) y 6 (F) son los segundos
en unirse con una distancia de 0.185.

También podemos deducir que los


estudiantes (A) y 18(R) son los que
tienen las características más diferentes
con una distancia de (r=392000) , eso
significa que es casi imposible que se
unan y formen un grupo.

b) Cluster de pertenencia
Óptimamente trabajaremos con 3 cluster :
Cluster 1:A este cluster pertenecen los estudiantes A , B, C , D ,
F, ,G ,H ,I , J ,K , L ,M ,N , O ,P , Q y S ,CC , BB.

Cluster 2: A este cluster pertenecen los estudiantes R , T, U,OO,


PP, QQ,RR,SS,TT,UU,VV,WW,XX,YY.

Cluster 3:A este cluster pertenecen los estudiantes V , W, X,Y ,


Z , AA,DD,EE, FF, GG, HH, II, JJ,LL, MM , NN , KK.
Según el Dendograma hay 3 grupos con una distancia de 16 al momento de cortar .
En cada grupo se analizan los mismos consumidores que sacamos en el análisis de
pertenencia del Clúster :

- Conglomerado 1 : Aquí se encuentran los estudiantes R , T, U,OO, PP,


QQ,RR,SS,TT,UU,VV,WW,XX,YY.

- Conglomerado 2: Aquí se encuentran los estudiantes V , W, X,Y , Z, AA, DD, EE,


FF, GG, HH, II, JJ, LL, MM , NN , KK.

- Conglomerado 3 : Aquí se encuentran los estudiantes A , B, C , D , F, ,G ,H ,I , J ,K ,


L ,M ,N , O ,P , Q y S ,CC , BB.

Cuadrante 1: En este cuadrante podemos observar que se encuentran la variables Sat Gral. (
Satisfacción general con las clases en linea) , Sat. Fin (satisfacción de acabar el año de
manera virtual) , Sat. Doc ( satisfacción con la enseñanza de los docentes) , esto significa que
en este cuadrante se encontrarán los estudiantes que se encuentran satisfechos en general con
las clases virtuales.

Cuadrante 2: En este cuadrante podemos encontrar a la variable Metod ( método de


enseñanza ) y Sat. Examen ( satisfacción de el método de dar exámenes) esto significa que en
este cuadrante se encontrarán los estudiantes satisfechos con sus exámenes y el método de las
clases virtuales.

Cuadrante 3: En este cuadrante podemos encontrar las variables Sat. Apren ( satisfacción de
aprendizaje ) y Sat. Notas ( satisfacción de las notas obtenidas en sus exámenes) eso significa
que los estudiantes que se encuentran en este cuadrante son los que consideran que hay una
buena enseñanza , reflejado en sus notas en las clases virtuales.
Cuadrante 4:En este cuadrante se encuentran los estudiantes que se encuentran insatisfechos
con las clases virtuales , ya que en este cuadrante no se encuentran variables presenciales ,
pero tienen un poco de satisfacción general y en acabar el año de manera virtual.

Cuadrante 1: En este cuadrante se encuentran los estudiantes S, T, U, R, XX, PP, RR, QQ,
SS, YY y OO, los cuales son los que se encuentran satisfechos con las clases en línea en
general, con el método de enseñanza de los docentes y con acabar el año de forma virtual.
Cuadrante 2: En este cuadrante se encuentran los estudiantes Q, P, M, N, O, K, I, J Y L los
cuales son aquellos que satisfechos con el método de sus exámenes y el método de las clases
virtuales.
Cuadrante 3: En este cuadrante se encuentran los estudiantes F, D, E, H, G, CC y BB los
cuales son aquellos que se encuentran satisfechos con de aprendizaje y satisfechos con las
notas obtenidas en sus exámenes.
Cuadrante 4: En este cuadrante se encuentran los estudiantes Y , X , V , W, AA, VV, WW,
UU y TT son los que encuentran insatisfechos con las clases virtuales , ya que en este
cuadrante no se encuentran variables presenciales , pero tienen un poco de satisfacción
general y en acabar el año de manera virtual.
ANÁLISIS DISCRIMINANTE (segunda parte)
16. Un administrador de escuela secundaria desea crear un modelo para clasificar a los
futuros estudiantes en uno de los tres niveles educativos. El administrador selecciona
180 estudiantes de forma aleatoria y registra la puntuación de una prueba de logro,
una puntuación de motivación y el nivel actual de cada uno. La idea es encontrar
funciones discriminantes para clasificar a los nuevos estudiantes de manera
acertada. Asegurate de que: En Grupos, ingrese Nivel. En Predictores,
ingrese Puntuación prueba y Motivación.
a) Obtener los estadísticos , cuadros y tablas más importantes e interpretarlos.

Se observa que el punto de corte discriminante de los dos grupos para la variable
X1=Puntuación Prueba =1113.995
Si la Variable Puntuación Prueba es menor a 1113.995 se clasifica en el grupo Nivel 1 y si es
mayor a 1113.995 se clasifica en el grupo Nivel 2 .

Se observa que el punto de corte discriminante de los dos grupos para la variable
X2=Motivación= 50.51
Si la variable Motivación es menor a 50.51 se clasifica en el grupo nivel 1 y si es mayor a
50.51se clasifica en el grupo nivel 2 .

Ho= Las medias son iguales


H1= Las medias son diferentes
La hipótesis nula se rechaza ya que el p_value < 0.05

ANOVA
SIG=0.117>0.05
Esto significa que los dos grupos tienen la misma
matriz de varianza-covarianza , no hay grupo más
variable que otro.

La matriz de autovalores tiene un rango=1 y un autovalor distinto de 0 que es igual a


3.224 que se interpreta como la parte de variabilidad total, mientras mas grande mas
discrimina la función.

Ho: Las medias son iguales


H1: Las medias son diferentes
La hipótesis nula de igualdad de medias se rechaza (p-value = 0.000 < 0.05 ) lo que
indica la conveniencia de extraer una función discriminante.
F1= 14.494 Puntuación Prueba+1.866 Motivación - 8220.637
F2=14.171 Puntuación Prueba + 1.213 Motivación -7827.728

D-C= 0.323 - 0.653 - 392.909

b) Qué proporción de observaciones coloca el programa correctamente en sus grupos


verdaderos por modelo?
Las proporciones de observaciones que ya están correctamente en sus grupos son
120/180 validadas.
c) El grupo 2 tuvo la proporción más alta de la colocación correcta?
FALSO VERDADERO
d) La tabla Resumen de observaciones clasificada erróneamente, indica en qué grupo se
debería haber colocado una observación.
FALSO VERDADERO
e) Por ejemplo , el estudiante 4 debio haber sido colocado en el grupo 2 , pero fue puesto
incorrectamente en el grupo 1.
FALSO VERDADERO

17. Los datos corresponden a dos tipos raciales diferentes en los que se practicaron
diferentes medidas antropométricas de longitudes, anchuras de cráneo y de cara. Se
trata de hacer un análisis discriminante sobre los dos tipos raciales.

a) Obtener las estadísticas por grupos


Se observa que el punto de corte discriminante de los dos grupos para la
variable X1= Long.Cráneo=180.4431
Si la variable Long. Cráneo es menor a 180.4431se clasifica en el grupo Tipo
1 y si es mayor a 180.4431 se clasifica el cráneo en el grupo tipo 2 .

Se observa que el punto de corte discriminante de los dos grupos para la


variable X2= Ancho.Cráneo=138.92455
Si la variable Ancho Cráneo es menor a 138.92455se clasifica en el grupo
Tipo 1 y si es mayor a 138.92455 se clasifica el cráneo en el grupo tipo 2 .

Se observa que el punto de corte discriminante de los dos grupos para la


variable X1= Alto.Cráneo=133.402
Si la variable Alto.Cráneo Long. Cráneo es menor a 133.402 clasifica en el
grupo Tipo 1 y si es mayor a 133.402 se clasifica el cráneo en el grupo tipo 2.

Se observa que el punto de corte discriminante de los dos grupos para la


variable X1=Altura.Cara=73.1617
Si la variable Altura.Cara es menor a 73.1617 se clasifica en el grupo Tipo 1 y
si es mayor a 73.1617 se clasifica el cráneo en el grupo tipo 2 .

Se observa que el punto de corte discriminante de los dos grupos para la


variable X1= Ancho.Cara=133.9264
Si la variable Ancho.Cara es menor a 133.9264 se clasifica en el grupo Tipo 1
y si es mayor a 133.9264 se clasifica la cara en el grupo tipo 2 .

b) Realice pruebas de hipótesis sobre las medias de grupos, se acepta o se


rechaza ?
Ho= Las medias son iguales
H1= Las medias son diferentes
La hipótesis nula se rechaza en las medias de Longitud Cráneo , Altura Cara y
Ancho Cara.
La hipótesis nula se acepta en las medias de Ancho Cráneo y Alto Cráneo.

c) Cuales son las funciones (modelos) discriminantes?

F1= -133.182+3.795 Altura Cara


F2= -159.730+4.158 Altura Cara

Funcion Discriminante de Fisher :


D-C= 26.548-0.363 Altura Cara

d) Un antropólogo encontró recientemente 2 cráneos en el Tibet y necesita


clasificarlos (según el tipo racial) los datos son: Utilizar la función
Discriminante de Fisher.

Cráneo 1
D-C= 26.548 - 0.363 Altura Cara
D-C= 26.548 - 0.363(69)= 1.501

Cráneo 2
D-C= 26.548 - 0.363 Altura Cara
D-C= 26.548 - 0.363(67.50)= 2.046
En ambos casos se clasifican en el grupo dos, ya que el resultado de ambos
son positivos.

e) Que variable es la que ofrece mayor capacidad discriminativa.


La correlación con la variable longitud cráneo
(1.0) es mayor en valor absoluto a las demás
variables, y eso significa que la variable
Longitud-Cráneo tiene mayor capacidad
discriminativa que las otras variables.

18. Se toma una muestra de 390 vehículos producidos en EE.UU, Japón y Europa. Se
consideran las siguientes variables: Consumo, Cilindrada, Potencia, Peso,
Ciencias Exactas 10
Aceleración, Año del modelo y Número de cilindros. Se trata de hacer un análisis
discriminante sobre los tres tipos de vehículos, en función de su país de origen.

a) Estadísticas de grupo e interpretación:


Podemos observar que, de la muestra total de 390 vehículo, 243 son provenientes de
EE.UU., 68 son de Europa, y los restantes 79 son de Japón.

También podemos ver que los vehículos estadounidenses son quienes se muestran con los
valores más altos, presentan la media más alta de consumo de combustible, tienen una
mayor cilindrada, mayor potencia, son los más pesados, y pueden acelerar de 0 a 100 Km/h
en tan solo 15 segundos.

Por otro lado los modelos de Europa y Japón que les cuesta un poco más de un segundo.Pero
son los vehículos que mayor desviación presentan, con un 3,809 presentan más variabilidad
de modelo a modelo, respecto al 2,147 de los europeos, y el 1. 825 de los japoneses.

Si la idea es buscar un auto que no consumo mucha gasolina, un auto japonés es la mejro
opción, ya que presentan solo un consumo medio de 8,05 litros combustible por cada 100 km,
pero los autos europeos tambiens son una buena alternativa porque consumen 8,96 litros por
cada 100 km recorridos.

b) Utilice el estadístico M de box, para ver si los grupos tienen la misma matriz de varianzas
y covarianzas:
SIG = O.OOO

H1:Esta nos indica que los grupos tienen la misma matriz de varianzas y covarianzas, es
decir, no hay un grupo más variable que otro.

Ho: No indica que los grupos NO tienen la misma matriz de varianzas y covarianzas, es decir,
si existen grupos más variables que otros.

Podemos observar que se rechaza la hipótesis nula, y por ende se acepta la hipótesis
alternativa.

Los grupos no tienen la misma matriz de varianzas y covarianzas.

c)Anota el o los autovalores obtenidos, ¿son distintos de cero?

Podemos observar claramente dos autovalores:

2º función canónica: El autovalor 0,030 , es muy difícil diferenciar entre grupos porque el
valor es muy pequeño.

1º función canónica: El autovalor obtenido es 0,934. Si el autovalor es un poco más grande,


significa que la nube de puntos aumenta su dispersión, lo que nos facilita el poder distinguir
de mejor manera los grupos.

d) ¿Cuáles son las funciones discriminantes?


-Función 1: En la primera función podemos observar que la ubicación de los centroides se
distribuyen :: la de EE. UU con 0.748 , la de Japón con -1,300 y Europa con -1,164.

-Función nº2: En la segunda función se ve al centroide de Europa con 0.311. Japón con -
0.250 , y el de EE. UU está en la parte central con -0.006 , ya que es prácticamente cero. Esto
ocurre porque la segunda función busca discriminar entre aquellos dos grupos que quedaron
próximo en la primera (Japón y Europa, ambos se distribuyeron en la parte negativa).

Funciones discriminantes :

F1: 0,748 (EE. UU) -1,164 (Europa) – 1,300 (Japón)

F2: -0,006 (EE. UU) +0,311 (Europa) -0,250 (Japón)

e) Con la información de tu auto y de un amigo, clasifícalos según su país de origen:

RENAULT CAPTUR:

Consumo: 6,4 (l/100km)

Cilindrada: 999 cc

Potencia: 100 CV

Peso Total: 1316 kg

Aceleración: 13, 3 (s)

-El Renault Captur no encaja en la clasificación de ninguna de las tres regiones, si se tuviera
que forzar a uno sería al de Japón, pero presenta menos cilindrada, menor consumo de
combustible, mayor potencia, el peso es superior incluso al de los autos de EEUU, la
aceleración de 13,3 segundos se aproxima más al grupo de EE. UU con (15 segundos).

MAZDA CX5:

Consumo: 7,7 (l/100 km)


Cilindrada: 1998 cc

Potencia: 165 CV

Peso Total: 1518 kg

Aceleración: 10,3 (s)

-El consumo del Mazda CX5 es de 7,7 está cercano al de un japonés (8,05), la cilindrada de
1998 cc es apenas superior a la de un europeo (1796,66), la potencia de 165 CV es muy
superior a los 3, de igual manera el peso, y es mucho más veloz que cualquiera de las
referencias de los 3 grupos.

19. Un banco realiza un estudio con el objetivo de identificar con la mayor precisión posible
aquellas solicitudes de préstamos que probablemente puedan llegar a convertirse en morosos
o fallidos en el caso que se concedieran. Para ello, dispone de la información reflejada en la
tabla adjunta, relativa a 25 clientes y a las variables que se analizan:

Cumplimiento: Grado de cumplimiento del cliente en el reintegro del préstamo. Toma


el valor 1 si el cliente es cumplidor, 2 si es moroso y 3 si es fallido.
• Ingresos: Ingresos anuales del cliente, en miles de euros.
• Patrimonio Neto: Patrimonio neto del cliente en miles de euros.
• Vivienda: Variable dicotómica que toma el valor 1 si el cliente es propietario; 0 en
caso contrario.
• Casado: Variable dicotómica que toma el valor 1 si está casado; 0 en otro caso.
• Contrato Trabajo: Variable dicotómica que toma el valor 1 si el cliente es asalariado
con contrato fijo; 0 en otro caso.

¿Si tu familia como cliente de un banco tendría que pedir un préstamo, cómo se
consideraría: Cumplidor, Moroso o Fallido?
En este cuadro podemos observar que las medias de cada variable es mayor dentro la
categoría de cumplidores y va reduciendo hasta llegar a fallido, por lo tanto, podemos decir
que los cumplidores tienen mayores ingresos, mayor patrimonio, generalmente tienen una
casa propia, son casados y cuentan con un contrato de trabajo fijo.

Nosotros clasificamos a nuestras familias como clientes morosos ya que, imaginando que
esto está en bolivianos,teniendo como ingreso familiar 13000 bolivianos, un patrimonio de
140000, tomando en cuenta que se tiene casa propia, con padres casados y un contrato fijo
laboral. Entrariamos dentro los clientes morosos.
20. (Estudio de caso) Plantea un ejemplo (describiendo variables e individuos) en el área
empresarial donde se pueda aplicar el análisis discriminante, y con una pequeña
muestra (n = 30) procede a realizar e interpretar los resultados de dicho análisis.
Se observa que el punto de corte discriminante de los tres grupos para la
variable X1= Metod=1.15
Se observa que el punto de corte discriminante de los tres grupos para la
variable X2= Sat. Gral.=6.46
Se observa que el punto de corte discriminante de los tres grupos para la
variable X3=Sat. Apren=1.93
Se observa que el punto de corte discriminante de los tres grupos para la
variable X4= Sat. Doc=2.62
Se observa que el punto de corte discriminante de los tres grupos para la
variable X5= Sat.Exam=2.67
Se observa que el punto de corte discriminante de los tres grupos para la
variable X6= Sat.Notas=2.29
Se observa que el punto de corte discriminante de los tres grupos para la
variable X7= Sat.Fin=2.10

Ho:Las medias son iguales


H1:Las medias son diferentes
p_value<0.05 La hipótesis nula se rechaza , por ende la hipótesis alternativa se acepta.
ANOVA
SIG = 0.000 < 0.05
Esto significa que los dos grupos no
tienen la misma matriz de varianza-
covarianza , Un grupo varia mas que
otro.
Podemos observar claramente dos autovalores:

2º función canónica: El autovalor 0,129 , es muy difícil diferenciar entre grupos porque el
valor es muy pequeño.

1º función canónica: El autovalor obtenido es 1.281. Si el autovalor es un poco más grande,


significa que la nube de puntos aumenta su dispersión, lo que nos facilita el poder distinguir
de mejor manera los grupos.

Ho: Las medias son iguales


H1: Las medias son diferentes
La hipótesis nula de igualdad de medias se rechaza (p-value = 0.000 < 0.05 ) lo que
indica la conveniencia de extraer una función discriminante en 1 de dos testeos.
La hipótesis nula de igualdad de medias se acepta (p-value= 0.062 > 0.05) lo que
indica la inconveniencia de extraer una función discriminante en 2 testeos.
F1= 0.618 Satisfacción.Gral + 2.801 Satisfacción.Notas +1.752 Satisfacción.Fin - (-
6.588)
F2=1.316 Satisfacción.Gral + 4.194Satisfacción.Notas + 2.958 Satisfacción.Fin - (-
15.847)
F3= 1.758 Satisfacción.Gral + 2.831 Satisfacción.Notas + 2.334Satisfacción.Fin - (-
15.394)

D-C= (-0.176) - (-1.438) - (-1.128) - 24.653

También podría gustarte