Está en la página 1de 29

UNSA – MIP NEL QUEZADA LUCIO

7.1 CLASIFICAR (CLÚSTER)

Definición 1. Dada una serie de n elementos (casos) y p variables X1, X2,, Xp, el propósito es
clasificar los elementos en grupos (clúster) según la similitud (menor distancias) entre ellos. Esta
técnica estadística también agrupa variables.

SPSS dispone de los siguientes procedimientos: Clúster bimetálico, Clúster (conglomerados) de K


medias, Clúster (conglomerados) jerárquicos, discriminante, vecino más cercano, etc.

7.1.1. CLÚSTER DE K MEDIAS

Definición 1. Fundamentos del algoritmo de K-medias: una muestra de n elementos con p variables,
se divide en un número de grupos prefijado, K. El algoritmo de K-medias requiere cuatro etapas:

1.- Seleccionar K puntos como centros de los grupos iniciales. Esto se hace:
a. asignando aleatoriamente los objetos a los grupos y tomando los centros de los
grupos así formados;
b. tomando como centros los K puntos más alejados entre sí;
c. construyendo los grupos con información a priori, o bien seleccionando los centros
a priori.
2.- Calcular las distancias euclídeas de cada elemento al centro de los K grupos, y asignar cada
elemento al grupo más próximo. La asignación se realiza secuencialmente y al introducir un
nuevo elemento en un grupo se recalculan las coordenadas de la nueva media de grupo.
3.- Definir un criterio de optimalidad y comprobar si reasignando uno a uno cada elemento de
un grupo a otra mejora el criterio.
4.- Si no es posible mejorar el criterio de optimalidad, terminar el proceso.

Ejercicio práctico N°1.


Los datos corresponden a 30 Cortes Superiores de Justicia del Perú, medidos en seis variables:
pendiente, ingresado, resueltos, personal, dependencias y población. Con esta información divida
las Cortes Superiores en grupos, utilizando análisis clúster de k – medias.

N° Corte Pendientes Ingresados Resueltos Personal Dependencias Población


1 Amazonas 0.007 0.011 0.0110 0.017 0.018 0.014
2 Ancash 0.020 0.020 0.0210 0.017 0.029 0.020
3 Apurímac 0.013 0.013 0.0150 0.016 0.017 0.015
4 Cañete 0.006 0.008 0.0090 0.015 0.013 0.008
5 Huancavelica 0.005 0.009 0.0090 0.009 0.010 0.010
6 Huaura 0.017 0.021 0.0190 0.022 0.024 0.019
UNSA – MIP NEL QUEZADA LUCIO

7 Madre Dios 0.004 0.007 0.0060 0.009 0.012 0.004


8 Moquegua 0.007 0.011 0.0100 0.012 0.012 0.006
9 Pasco 0.006 0.005 0.0050 0.006 0.009 0.007
10 Santa 0.026 0.022 0.0270 0.024 0.031 0.018
11 Sullana 0.013 0.012 0.0140 0.011 0.013 0.018
12 Tacna 0.014 0.019 0.0200 0.017 0.016 0.011
13 Tumbes 0.008 0.010 0.0110 0.014 0.012 0.008
14 Ucayali 0.012 0.013 0.0150 0.015 0.017 0.017
15 Arequipa 0.057 0.055 0.0490 0.055 0.048 0.041
16 Cusco 0.026 0.043 0.0400 0.044 0.048 0.042
17 Junín 0.047 0.047 0.0490 0.037 0.038 0.051
18 Lima Sur 0.035 0.025 0.0270 0.017 0.019 0.049
19 Piura 0.041 0.034 0.0340 0.034 0.031 0.042
20 Puno 0.013 0.021 0.0180 0.029 0.034 0.046
21 Ayacucho 0.020 0.024 0.0280 0.018 0.025 0.025
22 Cajamarca 0.022 0.027 0.0240 0.031 0.034 0.034
23 Callao 0.032 0.028 0.0320 0.037 0.032 0.032
24 Huánuco 0.023 0.021 0.0240 0.021 0.027 0.026
25 Ica 0.026 0.038 0.0400 0.039 0.039 0.026
26 Loreto 0.015 0.014 0.0150 0.019 0.022 0.030
27 San Martín 0.019 0.029 0.0270 0.024 0.029 0.031
28 La Libertad 0.052 0.070 0.0730 0.051 0.051 0.059
29 Lambayeque 0.054 0.060 0.0550 0.047 0.050 0.057
30 Lima Norte 0.056 0.046 0.0510 0.041 0.042 0.079

Solución:
Para análisis clúster k medias, es necesario tener una primera lectura de los datos mediante el
gráfico de dispersión. Para las variables: ingresos y resueltos, se tiene el diagrama siguiente.

En el diagrama se observa los centros iniciales: caso 9 y caso 28. Estos valores son elegidos como
centros respectivos de los conglomerados de las dos variables.

Para dividir las Cortes Superiores en grupos, ir a la opción Analizar -> Clasificar->Clúster k
medias, obteniéndose el cuadro de diálogo siguiente. Aquí introduzca en la caja, variables:
ingresados y resueltos. En la caja, etiquetar casos mediante: Corte Superior. En número de clúster:
2. Como se muestra en la imagen
UNSA – MIP NEL QUEZADA LUCIO

Etiquetar casos mediante, no es obligatorio, se selecciona una variable para identificar los casos en
las tablas de resultados y en los gráficos. La cantidad de conglomerados a elegir se encuentra
seleccionada por defecto con dos conglomerados, para solicitar un número diferente de
conglomerados es necesario ingresar la cantidad de conglomerados que desea encontrar en el
cuadro. Para formar los grupos con los casos se puede utilizar numerosas variables depende del
propósito de la investigación.

Método. Existen dos: El primero Iterar y clasificar, este procedimiento se encarga de estimar los
centros iterativamente y de clasificar a los sujetos con arreglo a los centros estimados. El segundo
Solo clasificar, se clasifica a los sujetos según los centros iniciales (sin actualizar sus valores
iterativamente).

Luego, pulsar en el botón opciones, aparece el cuadro de dialogo siguiente, aquí elija los
estadísticos.

Luego de realizar estas selecciones presionamos aceptar, el visor presenta los siguientes resultados.

El primer cuadro muestra los centros iniciales, es decir, los valores que corresponden, a los dos
casos que han sido elegidos como centros respectivos de los clústeres (conglomerados) solicitados,
en las dos variables de clasificación utilizadas.
UNSA – MIP NEL QUEZADA LUCIO

Se observa que los valores 0.005 y 0.070 son los centros iniciales del primer y segundo grupo
respectivamente de variable ingreso, los valores 0.0050 y 0.0730 son los centros iniciales del primer
y segundo grupo de variable resueltos, tal como se visualiza en el gráfico de dispersión inicial.
El cuadro siguiente muestra dos iteraciones (indicación del desplazamiento experimentado por cada
centro en cada iteración) se observarse que, conforme avanza las iteraciones, el desplazamiento de
los centros se va haciendo más pequeño hasta llegar a la segunda iteración, en la que ya no existe
desplazamiento alguno.

El cuadro siguiente ofrece los centros de los conglomerados finales. El primer (1) clúster (grupo)
está constituido por la menor cantidad de ingresos y resueltos. El segundo (2) clúster (grupo) por la
mayor cantidad de ingresos y resueltos.

El cuadro siguiente muestra el número de casos asignados a cada conglomerado.

El tamaño del clúster es: 23 el primer grupo y 7 el segundo conglomerado. Podríamos nombrar, al
grupo de menores ingresos y resueltos, como grupo pequeñas y al grupo de mayores ingresos y
resueltos como grupo grande.

La tabla de ANOVA que muestra un resumen del análisis de varianza con el estadístico F
univariada para cada una de las variables incluidas en el análisis. Solo para fines descriptivos,
podríamos decir, que los grupos uno y dos son diferentes para α=5% (Ho: µ1=µ2. Si α>Sig. Se recha
Ho), en las variables ingresos y resueltos.
UNSA – MIP NEL QUEZADA LUCIO

El cuadro siguiente muestra un listado de todos los casos utilizados en el análisis, indica el grupo
que ha sido asignado cada Corte Superior (caso) y la distancia euclídea existente entre cada caso y
el centro de su grupo.

El siguiente cuadro muestra la distancia euclídea existente entre los centros del clúster final.

Si en cuadro de dialogo de k medias, pulsamos el botón guardar, aparece el cuadro de dialogo


siguiente, aquí seleccione: clúster de pertenencia y distancia desde centro del clúster, como se
observa en la imagen.

Luego, pulse continuar y los resultados aparecerán en vista de datos.


UNSA – MIP NEL QUEZADA LUCIO

La variable QCL_1, representa los grupos. Para visualizar los grupos en un gráfico de dispersión,
elija el cuadro de dialogo siguiente.

Luego, se
obtiene el
siguiente
grafico que
representa la
clasificación
final de los grupos: grupo 1(Cortes de superiores pequeñas) y grupo 2 (Cortes Superiores grandes).

Problema practico N° 2

Con la información de la encuesta del supermercado definido en ejercicio práctico N° 2, de capítulo


II del presente libro. Agrupar a los clientes del supermercado en dos grupos, utilizando análisis
clúster de k – medias.

Solución:

Para terne una primera lectura de los datos, se realiza un gráfico de dispersión. Donde se observa
los centros iniciales de los grupos a forman, representados por el caso 5 y el caso 2.
UNSA – MIP NEL QUEZADA LUCIO

Si observamos los datos, no existe una correlación lineal, podríamos decir que no existe linealidad,
pero como clúster k medias es menos restrictiva en sus supuestos. Entonces si se puede agrupar a
los clientes del supermercado con esta información.

Para ello ir al menú Analizar -> Clasificar -> Clúster de K medias, obteniéndose el cuadro de
diálogo siguiente. Aquí se seleccionan las variables: venta de artículos de aseo personal y venta de
abarrotes.

Opcionalmente, se selecciona una variable para identificar los casos en las tablas de resultados y en
los gráficos. El número de clúster se encuentra seleccionado por defecto dos clústeres, para solicitar
un número mayor introducir el número deseado. Seleccione el método: iterar y clasificar. Luego de
realizar estas selecciones presionamos aceptar, el visor presenta los siguientes resultados.
El cuadro de centros iniciales, muestra los valores 1.30 y 3.00, son los centros iniciales del primer y
segundo grupo respectivamente de la variable venta de artículos de aseo. Los valores 30.00 y 40.00
representan los centros iniciales del primer y segundo grupo de la variable venta de abarrotes.

El cuadro historial de iteraciones, indica 3 cambios desplazamiento, experimentado por cada centro
en cada iteración. Conforme avanza las iteraciones, el desplazamiento de los centros se va haciendo
más pequeño hasta llegar a la tercera iteración, en la que ya no existe desplazamiento alguno.
UNSA – MIP NEL QUEZADA LUCIO

El cuadro siguiente ofrece los centros de los conglomerados finales. Se apreciar que el primer (1)
clúster está constituido por las ventas en menor cantidad en dólares para artículos de aseo y
abarrotes y el segundo conglomerado (2) por las ventas en mayor cantidad en dólares de aseo y de
abarrotes.

El cuadro siguiente muestra el número de casos asignados a cada clúster o grupo. Para el primer
conglomerado 17 y segundo conglomerado 13.

La tabla de ANOVA que muestra un resumen del análisis de varianza con el estadístico F
univariada para las variables: aseo y verduras. Solo para fines descriptivos, con nivel de
significancia del 5%( α), podríamos decir que los grupos uno y dos son iguales para aseo, mientras
que para abarrote si son diferentes (Ho: µ1=µ2. Si α>Sig. Se recha Ho).

El cuadro muestra la lista de los casos utilizados en el análisis. Indica el clúster al que ha sido
asignado cada caso y la distancia euclídea existente entre cada caso y el centro de su clúster.
UNSA – MIP NEL QUEZADA LUCIO

El siguiente cuadro muestra la distancia euclídea existente entre los centros de los conglomerados
finales.

Se observan los casos divididos en dos grupos finales.

Si en cuadro de dialogo de k medias, pulsamos el botón guardar, aparece el cuadro de dialogo


siguiente, aquí seleccione: clúster de pertenencia y distancia desde centro del clúster, como se
observa en la imagen.

Luego, pulse continuar y los resultados aparecerán en vista de datos.


UNSA – MIP NEL QUEZADA LUCIO

La variable QCL_1, representa los grupos, si utiliza es variable en el gráfico de dispersión el


resultado se muestra en el diagrama siguiente

Finalmente. En la tabla del ANOVA vimos que, con fines descriptivos, que los grupos uno y dos
son iguales para aseo, mientras que para abarrote si son diferentes. Esta decisión se refleja en este
gráfico de dispersión cuando observa la nube puntos. Este tipo de ocurre porque los datos no son
lineales.
UNSA – MIP NEL QUEZADA LUCIO

7.1.2. CONGLOMERADOS JERÁRQUICO

Definición 1. Este procedimiento del SPSS permite agrupar casos, así como también variables. Para
ello se puede escoger entre una gran variedad de métodos estadísticos de agrupación asociada las
medidas de distancias. Este procedimiento procede de forma jerárquica. Comienza con el cálculo de
la matriz de distancias entre los elementos de la muestra (casos). Esa matriz contiene las distancias
existentes entre cada elemento y todos los restantes de la muestra. A continuación, se buscan los dos
elementos más cercanos y se apilan en un conglomerado. Resultante un grupo que es indivisible a
partir de ese momento. De esta forma, se van congregando los elementos en conglomerados cada vez
más grandes y más heterogéneos hasta llegar al final, que consiste en el que todos los elementos
quedan agrupados en un único conglomerado.

Ejercicio práctico N°1.

Con los datos correspondientes a 30 Cortes Superiores de Justicia del Perú, medidos en seis
variables: pendiente, ingresado, resueltos, personal, dependencias y población (capítulo 7.1.1). Con
esta información forme con las Cortes Superiores grupos, utilizando análisis clúster jerárquicos.

Solución:

Seleccionamos la opción Analizar -> Clasificar->Clúster jerárquicos, obteniéndose el cuadro de


diálogo siguiente. Traslade a la caja variables: pendiente, ingresado, resueltos, personal,
dependencias y población y a la caja etiquetar casos mediante: Corte Superior. Como se muestra en
la imagen siguiente.

Etiquetar casos Mediante, es opcional, en la caja clúster puede elegir agrupar casos o variables. En
el botón estadísticas puede elegir: historial de conglomeración, matriz de proximidades y en clúster
de pertenencia: solución única número de clúster tres grupos, como se aprecia en la figura.
UNSA – MIP NEL QUEZADA LUCIO

Si pulsamos en el botón gráficos aparece el cuadro de dialogo siguiente. Seleccione Dendrograma,


como se observa en la figura a continuación.

Si pulsa guardar, y en clúster de pertenencia: solución única número de clúster tres grupos, como se
aprecia en la figura. Estos resultados aparecen en el visor de resultados (similar a k medias).

Luego de realizar estas selecciones presionamos aceptar, el visor presenta los siguientes resultados.

El primer cuadro muestra un resumen de los casos procesados, el número y porcentaje de casos
válidos analizados, el número y porcentaje con valores perdidos, el tamaño total de la muestra (30).

La nota “a.” Indica el nombre de la medida utilizada para obtener la matriz de distancia. Y “b.” el
método de conglomerados utilizado (vecinos más cercanos).

El cuadro muestra la de matriz de distancia euclidiana, que permite valorar las distancias que
existen entre cada una de las Cortes Superiores de Justicia,
UNSA – MIP NEL QUEZADA LUCIO

El cuadro siguiente muestra el historial del proceso de conglomerados, etapa por etapa. En cada
etapa se unen dos elementos. Como la muestra analizada tiene 30 casos, sólo se realizan 29 etapas
de fusión. La columna Clúster combinado informa sobre los casos fundidos en cada etapa. En
nuestro ejemplo en la primera etapa se han fundido 3 y 14.

La columna Coeficientes es el valor de la distancia a la que se encuentran los casos antes de fusión.
El historial de conglomeración mide el grado de jerarquía de cada una de las Cortes Superiores, este
procedimiento permite construir el dendrograma o árbol de clasificación.

El cuadro siguiente muestra el diagrama de témpanos resume el proceso de fusión de manera


gráfica. En la cabecera de las columnas se encuentra los números de los casos individuales y en las
filas el número de conglomerados formado en cada etapa (cada fila representa una etapa del proceso
de fusión). Las etapas comienzan en la parte inferior del diagrama y van progresando hacia arriba.
UNSA – MIP NEL QUEZADA LUCIO

La siguiente grafica se denomina Dendrograma. Este grafico permite dividir a los casos en dos, tres,
o más grupos dependiente de las necesidades y conocimiento del investigador. Para ello debemos
trazar una línea vertical sobre el gráfico, es decir donde se produce la intersección de la línea
trazada y las líneas de Dendrograma se formarán los grupos. En consecuencia, si hay dos intercepto
se formarán dos grupos si hay tres intercepto se formarán tres grupos así sucesivamente (en el
diagrama de témpanos, para formar los grupos, el procedimiento es similar, con la diferencia que la
línea a trazar es horizontal). Como se muestra en la figura siguiente.
UNSA – MIP NEL QUEZADA LUCIO

Grupo 1: CSJ
Pequeñas

Grupo 2: CSJ
Medianas

Grupo 3: CSJ
Grandes

Problema practico N° 2

Con la información de la encuesta del supermercado definido en ejercicio práctico N° 2, de capítulo


II del presente libro. Agrupar a los clientes del supermercado en tres grupos, utilizando análisis
clúster jerárquicos.

Solución:

Seleccionamos la opción Analizar -> Clasificar->Clúster jerárquicos, obteniéndose el cuadro de


diálogo siguiente. Elija como variables: venta de artículos de aseo y venta de abarrotes.
UNSA – MIP NEL QUEZADA LUCIO

Opcionalmente, se selecciona una variable para identificar los casos en las tablas de resultado y en
los gráficos. Luego trasladar a etiquetar casos mediante. Clúster, permite elegir entre casos o
variables agrupar.

Luego de realizar estas selecciones presionamos aceptar, el visor presenta los siguientes resultados.

El primer cuadro muestra un resumen de los casos procesados, el número y porcentaje de casos
válidos analizados, el número y porcentaje con valores perdidos, el tamaño total de la muestra.

El cuadro siguiente muestra el historial del proceso de conglomerados, etapa por etapa. En cada
etapa se unen dos elementos. Como la muestra analizada tiene 30 casos, sólo se realizan 29 etapas
de fusión. La columna clúster combinado, informa sobre los casos fundidos en cada etapa, primeras
etapas se han fundido 12 y 17.

La columna Coeficientes es el valor de la distancia a la que se encuentran los casos antes de la


fusión. En la primera etapa la distancia de fusión entre los casos 12 y 17 es 0.000. La columna
Primera aparición del clúster de etapa, indica la etapa en la que se han formado los grupos que se
UNSA – MIP NEL QUEZADA LUCIO

están fundiendo en cada momento, cero indica que el conglomerado es un caso individual. La
columna próxima etapa indica la etapa en la que el conglomerado que se acaba de formar volverá a
fundirse con otros elementos.

La imagen siguiente muestra el diagrama de témpanos. Este diagrama resume el proceso de


relación de los casos de forma gráfica. La lectura seria; las filas representan el número de
conglomerados formado en cada etapa y la cabecera de las columnas se muestran los números de
los casos individuales. La etapa empieza en la parte inferior del diagrama y caminan avanzando
hasta llegar a la parte superior.

Si hacemos clic en cuadro gráficos y seleccionamos el Dendrograma, el resultado es el gráfico que


se muestra a continuación. Este grafico permite dividir a los casos en dos, tres, o más grupos. Para
ello debemos trazar una línea vertical sobre el grafico de Dendrograma. Si trazamos una primera
línea se obtienen dos grupos, el primer grupo formado por los valores 12, 17, 8, 13, 18, …, 6, 10, 7
y el segundo grupo formado por casos 2 y 20 (dos grupos no es recomendable)
UNSA – MIP NEL QUEZADA LUCIO

Si trazamos la siguiente línea se obtienen tres grupos, el primer grupo formado por los valores 12,
17, 8, 13, 18, …, 14, 19, 26 y el segundo grupo formado por casos 3,27, 5,6,10,7 y tercer grupo por
los casos 2 y 20. En consecuencia la clasificación mejora enormemente.
UNSA – MIP NEL QUEZADA LUCIO

Se puede seguir clasificando en más grupos, si hay dos intercepto se formarán dos grupos si hay tres
intercepto se formarán tres grupos así sucesivamente.
UNSA – MIP NEL QUEZADA LUCIO

7.1.3. ANÁLISIS DISCRIMINANTE

Definición 1. Un conjunto de elementos que pueden venir de dos o más poblaciones distintas. En
cada elemento se ha observado una variable aleatoria p−dimensional x, cuya distribución se conoce
en las poblaciones consideradas. Se desea clasificar un nuevo elemento, con valores de las variables
conocidas, en una de las poblaciones. El problema de discriminación aparece en muchas situaciones
en que necesitamos clasificar elementos con información incompleta. En otros casos la información
podría estar disponible, pero puede requerir destruir el elemento. Finalmente, en otros casos la
información puede ser muy costosa de adquirir.

Por ejemplo, Los sistemas de concesión de créditos establecidos en instituciones financieras. En


reconocimiento de patrones para diseñar máquinas idóneas de clasificar de manera automática los
procesos. Como: reconocer voces y sonidos, clasificar billetes o monedas, reconocer caracteres
escritos en una pantalla de un ordenador o clasificar cartas según el distrito postal. Determinar un
texto escrito de procedencia desconocida a uno de varios autores por las frecuencias de utilización
de palabras, determinar una partitura musical de un autor o un cuadro a un artista, una declaración
de impuestos como potencialmente defraudadora o no, un paciente como enfermo de cáncer o no.

Definición 2. Análisis discriminante clásico debido a Fisher. Basado en la normalidad multivariante


de las variables y que es óptimo bajo dicho supuesto. Si todas las variables son continuas, es
frecuente que, aunque los datos originales no sean normales es posible transformar las variables
para que lo sean, y los métodos pueden aplicarse a las variables transformadas.

Función lineal discriminante para poblaciones Normales: Sea f1 y f2 distribuciones normales con
distintos vectores de medias, pero idéntica matriz de varianzas. Se desea clasificar un elemento
genérico x, que si pertenece a la población i=1,2 tiene función de densidad:

La partición óptima, es, clasificar en la población P2 si:

Ambos términos son positivos, tomando logaritmos y sustituyendo fi(x)

Llamando Di2 a la distancia de Mahalanobis entre el punto observado, x, y la media de la población


i:

Podemos escribir:

Y suponiendo iguales los costes y las probabilidades a priori, c(1/2) = c(2/1); π1 = π2, la regla
anterior se reduce a:

Es decir, clasificar la observación en la población de cuya distancia de Mahalanobis, es menor.


UNSA – MIP NEL QUEZADA LUCIO

Por ejemplo. Se desea clasificar un retrato entre dos posibles pintores. Para ello se miden dos
variables: la profundidad del trazo y la proporción que ocupa el retrato sobre la superficie del
lienzo. Las medias de estas variables para el primer pintor, A, son (2 y 0.8) y para el segundo, B,
(2.3 y 0.7) y las desviaciones típicas de estas variables son 0.5 y 0.1 y la correlación entre estas
medidas es 0.5. La obra a clasificar tiene medidas de estas variables (2.1 y 0.75). ¿A cuál de los
pintores pertenece la obra?

Calculando las distancias de Mahalanobis (la covarianza es el producto de la correlación por las
desviaciones típicas):

Y para la segunda

Por tanto, asignaremos la obra al primer pintor.

Definición 3. Con la finalidad de tener una lectura inicial del comportamiento de los datos se
realiza gráficos de dispersión.

La figura en el espacio bivariante definido por las variables X 1 y X2, las nubes de puntos
correspondientes a dos grupos hipotéticos. Los dos grupos representados se diferencian entre sí en
ambas variables, pero no por completo, pues, de hecho, se solapan en una pequeña región situada
entre ambos, también está representada la función D, que es una combinación lineal de ambas
variables. Sobre la función D se representa la proyección de las dos nubes de puntos en forma de
histograma, como si la función D cortara a las dos nubes de puntos en la dirección de su eje. Las
dos líneas punteadas de cada uno de los histogramas representan los centroides del modelo. Las
pruebas estadísticas más utilizadas son.
:
 Autovalor: permite comparar cómo se distribuye la dispersión Inter-grupos cuando existe
más de una función, tiene un valor mínimo de cero, pero no tiene un máximo lo que hace
difícil de interpretar.

Hipótesis planteada:

H0: Grupos parecidos o iguales


H1: Grupos diferentes o distintos

Si Auvalor → 0, Se acepta H0 (grupos parecidos)


Si Auvalor → Grande, Se rechaza H0 (grupos diferentes)
UNSA – MIP NEL QUEZADA LUCIO

 Correlación canónica: Es la correlación entre la combinación lineal de las variables


independientes y una combinación lineal de variables indicador. Una correlación canónica
alta (60%) indica que las variables discriminantes permiten diferenciar entre los grupos.

Hipótesis planteada:

H0: Grupos parecidos o iguales


H1: Grupos diferentes o distintos

Si C. canónica → 0, Se acepta H0 (grupos parecidos)


Si C. canónica → 1, Se rechaza H0 (Grupos diferentes)

 Lambda de Wilks que expresa la proporción de variabilidad total no debida a las diferencias
entre los grupos. Por tanto, valores de lambda de Wilks cercanos a 1 indican un grande
parecido entre grupo, mientras que valores próximos a cero indican una gran diferencia
entre ellos

Hipótesis planteada:

H0: µ1= µ2=…= µk ; Grupos parecidos o iguales


H1: µ1≠ µ2≠…≠ µk : Grupos diferentes o distintos

Si lambda de Wilks → 1, Se acepta H0 (grupos parecidos)


Si lambda de Wilks → 0, Se rechaza H0 (Grupos diferentes)

 Chi-cuadrado: Es una transformado de lambda de Wilks

Hipótesis planteada:

H0: µ1= µ2=…= µk ; Grupos parecidos o iguales


H1: µ1≠ µ2≠…≠ µk : Grupos diferentes o distintos

Se rechaza H0. Si α > Sig.

Ejercicio práctico N°1.

Con los datos correspondientes a 30 Cortes Superiores de Justicia del Perú, medidos en seis
variables: pendiente, ingresado, resueltos, personal, dependencias y población. Definido en
procedimiento clúster k medias Con esta información realizar análisis discriminante.

Solución:

Para realizar análisis discriminaste debe existir una variable que divida a los casos (Cortes Superior)
en grupos. En este ejercicio es necesario crear una variable de agrupamiento (utilizar cual
procedimiento para crear la variable de agrupamiento).

Utilizar clúster k medias, para agrupar a las Corte Superiores. Para ello, ir al menú Analizar ->
Clasificar-> clúster k. Aquí, ingresar las variables en el cuadro de dialogo como se muestra en la
imagen siguiente.
UNSA – MIP NEL QUEZADA LUCIO

Pulse continuar y aceptar, la variable creada aparece en editor de datos (vista de datos) con el
nombre de QCL_1. En vista de variable, cambie el nombre de QCL_1 por tamaño, en valor asigne 1
para pequeño, 2 para grande y obtiene el resultado siguiente.

Para realizar análisis discriminante elegir la opción Analizar -> Clasificar-> Discriminante. Aparece
el cuadro de diálogo siguiente. Aquí ingrese en variable de agrupación: tamaño. En el botón Definir
rango: mínimo 1 y máximo 2.

Pulsar el botón continuar para volver al cuadro de diálogo principal. Aquí, ingrese en la caja
independientes: pendiente, ingresado, resueltos, personal, dependencias y población, todas las
variables deben ser cuantitativa (escala). Como se muestra en la figura.
UNSA – MIP NEL QUEZADA LUCIO

Luego de realizar estas selecciones presionamos aceptar, el visor presenta los siguientes resultados.

El primer cuadro muestra un resumen con el total de los casos procesados, el número de casos
válidos para el análisis y el número de casos excluidos, los que son excluidos por tener un valor
perdido, y las que cumplen las dos condiciones anteriores.

El cuadro siguiente muestra un resumen del número de casos validos en cada variable
discriminante. La información de esta tabla posee un interés especial, pues un número desigual de
casos en cada uno de los grupos puede afectar a la clasificación.

El cuadro siguiente contiene los autovalores, % de variancia, % acumulado y correlación canónica.


La hipótesis H0: grupos pequeño es igual a grupo grande H1: grupos pequeño es diferente a grupo
grande. El autovalor es de 3.319 es un valor grande, que permite rechaza H0 de que los grupos
UNSA – MIP NEL QUEZADA LUCIO

formados son diferentes. La correlación canónica es alta 87.7% indica que las variables
discriminantes permiten diferenciar entre los grupos.

El cuadro siguiente muestra lambda de Wilks. La hipótesis planteada H0: µpequeño= µgrande y H1:
µpequeño ≠ µgrande. Lambda de Wilks es 0.232 es un valor cercano a cero que permite rechazar H0, es
decir los grupos son diferente. Chi- cuadrado, con sig. igual a 0.000 este valor es menor que 5%, se
concluye que las medias son diferentes (los grupos son diferentes).

El cuadro siguiente muestra la tabla de coeficientes de la función discriminante canónica


estandarizados. Los valores indican la importancia de cada variable en la función, ingresados
(0.930) es la más importante, seguido por personal (0.802)

El cuadro siguiente muestra la Matriz de estructura que contiene las correlaciones entre las
variables discriminantes y la función discriminante estandarizada. Se apreciar que ingresados
(0.930) correlaciona alto con la función discriminante.

El cuadro siguiente muestra la ubicación de los centroides en la función discriminante. Se observar


que el grupo de grande se encuentra localizado en promedio, en las puntuaciones positivas de la
función, mientras que pequeño se encuentran en las puntuaciones negativas función.
UNSA – MIP NEL QUEZADA LUCIO

Diagrama de dispersión simple, para eje y: ingresos, eje x resueltos y establecer marcas por:
tamaño. Como se muestra en la gráfica.

Se obtiene el siguiente gráfico, donde se observa que los grupos son distintos. Entonces, si se puede
realizar análisis discriminante.

Problema practico N° 2

Con la información de la encuesta del supermercado definido en ejercicio práctico N° 2, de capítulo


II del presente libro. Agrupar a los clientes del supermercado en tres grupos, utilizando análisis
clúster jerárquicos.

Solución:

Seleccionamos la opción Analizar -> Clasificar-> Análisis Discriminante, obteniéndose el cuadro


de diálogo siguiente. Aquí, en variable de agrupación: civil, a independiente: aseo y abarrotes, como
se muestra en el siguiente gráfico.
UNSA – MIP NEL QUEZADA LUCIO

Luego debemos pulsar en el botón Definir rango: mínimo 1 y rango máximo 4.

Una vez ingresado los rangos, pulsar el botón continuar para volver al cuadro de diálogo principal.
Luego presionamos aceptar. El visor presenta los siguientes resultados.

El primer cuadro muestra un resumen con el total de los casos procesados, el número de casos
válidos para el análisis y el número de casos excluidos, los que son excluidos por tener un valor
perdido en al menos una variable discriminante, y las que cumplen las dos condiciones anteriores.
En este ejercicio no fue excluido ningún cliente.

El cuadro siguiente muestra un resumen del número de casos validos en cada variable
discriminante. La información de esta tabla posee un interés especial, pues un número desigual de
casos en cada uno de los grupos puede afectar a la clasificación.

El cuadro siguiente contiene los autovalores. El valor del autovalor es 0.282 (próximo a cero) y la
correlación canónica es 0.469 (moderada) por lo que debemos suponer que las variables aseo y
UNSA – MIP NEL QUEZADA LUCIO

abarrotes no permiten distinguir demasiado bien entre los grupos en ambas funciones (los grupos
son parecidos).

El cuadro siguiente muestra el estadístico lambda de Wilks. Los valores de lambda de Wilks son
cercanos a 1, indican grupos parecidos existe bastante solapamiento entre los grupos. Sin embargo,
el valor transformado de lambda, Chi-cuadrado tiene un nivel crítico (Sig.) de 0.260 por lo que
podemos aceptar la hipótesis nula de que los grupos comparados tienen promedios iguales en las
dos variables discriminantes en la primera función. Para la segunda función Chi-cuadrado tiene un
nivel crítico (Sig.) de 0.537 por lo que podemos aceptar la hipótesis nula de que los grupos
comparados tienen promedios iguales en las dos variables discriminantes. En consecuencia, los
grupos son parecidos y no se podrá realizar análisis discriminante.

El cuadro siguiente muestra la tabla de coeficientes estandarizados que contiene una versión
estandarizada de los coeficientes de la función canónica discriminante. En la función 1 la venta de
abarrotes (0.923) tiene mayor importancia que las ventas de aseo y en la función 2 la venta de aseo
(0.779) tiene mayor importancia que las ventas de abarrotes.

El cuadro siguiente muestra la Matriz de estructura que contiene las correlaciones entre las
variables discriminantes y la función discriminante estandarizada. La venta de abarrotes
correlaciona (0.754) alto con la función discriminante 1, la venta de aseo correlaciona (0.894) alto
con la función discriminante 2.

El cuadro siguiente muestra la ubicación de los centroides en la función discriminante. Esta tabla es
de gran utilidad para interpretar la función discriminante. Podemos observar que el grupo de
solteros y casado se encuentra localizado en promedio, en las puntuaciones positivas de la primera
UNSA – MIP NEL QUEZADA LUCIO

función mientras que, divorciados y viudos se encuentran en las puntuaciones negativas respecto de
la primera función.

Si realizamos un diagrama de dispersión para poder tener una primera lectura de los grupos. Se
observa que no se pueden distinguir claramente los grupos. En consecuencia, no se posible realizar
un análisis discriminante.

También podría gustarte