Está en la página 1de 48

Seminario de Doctorado

Análisis de clasificación
Pedro López-Roldán
Departamento de Sociología
Centro de Estudios Sociológicos sobre la Vida Cotidiana y el Trabajo (QUIT)
Instituto de Estudios del Trabajo (IET)
Universidad Autónoma de Barcelona
Pedro.Lopez.Roldan@uab.cat
Sandra Fachelli
Departamento de Sociología y Análisis de las Organizaciones
Universidad de Barcelona
Grupo de Investigación en Educación y Trabajo (GRET)
Universidad Autónoma de Barcelona
Sandra.Fachelli@ub.edu
Agosto de 2015
Presentación: clasificación y tipología

• El Análisis de Clasificación (ACL) técnica multivariada llamada también:


– Cluster Analysis (Análisis de Conglomerados)
– Análisis de Clasificación Automática / Analyse Typologique

• Reservamos la expresión Análisis tipológico para aludir a un proceso


metodológico más general destinado a la construcción de tipologías, profuso
en la tradición sociológica, que eventualmente puede usar técnicas de tipo
multivariable.

• Propuesta metodológica de construcción: Tipología estructural y articulada


se define como

“… un instrumento de operativización conceptual, construido de forma articulada


entre la teoría y la realidad empírica, y destinado a definir, estructurar y medir la
complejidad multidimensional de los fenómenos sociales. Ello se traduce en la
constitución de un conjunto de categorías o tipos a través de la agrupación de un
universo de unidades mediante la combinación simultánea de las características que
constituyen su espacio de atributos”. (López-Roldán, 1996: 15)

Construcción de tipologías | Análisis de Clasificación 1


La tipología estructural i articulada

Propuesta metodológica de construcción (López-Roldán, 1994)

Articulación Estructuración

TEORÍA
Tipificación de la
realidad social

Articulación
Medición

Realidad Operativizar
empírica Definir

▬ Deducción / Concreción
▬ Inducción / Abstracción Explicación estructural

Construcción de tipologías | Análisis de Clasificación 2


Proceso de construcción de tipologías

Modelo de Análisis Análisis de


análisis Factorial Clasificación

X (n×p) R (p×p) F (n×m) D (n×n) T (k×m)


Datos originales Matriz de Correlaciones Matriz Factorial Matriz de Distancias Matriz Tipológica

n radios, p variables, m factores y k tipos Georeferenciación

Mapa social

Construcción de tipologías | Análisis de Clasificación 3


El análisis de clasificación

• Presentación. Proceso de clasificación

Representación de 5 individuos
en el espacio de 2 variables

Espacio de atributos
Espacio social

– Se parte de individuos
caracterizados por variables (X)
– Objetivo: crear grupos lo más
parecidos internamente y lo
más diferentes entre ellos
– De forma automatizada según cada método
– A partir de calcular medidas de similitud o de disimilitud (proximidad)

Construcción de tipologías | Análisis de Clasificación 4


El análisis de clasificación

Proceso de
análisis de un
ACL

Fin

Construcción de tipologías | Análisis de Clasificación 5


1. Elección del conjunto de variables original

– Etapa más crítica


– Métrica: habitualmente continua, pero también pueden ser cualitativas de
tipo binario (dicotómicas, con valores 0/1) o bien pueden ser datos de
frecuencias
– Deben ser homogéneas y comparables entre sí
– Hay que evaluar si están correlacionadas y si su importancia es
proporcionada (sobredimensionalización)
– Deben tener las mismas unidades de medida (estandarizar)
– Idoneidad de un Análisis Factorial:
• Los factores acumulan diversas variables en cada uno de ellos
• Los factores son variables incorrelacionadas
• Los factores son variables continuas
• Estandarizadas: expresadas en unidades de desviación típica
(media 0 y desviación 1)
• Son variables que más discriminan o diferencian los individuos
• SPAD cita tomar el 80% de la varianza o la mitad de factores (!)

Construcción de tipologías | Análisis de Clasificación 6


2. Elección de la medida de proximidad

– Con variables continuas:


Distancia euclidiana

p Fragmento original de la obra

d (i, i' )  d ii '   ( xij  xi ' j ) 2


Elementos de Euclides de
Alexandria (365 – 275 aC)
j 1

Pitágoras de Samos
(582 aC - 496 aC)

h 2  a 2  b 2  (6  2) 2  (5  2) 2  42  32  25  h  25  5

Construcción de tipologías | Análisis de Clasificación 7


2. Elección de la medida de proximidad

– Matriz de distancias

Construcción de tipologías | Análisis de Clasificación 8


3. Elección del método de clasificación

Más de 100 métodos de clasificación existentes

a) Métodos jerárquicos b) Métodos no jerárquicos o de partición


• Ascendentes o aglomerativos: • De reasignación:
- Distancias mínimas - Centros móviles (K-means, QUICK CLUSTER en SPSS)
CLUSTER en SPSS

- Distancias máximas - Nubes dinámicas con grupos estables


- Distancia media entre grupos - Método de Forgy
- Distancias entre centroides - Climbing
- Distancia mediana - Isodata distancias mínimas
- Ward (mínima pérdida de inercia) • De búsqueda de la densidad:
RECIP en SPAD
- De aproximación tipológica: análisis modal de
• Descendentes o disociativos: Wishart, método de Taxmap de Carmichael i
- los anteriores Sneath, método Fortin
- Monotéticos: - De aproximación probabilística: método de les
Método de William i Lambert combinaciones de Wolf
Detector automático de interacción (AID)
- Politéticos - Vecino más cercano (KNN en SPSS)
• Directos: block clustering de Hartigan
c) Métodos mixtos • De reducción de dimensiones: análisis factorial Q
- SEMIS en SPAD (Clas.if. Híbrida) • Otros: algoritmos más recientes
- TWOSTEP CLUSTER en SPSS (Clasif. en dos fases)

Construcción de tipologías | Análisis de Clasificación 9


3. Elección del método de clasificación

– Métodos jerárquicos ascendentes

Dendrograma (árbol de agregación)

Construcción de tipologías | Análisis de Clasificación 10


3. Elección del método de clasificación

– Método ward, de mínima pérdida de inercia (intergrupos)

Construcción de tipologías | Análisis de Clasificación 11


3. Elección del método de clasificación
– Método ward, de mínima pérdida de inercia (intergrupos)

Construcción de tipologías | Análisis de Clasificación 12


3. Elección del método de clasificación

– Método de centros móviles: no jerárquico, nubes dinámicas, muchos datos

Construcción de tipologías | Análisis de Clasificación 13


3. Elección del método de clasificación

– Método de grupos estables

• Método no jerárquico. Nubes dinámicas


• Gran cantidad de datos
• Proceso:
1. Se fijan k de grupos con unos centres
iniciales aleatorios a donde se asignan los
individuos más próximos:
2. Esta partición se hace s veces (2, 3, 4…):

3. Se construye la partición-producto (tabla


de contingencia): las casillas no vacías
del cruce son los grupos estables
4. A continuación, habiendo reducido el
número de unidades, se aplica un
procedimiento clasificatorio, p. ej. Ward

Construcción de tipologías | Análisis de Clasificación 14


3. Elección del método de clasificación

– Método mixto, algoritmo del software SPAD (SEMIS)

• Partiendo de las puntuaciones factoriales del conjunto de


individuos se aplica un triple proceso clasificatorio (Lebart,
Morineau, Piron, 2004: 177 a 184):
1. Una primera clasificación se obtiene por el cruce de
varias particiones de base construidas alrededor de
centros móviles
2. Las clases estables que se obtienen de este primer
procedimiento se agregan a continuación por un método
de clasificación jerárquica ascendente según el criterio de
Ward
3. Finalmente, las diferentes particiones de los individuos
que se pueden obtener a partir del árbol de agregación
del procedimiento Ward optimizan o se consolidan
mediante una reasignación a los diferentes grupos
creados en cada partición con un nuevo proceso de
clasificación por centros móviles que mejora la inercia
entre los grupos.
• A partir del árbol de agregación se trata de determinar el
corte que corresponde a la mejor o mejores particiones

Construcción de tipologías | Análisis de Clasificación 15


4. Clasificación en un número de grupos

– El número de grupos, según el método clasificatorio:


• Se fija con anterioridad
• Se determina a posteriori

– Según criterios e hipótesis previas o de forma más exploratoria

– Criterios para decidir el número de grupos:


• Proporción de varianza explicada por cada partición
• Distancias entre los grupos.
• Analizar la Tabla de aglomeración: crecimiento del coeficiente
• Saltos del dendrograma
• En algunos métodos puede ser una decisión automatizada
• El contenido substantivo y los criterios teóricos son importantes
• Se trata de comparar y contrastar clasificaciones alternativas y
validarlas

Construcción de tipologías | Análisis de Clasificación 16


4. Clasificación en un número de grupos

– Tabla de aglomeración RMB 1986

Construcción de tipologías | Análisis de Clasificación 17


4. Clasificación en un número de grupos

– Tabla de aglomeración Historial de conglomeración


Etapa en la que el
Conglomerado que se
conglomerado aparece por
combina Diferencias Diferencias Próxima
Etapa Grupos Coeficientes primera vez
primeras segundas etapa
Conglomerado Conglomerado Conglomerado Conglomerado
1 2 1 2
1 35 1 22 0,00085 0,00 - 0 0 4
Cálculo de (ver Excel): 2
3
34
33
12
6
19
18
0,00210
0,00567
0,00
0,00
0,00
0,00
0
0
0
0
14
14

-Diferencias primeras 4
5
32
31
1
3
2
8
0,00963
0,01416
0,00
0,00
0,00
0,00
1
0
0
0
16
10

(“velocidad”)
6 30 13 15 0,01901 0,01 0,00 0 0 16
7 29 5 28 0,02404 0,01 0,00 0 0 9
8 28 23 26 0,03387 0,01 0,00 0 0 21

-Diferencias segundas 9
10
27
26
5
3
32
16
0,04617
0,06252
0,02
0,02
0,00
0,00
7
5
0
0
20
13

(“aceleración”)
11 25 7 14 0,07918 0,03 0,01 0 0 18
12 24 10 20 0,10709 0,03 0,00 0 0 26
13 23 3 9 0,13654 0,04 0,01 10 0 19
14 22 6 12 0,17199 0,04 0,00 3 2 23
15 21 21 25 0,21014 0,07 0,03 0 0 22
16 20 1 13 0,27604 0,07 0,00 4 6 18
17 19 33 34 0,34323 0,08 0,01 0 0 32
20
18 18 1 7 0,41847 0,08 0,00 16 11 28
18 19 17 3 17 0,49789 0,09 0,01 13 0 23
20 16 4 5 0,59009 0,14 0,05 0 9 27
16 21 15 23 24 0,72996 0,15 0,01 8 0 24
22 14 21 29 0,88273 0,20 0,05 15 0 27
14
23 13 3 6 1,08209 0,23 0,03 19 14 28
12 24 12 23 27 1,30902 0,24 0,02 21 0 30
25 11 30 31 1,55367 0,27 0,03 0 0 30
10 26 10 10 11 1,82629 0,48 0,20 12 0 31
8 27 9 4 21 2,30229 0,70 0,22 20 22 33
28 8 1 3 2,99990 0,82 0,12 18 23 31
6 29 7 35 36 3,82083 1,52 0,69 0 0 32
30 6 23 30 5,33626 1,79 0,27 24 25 34
4
31 5 1 10 7,12446 3,75 1,96 28 26 33
2 32 4 33 35 10,87472 4,69 0,94 17 29 35
33 3 1 4 15,56061 22,01 17,32 31 27 34
0
34 2 1 23 37,56896 32,43 10,42 33 30 35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2

35 1 1 33 70,00000 34 32 0

Construcción de tipologías | Análisis de Clasificación 18


5. Descripción y validación de los grupos o tipos

Descripción de los tipos


– Caracterización cruzando la tipología con las variables factoriales, las
originales (activas y pasivas) y otras de interés
– Tablas de contingencia
– Tablas de medias
– Representaciones gráficas: gráficos de dispersión, de barras, mapas, ...

Validación de los resultados


– Validación: estabilidad de los resultados
– Cambiar las variables (introducir o quitar)
– Cambiar su codificación
– Cálculo de medidas de evaluación:
– Internas: índice de Davies–Bouldin, índice Dunn, coeficiente Silhouette, cophenético, de pertenencia
– Externas: medida Rand, medida F, índice de Jaccard, índice Fowlkes–Mallows, matriz de confusión,
información mútua
– Simulación de Montecarlo
– Interpretación teórica

Construcción de tipologías | Análisis de Clasificación 19


5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 20


5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 21


5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 22


5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 23


5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 24


Construcción de los estratos

Construcción de tipologías | Análisis de Clasificación 25


Construcción de los estratos

Construcción de tipologías | Análisis de Clasificación 26


Construcción de los estratos

Construcción de tipologías | Análisis de Clasificación 27


Construcción de los estratos

Construcción de tipologías | Análisis de Clasificación 28


Análisis de Clasificación con SPAD
• Procedimiento general de construcción tipológica:
ACM en combinación con el análisis de clasificación (ACL)
• Seleccionamos el procedimiento predefinido por el menú:
Template / Predefined chains

Análisis Factorial combinado con


Análisis de Clasificación

CORMU: Análisis de
Correspondencias Múltiples

COREM: Análisis de Correspondencias


Múltiples con eliminación de categorías

CORCO: Análisis de Correspondencias


Múltiples Condicional

Construcción de tipologías | Análisis de Clasificación 29


Análisis de Clasificación con SPAD
• Procedimiento general de construcción tipológica:
ACM en combinación con el análisis de clasificación (ACL)

ACM
CORMU: Multiple Correspondence Analysis
DEFAC: Description of Factorial Axes
ACL
RECIP/SEMIS: Factor Based Cluster Analysis
PARTI-DECLA: Cut the tree & Cluster Description
Guardar variables
ESCAL: Storing of Factorial Axis & Partitions

Construcción de tipologías | Análisis de Clasificación 30


Análisis de Clasificación con SPAD

• RECIP (método ward y optimización por el método


de centros móviles)

Elección RECIP (ward)


SEMIS (mixto)

Factores para el ACL


Elementos terminales
(nodos) del árbol de
agregación

Casos de cada grupo Parámetros de la


presentación de los
resultados

Exportación de resultados
a Excel

Construcción de tipologías | Análisis de Clasificación 31


Análisis de Clasificación con SPAD

• PARTI-DECLA (partición y descripción clases)


Parámetros de
las particiones:
consolidación y
casos
ilustrativos

Parámetros de
presentación de
resultados:
-Casos de cada grupo
-Coordenadas de las
particiones
-”Parangones”: casos
representativos de
cada partición
-Crea fichero Excel

Decisión del usuario


del nº de particiones

Caracterización de
Búsqueda automática de las
las particiones
mejores particiones: cuántas (3)
entre qué mínimo (3) y máximo (10)

Construcción de tipologías | Análisis de Clasificación 32


Análisis de Clasificación con SPAD

• ESCLA (guardar factores y clases)

Particiones

Se traspasan
las variables
(se etiquetan)
y se validan

Factores

Se traspasan Parámetros de
las variables resultados y trabajo
(se etiquetan) Nombre y carpeta
y se validan del archivo de datos

Construcción de tipologías | Análisis de Clasificación 33


Análisis de Clasificación con SPAD

• Resultados RECIP (clasificación jerárquica)

Construcción de tipologías | Análisis de Clasificación 34


Análisis de Clasificación con SPAD

• Resultados RECIP (clasificación jerárquica)

Coordenadas
facoriales

Descripción de Valores test de


los 50 significación
elementos de cada nodo
terminales sobre cada
(nodos). factor retenido
(> 2)

Construcción de tipologías | Análisis de Clasificación 35


Análisis de Clasificación con SPAD

• Resultados RECIP (clasificación jerárquica)

Rango del primer y último


nodo terminal comprendido
en el nodo estudiado

Efectivos y peso
Descripción de
los 50
elementos Rango de los dos nodos
terminales o grupos que se unen
(nodos) de la
jerarquía
Número de nodo e
índice de nivel del nodo

Construcción de tipologías | Análisis de Clasificación 36


Análisis de Clasificación con SPAD

• Resultados RECIP Editor jerárquico del dendrograma

Construcción de tipologías | Análisis de Clasificación 37


Análisis de Clasificación con SPAD

• Resultados PARTI

Mejores particiones

Clasificación en 3 grupos

Nº de casos y rango de los nodos


terminales de cada grupo o clase

Construcción de tipologías | Análisis de Clasificación 38


Análisis de Clasificación con SPAD

• Resultados PARTI
Significación y coordenadas de cada grupo antes de la consolidación

Distancia al
centro, al
individuo medio

Proceso de consolidación
alrededor del centro de cada grupo
(método de centros móviles),
evolución de la mejora de la inercia
intergrupos (explicada)

Descomposición de la inercia antes y


después de la consolidación en cada
clase o grupo:

Inercia total = Inercia intra + Inercia entre

Significación y coordenadas de cada


grupo después de la consolidación

Construcción de tipologías | Análisis de Clasificación 39


Análisis de Clasificación con SPAD

• Resultados PARTI

”Parangones”:
casos representativos
(ideales) de cada
partición. Los más
próximos al centro de
cada grupo

Construcción de tipologías | Análisis de Clasificación 40


Análisis de Clasificación con SPAD

• Resultados DECLA.

Categorías
Lo que son características
por orden de
+ importancia
− según el valor
Lo que no son test

Construcción de tipologías | Análisis de Clasificación 41


Análisis de Clasificación con SPAD

• Resultados gráficos

Editor de gráficos factoriales

Casos activos
Casos ilustrativos
Variables activas categóricas
Particiones
Variables ilustrativas categóricas

Variables ilustrativas continuas

Selección de las
variables del gráfico

Construcción de tipologías | Análisis de Clasificación 42


Análisis de Clasificación con SPAD

Construcción de tipologías | Análisis de Clasificación 43


Análisis de Clasificación con SPAD

Construcción de tipologías | Análisis de Clasificación 44


Análisis de Clasificación con SPSS

Construcción de tipologías | Análisis de Clasificación 45


Análisis de Clasificación con SPSS

Variables que actúan de


criterios clasificatorios:
originales o variables
factoriales

Para clasificar casos o


variables

Permite eliminar las tablas o


los gráficos de los resultados.
De interés en particular
cuando el número de casos
es elevado

Construcción de tipologías | Análisis de Clasificación 46


Análisis de Clasificación con SPSS

Tabla con el
historial y los
coeficientes

Pedir sólo si el
nº de casos es
reducido
Con variables
Tabla con el factoriales no es
grupo en el necesario, sí con
que se variables
clasifica cada originales
caso directamente

Guarda las variables


Pedir sólo si el clasificatorias.
nº de casos es Depende de cada
reducido análisis, un nº
concreto, o entre 2 y
un nº superior que
puede ser 3, 4, 5, 6,
10, o incluso mayor
si se desea

Construcción de tipologías | Análisis de Clasificación 47

También podría gustarte