Está en la página 1de 59

Universidad de La Habana

Facultad de Matemática y Computación


Departamento de Matemática

CLASIFICACIÓN DE INDIVIDUOS VIOLENTOS MEDIANTE


EL MODELO DE GRADO DE MEMBRESÍA.

Tesis presentada en opción al grado de


Licenciado en Matemática

Autor: Patricia Ferrando Garcia


Tutor: Dra. Lídice Galán García

La Habana, 2014
A mis padres.
A mis hermanas.
A mi maravillosa familia.
AGRADECIMIENTOS

Inicialmente, quisiera agradecer a todas aquellas personas que contribuyeron, de


forma directa o indirecta, a alcanzar esta importante meta en mi vida.

A mi madre por ser mi guía incansable; y a mi padre, por ser mi ídolo. A mis
hermanas, mis primas, mis tías, mi tío y mis abuelos por enseñarme el verdadero
concepto de familia.

A Ana María y Marifelis, excelentes profesoras que incentivaron mi gusto por las
matemáticas. A todos los profesores de la facultad por ayudar a mi formación
profesional.

Por compartir en los momentos de alegría y estar a mi lado en los momentos


difíciles, agradezco a mis amigas Patry, Karina, Ode y Nany.

Por último, a mi tutora Lídice Galán, quien me inició en la literatura sobre el


modelo de Grado de Membresía, que se convirtió en el tema principal de mi
investigación para la tesis. Su constante guía, cuidado, soporte incondicional y
consejos durante casi dos años cuentan mucho. A ella le doy mis más profundos
agradecimientos.
RESUMEN

El análisis de la clasificación en subgrupos, definidos a partir de modelos de


estructuras latentes, es una problemática en las ciencias forenses. La clasificación
de sujetos que han cometido hechos violentos y la estimación de su perfil de
comportamiento requieren de métodos estadísticos para su determinación. Los
modelos de Clases Latentes y de Teoría de Respuesta al Ítem, permiten
desarrollar este tipo de análisis. Sin embargo, para el caso de alta dimensionalidad
en los datos, estos modelos no son eficientes. Alternativamente, se propone el uso
de modelos de Grado de Membresía; los cuales permiten la determinación de 𝐾𝐾
perfiles extremos en la población y estiman, a partir de la probabilidad individual
de pertenecer a cada perfil extremo, la probabilidad de respuesta para un miembro
del 𝑘𝑘-ésimo subgrupo. Para la estimación del modelo, los métodos utilizados son
Máxima Verosimilitud, Esperanza-Maximización y Monte Carlo con cadenas de
Markov. Para darle solución en las ciencias forenses a la problemática de
clasificación de un sujeto, se estima el modelo de Grado de Membresía mediante
los métodos mencionados a partir de una base de datos recopilada con
información sobre 123 reos cubanos de alta violencia, escogiendo solamente para
su estudio las variables de tipo categóricas.
ÍNDICE GENERAL
INTRODUCCIÓN ............................................................................................................... 1
CAPÍTULO 1. MARCO TEÓRICO ...................................................................................... 5
1.1 Formulación estándar de modelos de estructuras latentes ....................................... 5
1.1.1 Modelo de Clases Latentes................................................................................ 8
1.1.2 Modelo de Teoría de Respuesta al Ítem .......................................................... 12
1.2 Formulación del Modelo GoM................................................................................. 13
1.2.1 Formulación Estándar del Modelo GoM ........................................................... 13
1.2.2 Formulación del Modelo GoM Mixto ................................................................. 15
1.3 Métodos de estimación........................................................................................... 18
1.3.1 MLE ................................................................................................................. 18
1.3.2 EM ................................................................................................................... 19
1.3.3 Métodos bayesianos ........................................................................................ 22
CAPÍTULO 2. APLICACIÓN ............................................................................................. 26
CAPÍTULO 3. ALGORITMOS IMPLEMENTADOS ........................................................... 31
3.1 Estimación del modelo de Clases Latentes mediante el algoritmo Esperanza-
Maximización. .............................................................................................................. 31
3.2 Estimación del modelo GoM mediante el algoritmo Esperanza-Maximización ........ 32
3.3 Estimación el modelo GoM mediante el método de Máxima Verosimilitud ............. 34
3.4 Estimación del modelo GoM mediante métodos bayesianos .................................. 35
CAPÍTULO 4. RESULTADOS Y DISCUSIÓN DE LA APLICACIÓN.................................. 38
CONCLUSIONES ............................................................................................................ 46
RECOMENDACIONES .................................................................................................... 47
REFERENCIAS BIBLIOGRÁFICAS ................................................................................. 48
ANEXOS.......................................................................................................................... 52
INTRODUCCIÓN

En diversos campos de estudios se analizan datos de naturaleza compleja de alta


dimensionalidad, que involucran, por una parte el análisis de variables no
observables (latentes) y por otro la heterogeneidad de la población. Una de los
problemas a analizar más frecuente es la clasificación de las observaciones en
subpoblaciones, previamente definidas o no.

En las ciencias forenses se presentan problemas de esta índole, que requieren de


la utilización de métodos que permitan clasificar a individuos violentos. La
heterogeneidad de esta población es una problemática actual para la selección del
tratamiento adecuado precozmente evitando los efectos sociales. Dos importantes
entidades psicopatológicas han sido descritas, el Trastorno de la Personalidad
Antisocial (TPA) y la psicopatía [1]. En especial, los individuos psicópatas son más
propensos a cometer crímenes más violentos reincidentemente. Para formular un
modelo óptimo que permita tal clasificación, es necesario tener en cuenta diversos
factores, a veces no observables directamente, que influyen sobre el individuo:
factores biológicos, sociales, genéticos, e inclusive el medio ambiente que
determinan la conducta delictiva del individuo. Estos factores extraídos mediante
cuestionarios, permiten determinar los perfiles del comportamiento de un reo
violento. La determinación de los perfiles de comportamiento para cada
subpoblación y el grado de pertenencia a la misma para cada sujeto sería una
solución factible para la clasificación de sujetos violentos.

Técnicas matemáticas y estadísticas han sido desarrolladas para el análisis de


estos datos complejos. En el caso que los datos son categóricos, uno de los
enfoques que se puede tomar es mediante el modelo de estructuras latentes.

Los modelos de estructuras latentes, tales como los modelos de clases latentes y
los de rasgos latentes [2], no son adecuados cuando las tablas de contingencia
son sparse, debido a la alta dimensionalidad de los datos. En la última década se
han desarrollado nuevas alternativas a partir del modelo de estructuras latentes

1
introducido por Max Woodbury, en los años 1970, denominado modelo de Grado
de Membresía (GoM).

En estos modelos se considera un tipo de membresía completa donde la


observación pertenece a una y solo una subpoblación. Sin embargo, puede existir
una membresía parcial donde la observación puede pertenecer a más de una
subpoblación. La membresía parcial o soft membresía, como se refiere en la
literatura, es una generalización de la completa, que ha motivado el desarrollo de
extensiones del modelo GoM estándar.

El conocimiento de los 𝐾𝐾 grupos, ya sea de forma explícita o inferida de alguna


forma, implica la inclusión en nuestro modelo de métodos de Clasificación. Por
otro lado, el desconocimiento del valor de 𝐾𝐾, exige la aplicación de métodos
aplicables al Análisis de Clúster.

Las extensiones desarrolladas [2] por Stephen Fienberg y Elena Erosheva han
permitido obtener un modelo (GoM mixto) que estima la probabilidad de
clasificación del individuo dado un vector de scores de membresía en 𝐾𝐾 clases no
necesariamente predefinidas. Además, estima la distribución probabilística de
cada variable observada en la 𝐾𝐾-ésima subpoblación, denominándolo perfiles
extremos. Los scores de membresía permiten determinar la pertenencia del
individuo al menos a uno de los perfiles extremos.

La utilización del modelo GoM brinda ciertas ventajas. Primeramente, la existencia


de un marco general común para otros modelos de estructuras latentes como el
modelo de teoría de respuesta al ítem (IRT) y modelos de clases latentes;
además, el Análisis Factorial y el Análisis de Componentes Principales pueden ser
reformulados, en casos particulares, como un modelo de Grado de Membresía [2].
En segundo lugar, estima el número de subpoblaciones cuando este es
desconocido, análogo a los métodos de Análisis de Clúster. En tercer lugar, el
modelo GoM mixto puede ser aplicado para las situaciones donde las
observaciones pueden ser asignadas a más de una subpoblación: clasificación de

2
genotipos, de artículos científicos, de respuestas individuales en una encuesta,
entre otros.

Se han utilizado diversos métodos para la estimación de estos modelos; que


incluyen estimación por Máxima Verosimilitud (MLE), por Newton-Raphson (NR), a
través del algoritmo Esperanza-Maximización (EM); y además, mediante el
enfoque bayesiano usando los métodos Monte Carlo con cadenas de Markov
(MCMC).

Debido a la alta dimensionalidad y el notable grado de esparcidad, los métodos,


NR, EM y MLE son poco ventajosos. En general, el algoritmo EM, se mueve
regularmente hacia soluciones con valores superiores de log-verosimilitud, pero
converge solo linealmente. Por otro lado, a pesar de su rápida convergencia
cuadrática, el método de Newton-Raphson tiende a consumir mucho tiempo y
espacio cuando se tiene un alto número de variables; y puede ser numéricamente
inestable si la matrices Hessianas están mal condicionadas alrededor de los
puntos críticos, lo cual ocurre frecuentemente en problemas que involucran un alto
número de variables [3].

Para darle solución a estos problemas, una alternativa es utilizar los métodos
MCMC. Los métodos de estimación bayesiana, en particular el MCMC para
modelos de estructuras latentes, han demostrado que son eficientes, ya que no se
necesita elegir trabajar con la probabilidad conjunta o con la probabilidad marginal.
Otra ventaja es que el intervalo de confianza posterior para los valores del
parámetro se puede estimar fácilmente de las salidas del MCMC.

Sin embargo, la definición de qué distribución probabilística asignarle a los


parámetros y el conocimiento o no de los hiperparámetros sigue siendo un tema
controversial. Cuando los hiperparámetros 𝛼𝛼 son conocidos, la distribución a
posteriori de los parámetros pueden obtenerse mediante Gibbs sampler; y cuando
son desconocidos una alternativa sería un paso adicional de Metropolis-Hastings
para deducir la distribución a posteriori de los hiperparámetros.

3
Este trabajo tiene dos objetivos fundamentales. Primero, se propone la
implementación de una metodología para estimar el modelo GoM mixto utilizando
diferentes métodos de estimación: EM, MLE y MCMC con Gibbs sampler. En
segundo lugar, la aplicación de la metodología implementada para dar solución a
la problemática actual en el campo de las neurociencias y las ciencias forenses de
clasificar a los sujetos de conducta violenta y la estimación de sus perfiles de
comportamiento. Este trabajo forma parte del proyecto desarrollado en nuestro
país por un equipo multidisciplinario compuesto por el Centro de Neurociencias de
Cuba, Medicina Legal y el MININT denominado “Bases biológicas de la violencia”.
El estudio fue llevado a cabo en una población de reos cubanos, presos por
cometer crímenes de alta violencia, a los cuales se les recogieron una serie de
instrumentos que miden factores biosociales.

La estimación de los modelos GoM y GoM mixto permite realizar el diagnóstico de


los sujetos violentos así como determinar el perfil de comportamiento de los
mismos.

4
CAPÍTULO 1. MARCO TEÓRICO

En este capítulo se presenta el marco teórico, que brinda los antecedentes del
modelo de Grado de Membresía. En la sección 1.1 se discuten dos modelos
importantes que constituyeron el inicio del análisis de variables latentes para el
caso de datos categóricos: el modelo de Clases Latentes y el modelo de Teoría
de Respuesta al Ítem. En la sección 1.2 se desarrolla el modelo de Grado de
Membresía, que establece un marco teórico unificador de los modelos para el
análisis de variables latentes con el objetivo de determinar subpoblaciones. La
generalización de este modelo para la clasificación de los individuos según estas
subpoblaciones es también introducida. Finalmente, en la sección 1.3 se exponen
los métodos más populares para estimar los modelos de Grado de Membresía:
estimación por Máxima Verosimilitud, algoritmo Esperanza-Maximización y
métodos bayesianos.

1.1 Formulación estándar de modelos de estructuras latentes

Muchos conceptos, especialmente en el campo de las ciencias sociales y la


medicina, no pueden ser directamente observados o cuantificados, ya sea porque
se trata de un concepto abstracto o una característica subyacente (la calidad de
vida, el prejuicio racial, la inteligencia, la dependencia económica, etc.) o porque
no se cuenta con un valor exacto para su medición. Debido a lo anterior, tales
conceptos reciben el nombre de variables latentes, y su estudio se lleva a cabo
mediante variables observadas o manifiestas que se consideran indicadoras de
estas variables. La idea principal es que las variables indicadoras (también
referenciadas en la literatura como ítems) sirven para definir o medir la variable
latente.

El estudio de las variables latentes ha conllevado al surgimiento de los modelos de


variables latentes. Un modelo de variables latentes, se define simplemente como
un modelo estadístico que especifica la distribución conjunta de un conjunto de
variables aleatorias en el cual alguna de estas variables es latente.

5
Estos modelos consideran 𝐼𝐼 individuos, 𝐽𝐽 ítems y 𝑄𝑄 variables latentes (𝑧𝑧1 , … , 𝑧𝑧𝑄𝑄 ),
para 𝑄𝑄 < 𝐽𝐽. Se denota por 𝑥𝑥𝑖𝑖𝑖𝑖 la respuesta del 𝑖𝑖-ésimo individuo al 𝑗𝑗-ésimo ítem,
por 𝑥𝑥𝑗𝑗 el vector de respuestas al 𝑗𝑗-ésimo ítem y por 𝑥𝑥𝑖𝑖 el vector de respuestas del
individuo 𝑖𝑖-ésimo. 𝑍𝑍 representa la variable aleatoria latente, 𝑋𝑋 la variable aleatoria
de respuesta y 𝑥𝑥 una realización de ésta. Sean la distribución de probabilidad
condicional 𝑚𝑚(𝑥𝑥|𝑧𝑧) = 𝑃𝑃(𝑋𝑋 = 𝑥𝑥|𝑍𝑍 = 𝑧𝑧 ) y la función de densidad de 𝑍𝑍, representada
por ℎ(𝑧𝑧). Entonces, el modelo de variables latentes está dado por la siguiente
expresión:
𝑓𝑓(𝑥𝑥) ≝ 𝑃𝑃(𝑋𝑋 = 𝑥𝑥) = ∫ 𝑚𝑚(𝑥𝑥|𝑧𝑧)ℎ(𝑧𝑧)𝑑𝑑𝑑𝑑. (1.1)

El supuesto primordial en todo modelo de variables latentes es el principio de


Independencia Condicional o Local, el cual establece que dado un valor fijo de la
variable latente, las variables manifiestas o ítems son mutuamente
independientes, por lo que 𝑚𝑚(𝑥𝑥|𝑧𝑧) se descompone como un producto de
probabilidades condicionales marginales,
𝑚𝑚(𝑥𝑥|𝑧𝑧) = ∏𝐽𝐽𝑗𝑗 =1 𝑚𝑚𝑗𝑗 �𝑥𝑥𝑗𝑗 �𝑧𝑧�. (1.2)

Este supuesto implica que las variables latentes son las responsables de la
relación observada en las variables manifiestas, por lo tanto, no existe una
relación directa entre las variables manifiestas, estas están correlacionadas entre
sí, pero esta correlación desaparece si las variables latentes permanecen
constantes. En otras palabras, toda la asociación observada entre las variables
manifiestas, está medida o explicada por las variables latentes.

Considerando (1.1) y (1.2), el modelo de variables latentes toma la forma,


𝐽𝐽

𝑓𝑓(𝑥𝑥) = ∫ � 𝑚𝑚𝑗𝑗 �𝑥𝑥𝑗𝑗 �𝑧𝑧)ℎ(𝑧𝑧)𝑑𝑑𝑑𝑑.


𝑗𝑗 =1

Los modelos de variables latentes pueden clasificarse de acuerdo a la escala de


medida tanto de las variables manifiestas como de las variables latentes.
Siguiendo a Bartholomew y Knott (1999) [4], se considerará una doble clasificación
en variables métricas y categóricas. Se consideran variables métricas a aquellas

6
variables que toman valores en el conjunto de los números reales, pudiendo ser
tanto discretas como continuas; y variables categóricas a aquellas variables que
están formadas por un conjunto de categorías. Las variables categóricas no
necesitan ser nominales, también pueden considerarse variables ordinales o
variables de intervalo discretizadas.

De acuerdo a lo anterior se tiene el siguiente esquema de clasificación de


diferentes modelos desarrollados para el Análisis de Variables Latentes:

Variables Manifiestas o Ítems


Métricas Categóricas
Variables Métricas Análisis Factorial. Análisis de Rasgos Latentes.
Latentes Análisis Factorial de datos
Categóricos.
Categóricas Análisis de Análisis de Clases Latentes.
Perfiles Latentes. Modelo de Teoría de
Respuesta al Ítem.

Existe una extensa lista de trabajos que relacionan diversas conexiones entre los
modelos referidos anteriormente y otros modelos. En Lazarsfeld y Henry (1968)
[5], se enfatizan las diferencias entre el Análisis Factorial y el Análisis de
Estructuras Latentes. En Heinen (1996) [6] aparece un estudio de las relaciones
existentes entre el Modelo de Clases Latentes, el Modelo de Rasgos Latentes y
los Modelos log-lineales. En Bartholomew (1987) [7] y Bartholomew y Knott (1999)
[4] encontramos un excelente desarrollo de los modelos de variables latentes en
general, siendo estas fuentes de gran importancia para entender los conexiones
que existen entre los diferentes modelos y sus generalizaciones. En Uebersax
(1997) [8] se encuentra un extenso desarrollo del modelo de clases latentes,
aplicaciones del modelo en diversas áreas, múltiples referencias bibliográficas, y
se expone, mediante una aplicación, una de las tantas situaciones en las cuales el
supuesto de independencia condicional no es apropiado para explicar la estructura
de los datos.

7
En particular, en esta sección centramos la atención al caso de cuando las
variables manifiestas y latentes son categóricas. Los modelos de Clases Latentes
y de análisis de Teoría de Respuestas al Ítem son descritos a continuación.

1.1.1 Modelo de Clases Latentes

El modelo de Clases Latentes (MCL), supone que la población de individuos se


divide en un determinado número de clases latentes excluyentes y exhaustivas,
tantas como categorías tenga la variable latente, de forma que cada individuo
pertenece única y exclusivamente a una clase latente. En este sentido se puede
ver el Análisis de Clases Latentes (ACL), también nombrado de esta forma, como
un método estadístico para encontrar subtipos de casos relacionados (Clases
Latentes) dentro de un conjunto de datos multivariados categóricos. Desde el
punto de vista práctico, es utilizado para la determinación de subpoblaciones
dadas las respuestas a diferentes ítems. Muchas veces el ACL es usado de
manera análoga al Análisis de Clúster, es decir, dada una muestra de individuos
se desea conocer si existe un pequeño número de grupos básicos en los que se
pueda dividir la población.

Otro de los supuestos en un MCL es el que las clases latentes son internamente
homogéneas, es decir, todos los miembros de una clase latente tienen la misma
distribución de probabilidades con respecto a la variable latente, y ésta será
distinta a la distribución de probabilidades para los individuos pertenecientes a otra
clase, por lo que individuos de diferentes clases presentarán características
diferentes. Este hecho sirve para diferenciar a los individuos pertenecientes a
diferentes clases y poder caracterizar tanto la variable latente como las clases
latentes.

Modelo Básico de Clases Latentes:

Sea la matriz que contiene información de 𝑗𝑗 variables categóricas sobre una


muestra de 𝑖𝑖 individuos,

8
𝑥𝑥11 ⋯ 𝑥𝑥1𝑗𝑗
𝑋𝑋 = � ⋮ ⋱ ⋮ �,
𝑥𝑥𝑖𝑖1 ⋯ 𝑥𝑥𝑖𝑖𝑖𝑖
donde cada fila de la matriz contiene el conjunto de respuestas de un individuo
dado para cada uno de los ítems, conocido como respuesta o patrón de respuesta.
Dependiendo de si las variables manifiestas son binarias o politómicas (más de
dos niveles de respuesta), existirá un número distinto de patrones de respuesta.
Esta matriz también se puede presentar en forma de una tabla de contingencia.

El Modelo de Clases Latentes (MCL) considera esencialmente las relaciones entre


las 𝐽𝐽 variables manifiestas politómicas y un conjunto de 𝑄𝑄 variables latentes, cada
una de las cuales está formada por 𝐶𝐶𝑞𝑞 categorías o clases latentes, 𝑞𝑞 = 1, … , 𝑄𝑄.
Bajo este punto de vista, el MCL se puede definir como un modelo estadístico que
estudia las relaciones entre las variables que conforman una tabla de
contingencia, considerando para lo anterior un conjunto de 𝑞𝑞 variables latentes.

Una de las ventajas del MCL es el hecho de que para el desarrollo teórico del
modelo es suficiente considerar sólo una variable latente, ya que modelos con
más de una variable latente (𝑄𝑄 > 1) pueden ser desarrollados considerando 𝑄𝑄 = 1
bajo adecuadas restricciones a los parámetros del modelo [9]. En base a la
afirmación anterior, se presentará el MCL considerando una única variable latente
𝑍𝑍 con 𝐶𝐶 categorías o clases latentes.

Se considera un conjunto de 𝐽𝐽 variables manifiestas 𝑋𝑋1 , … , 𝑋𝑋𝐽𝐽 que se consideran


indicadoras de una variable latente 𝑍𝑍; y que estas variables conforman un MCL
con 𝐶𝐶 clases. Sea 𝜋𝜋𝑋𝑋 (𝑥𝑥) la densidad conjunta de las variables manifiestas, donde
(𝑥𝑥1 , … , 𝑥𝑥𝐽𝐽 ) denota un determinado patrón de respuesta en el cual cada 𝑥𝑥𝑗𝑗 toma
diferentes valores dependiendo de las categorías de la correspondiente variable
manifiesta. En el contexto del presente trabajo, cada 𝑋𝑋𝑗𝑗 contiene 𝐿𝐿𝑗𝑗 categorías,
𝑗𝑗 = 1, … , 𝐽𝐽, por lo que las variables manifiestas conforman una tabla de
𝐽𝐽
contingencia con ∏𝑗𝑗 =1 𝐿𝐿𝑗𝑗 patrones de respuesta. Por el principio de independencia
local, la densidad condicional 𝑃𝑃(𝑋𝑋 = 𝑥𝑥 |𝑍𝑍 = 𝑐𝑐) está dada por,

9
𝐽𝐽

𝜋𝜋𝑋𝑋|𝑍𝑍(𝑐𝑐) (𝑥𝑥) = � 𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) (𝑥𝑥𝑗𝑗 ),


𝑗𝑗 =1

Donde 𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 � ≝ 𝑃𝑃�𝑋𝑋𝑗𝑗 = 𝑥𝑥𝑗𝑗 �𝑍𝑍 = 𝑐𝑐�, 𝑥𝑥𝑗𝑗 = 1, … , 𝐿𝐿𝑗𝑗 ; 𝑐𝑐 = 1, … 𝐶𝐶.

La distribución conjunta de 𝑋𝑋 e 𝑍𝑍, denotada 𝜋𝜋𝑋𝑋,𝑍𝑍 (𝑥𝑥, 𝑐𝑐), es obtenida como,


𝜋𝜋𝑋𝑋,𝑍𝑍 (𝑥𝑥, 𝑐𝑐) = 𝜋𝜋𝑍𝑍 (𝑐𝑐)𝜋𝜋𝑋𝑋|𝑍𝑍(𝑐𝑐) (𝑥𝑥),
donde 𝜋𝜋𝑍𝑍 (𝑐𝑐) = 𝑃𝑃(𝑍𝑍 = 𝑐𝑐), representa la proporción de individuos que se encuentran
en la clase latente 𝑐𝑐, 𝑐𝑐 = 1, … , 𝐶𝐶, también conocida como probabilidad a priori.

Utilizando las expresiones anteriores, el modelo de clases latentes puede ser


escrito como,
𝜋𝜋𝑋𝑋 (𝑥𝑥) = ∑𝐶𝐶𝑐𝑐=1 𝜋𝜋𝑋𝑋,𝑍𝑍 (𝑥𝑥, 𝑐𝑐) ; (1.3)
o equivalentemente,

𝜋𝜋𝑋𝑋 (𝑥𝑥) = ∑𝐶𝐶𝑐𝑐=1 𝜋𝜋𝑍𝑍 (𝑐𝑐)𝜋𝜋𝑋𝑋|𝑍𝑍(𝑐𝑐) (𝑥𝑥) = ∑𝐶𝐶𝑐𝑐=1 �𝜋𝜋𝑍𝑍 (𝑐𝑐) ∏𝐽𝐽𝑗𝑗 =1 𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) (𝑥𝑥𝑗𝑗 )� , (1.4)

donde los parámetros están sujetos a las siguientes restricciones:

𝐶𝐶 𝐿𝐿𝑗𝑗

� 𝜋𝜋𝑍𝑍 (𝑐𝑐) = 1; � 𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 � = 1, 𝑗𝑗 = 1, … , 𝐽𝐽; 𝑐𝑐 = 1, … , 𝐶𝐶.


𝑐𝑐=1 𝑋𝑋 𝑗𝑗 =1

Como se puede observar en la expresión (1.4), el ACL supone un modelo


paramétrico y utiliza los datos observados para estimar los siguientes parámetros
del modelo:

a) La probabilidad de cada una de las clases latentes: 𝜋𝜋𝑌𝑌 (𝑐𝑐), 𝑐𝑐 = 1, … , 𝐶𝐶.

b) Las probabilidades de respuesta condicional de cada una de las variables


manifiestas dentro de cada clase latente: 𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 �, 𝑗𝑗 = 1, … , 𝐽𝐽; 𝑐𝑐 = 1, … , 𝐶𝐶;

𝑥𝑥𝑗𝑗 = 1, … , 𝐿𝐿𝑗𝑗 .

La expresión en (1.3) implica que la población puede ser dividida en 𝐶𝐶 clases


latentes exhaustivas y exclusivas, por lo tanto, la probabilidad conjunta de las

10
variables manifiestas puede ser obtenida sumando sobre la dimensión latente. En
este sentido, esta expresión implica la existencia de una variable latente.

La representación gráfica del MCL descrito anteriormente se encuentra en la


figura 1.1. La dirección de las flechas en el grafo, muestra que las variables
manifiestas se consideran indicadoras de la variable latente, en el sentido de que
estas reflejan un aspecto del concepto subyacente (latente) que estamos
midiendo; posibles cambios en el valor de las variables indicadoras no alteran el
valor de la variable latente, sino que, los cambios en la variable latente se ven
reflejados o manifestados en las variables indicadoras sin que esto signifique que
exista un efecto causal.

𝑋𝑋1 𝑋𝑋2 ⋯⋯ 𝑋𝑋𝐽𝐽

Figura 1.1: Representación gráfica de un MCL formado por una variable latente y 𝐽𝐽 ítems.

El análisis posterior del modelo de clases latentes está relacionado con lo que se
puede decir acerca de los individuos que pertenecen a una clase determinada. A
partir de considerar la distribución a posteriori, los individuos se clasifican dentro
de la clase latente más probable, toda la información relevante en cuanto a este
tema está contenida en esta distribución. Aplicando la definición de probabilidad
condicional se tiene,

𝜋𝜋 𝑋𝑋 ,𝑌𝑌 (𝑥𝑥,𝑐𝑐) 𝜋𝜋 𝑌𝑌 (𝑥𝑥)𝜋𝜋 𝑋𝑋 |𝑌𝑌 (𝑐𝑐) (𝑥𝑥)


𝝅𝝅𝑌𝑌|𝑋𝑋(𝑥𝑥) (𝑐𝑐) = 𝜋𝜋 𝑋𝑋 (𝑥𝑥)
= (1.5)
𝜋𝜋 𝑋𝑋 (𝑥𝑥)

11
En la práctica, para cada patrón de respuesta 𝑥𝑥 se inspecciona este conjunto de
probabilidades, y se asigna el individuo a la clase latente en la cual esta
probabilidad es mayor.

1.1.2 Modelo de Teoría de Respuesta al Ítem

La Teoría de Respuesta al Ítem (IRT, por sus siglas en inglés) es un desarrollo


reciente de la psicometría (disciplina dentro de la psicología que se encarga de la
medición: asignar un valor numérico a las características de las personas), y como
tal se refiere también a un modelo matemático propuesto para medir el
funcionamiento mental humano (conocimiento, habilidades o personalidad).

El origen de la Teoría de Respuesta al Ítem se asocia con el trabajo del


matemático danés Georg Rasch. El modelo considera que se tienen 𝐼𝐼 individuos y
𝐽𝐽 ítems. Se denota por 𝑥𝑥𝑖𝑖𝑖𝑖 la respuesta del 𝑖𝑖-ésimo individuo al ítem 𝑗𝑗-ésimo; la
respuesta toma valor 1 si el individuo responde al ítem correctamente y toma valor
0 en otro caso.

La Teoría de Respuesta al Ítem utiliza un modelo matemático logístico para


describir la relación entre el nivel de habilidad del individuo y la probabilidad que
éste dé una respuesta correcta a un ítem del test.

El modelo logístico de tres-parámetros expuesto por Lord (1980) [11] asume que

𝑃𝑃�𝑥𝑥𝑖𝑖𝑖𝑖 = 1�𝜃𝜃𝑖𝑖 , 𝑎𝑎𝑗𝑗 , 𝑏𝑏𝑗𝑗 , 𝑐𝑐𝑗𝑗 ) = 𝑐𝑐𝑗𝑗 + �1 − 𝑐𝑐𝑗𝑗 �𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑡𝑡 −1 �𝑎𝑎𝑗𝑗 �𝜃𝜃𝑖𝑖 − 𝑏𝑏𝑗𝑗 ��,
𝑒𝑒𝑒𝑒𝑒𝑒 ⁡
(𝑥𝑥)
donde 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑡𝑡 −1 (𝑥𝑥) = 1+𝑒𝑒𝑒𝑒𝑒𝑒 ⁡(𝑥𝑥) , 𝑎𝑎𝑗𝑗 , 𝑏𝑏𝑗𝑗 , 𝑐𝑐𝑗𝑗 se definen respectivamente como los

parámetros de pendiente, dificultad y conjetura del 𝑗𝑗-ésimo ítem, y 𝜃𝜃𝑖𝑖 es el


parámetro de competencia o habilidad para el individuo 𝑖𝑖-ésimo. En la literatura, el
parámetro 𝑎𝑎𝑗𝑗 también es referenciado parámetro discriminante del ítem.

El modelo de Rasch (1960) [10], también referenciado como el modelo logístico de


un-parámetro, viene dado por

𝑃𝑃�𝑥𝑥𝑖𝑖𝑖𝑖 = 1�𝜃𝜃𝑖𝑖 , 𝑎𝑎, 𝑏𝑏𝑗𝑗 ) = 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑡𝑡 −1 �𝑎𝑎�𝜃𝜃𝑖𝑖 − 𝑏𝑏𝑗𝑗 �� ;

12
y el modelo logístico de dos-parámetros descrito por Birnbaum (1968) [12], es

𝑃𝑃�𝑦𝑦𝑖𝑖𝑖𝑖 = 1�𝜃𝜃𝑗𝑗 , 𝑎𝑎𝑖𝑖 , 𝑏𝑏𝑖𝑖 ) = 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑡𝑡 −1 �𝑎𝑎𝑖𝑖 �𝜃𝜃𝑗𝑗 − 𝑏𝑏𝑖𝑖 ��.

Los tres modelos anteriores son los más populares en psicometría y las
compañías de prueba alrededor del mundo usan estos modelos operacionalmente.

1.2 Formulación del Modelo GoM

A partir de los trabajos desarrollados por Woodbury en 1970, se introdujo un


modelo multivariado para clasificación médica. Este modelo se denominó Modelo
de Grado de Membresía (GoM); y tiene como ventaja con respecto a los dos
anteriores que puede ser utilizado cuando el número de variables manifiestas es
grande y cuando las frecuencias observadas en las celdas son pequeñas. En la
sección 1.2.1 se introduce la formulación matemática del modelo dentro del marco
teórico de Modelos de Clases Latentes descrita por Erosheva (2002) [2]. Los
supuestos de este modelo coinciden con los vistos para los dos modelos
anteriores. Además, Erosheva en su trabajo en el 2004 [13] derivó una
generalización a partir de considerar la posibilidad de una membresía mixta de
una observación. Este supuesto permite la aplicación del modelo GoM para el
caso de poblaciones heterogéneas y mezcladas (múltiples subpoblaciones no
disjuntas). La generalización de este modelo es descrita en la sección 1.2.2.

1.2.1 Formulación Estándar del Modelo GoM

La estructura de los datos viene dada por una colección de respuestas


individuales (sujetos) para un número de variables discretas (ítems). Se asume
que las respuestas individuales constituyen una muestra aleatoria de una
población de interés, y los ítems se consideran fijos. Una encuesta es un típico
ejemplo que cumple con esta estructura de datos.

El modelo GoM asume que la población puede ser caracterizada por perfiles
extremos (subpoblaciones). Los perfiles extremos se definen a partir de la
probabilidad de respuesta condicional para cada ítem. Los sujetos están

13
caracterizados por los scores de membresía, los cuales indican porcentajes de
pertenencia a cada uno de los perfiles extremos.

Sean 𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖 las respuestas discretas al considerar 𝐽𝐽 ítems politómicos (con más de
dos niveles de respuesta) para 𝐼𝐼 individuos, definiendo en la variable binaria:

1, 𝑠𝑠𝑠𝑠 𝑒𝑒𝑒𝑒 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑖𝑖 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑎𝑎𝑎𝑎 í𝑡𝑡𝑡𝑡𝑡𝑡 𝑗𝑗 𝑒𝑒𝑒𝑒 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐í𝑎𝑎 𝑙𝑙


𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖 = � ,
0, 𝑒𝑒𝑒𝑒 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
donde 𝑖𝑖 = 1, ⋯ , 𝐼𝐼; 𝑗𝑗 = 1, ⋯ , 𝐽𝐽; 𝑙𝑙 = 1, ⋯ , 𝐿𝐿𝑗𝑗 . La variable 𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖 también denota la
correspondiente variable aleatoria binaria.

Supongamos la existencia de 𝐾𝐾 perfiles extremos en la población. Además, que


cada sujeto puede ser caracterizado por un vector de scores de membresía
𝑔𝑔𝑖𝑖 = (𝑔𝑔𝑖𝑖1 , ⋯ , 𝑔𝑔𝑖𝑖𝑖𝑖 ), donde la 𝑘𝑘-ésima componente corresponde al score de
membresía para el 𝑘𝑘-ésimo perfil extremo. Los scores de membresía son no
negativos y cumplen
𝐾𝐾

� 𝑔𝑔𝑖𝑖𝑖𝑖 = 1, ∀𝑖𝑖 = 1, ⋯ , 𝐼𝐼.


𝑘𝑘=1

La probabilidad de respuesta del perfil extremo, denotada por 𝜆𝜆𝑘𝑘𝑘𝑘𝑘𝑘 , es la


probabilidad de responder en la categoría 𝑙𝑙 la pregunta 𝑗𝑗 para un miembro
completo del 𝑘𝑘-ésimo perfil extremo:

𝜆𝜆𝑘𝑘𝑘𝑘𝑘𝑘 = 𝑃𝑃�𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖 = 1�𝑔𝑔𝑖𝑖𝑖𝑖 = 1).

Para completar la formulación del modelo GoM se necesita añadir algunas


suposiciones [2]:

1. La probabilidad condicional de que el individuo 𝑖𝑖 responda a la pregunta 𝑗𝑗 en la


categoría 𝑙𝑙, dado los scores de membresía viene dada por:

𝑃𝑃�𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖 = 1| 𝑔𝑔𝑖𝑖 � = ∑𝐾𝐾𝑘𝑘=1 𝑔𝑔𝑖𝑖𝑖𝑖 ∙ 𝜆𝜆𝑘𝑘𝑘𝑘𝑘𝑘 .

2. Las respuestas 𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖 son independientes para diferentes valores de 𝑗𝑗.

3. Las respuestas 𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖 son independientes para diferentes valores de 𝑖𝑖.

14
4. Los scores de membresía, 𝑔𝑔𝑖𝑖𝑖𝑖 , son realizaciones de las componentes de un
vector aleatorio con alguna distribución 𝐷𝐷(𝑔𝑔).

De esta forma el Modelo Grado de Membresía formulado completamente por


Erosheva introduce un marco teórico unificado para cualquier alternativa
desarrollada con anterioridad para el análisis de datos categóricos con estructura
latente [2].

1.2.2 Formulación del Modelo GoM Mixto

El problema de clasificación cuando se desconocen las subpoblaciones se


enmarca en el tradicional problema canónico de clúster. Fienberg y Erosheva
introducen [14] una metodología, que generaliza el modelo GoM al caso de
subpoblaciones o perfiles desconocidos, llamado modelo Grado de Membresía
Mixta.

La forma tradicional del problema canónico de clúster parte de tener 𝐼𝐼 unidades de


objetos medidos en 𝐽𝐽 variables; y pretende asignar las unidades a 𝑄𝑄 grupos;
donde la naturaleza, tamaño, y a veces el número de grupos no se especifica.

El modelo GoM estándar plantea que si 𝑋𝑋 = (𝑋𝑋1 , ⋯ , 𝑋𝑋𝐽𝐽 ) es una muestra de 𝐽𝐽


características de alguna distribución conjunta subyacente 𝑃𝑃(𝑥𝑥|𝜃𝜃) y se asume que
cada muestra viene de uno de los 𝑄𝑄 grupos; entonces se estima 𝑃𝑃(𝑥𝑥|𝜃𝜃) indicando
pertenencia o no al mismo. La distribución del 𝑞𝑞-ésimo grupo se representa por
𝑃𝑃𝑞𝑞 (𝑥𝑥|𝜃𝜃) y se utiliza la distribución 𝑃𝑃(𝑥𝑥|𝜃𝜃) = ∑𝑄𝑄𝑞𝑞=1 𝜋𝜋𝑞𝑞 𝑃𝑃𝑞𝑞 (𝑥𝑥|𝜃𝜃), donde 𝜋𝜋𝑞𝑞 y 𝜃𝜃 son los
parámetros.

A partir de que se introduce la generalización que cada sujeto puede pertenecer a


más de un grupo, se considera que tiene membresía mixta, y el problema se
soluciona asignando pesos o números reales no negativos cuya suma es igual a 1.

La formulación de esta generalización se basa en 4 niveles de suposiciones:


población, sujeto, variable latente y esquema de muestreo. En el nivel de
población se describe la estructura general de la población que es común a cada

15
sujeto; mientras que en el nivel de sujeto, se especifica la distribución de las
respuestas observadas dados los scores de membresía individual. En el nivel de
variable latente, se declara si los scores de membresía son considerados fijos o
aleatorios con alguna distribución. En el nivel de esquema de muestreo, se
especifica el número de las distintas características observadas y el número de
replicaciones para cada característica.

• Nivel de población: Se asume que hay 𝐾𝐾 subpoblaciones base en la


población de interés. Para cada subpoblación 𝑘𝑘, se denota por 𝑓𝑓�𝑥𝑥𝑗𝑗 �𝜃𝜃𝑘𝑘𝑘𝑘 ) la
distribución de probabilidad para la 𝑗𝑗-ésima variable derespuesta; donde 𝜃𝜃𝑘𝑘𝑘𝑘
es el vector de parámetros. Además, se asume que dentro de una
subpoblaciónlas respuestas para las variables observadas son
independientes.
• Nivel de sujeto: Para cada sujeto, el vector de membresía, 𝑔𝑔 = (𝑔𝑔1 , ⋯ , 𝑔𝑔𝐾𝐾 ),
representa el grado de la membresía del sujeto en cada una de las
subpoblaciones. La forma de la probabilidad condicional,
𝑃𝑃�𝑥𝑥𝑗𝑗 �𝑔𝑔) = ∑𝑘𝑘 𝑔𝑔𝑘𝑘 𝑓𝑓�𝑥𝑥𝑗𝑗 �𝜃𝜃𝑘𝑘𝑘𝑘 ), combinada con la suposición que las variables de
respuesta 𝑥𝑥𝑗𝑗 tienen independencia condicional en los scores de membresía;
define la distribución de las respuestas observadas 𝑥𝑥𝑗𝑗 para cada sujeto.
Además, dados los scores de membresía, se toman las respuestas
observadas de diferentes sujetos para que sean independientes.
• Nivel de variable latente: Podemos asumir que las variables latentes son
constantes desconocidas fijas o que son realizaciones aleatorias de alguna
distribución subyacente. A continuación se describe las 2 posibles
alternativas.

1. Si los scores de membresía 𝑔𝑔 son fijos, pero desconocidos, entonces


𝑃𝑃�𝑥𝑥𝑗𝑗 �𝑔𝑔; 𝜃𝜃) = ∑𝐾𝐾𝑘𝑘=1 𝑔𝑔𝑘𝑘 𝑓𝑓�𝑥𝑥𝑗𝑗 �𝜃𝜃𝑘𝑘𝑘𝑘 ) es la probabilidad condicional de observar
𝑥𝑥𝑗𝑗 , dados los scores de membresía 𝑔𝑔 y los parámetros 𝜃𝜃.

16
2. Si los scores de membresía 𝑔𝑔 son realizaciones de variables latentes de
alguna distribución 𝐷𝐷𝛼𝛼 , parametrizada por 𝛼𝛼, entonces la probabilidad
marginal de observar 𝑥𝑥𝑗𝑗 dados los parámetros, tiene la forma:

𝐾𝐾

𝑃𝑃�𝑥𝑥𝑗𝑗 �𝛼𝛼; 𝜃𝜃 � = ∫ �� 𝑔𝑔𝑘𝑘 𝑓𝑓�𝑥𝑥𝑗𝑗 �𝜃𝜃𝑘𝑘𝑘𝑘 )� 𝑑𝑑𝐷𝐷𝛼𝛼 (𝑔𝑔).


𝑘𝑘=1

• Nivel de esquema de muestreo: Se supone la observación de 𝑅𝑅 réplicas


independientes de 𝐽𝐽 características distintas para un sujeto,
(𝑟𝑟) (𝑟𝑟) 𝑅𝑅
�𝑥𝑥1 , ⋯ , 𝑥𝑥𝐽𝐽 � . Si los scores de membresía son realizaciones de la
𝑟𝑟=1

distribución 𝐷𝐷𝛼𝛼 , la probabilidad condicional es:


𝐽𝐽 𝑅𝑅 𝐾𝐾
(𝑟𝑟) (𝑟𝑟) 𝑅𝑅 (𝑟𝑟)
𝑃𝑃 ��𝑥𝑥1 , ⋯ , 𝑥𝑥𝐽𝐽 � | 𝛼𝛼; 𝜃𝜃� = ∫ �� � � 𝑔𝑔𝑘𝑘 𝑓𝑓�𝑥𝑥𝑗𝑗 �𝜃𝜃𝑘𝑘𝑘𝑘 )� 𝑑𝑑𝐷𝐷𝛼𝛼 (𝑔𝑔).
𝑟𝑟=1
𝑗𝑗 =1 𝑟𝑟=1 𝑘𝑘=1

Si se tratan las variables latentes como constantes desconocidas, se


obtiene una representación análoga para la probabilidad condicional de las
𝑅𝑅 replicaciones observadas de las 𝐽𝐽 variables. En general, el número de
características observadas 𝐽𝐽 no necesitan ser las mismas en todos los
sujetos, y el número de replicaciones 𝑅𝑅 no necesita ser el mismo para todas
las características observadas.

Este marco del modelo de Membresía Mixta unifica varios modelos que han sido
desarrollados independientemente en las ciencias sociales y en genética. Cada
uno corresponde a diferentes elecciones de 𝐽𝐽 y 𝑅𝑅, y diferentes suposiciones de
variables latentes. Por ejemplo, el modelo GoM estándar de Woodbury y Clive
(1974) [15] y Manton (1994) [16] asume la observación de respuestas a 𝐽𝐽
preguntas reconocidas sin replicaciones (𝑅𝑅 = 1), y trata los scores de membresía
como constantes fijas desconocidas [13].

17
1.3 Métodos de estimación

Los principales métodos de estimación desarrollados para el modelo GoM han


sido: Máxima Verosimilitud, algoritmo Esperanza-Maximización y el método
bayesiano de Montecarlo con Cadenas de Markov (MCMC).

El método de estimación por Máxima Verosimilitud ha sido el más utilizado para


estimar el modelo de Grado de Membresía. Los dos métodos basados en el
cálculo de la función de verosimilitud (el de Máxima Verosimilitud y el algoritmo
Esperanza-Maximización (EM)) son explicados en la sección 1.3.1 y 1.3.2
respectivamente. Sin embargo, cuando la dimensión de los datos incrementa y el
grado de esparcidad es notable, estos dos métodos son poco ventajosos. Los
algoritmos de estimación por Máxima Verosimilitud pueden comprometer la
estabilidad del sistema si las matrices Hessianas están mal condicionadas
alrededor de los puntos críticos, situación que ocurre frecuentemente si el número
de variables es alto. El algoritmo EM, generalmente, se mueve hacia soluciones
con valores superiores de log-verosimilitud, pero su convergencia linealmente no
permite que sea un método de estimación óptimo. Una alternativa para superar
estas limitaciones ha sido la utilización de métodos bayesianos [2]. En la sección
1.3.3 se desarrolla el algoritmo Gibbs sampler, que es un caso especial del
método bayesiano de Montecarlo con Cadenas de Markov (MCMC).

1.3.1 MLE

La estimación por Máxima Verosimilitud (MLE, por sus siglas en inglés) es un


método habitual para ajustar un modelo y calcular sus parámetros. Fue
recomendado, analizado y popularizado por Fisher entre 1912 y 1922, aunque
había sido utilizado antes por matemáticos como Gauss y Laplace.

Dada una muestra de 𝐼𝐼 observaciones independientes 𝑥𝑥 = (𝑥𝑥1 , … , 𝑥𝑥𝐼𝐼 ) extraídas de


una función de distribución desconocida con función de densidad 𝑓𝑓 (𝑓𝑓 pertenece a
una familia de distribuciones). Se desea encontrar el valor θ�, que maximiza la
función de verosimilitud 𝐿𝐿(𝜃𝜃|𝑥𝑥) = ∏𝐼𝐼𝑖𝑖=1 𝑓𝑓(𝑥𝑥𝑖𝑖 |𝜃𝜃).

18
En la práctica, se suele utilizar el logaritmo de esta función:

𝐼𝐼

𝑙𝑙(𝜃𝜃|𝑥𝑥) = 𝑙𝑙𝑙𝑙(𝐿𝐿(𝜃𝜃|𝑥𝑥)) = � 𝑙𝑙𝑙𝑙(𝑓𝑓(𝑥𝑥𝑖𝑖 |𝜃𝜃)).


𝑖𝑖=1

El método de Máxima Verosimilitud busca el valor de 𝜃𝜃 que maximiza 𝑙𝑙(𝜃𝜃|𝑥𝑥).


Además, el valor 𝜃𝜃�𝑚𝑚𝑚𝑚𝑚𝑚 = 𝑎𝑎𝑎𝑎𝑎𝑎 𝑚𝑚𝑚𝑚𝑚𝑚𝜃𝜃 𝑙𝑙(𝜃𝜃|𝑥𝑥) es llamado estimador máximo verosímil.

1.3.2 EM

El algoritmo Esperanza-Maximización fue introducido explícitamente por Hartley


en 1958 y es tratado como el algoritmo más adecuado para estimar un modelo de
Clases Latentes [17, 18].

Es un proceso iterativo para el cálculo del estimador máximo verosímil 𝜃𝜃 asociado


a la función de verosimilitud de los datos observados 𝐿𝐿(𝜃𝜃|𝑥𝑥). Parte de una primera
aproximación 𝜃𝜃 (0) , y la iteración 𝑚𝑚-ésima (𝑚𝑚 = 1, 2, … ) consta de dos etapas:

• Etapa E (Esperanza): Consiste en calcular


𝑄𝑄(𝜃𝜃|𝜃𝜃 (𝑚𝑚 ) ) ≝ 𝐸𝐸�𝑙𝑙(𝜃𝜃|𝑍𝑍, 𝑥𝑥)| 𝑥𝑥, 𝜃𝜃 (𝑚𝑚 ) �.
• Etapa M (Maximización): Consiste en obtener 𝜃𝜃� que maximiza a 𝜃𝜃 en
𝑄𝑄(𝜃𝜃|𝜃𝜃 (𝑚𝑚 ) ).

donde, 𝑙𝑙(𝜃𝜃|𝑧𝑧, 𝑥𝑥) es la función de log-verosimilitud para las observaciones 𝑥𝑥 con la


variable latente 𝑍𝑍 y 𝑄𝑄(𝜃𝜃|𝜃𝜃 (𝑚𝑚 ) ) = ∫𝑧𝑧 𝑙𝑙(𝜃𝜃|𝑧𝑧, 𝑥𝑥)𝑓𝑓(𝑧𝑧|𝑥𝑥, 𝜃𝜃 (𝑚𝑚 ) )𝑑𝑑𝑑𝑑.

Como en todo proceso iterativo es preciso especificar un criterio de parada que


pueda estar basada en una distancia entre 𝜃𝜃 (𝑚𝑚 +1) y 𝜃𝜃 (𝑚𝑚 ) , o mejor entre
𝑄𝑄�𝜃𝜃 (𝑚𝑚 ) �𝜃𝜃 (𝑚𝑚 ) ) y 𝑄𝑄�𝜃𝜃 (𝑚𝑚 +1) �𝜃𝜃 (𝑚𝑚 ) ) que defina las condiciones en las que se supone
alcanzada la convergencia.

Las dificultades cuando se aplica este algoritmo pueden presentarse en el cálculo


de la esperanza 𝐸𝐸�𝑙𝑙(𝜃𝜃|𝑍𝑍, 𝑥𝑥)| 𝑥𝑥, 𝜃𝜃 (𝑚𝑚 ) �, la cual incluso puede no existir. De hecho, si
el soporte de la distribución de 𝑍𝑍 depende del valor del parámetro 𝜃𝜃, 𝑓𝑓(𝑧𝑧|𝑥𝑥, 𝜃𝜃)

19
puede valer 0 bajo la distribución condicionada a 𝜃𝜃 (𝑚𝑚 ) , en esa región log(𝑓𝑓(𝑧𝑧|𝑥𝑥, 𝜃𝜃))
no existe por lo que no es posible calcular la esperanza.

Estimación Máxima Verosímil utilizando el algoritmo EM:

En Goodman (1974) [9] se muestra una forma para obtener los estimadores de los
parámetros, en efecto: de las definiciones de 𝜋𝜋𝑍𝑍 (𝑐𝑐) y 𝜋𝜋𝑋𝑋,𝑍𝑍 (𝑥𝑥, 𝑐𝑐) se tiene,

𝐿𝐿 𝐿𝐿 𝐿𝐿
𝜋𝜋𝑍𝑍 (𝑐𝑐) = ∑𝑥𝑥 𝜋𝜋𝑋𝑋,𝑍𝑍 (𝑥𝑥, 𝑐𝑐) = ∑𝑥𝑥11 =1 ∑𝑥𝑥22 =1 … ∑𝑥𝑥𝐽𝐽𝐽𝐽 =1 𝜋𝜋𝑋𝑋,𝑍𝑍 (𝑥𝑥, 𝑐𝑐). (1.6)

Utilizando la definición de probabilidad condicional 𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) (𝑥𝑥𝑗𝑗 ) se puede ver que,

𝜋𝜋𝑍𝑍 (𝑐𝑐)𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 � = ∑�𝑋𝑋−𝑋𝑋 𝑗𝑗 � 𝜋𝜋𝑋𝑋,𝑍𝑍 (𝑥𝑥, 𝑐𝑐)

𝐿𝐿 𝐿𝐿 𝐿𝐿 𝐿𝐿
= ∑𝑥𝑥11 =1 … ∑𝑥𝑥𝑗𝑗𝑗𝑗 −1 ∑𝑥𝑥𝑗𝑗 +1 =1 … ∑𝑋𝑋𝐽𝐽 =1 𝜋𝜋𝑋𝑋,𝑍𝑍 (𝑥𝑥, 𝑐𝑐) (1.7)
−1 =1 𝑗𝑗 +1 𝐽𝐽

donde la notación {𝑋𝑋 − 𝑋𝑋𝑗𝑗 } significa que se suma sobre los niveles de respuesta de
todas las variables menos sobre los niveles de la variable 𝑋𝑋𝑗𝑗 .

Luego, de (1.5), las expresiones (1.6) y (1.7) pueden reescribirse como

𝐿𝐿 𝐿𝐿 𝐿𝐿
𝜋𝜋𝑍𝑍 (𝑐𝑐) = ∑𝑥𝑥11 =1 ∑𝑥𝑥22 =1 … ∑𝑥𝑥𝐽𝐽𝐽𝐽 =1 𝜋𝜋𝑋𝑋 (𝑥𝑥)𝜋𝜋𝑍𝑍|𝑋𝑋(𝑥𝑥) (𝑐𝑐) , (1.8)

𝐿𝐿 𝐿𝐿 𝑗𝑗 −1 𝐿𝐿 𝑗𝑗 +1 𝐿𝐿 𝐽𝐽
∑𝑥𝑥 1 =1 … ∑𝑥𝑥 ∑𝑥𝑥 … ∑𝑋𝑋 =1 𝜋𝜋 𝑋𝑋 (𝑥𝑥)𝜋𝜋 𝑍𝑍|𝑋𝑋 (𝑥𝑥 ) (𝑐𝑐)
1 𝑗𝑗 −1 =1 𝑗𝑗 +1 =1 𝐽𝐽
𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 � = . (1.9)
𝜋𝜋 𝑍𝑍 (𝑐𝑐)

Las expresiones (1.8) y (1.9) dependen de las probabilidades a posteriori


𝜋𝜋𝑍𝑍|𝑋𝑋(𝑥𝑥) (𝑐𝑐). Si se asume que los valores de estas probabilidades están disponibles,
se pueden obtener los estimadores de los parámetros en (1.8) y (1.9) utilizando
para la expresión 𝜋𝜋𝑋𝑋 (𝑥𝑥) las proporciones observadas en la tabla de contingencia
para cada patrón de respuesta, denotadas 𝑝𝑝𝑋𝑋 (𝑥𝑥). Así, (1.8) y (1.9) se pueden
expresar como

𝐿𝐿1 𝐿𝐿2 𝐿𝐿𝐽𝐽

𝜋𝜋�𝑍𝑍 (𝑐𝑐) = � � … � 𝑝𝑝𝑋𝑋 (𝑥𝑥)𝜋𝜋𝑍𝑍|𝑋𝑋(𝑥𝑥) (𝑐𝑐) ,


𝑥𝑥 1 =1 𝑥𝑥 2 =1 𝑥𝑥 𝐽𝐽 =1

20
𝐿𝐿 𝐿𝐿 𝐿𝐿
∑𝐿𝐿𝑥𝑥11 =1 … ∑𝑥𝑥𝑗𝑗 −1 =1 ∑𝑥𝑥𝑗𝑗 +1 =1 … ∑𝑋𝑋𝐽𝐽 =1 𝑝𝑝𝑋𝑋 (𝑥𝑥)𝜋𝜋𝑍𝑍|𝑋𝑋(𝑥𝑥) (𝑐𝑐)
𝑗𝑗 −1 𝑗𝑗 +1 𝐽𝐽
𝜋𝜋�𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 � = .
𝜋𝜋�𝑍𝑍 (𝑐𝑐)

Luego, estas expresiones permiten obtener estimadores tentativos de los


parámetros, y estos valores se pueden insertar en (1.5) para obtener 𝜋𝜋�𝑍𝑍|𝑋𝑋(𝑥𝑥) (𝑐𝑐), es
decir, se opera bajo el algoritmo EM para obtener nuevamente 𝜋𝜋�𝑍𝑍 (𝑐𝑐) y 𝜋𝜋�𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 �,

para 𝑐𝑐 = 1, … , 𝐶𝐶; 𝑗𝑗 = 1, … , 𝐽𝐽; 𝑥𝑥𝑗𝑗 = 1, … , 𝐿𝐿𝑗𝑗 .

Convergencia del algoritmo EM:

En la formulación anterior, lógicamente el número de iteraciones del algoritmo


variará dependiendo de los valores iniciales asignados. El número de iteraciones
necesarias para la convergencia del método será menor si estos valores iniciales
se encuentran “cercanos” a los valores alcanzados por el estimador máximo
verosímil.

Debido a la tecnología computacional existente en la actualidad, la asignación de


los valores iniciales no es de suma importancia, por lo que se puede considerar:

• Ubicar a los individuos arbitrariamente, sobre la base del puntaje total,


∑𝐽𝐽𝑗𝑗 =1 𝑥𝑥𝑖𝑖𝑖𝑖 , y luego considerar como valores iniciales
1, 𝑠𝑠𝑠𝑠 𝑥𝑥𝑖𝑖 ∈ 𝑐𝑐
𝜋𝜋�𝑍𝑍|𝑋𝑋(𝑥𝑥 𝑖𝑖 ) (𝑐𝑐) = � .
0, 𝑒𝑒𝑒𝑒 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
• Asignar valores al azar a las expresiones 𝜋𝜋�𝑍𝑍 (𝑐𝑐) y 𝜋𝜋�𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 �, o a la
expresión (1.5), tomando en consideración las restricciones habituales para
parámetros de esta naturaleza.

En relación con el criterio de convergencia para detener el proceso, se pueden


considerar diferentes opciones. Una de ellas es detener el proceso cuando la
distancia euclidiana entre sucesivos estimadores del vector de parámetros
𝜋𝜋𝑌𝑌|𝑋𝑋(𝑥𝑥 𝑖𝑖 ) (𝑐𝑐) sea menor a un valor determinado. Otro criterio que puede considerarse
es que el cambio en el logaritmo de la función de verosimilitud, 𝑙𝑙(𝜃𝜃|𝑥𝑥), entre
sucesivas iteraciones sea menor a un valor dado [19].

21
Idealmente, el proceso de estimación converge a la mejor solución global (Máximo
Global), un conjunto de parámetros con el mayor valor en la función de
verosimilitud. Pero a veces el algoritmo puede converger a un Máximo Local, la
mejor solución en una vecindad del espacio paramétrico. Los Máximos Locales
están relacionados con la complejidad del modelo, son más comunes a medida
que el número de clases aumenta. Para garantizar la obtención de Máximos
Globales, se debe realizar el algoritmo de estimación en reiteradas ocasiones con
distintos valores iniciales y verificar que se alcance igual solución o, si las
soluciones son diferentes, elegir aquella que proporcione la mejor bondad de
ajuste o, equivalentemente, el mayor valor en el logaritmo de la función de
verosimilitud. Si se encuentra el mismo valor para el estadístico de bondad de
ajuste, pero los estimadores de los parámetros son diferentes, existe un problema
de identificación del modelo: no existe solución única. Tomando las precauciones
adecuadas, la existencia de posibles Máximos Locales, no debería ser un
inconveniente para el uso del ACL.

Un punto importante a considerar para la obtención de una solución única (en


caso de que exista) es el valor para la cota de convergencia. El considerar una
cota demasiado grande induce a obtener diferentes soluciones en sucesivas
aplicaciones del algoritmo dependiendo de los valores iniciales asignados a los
parámetros, aún cuando la solución sea única. La literatura y los programas
computacionales especializados en el tema utilizan una cota del orden de 10−8 .

1.3.3 Métodos bayesianos

Los métodos basados en verosimilitud, estudiados anteriormente, no son los


algoritmos óptimos para estimar el modelo GoM, dada la alta dimensionalidad y la
complejidad de los datos. Una alternativa para solucionar esta limitante puede ser
el uso de métodos bayesianos. Sin embargo, debido también a la naturaleza de
los datos, los métodos bayesianos exactos se vuelven una alternativa
prácticamente imposible. Es por esto que se hace necesario el uso de métodos
aproximados, que permitan hallar un algoritmo óptimo para la estimación del

22
modelo GoM. El método bayesiano aproximado más utilizado es el de Monte Carlo
con Cadenas de Markov (MCMC).

En la formulación de la estimación por métodos bayesianos es de particular


atención la elección de la distribución a priori de los parámetros teniendo en
cuenta la estructura del modelo. En la sección 1.2.2 apuntamos la existencia de
cuatro niveles de jerarquización del modelo, y por tanto los parámetros
estructurales asociados. Usando la formulación estándar del modelo GoM [2] y
omitiendo el índice relativo al sujeto, se puede escribir el modelo GoM jerárquico
para cada ítem 𝑗𝑗 = 1, … , 𝐽𝐽 como:
𝐾𝐾
𝑧𝑧
𝑥𝑥𝑗𝑗 | 𝑧𝑧𝑗𝑗 ~ 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 �� 𝜆𝜆𝑘𝑘𝑘𝑘𝑗𝑗𝑗𝑗 �,
𝑘𝑘=1

𝑧𝑧𝑗𝑗 | 𝑔𝑔 ~ 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀(1, 𝑔𝑔1 , … , 𝑔𝑔𝐾𝐾 ),

𝑔𝑔 ~ 𝐷𝐷𝐷𝐷𝐷𝐷(𝛼𝛼0 , 𝜉𝜉),

𝜆𝜆𝑘𝑘𝑘𝑘 ~ 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 �𝜂𝜂1𝑘𝑘𝑘𝑘 , 𝜂𝜂2𝑘𝑘𝑘𝑘 �,

𝛼𝛼0 ~ 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺(𝜏𝜏1 , 𝜏𝜏2 ),

𝜉𝜉 ~ 𝐷𝐷𝐷𝐷𝐷𝐷(𝜁𝜁),

donde la realización latente 𝑧𝑧𝑗𝑗 determina la probabilidad de respuesta para la


observación 𝑥𝑥𝑗𝑗 ; 𝛼𝛼 = (𝛼𝛼1 , … , 𝛼𝛼𝐾𝐾 ) es el vector de hiperparámetros, 𝛼𝛼0 = ∑𝑘𝑘 𝛼𝛼𝑘𝑘 ; y
𝛼𝛼
𝜉𝜉 = (𝜉𝜉1 , … , 𝜉𝜉𝐾𝐾 ), donde 𝜉𝜉𝑘𝑘 = 𝛼𝛼 𝑘𝑘 .
0

De aquí se deduce que la distribución conjunta tiene la forma [1]

𝑝𝑝(𝑥𝑥, 𝑧𝑧, 𝑔𝑔, 𝜆𝜆, 𝛼𝛼) = 𝑝𝑝(𝜆𝜆, 𝛼𝛼) ∏𝐼𝐼𝑖𝑖=1[𝑝𝑝(𝑧𝑧𝑖𝑖 |𝑔𝑔𝑖𝑖 ) 𝑝𝑝(𝑥𝑥𝑖𝑖 |𝜆𝜆, 𝑧𝑧𝑖𝑖 ) ∙ 𝐷𝐷𝐷𝐷𝐷𝐷(𝑔𝑔𝑖𝑖 | 𝛼𝛼)], (1.10)

donde
𝐽𝐽 𝑧𝑧
𝑝𝑝(𝑧𝑧𝑖𝑖 |𝑔𝑔𝑖𝑖 ) = ∏𝑗𝑗 =1 ∏𝐾𝐾𝑘𝑘=1 𝑔𝑔𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 , (1.11)
𝐽𝐽 𝑥𝑥 1−𝑥𝑥 𝑖𝑖𝑖𝑖 𝑧𝑧 𝑖𝑖𝑖𝑖𝑖𝑖
𝑝𝑝(𝑥𝑥𝑖𝑖 |𝜆𝜆, 𝑧𝑧𝑖𝑖 ) = ∏𝑗𝑗 =1 ∏𝐾𝐾𝑘𝑘=1 �𝜆𝜆𝑘𝑘𝑘𝑘𝑖𝑖𝑖𝑖 �1 − 𝜆𝜆𝑘𝑘𝑘𝑘 � � , (1.12)

23
Γ(∑𝑘𝑘 𝛼𝛼𝑘𝑘 ) α −1 α −1
𝐷𝐷𝐷𝐷𝐷𝐷(𝑔𝑔𝑖𝑖 | 𝛼𝛼) = g 1 ⋯ g iKK ,
Γ(α1 ) ⋯ Γ(αK ) i1

y los indicadores de la clasificación latentes 𝑧𝑧𝑖𝑖𝑖𝑖𝑖𝑖 son tales que 𝑧𝑧𝑖𝑖𝑖𝑖𝑖𝑖 = 1, si 𝑧𝑧𝑖𝑖𝑖𝑖 = 𝑘𝑘, y
𝑧𝑧𝑖𝑖𝑖𝑖𝑖𝑖 = 0 en otro caso [20].

Además, se asume la independencia entre la a priori sobre las probabilidades de


respuesta del perfil extremo 𝜆𝜆 y la a priori sobre los hiperparámetros 𝛼𝛼. De esta
manera, la expresión en (1.10) toma la forma:
𝐼𝐼 𝐼𝐼 𝐽𝐽 𝐾𝐾
𝑥𝑥 1−𝑥𝑥 𝑖𝑖𝑖𝑖 𝑧𝑧 𝑖𝑖𝑖𝑖𝑖𝑖
𝑝𝑝(𝑥𝑥, 𝑧𝑧, 𝑔𝑔, 𝜆𝜆, 𝛼𝛼) = 𝑝𝑝(𝜆𝜆)𝑝𝑝(𝛼𝛼) �� 𝐷𝐷𝐷𝐷𝐷𝐷(𝑔𝑔𝑖𝑖 | 𝛼𝛼)� � � � �𝑔𝑔𝑖𝑖𝑖𝑖 𝜆𝜆𝑘𝑘𝑘𝑘𝑖𝑖𝑖𝑖 �1 − 𝜆𝜆𝑘𝑘𝑘𝑘 � � .
𝑖𝑖=1 𝑖𝑖=1 𝑗𝑗 =1 𝑘𝑘=1

Si se hace la consideración de que la distribución a priori de las probabilidades de


respuesta del perfil extremo 𝜆𝜆 trata ítems y perfiles extremos como
independientes; entonces,
𝐽𝐽
𝑝𝑝(𝜆𝜆, 𝛼𝛼) = 𝑝𝑝(𝛼𝛼) ∏𝐾𝐾𝑘𝑘=1�∏𝑗𝑗 =1 𝑝𝑝�𝜆𝜆𝑘𝑘𝑘𝑘 ��. (1.13)

Se toma 𝑝𝑝(𝜆𝜆𝑘𝑘𝑘𝑘 ) siguiendo una distribución 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵(𝜂𝜂1 , 𝜂𝜂2 ).

Gibbs Sampler

Asumiendo los hiperparámetros 𝛼𝛼 como conocidos, se puede recurrir al algoritmo


Gibbs sampler utilizandolas distribuciones condicionales derivadas de la ecuación
(1.10), de la siguiente forma:
𝐽𝐽 𝐾𝐾
𝑥𝑥 1−𝑥𝑥 𝑖𝑖𝑖𝑖 𝑧𝑧 𝑖𝑖𝑖𝑖𝑖𝑖
𝑝𝑝(𝑧𝑧𝑖𝑖 |𝑥𝑥, 𝑧𝑧, 𝑔𝑔, 𝜆𝜆) ∝ � � �𝑔𝑔𝑖𝑖𝑖𝑖 𝜆𝜆𝑘𝑘𝑘𝑘𝑖𝑖𝑖𝑖 �1 − 𝜆𝜆𝑘𝑘𝑘𝑘 � � ,
𝑗𝑗 =1 𝑘𝑘=1
𝐼𝐼
𝑥𝑥 1−𝑥𝑥 𝑖𝑖𝑖𝑖
𝑝𝑝�𝜆𝜆𝑘𝑘𝑘𝑘 �𝑥𝑥, 𝑧𝑧, 𝑔𝑔, 𝜆𝜆) ∝ 𝑝𝑝�𝜆𝜆𝑘𝑘𝑘𝑘 � � �𝜆𝜆𝑘𝑘𝑘𝑘𝑖𝑖𝑖𝑖 �1 − 𝜆𝜆𝑘𝑘𝑘𝑘 � �,
𝑖𝑖=1
𝐽𝐽 𝐾𝐾
𝑧𝑧
𝑝𝑝(𝑔𝑔𝑖𝑖 |𝑥𝑥, 𝑧𝑧, 𝑔𝑔, 𝜆𝜆) ∝ 𝐷𝐷𝐷𝐷𝐷𝐷(𝑔𝑔𝑖𝑖 |𝛼𝛼) � � 𝑔𝑔𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 .
𝑗𝑗 =1 𝑘𝑘=1

Cada iteración del algoritmo Gibbs sampler consiste en un paso de "inicialización"


y en un paso "posterior", según lo expuesto por Tanner (1996) [21]. Durante el

24
(𝑚𝑚 + 1)-ésimo paso de inicialización, una realización de la clasificación latente
(𝑚𝑚 +1)
𝑧𝑧𝑖𝑖 se obtiene para cada observación de la distribución condicional predictiva,
dado los valores de los parámetros del paso 𝑚𝑚-ésimo. Durante el (𝑚𝑚 + 1)-ésimo
(𝑚𝑚 +1) (𝑚𝑚 +1)
paso posterior, las realizaciones de los parámetros 𝜆𝜆𝑘𝑘𝑘𝑘 y 𝑔𝑔𝑖𝑖𝑖𝑖 se obtienen de
la distribución posterior incrementada, dados los valores de los parámetros del
paso 𝑚𝑚-ésimo.

• Paso de inicialización

Dados los valores de los parámetros para el paso 𝑚𝑚-ésimo, para una distribución
multinomial,
(𝑚𝑚 +1)
𝑧𝑧𝑖𝑖𝑖𝑖 ~ 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀(1, 𝑝𝑝1 , … , 𝑝𝑝𝐾𝐾 ),
𝑥𝑥 1−𝑥𝑥 𝑖𝑖𝑖𝑖
𝑝𝑝𝑘𝑘 ∝ 𝑔𝑔𝑖𝑖𝑖𝑖 𝜆𝜆𝑘𝑘𝑘𝑘𝑖𝑖𝑖𝑖 �1 − 𝜆𝜆𝑘𝑘𝑘𝑘 � ,

para cualquier valor de 𝑖𝑖 = 1, … , 𝐼𝐼 y 𝑗𝑗 = 1, … , 𝐽𝐽.

• Paso posterior

Dados los valores de los parámetros para el 𝑚𝑚-ésimo paso, de una distribución
beta,
𝐼𝐼 𝐼𝐼
(𝑚𝑚 +1)
𝜆𝜆𝑘𝑘𝑘𝑘 ~ 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 �1 + � 𝑥𝑥𝑖𝑖𝑖𝑖 𝑧𝑧𝑖𝑖𝑖𝑖𝑖𝑖 , 1 + ��𝑧𝑧𝑖𝑖𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑖𝑖𝑖𝑖 𝑧𝑧𝑖𝑖𝑖𝑖𝑖𝑖 ��,
𝑖𝑖=1 𝑖𝑖=1

para cualquier valor de 𝑖𝑖 = 1, … , 𝐼𝐼 y 𝑗𝑗 = 1, … 𝐽𝐽.

Dados los datos incrementados y los valores de los parámetros para el paso 𝑚𝑚-
ésimo, de una distribución Dirichlet,
𝐽𝐽 𝐽𝐽
(𝑚𝑚 +1)
𝑔𝑔𝑖𝑖 ~ 𝐷𝐷𝐷𝐷𝑟𝑟𝐾𝐾 �𝛼𝛼1 + � 𝑧𝑧𝑖𝑖𝑖𝑖 1 , … , 𝛼𝛼𝐾𝐾 + � 𝑧𝑧𝑖𝑖𝑖𝑖𝑖𝑖 �,
𝑗𝑗 =1 𝑗𝑗 =1

para cada individuo 𝑖𝑖 = 1, … , 𝐼𝐼.

25
CAPÍTULO 2. APLICACIÓN

Esta investigación se propone determinar los perfiles o rasgos de personalidad


que caracterizan a una muestra de presos por conductas violentas (homicidio y
asesinato) a partir de la aplicación de varios instrumentos que evalúan rasgos de
personalidad. Esto permitirá identificar perfiles óptimos y detallados de presos
psicópatas y no psicópatas. Esta investigación forma parte de un estudio
multidisciplinario que investigó las Bases Biológicas de la Violencia en Cuba.
Fueron encuestados presos del sexo masculino sin antecedentes de patologías
psiquiátricas a nivel psicótico, bajo los criterios del Cuestionario para la Evaluación
Clínica en Neuropsiquiatría (SCAN), con dos años máximo en prisión para que el
medio carcelario no permeara los resultados.

La psicopatía ha sido ampliamente estudiada en diferentes partes del mundo [22]


y múltiples son los criterios para delimitarla. Basado en investigaciones realizadas,
se definirá como un patrón heterogéneo de rasgos de personalidad caracterizado
por una importante falta de afectividad y relaciones interpersonales anormales
asociadas a una conducta y estilo de vida totalmente desviado que puede llegar
criminal o no.

La definición de estos perfiles y rasgos pueden establecerse a partir de diferentes


escalas o instrumentos validados que evalúen esos rasgos de personalidad. En la
literatura se han reportado diferentes estudios utilizando instrumentos que evalúan
agresividad, impulsividad, búsqueda de sensaciones, autoestima y otros rasgos
negativos de emocionalidad [23, 24].

El diagnóstico de la psicopatía ha sufrido a lo largo de los años varios cambios en


su terminología. La disquisición entre la psicopatía y el Trastorno de Personalidad
Antisocial (TPA) se discute aún en nuestros días. Al parecer la categoría
responsable de tal confusión sería la de la conducta antisocial, pues es
considerada el punto de intersección entre ambos trastornos [1].

26
En los estudiosos de la materia existe la opinión consensuada de que los
psicópatas no son iguales en sus manifestaciones sociales, afectivas y
conductuales [25, 26]. No obstante, hay criterios disímiles para clasificarla.

En los últimos años del pasado siglo y hasta el presente ha existido una explosión
en estudios de la psicopatía [1], pero identificar al psicópata ha sido difícil por las
características propias que presenta y porque no existe hasta el momento un
instrumento que pudiera utilizarse para su diagnóstico fuera del medio carcelario.

En Cuba nunca ha sido aplicada una escala para evaluar la psicopatía, es la


primera vez que se hace un estudio en prisiones. La estimación de los perfiles
permitirá desarrollar estrategias psicoterapéuticas que brinden un mejor pronóstico
al evaluar este tipo de población.

Esta investigación se propone determinar los perfiles o rasgos de personalidad


que caracterizan a una muestra de presos por conductas violentas (homicidio y
asesinato) a partir de la aplicación de diferentes instrumentos. También se
evaluará cada ítem de la escala para conocer los rasgos que definen perfiles de
los sujetos estudiados. Estos perfiles se establecerán con los resultados obtenidos
mediante la estimación del modelo GoM. Finalmente, se determinará el grado de
pertenencia de cada sujeto al grupo de Psicópatas utilizando el modelo GoM
mixto.

La muestra estuvo compuesta por un total de 123 sujetos, presos por cometer
crímenes violentos (asesinatos y homicidios) cuyas edades estaban comprendidas
entre 18 y 62 años (𝑥𝑥̅ = 31.14, 𝑑𝑑𝑑𝑑 = 9.09). El tiempo en prisión debía de ser
menos de dos años y no podían tener antecedentes psiquiátricos del Eje I
(basados en los criterios del SCAN versión 2.1), ni ser portadores de Retraso
Mental en alguna de sus clasificaciones. La escolaridad se distribuyó de la
siguiente forma: nivel primario 17 (14,6%) sujetos; secundario: 70 (56,5%); Pre
Universitario: 29 (23,3%) y Técnico Medio: 7 (5,6%) sujetos. En cuanto al estado
civil de los reos, 73 (59,7%) eran solteros, 34 (27,4%) casados y 16 (12,9%) se
encontraban viviendo en concubinato con sus parejas.

27
La población estudiada en cuanto a su composición étnica estuvo constituida por
48 (38,7%) sujetos afroamericanos, 42 (33,9%) mestizos y 33 (27,4%) caucásicos.
Basado en los expedientes de los reos, se pudo clasificar a los sujetos acorde a
sus antecedentes delictivos en reincidentes y sin antecedentes. De los 123 sujetos
estudiados, 38 (30,6%) ya habían estado en prisión y 85 (69,4%) no tenían
antecedentes penales.

Para iniciar la investigación se les explicó a los sujetos los objetivos de la misma,
enfatizando que tenían la opción de abandonar el estudio en cuanto lo deseasen y
que los resultados de la misma, no influirían en sus condenas ni apelaciones.
Todos firmaron un Consentimiento informado.

Esta investigación fue dirigida y aprobada por el Comité de Ética del Centro de
Neurociencias de Cuba y del Ministerio de Salud Pública.

La evaluación neuropsiquiátrica consistió en una entrevista estructurada con datos


generales y la aplicación de un grupo de instrumentos utilizados para evaluar
diferentes rasgos de personalidad. Estos fueron los siguientes:

a. Cuestionario para la Evaluación Clínica en Neuropsiquiatría (SCAN, versión


2.1) [27]: cuestionario de psicopatología elaborado por la Organización
Mundial de la Salud. Se utiliza como herramienta para el diagnóstico de
enfermedades mentales en adultos.

b. Escala de Psicopatía (R) de Robert Hare [28, 29]: Es un instrumento basado


en una entrevista al sujeto e información del expediente del mismo. La escala
está compuesta por 20 ítems para la evaluación de la psicopatía en la
población carcelaria. Cada ítem tiene una marca de clase de 0 a 2 puntos
(0=no aplica; 1=aplica en ciertas circunstancias y 2=aplica).

c. Evaluación Internacional de los Trastornos de Personalidad (DSM-IV-R, 2000)


[30]: Es un instrumento multidimensional para el diagnóstico de los trastornos
de personalidad por la clasificación del DSM IV en adultos. Sus propiedades

28
psicométricas permiten diferenciar los siguiente trastornos de personalidad:
Paranoide, Esquizoide, Esquizotípico, Antisocial, Borderline, Histriónico,
Narcisista, Evitativo, Dependiente, Obsesivo-Compulsivo y No especificado.

d. Escala de Agresividad de Buss y Perry (The Aggression Questionnaire) [31]:


Este instrumento evalúa cuatro formas de la conducta agresiva: agresividad
física, agresividad verbal, ira y la hostilidad y brinda cinco posibles respuestas
que se califican de 1 a 5 puntos y que oscilan desde “no me caracteriza” hasta
“me caracteriza totalmente”. La escala se califica de forma inversa, es decir,
mientras más alta sea la puntuación del individuo, menos agresivo será.

e. Escala del Control de los Impulsos Ramón y Cajal [32]: Es un instrumento


autoevaluado que califica la conducta impulsiva en un rango de 1 a 4 puntos.
La puntuación se estructura de la siguiente forma: “siempre” 3 puntos, “a
veces” 2 puntos; “casi nunca” 1 punto y “nunca” 0 puntos.

f. Escala de Autoestima de Rosenberg (The Self-esteem scale) [33]: Este


instrumento autoevaluado consta con 10 ítems que evalúan la autoaceptación
que tiene el sujeto. La calificación va a estar estructurada de 1 a 3 puntos
donde 1 punto refiere “total desacuerdo”, 2 puntos “parcialmente de acuerdo” y
3 puntos “totalmente de acuerdo”.

g. Escala de Búsqueda de Sensaciones de Zuckerman (The Sensation-seeking


scale) [34]: Es un cuestionario autoevaluado que cuenta con 40 ítems y dos
posibles respuestas: afirmativa o negativa las cuales tiene un valor de 1 punto.
Este instrumento se subdivide en cuatro subescalas que evalúan diferentes
formas de la búsqueda de sensaciones: Búsqueda de Emociones, Búsqueda
de excitación, Desinhibición y Susceptibilidad al aburrimiento.

Los resultados de las escalas aplicadas y las pruebas neuropsicológicas se


recogieron en una base de datos creada para el estudio, utilizando la hoja de
cálculo Microsoft Excel.

29
Para el estudio que se quiere realizar, se consideran once de las variables
tabuladas. Estas variables son categóricas binarias; y miden agresividad física
(CAF), agresividad verbal (CAV), ira (CIRA), hostilidad (CHOST), conducta
agresiva (CAGRE), escala del control de los impulsos (CCOIMP), búsqueda de
sensaciones (CBSTOT), búsqueda de emociones (BEM), búsqueda de excitación
(BEX), desinhibición (DES) y susceptibilidad al aburrimiento (SAB).

30
CAPÍTULO 3. ALGORITMOS
IMPLEMENTADOS

En este capítulo se expondrán los algoritmos implementados para la estimación de


los modelos. Para cada uno de ellos, se describe el método matemático
implementado; así como los detalles de los parámetros de entrada y salida. Los
programas desarrollados en cada sección fueron:

Sección 3.1: Estimación del modelo de Clases Latentes mediante el algoritmo


Esperanza-Maximización.

Sección 3.2: Estimación del modelo GoM mediante el algoritmo Esperanza-


Maximización.

Sección 3.3: Estimación el modelo GoM mediante el método de Máxima


Verosimilitud.

Sección 3.4: Estimación del modelo GoM mediante métodos bayesianos.

3.1 Estimación del modelo de Clases Latentes mediante el algoritmo


Esperanza-Maximización

El algoritmo implementado aparece en la sección 1.3.2, Este se programó


utilizando el software de MatLab. El método de estimación fue desarrollado
mediante el algoritmo Esperanza-Maximización. El código del programa em_lsm
aparece en el Anexo A. Los parámetros de entrada y salida se describen a
continuación:

[f, m, llk, llr, df, c, p, devbuf, c00, p00] =


em_lsm(n, T, maxiter, eps, c0, p0)

Los parámetros de entrada del programa son:

• n (necesario): tabla observada. Arreglo multidimensional.

31
• T (necesario): número de clases latentes.
• maxiter (necesario): máximo número de iteraciones.
• eps (necesario): límite de convergencia.
• c0 (opcional): valor inicial para las probabilidades de clase.
• p0 (opcional): valor inicial para las probabilidades condicionales.

Los parámetros de salida del mismo son:


• f: tabla ajustada.
• m: valor esperado estimado.
• llk: log-verosimilitud calculada para cada iteración.
• llr: estadígrafo de bondad de ajuste del modelo (cociente de verosimilitud).
• df: grados de libertad.
• c: probabilidades de clase.
• p: probabilidades condicionales estimadas para cada clase.
• devbuf: desviación máxima del estimador en cada iteración.
• c00: probabilidades de clase iniciales.
• p00: probabilidades condicionales iniciales.

3.2 Estimación del modelo GoM mediante el algoritmo Esperanza-


Maximización

El programa gom.em constituye una implementación en R del modelo de Grado


de Membresía discreto. Esta función estima el modelo GoM mediante el algoritmo
Esperanza-Maximización (fórmulas 1.10-1.13). Los parámetros de entrada y salida
se describen a continuación:

mod1 <- gom.em (dat, K, problevels, model, max.increment,


numdiff.parm, maxdevchange, globconv, maxiter, msteps,
mstepconv)

Los parámetros de entrada de esta función, anotando entre paréntesis los valores
que toma por defecto, son:

• dat (necesario): tabla de datos con respuestas dicotómicas.

32
• K (necesario): número de clases.
• problevels (necesario): vector de niveles de probabilidad para las funciones
de membresía.
• model (necesario): tipo de modelo GOM (model=”GOM” estima por el
modelo GoM).
• max.increment (opcional): incremento máximo (0.3).
• numdiff.parm (opcional): parámetro de diferenciación numérica (0.001).
• maxdevchange (opcional): criterio de convergencia para cambios en la
desviación relativa (10-5).
• globconv (opcional): criterio de convergencia global para cambios de
parámetros (0.001).
• maxiter (opcional): máximo número de iteraciones (1000).
• msteps (opcional): número de iteraciones dentro del m-ésimo paso (4).
• mstepconv (opcional): criterio de convergencia dentro del m-ésimo paso
(0.001).

Los parámetros de salida de la función gom.em, llamados mediante la función


mod1$parámetro, son:
• deviance: Índice de bondad de ajuste.
• ic: criterio de información.
• item: tabla de contingencia ajustada
• person: tabla de datos de los individuos.
• MAP: máximo estimador a posteriori de la función de membresía.
• classdesc: descripción de la función de probabilidad a posteriori para cada
clase en cada punto del grid especificado.
• lambda: probabilidad de respuesta estimada 𝜆𝜆𝑘𝑘𝑘𝑘 de cada clase.
• se.lambda: error estándar para la probabilidad de respuesta estimada 𝜆𝜆𝑘𝑘𝑘𝑘 .
• f.yi.qk: evaluación en la función de verosimilitud para cada individuo
(fórmula 1.11).
• f.qk.yi: evaluación de la distribución a posteriori para cada individuo
(fórmula 1.12).

33
• probs: arreglo con las probabilidades de respuesta (grid de las lambdas).
• n.ik: frecuencias esperadas.
• iter: número de iteraciones.
• I: número de ítems.
• K: número de clases.
• TP: número de puntos del grid.
• theta.k: grid de las funciones de membresía (fórmula1.13).

3.3 Estimación el modelo GoM mediante el método de Máxima Verosimilitud

El programa gom.jml constituye una implementación en R del modelo de Grado


de Membresía. Esta función estima el modelo GoM mediante el método de
estimación por Máxima Verosimilitud. El algoritmo matemático aparece detallado
en el epígrafe 1.2.1. Los parámetros de entrada y salida se describen a
continuación:

mod2 <- gom.jml(dat, K, seed,globconv,maxdevchange, maxiter,


min.lambda, min.g)

Los parámetros de entrada de la función gom.jml, anotando entre paréntesis los


valores que toma por defecto, son:
• dat (necesario): tabla de datos con respuestas dicotómicas para cada ítem.
• K (necesario): número de clases.
• seed (opcional): valor del generador del número aleatorio (NULL).
• globconv (opcional): criterio de convergencia global del parámetro (0.001).
• maxdevchange (opcional): cambio máximo en la desviación relativa (0.001).
• maxiter (opcional): máximo número de iteraciones (600).
• min.lambda (opcional): mínimo parámetro 𝜆𝜆𝑘𝑘𝑘𝑘 estimado (0.001).
• min.g (opcional): mínimo parámetro 𝑔𝑔𝑖𝑖𝑖𝑖 estimado (0.001).

Los parámetros de salida de la función, llamados mediante la función


mod2$parámetro, son:
• lambda: tabla de datos de los ítems 𝜆𝜆𝑘𝑘𝑘𝑘 .

34
• g: tabla de datos de los scores de membresía individuales 𝑔𝑔𝑖𝑖𝑖𝑖 .
• g.mean: media de los scores de membresía.
• gcut: scores de membresía discretizados.
• gcut.distr: distribución de los scores de membresía discretizados.
• K: número de clases.
• deviance: índice de bondad de ajuste.
• ic: criterio de información.
• N: número de individuos.
• score: probabilidad condicional de la verdad dados los scores de
membresía: 𝑃𝑃�𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖 = 1| 𝑔𝑔𝑖𝑖 � = ∑𝐾𝐾𝑘𝑘=1 𝑔𝑔𝑖𝑖𝑖𝑖 ∙ 𝜆𝜆𝑘𝑘𝑘𝑘𝑘𝑘 .
• iter: número de iteraciones.

3.4 Estimación del modelo GoM mediante métodos bayesianos

Se presenta el programa desarrollado para la estimación del modelo GoM


mediante métodos bayesianos. La estimación se hizo utilizando el software
WinBUGS, que estima el método MCMC por el algoritmo Gibbs sampler.

En la figura 3.1 se muestra el diagrama correspondiente al modelo GoM mixto. El


modelo matemático a estimar aparece en la sección 1.3.3, los hiperparámetros
son 𝜂𝜂, 𝛼𝛼; los parámetros están definidos por 𝑔𝑔, 𝜆𝜆; y los datos están representados
por 𝑋𝑋𝑖𝑖𝑖𝑖 . Cuando los hiperparámetros son asumidos conocidos, se puede obtener
una distribución a posteriori de los parámetros del modelo usando el software
WinBUGS. La figura 3.1 es útil para comprender el código que aparece en el
Anexo B. Los nodos denotados por rectángulos son constantes, y los denotados
por círculos son estocásticos, es decir, siguen cierta distribución de probabilidad.
Las flechas sólidas indican dependencia estocástica, mientras que las flechas
discontinuas indican una función lógica.

35
Figura 3.1: Diagrama gráfico del modelo GoM.

Los parámetros de entrada de la implementación son:


• I: número de individuos.
• J: número de preguntas o ítems.
• R: número de posibles patrones de respuesta.
• K: número de clases.
• resp[I,J]: respuestas observadas (i-ésimo sujeto, j-ésimo ítem).
• pos.resp[R,J]: matriz de todos los posibles patrones de respuesta.
• alpha[K]: parámetros de la distribución (Dirichlet) a priori de los scores de
membresía.
• beta1[K,J]: primer parámetro de la distribución (Beta) a priori de los ítem.
• beta2[K,J]: segundo parámetro de la distribución (Beta) a priori de los ítem.
• g: datos iniciales para los scores de membresía.
• lambda: datos iniciales para las probabilidades de respuesta.

36
Los parámetros de salida de la implementación son:

• g[I,K]: scores de membresía.


• lambda[K,J]: probabilidades de respuestas a los ítems.
• z[I,J]: variable latente.
• g.new[K]: scores de membresía para un sujeto aleatorio.
• prob.resp[R,J]: probabilidad de respuesta para el ítem j.
• prob.g[R]: probabilidad del patrón de respuesta r.

37
CAPÍTULO 4. RESULTADOS Y
DISCUSIÓN DE LA APLICACIÓN

Análisis exploratorio

A partir del criterio del grupo multidisciplinario que evaluaron a los reos,
utilizando los instrumentos aplicados y los expedientes, se estableció una
clasificación en psicópatas y no psicópatas. En la tabla 4.1 se muestra la
distribución por cada subpoblación.

Cantidad de sujetos Porciento que representa


Psicópatas 40 32%
No Psicópatas 84 68%
Tabla 4.1: Distribución de cada clase

Figura 4.1: Comportamiento de las variables para los sujetos psicópatas.

38
El comportamiento de la distribución de las escalas estudiadas tomando en
cuenta la clasificación brindada se muestra en la figura 4.1 para el caso de los
sujetos psicópatas y la figura 4.2 para los no psicópatas.

Figura 4.2: Comportamiento de las variables para los sujetos no psicópatas.

Como parámetro de entrada general para cualquiera de los algoritmos de


estimación a utilizar se creó una tabla de contingencia con los 11 ítems.

Resultados de la estimación del modelo de Clases Latentes mediante el


algoritmo Esperanza-Maximización.

Para la estimación de los perfiles de comportamiento según los ítems aplicados y


considerando la existencia de 2 clases (Psicópata y No Psicópata) fue corrido el
programa correspondiente (Anexo A). En este modelo se considera que el sujeto
pertenece a solo una clase, no existe membresía mixta y no modela el grado de
membresía individual. Los resultados que se muestran son:

a) El número de iteraciones en que convergió el algoritmo.


b) Los índices de bondad de ajuste (log-verosimilitud).
c) La probabilidad de cada una de las clases latentes: 𝜋𝜋𝑌𝑌 (𝑐𝑐); 𝑐𝑐 = 1, … , 𝐶𝐶.

39
d) Las probabilidades de respuesta condicional de cada una de las variables
manifiestas dentro de cada clase latente:

𝜋𝜋𝑋𝑋 𝑗𝑗 |𝑍𝑍(𝑐𝑐) �𝑥𝑥𝑗𝑗 �, 𝑗𝑗 = 1, … , 𝐽𝐽; 𝑐𝑐 = 1, … , 𝐶𝐶; 𝑥𝑥𝑗𝑗 = 1, … , 𝐿𝐿𝑗𝑗 .

El algoritmo convergió en 7 pasos. En la figura 4.3 se muestra la función de log-


verosimilitud obtenida en cada iteración. La probabilidad de cada una de las clases
estimada fue de 0.47 y 0.53 respectivamente. La figura 4.4 muestra las
probabilidades de respuestas condicionales o perfiles correspondientes a cada
clase según los ítems. Es de destacar que las diferencias entre los patrones
estimados están presentes en todos los ítems, contradictoriamente con la
hipótesis que ambas subpoblaciones comparten características similares en
cuanto a la conducta antisocial. Una posible justificación de estos resultados
puede ser el número de celdas con frecuencia nula y que el ajuste del modelo no
es el mejor. Además, como se apuntó en el Capítulo 1, este modelo supone que
las clases latentes son internamente homogéneas, es decir, todos los miembros
de una clase latente tienen la misma distribución de probabilidades con respecto a
la variable latente, y ésta será distinta a la distribución de probabilidades para los
individuos pertenecientes a otra clase, por lo que individuos de diferentes clases
presentarán características diferentes.

Figura 4.3: Log-verosimilitud para el MCL con K=2 clases.

40
Figura 4.4: Perfiles extremos para el MCL con K=2 clases.

Resultados de la estimación del modelo GoM mediante el algoritmo


Esperanza-Maximización.

Para la estimación de los perfiles de comportamiento según los ítems aplicados y


considerando la existencia de 2 clases (Psicópata y No Psicópata) fue corrido el
programa gom.em. En este modelo se considera que el sujeto puede pertenecer a
más de una clase (existencia de membresía mixta) y además, estima el grado de
membresía individual. Las salidas de este programa son:

a) El número de iteraciones en que convergió el algoritmo.


b) Los índices de bondad de ajuste (AIC, BIC).
c) La probabilidad de respuesta del perfil extremo, denotada por 𝜆𝜆𝑘𝑘𝑘𝑘𝑘𝑘 .
d) La clasificación según los scores de membresía (𝑔𝑔𝑖𝑖𝑖𝑖 ), teniendo en cuenta
la membresía mixta.

El algoritmo convergió en 52 pasos. Los valores de bondad de ajuste arrojados


fueron 𝐴𝐴𝐴𝐴𝐴𝐴 = 1489.51; 𝐵𝐵𝐵𝐵𝐵𝐵 = 1562.62. Los perfiles extremos de cada clase son
graficados en la figura 4.5, donde se observa, a diferencia de la gráfica obtenida
con el modelo de Clases Latentes, perfiles de comportamiento con presencia de
conductas extremas en el caso de los sujetos no Psicópatas (ítems 6 – 9,
ilustrados por la línea quebrada roja) como se espera.

41
Figura 4.5: Perfiles extremos para el modelo GoM con K=2 clases.

La clasificación según los scores de membresía arrojó un 37% de sujetos


psicópatas, un 51% de no psicópatas y un 12% que tienen membresía mixta.

Resultados de la estimación del modelo GoM mediante el algoritmo de


Máxima Verosimilitud.

Para la estimación de los perfiles de comportamiento según los ítems aplicados y


considerando la existencia de 2 clases (Psicópata y No Psicópata) fue corrido el
programa gom.jml. En este modelo se considera que existe membresía mixta y
estima el grado de membresía individual. Las salidas de este programa son:

a) El número de iteraciones en que convergió el algoritmo.


b) Los índices de bondad de ajuste (AIC, BIC).
c) La probabilidad de cada clase: 𝜋𝜋𝑌𝑌 (𝑐𝑐); 𝑐𝑐 = 1, … , 𝐶𝐶.
d) La probabilidad de respuesta del perfil extremo, denotada por 𝜆𝜆𝑘𝑘𝑘𝑘𝑘𝑘 .
e) Los scores de membresía (𝑔𝑔𝑖𝑖𝑖𝑖 ) y la clasificación teniendo en cuenta la
membresía mixta.

El algoritmo convergió en 73 pasos. Los valores de bondad de ajuste arrojados


fueron 𝐴𝐴𝐴𝐴𝐴𝐴 = 1191.26; 𝐵𝐵𝐵𝐵𝐵𝐵 = 1253.13, menores que usando el algoritmo anterior.
La probabilidad a posteriori de cada clase fue estimada para los psicópatas en

42
0.48 y no psicópatas en 0.52. Los perfiles extremos de cada clase son graficados
en la figura 4.6. En esta figura se observa resultados similares a los obtenidos con
el método de estimación EM. Los perfiles de comportamiento con presencia de
conductas extremas en el caso de los sujetos no psicópatas también están entre el
ítem 6 hasta el ítem 9, como se espera.

Figura 4.6: Perfiles extremos para el modelo GoM con K=2 clases.

Figura 4.7: Histograma con la distribución de los scores de membresía.

43
En figura 4.7 se muestra la distribución de los scores 𝑔𝑔𝑖𝑖𝑖𝑖 , y se observa en los
extremos las dos clases correspondiente a psicópatas y no psicópatas. Los
valores alrededor de 0.5 corresponderían a los individuos con membresía mixta.

La clasificación según los scores de membresía arrojó un 43% de sujetos


psicópatas, un 46% de no psicópatas y un 11% que tienen membresía mixta.

Resultados de la estimación del modelo GoM mediante MCMC.

Para la estimación de los perfiles de comportamiento según los ítems aplicados y


considerando la existencia de 2 clases (Psicópata y No Psicópata) fue corrido el
programa correspondiente (Anexo B). En este modelo se considera que existe
membresía mixta y estima el grado de membresía individual. Las salidas de este
programa son:

a) La probabilidad de cada clase: 𝜋𝜋𝑌𝑌 (𝑐𝑐); 𝑐𝑐 = 1, … , 𝐶𝐶.


b) La probabilidad de respuesta del perfil extremo, denotada por 𝜆𝜆𝑘𝑘𝑘𝑘𝑘𝑘 .
c) Los scores de membresía (𝑔𝑔𝑖𝑖𝑖𝑖 ) y la clasificación teniendo en cuenta la
membresía mixta.

La probabilidad a posteriori de cada clase fue estimada para los psicópatas en


0.48 y no psicópatas en 0.52. Los perfiles extremos de cada clase son graficados
en la figura 4.8, donde se observa un patrón diferente con respecto a los
resultados anteriores. Los perfiles de comportamiento con presencia de conductas
extremas en el caso de los sujetos no psicópatas, ilustrado por la línea quebrada
roja, corresponden a los ítems 3, 4, 7, 8, 9 y 11.

La figura 4.9 muestra la distribución de los scores 𝑔𝑔𝑖𝑖𝑖𝑖 , observándose en los


extremos las dos clases correspondiente a psicópatas y no psicópatas. Los
valores alrededor de 0.5 corresponderían a los individuos con membresía mixta.
En este caso se estimaron menos casos de sujetos con membresía mixta.

44
Figura 4.8: Perfiles extremos para el modelo GoM con K=2 clases.

Figura 4.9: Histograma con la distribución de los scores de membresía.

La clasificación según los scores de membresía arrojó un 43% de sujetos


psicópatas, un 54% de no psicópatas y solo un 3% de sujetos con membresía
mixta.

45
CONCLUSIONES

En este trabajo se implementó una metodología generalizada dentro del marco


teórico de Modelos de Estructuras Latentes para estimar la probabilidad de
respuesta teniendo en cuenta la existencia de variables latentes. Esto sirve para
diferenciar a los individuos pertenecientes a diferentes clases y poder caracterizar
tanto la variable latente como las clases latentes. La generalización desarrollada
permite entonces contar con una herramienta útil para aquellas aplicaciones cuyos
datos son de alta dimensionalidad y con propiedades específicas de
heterogeneidad dadas por la posibilidad que el sujeto pueda pertenecer a más de
una clase. En particular, la aplicación de la metodología implementada dio
solución a la problemática actual en el campo de las neurociencias y las ciencias
forenses de clasificar a los sujetos de conducta violenta y estimar sus perfiles de
comportamiento. En Cuba nunca había sido aplicada una escala para evaluar la
psicopatía, es la primera vez que se hace un estudio en prisiones. La estimación
de los perfiles permitirá desarrollar estrategias psicoterapéuticas que brinden un
mejor pronóstico al evaluar este tipo de población.

46
RECOMENDACIONES

Durante el estudio realizado surgieron aspectos que se proponen como


investigaciones futuras. Estos son:

1- Establecer una comparación entre los diversos métodos de estimación


utilizados, a partir de índices como el AIC, BIC, entre otros.

2- Generalizar la metodología implementada para el caso en que las variables


manifiestas sean continuas.

3- Implementar algoritmos adecuados para la estimación de los valores de los


hiperparámetros en el caso de la estimación por métodos bayesianos.

4- Validar los resultados obtenidos con los criterios de expertos a partir de escalas
o valoraciones que indiquen un grado de psicopatía, como por ejemplo la escala
de Hare.

47
REFERENCIAS BIBLIOGRÁFICAS
[1] Calzada Reyes, Ana A.; Centro de Neurociencias de Cuba. Evaluación
Electrofisiológica y Morfométrica en Reos Violentos con Trastorno de
Personalidad Antisocial y con Psicopatía, 2014.
[2] Erosheva, E. A.; Department of Statistics, Carnegie Mellon University,
Pittsburgh. Grade of Membership and Latent Structure Models with
Application to Disability Survey Data, 2002.
[3] Fienberg, S. E.; Department of Statistics, Machine Learning Department and
Cylab, Carnegie Mellon University, Pittsburgh. Patricia Hersh; Department of
Mathematics Indiana University, Bloomington. Alessandro Rinaldo,
Department of Statistics, Carnegie Mellon University, Pittsburgh. Yi Zhou;
Machine Learning Department, Carnegie Mellon University, Pittsburgh.
Maximum Likelihood Estimation in Latent Class Models for Contingency
Table Data, 2007.
[4] Bartholomew, D. J.; Knott, M.; London Arnold. Latent Variable Models and
Factor Analysis, 1999 (1987, Second edition).
[5] Lazarsfeld, P. F., Neil W. Henry; Boston: Houghton Mifflin. Latent Structure
Analysis, 1968.Structure Analysis, Boston: Houghton Mifflin.
[6] Heinen, T.; Sage, Newbury Park, CA. Latent Class and Discrete Latent Trait
Models: Similarities and Differences, 1996.
[7] Bartholomew, D. J.; London Arnold. Variable Models and Factor Analysis,
1987.
[8] Uebersax, J. S. (1997). Analysis of Student Problem Behaviors with Latent
Trait, Latent Class, and related Probit Mixture Models. In: Rost J, Langeheine
R, eds. Applications of Latent Trait and Latent Class Models in the Social
Sciences. New York, NY: Waxmann; 188-195, 1997.
[9] Goodman, L. A. Exploratory Latent Structure Analysis Using Both Identifiable
and Unidentifiable models, Biometrika, 61, 215–231, 1974.

48
[10] Rasch, G.; Danish Institute for Educational Research, Copenhagen,
Denmark. Probabilistic Models for Some Intelligence and Attainment Test,
1960.
[11] Lord, F. M.; Erlbaum, Hillsdale, NJ. Applications of Item Response Theory to
Practical Testing Problems, 1980.
[12] Birnbaum, A. Some Latent Trait Models, and Their Use in Inferring an
Examinee’s Ability. In F. M. Lord & M. R. Novick, Statistical theories of mental test
scores (pp. 397-479). Reading, MA: Addison-Wesley, 1968.
[13] Erosheva, E. A.; Statistics and Social Work, University of Washington,
Seattle; Fienberg, S. E.; Statistics and Social Science, Department of
Statistics, Carnegie Mellon University, Pittsburgh. Bayesian Mixed
Membership Models for Soft Classification, 2004.
[14] Erosheva, E. A.; Department of Statistics, School of Social Work, Center for
Statistics and the Social Sciences, University of Washington, Seattle;
Fienberg, S. E.; Department of Statistics, Center for Automated Learning and
Discovery, Center for Computer and Communications Security, Carnegie
Mellon University, Pittsburgh. Bayesian Mixed Membership Models for Soft
Clustering and Classification, 2005.
[15] Woodbury, M. A.; Clive, J. Clinical Pure Types as a Fuzzy Partition. Journal of
Cybernetics 4, 111-121, 1974.
[16] Manton, K. G.; Woodbury, M. A.; Tolley, H. D. Statistical Applications Using
Fuzzy Sets. Wiley, New York.1994.
[17] Goodman, L. A. Analysing Qualitative/Categorial Data. Log-Linear Models
and Latent-Structure Analysis. Addison-Wesley Publ. Comp., London-
Amsterdam-Sydney-Tokyo 471, 1978.
[18] Hagenaars, J. A. Categorical Longitudinal Data - Loglinear Analysisof Panel,
Trend and Cohort Data. Newbury Park: Sage, 1990.
[19] Sepúlveda, R. A.; Departamento de Estadística - USAL. Análisis de Clases
Latentes, 2001.

49
[20] Erosheva, E. A.; Fienberg, S. E.; Joutard, C. Describing Disability through
Individual Level Mixture Models for Multivariate Binary Data, Annals of
Applied Statistics, 1, 502-537, 2007.
[21] Tanner, M. A.; Tools for Statistical Inference. Methods for the Exploration of
Posterior Distributions and Likelihood Functions (Third Edition), Springer-
Verlag, 1996.
[22] Hicks, B. M.; Patrick, C. J. Psychopathy and Negative Emotionality: Analyses
of Suppressor Effects Reveal Distinct Relations with Emotional Distress,
Fearfulness, and Anger–Hostility. Journal of Abnormal Psychology,115, 276–
287, 2006.
[23] Hare, R.D. Manual for the Hare Psychopathy Checklist—Revised (2nd ed.).
Toronto: Multi-Health Systems, 2003.
[24] Laurell, J.; Däderman, A. M. Psychopathy (PCL-R) in a Forensic Psychiatric
Sample of Homicide Offenders: Some Reliability Issues. International Journal
of Law and Psychiatry, 30, 127–135, 2007.
[25] Hare, R. D. Psychopathy: A Clinical and Forensic Overview. Psychiatric Clinic
of North America, 29, 709-724, 2006.
[26] Cooke, D. J.; Michie, C. Refining the Construct of Psychopathy: Towards a
Hierarchical Model. Psychological Assessment, 13, 171-1 88, 2001.
[27] SCAN: Cuestionario para la Evaluación Clínica en Neuropsiquiatría. OMS.
Madrid, 1992.
[28] Hare, R. D. The Hare Psychopathy Checklist - Revised. Toronto, ON: Multi-
Health Systems. 1991.
[29] Forth, A.E.; Kosson, D.S. ; Hare, R. D. Psychopathy Checklist Youth Version:
Technical Manual. Toronto: Multi-Health Systems, 2003.
[30] American Psychiatric Association. Diagnostic and Statistical Manual of Mental
Disorders - Text revision. Fourth edition. Washington, DC, American
Psychiatric Association. 2000.
[31] Buss, A.H.; Perry, M. The Aggression Questionnaire. Journal of Personality
and Social Psychology. Vol 63. No.3, 1992.

50
[32] Ramos Brieva, J. A.; Gutiérrez Zotes, A.; Saíz-Ruíz, J.Escala de Control de
los Impulsos “Ramón y Cajal” (ECIR y C). Actas Españolas de Psiquiatría,
30, 160-174, 2002.
[33] Rosenberg, M. Self-esteem Scale. Society and Adolescent self-image.
Princeton. N. J. Princeton. University Press, 1965.
[34] Zuckerman, M. Behavioural Expressions and Biosocial Bases of Sensation
Seeking. Cambridge University Press, 1994.

51
ANEXOS

Anexo A. Código en MatLab para el modelo de Clases Latentes estimado


mediante el algoritmo Esperanza-Maximización.

function [f, m, llk, llr, df, c, p, devbuf, c00, p00] = em_lsm(n, T,


maxiter, eps, c0, p0)

dbstop ifwarning;
f0 = n;
n = n / sum(n(:));
sz = size(n);
if nargin < 6
p0 = cell(1, length(sz));
for i=1:length(p0)
A = rand(sz(i), T);
A = A ./ kron(ones(sz(i),1), sum(A, 1));
p0{i} = A;
end
end
if nargin < 5
c0 = rand(1,T);
c0 = c0 ./ sum(c0);
end
c00 = c0;
p00 = p0;
nn = zeros([sz, T]);
c = c0;
p = p0;
iter = 0;
devbuf = [];
llk = 0;
while iter < maxiter
% paso E
for idx=1:prod(size(nn))
subv = ind2subv(size(nn), idx);
nn(idx) = c(subv(end));
for i=1:length(sz)
nn(idx) = nn(idx) * p{i}(subv(i), subv(end));
end
end
nnhat = sum(nn, length(sz)+1);
nnhat = catrep(length(sz)+1, T, nnhat);
nnhat = nn ./ nnhat;
% paso M
for t=1:T
A = subarray(length(sz)+1, t, nnhat);
A = n .* A;
c(t) = sum(A(:));
for i=1:length(sz)
for k=1:sz(i)
B = subarray(i, k, A);

52
p{i}(k, t) = sum(B(:)) / c(t);
end
end
end
% mle
f = zeros([sz, T]);
for idx=1:prod(size(f))
subv = ind2subv(size(f), idx);
f(idx) = c(subv(end));
for i=1:length(sz)
f(idx) = f(idx) * p{i}(subv(i), subv(end));
end
end
f = sum(f, length(sz)+1);
llk(end+1) = sum( f0(:) .* log(f(:)) );
% si converge
maxdev = max(abs(c-c0));
for i=1:length(p)
A = abs(p{i}-p0{i});
maxdev = max(maxdev, max(A(:)));
end
devbuf = [devbuf, maxdev];
if maxdev < eps
disp(['algorithm converges in ', int2str(iter), ' steps.']);
break;
end
c0 = c;
p0 = p;
iter = iter + 1;
end
% estimación de frecuencias
f = zeros([sz, T]);
for idx=1:prod(size(f))
subv = ind2subv(size(f), idx);
f(idx) = c(subv(end));
for i=1:length(sz)
f(idx) = f(idx) * p{i}(subv(i), subv(end));
end
end
m = f; % tabla ajustada
f = sum(f, length(sz)+1);
f = f .* sum(f0(:));
% cociente de verosimilitud
f0 = f0(:);
f1 = f(:);
llr = f0./f1;
llr( find(llr==0) ) = 1;
llr = 2 * sum( f0.*log(llr) );
% grados de libertad
df = (prod(size(n))-1) - (T-1+T*sum(size(n)-1));
llk = llk(2:end);
end

53
Anexo B. Código en WinBUGS para el modelo de Grado de Membresía
estimado mediante Monte Carlo con Cadenas de Markov.

#I=123; J=11; K=2; R=2048


model
{
for (i in 1:I) {
for (j in 1:J) {
z[i,j] ~ dcat(g[i,1:2]);
resp[i,j] ~ dbern(lambda[z[i,j],j]);
}
g[i,1:2] ~ ddirch(alpha[]);
}
# a priori
alpha[1] <- 0.1;
alpha[2] <- 0.1;
for (k in 1:K){
for (j in 1:J){
lambda[k,j] ~ dbeta(beta1[k,j], beta2[k,j]);
}
}
# cálculo de la probabilidad del patrón de respuesta r
g.new[1:2] ~ ddirch(alpha[1:2]);
for (r in 1:R)
{ for (j in 1:J)
{ prob.resp[r,j] <- g.new[1] *
pow((lambda[1,j]),(pos.resp[r,j])) * pow((1-lambda[1,j]),(1-
pos.resp[r,j])) + g.new[2] * pow((lambda[2,j]),(pos.resp[r,j])) * pow((1-
lambda[2,j]),(1-pos.resp[r,j]));
}
# probabilidad de observar el patrón de respuesta r dado g.new
prob.g[r] <-
prob.resp[r,1]*prob.resp[r,2]*prob.resp[r,3]*prob.resp[r,4]*prob.resp[r,5
]*prob.resp[r,6]*prob.resp[r,7]*prob.resp[r,8]*prob.resp[r,9]*prob.resp[r
,10]*prob.resp[r,11];
}
}

54

También podría gustarte