Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Revista de Clínica
Detalles de la publicación de
neuropsicología , incluidas las instrucciones para los autores e
información de suscripción: http://www.tandfonline.com/loi/ncen18
Neuropsicología y análisis de
conglomerados: Potenciales y problemas
a a b
petirrojo morris , Roger Blashfield y Paul Satz
a
Universidad de Florida
b
Universidad de Victoria
Publicado en línea: 04 de enero de 2008.
Para citar este artículo: Robin Morris , Roger Blashfield & Paul Satz (1981) Neuropsicología y análisis de
conglomerados: Potenciales y problemas, Journal of Clinical Neuropsychology, 3:1, 79-99
Taylor & Francis hace todo lo posible para garantizar la exactitud de toda la información (el “Contenido”) contenida
en las publicaciones de nuestra plataforma. Sin embargo, Taylor & Francis, nuestros agentes y nuestros
otorgantes de licencias no realizan declaraciones ni garantías de ningún tipo en cuanto a la precisión, integridad
o idoneidad para cualquier propósito del Contenido. Todas las opiniones y puntos de vista expresados en esta
publicación son opiniones y puntos de vista de los autores, y no son los puntos de vista ni están respaldados por
Taylor & Francis. No se debe confiar en la precisión del Contenido y se debe verificar de forma independiente
con fuentes primarias de información. Taylor and Francis no será responsable de pérdidas, acciones, reclamos,
procedimientos, demandas, costos, gastos, daños y otras responsabilidades de ningún tipo o de cualquier forma
que surjan directa o indirectamente en relación con, o que surjan del uso de el contenido.
Este artículo se puede utilizar con fines de investigación, enseñanza y estudio privado.
Cualquier reproducción, redistribución, reventa, préstamo, sublicencia, suministro sistemático o distribución
sustancial o sistemática a cualquier persona está expresamente
Machine Translated by Google
prohibido. Los términos y condiciones de acceso y uso se pueden encontrar en http://
www.tandfonline.com/page/terms-and-conditions
Machine Translated by Google
Pablo Satz
universidad de victoria
RESUMEN
Este informe presenta una visión general selectiva de la literatura de análisis de conglomerados y
sus usos potenciales en neuropsicología. Además, se presenta un problema real que involucra
datos del Proyecto Longitudinal de Florida para brindar un ejemplo práctico de muchos de los
procesos y problemas involucrados en las técnicas de análisis de conglomerados. Se espera que el
lector obtenga una comprensión teórica y práctica de tales métodos y su utilidad potencial en
neuropsicología y otras áreas relacionadas.
* Los autores desean agradecer a los Dres. Kenneth Adams, Jack Fletcher, Byron Rourke y los demás
revisores de la revista por sus útiles críticas a este artículo.
Dirección para solicitudes de reimpresión: Robin Morns, Departamento de Psicología Clínica.
J. Hillis Miller Health Center, Universidad de Florida, Box 5-16, Gainesville, FL 32610, EE. UU.
80 MORRIS ETAL.
Rourke (1979) y Fisk y Rourke (1979) han utilizado el análisis factorial tipo Q para identificar
subtipos de niños con problemas de aprendizaje basándose en los resultados de una extensa
batería de pruebas neuropsicológicas. El uso del análisis de conglomerados se ha dirigido tanto
a la validación de los sistemas de clasificación que se han desarrollado clínicamente como a la
creación de nuevos sistemas que luego pueden usarse para la investigación. Se necesitan
sistemas de clasificación válidos y fiables para fortalecer los cimientos sobre los que la
neuropsicología construirá su base teórica.
Este documento pretende ser un tutorial para describir el análisis de conglomerados a los
investigadores que trabajan en el área de la neuropsicología. Para lograr este objetivo, el
documento se divide en dos secciones: (1) una descripción general de la literatura analítica de
conglomerados; y (2) un ejemplo de análisis de datos multivariados de una población con
problemas de aprendizaje.
El mayor uso de técnicas de agrupamiento en las ciencias biológicas y sociales solo comenzó
en la década de 1960 con la publicación de Principios de taxonomía numérica por Sokal y
Sneath (1963). Desde entonces, las técnicas de agrupamiento se han expandido a las áreas de
la psicología, la antropología, la sociología, las humanidades, las ciencias de la información, el
reconocimiento de patrones, la educación y la medicina.
Una visión general de la literatura sobre el análisis de conglomerados lleva a las siguientes
conclusiones. (1) Hay un problema con la terminología, el etiquetado y, por lo tanto, la
comunicación inconsistentes. (2) Existen innumerables métodos y combinaciones de métodos,
algunos de los cuales se han descrito pero nunca se han utilizado, y muchos de los cuales no han
sido examinados críticamente ni ampliamente aceptados. (3) Diferentes problemas de clasificación
pueden requerir diferentes métodos y crear diferentes problemas que no siempre son evidentes.
(4) Hay tantos programas informáticos para el análisis de conglomerados como métodos; los
algoritmos, la documentación y la facilidad de uso varían entre los muchos programas. (5) Se ha
hecho poco intento de validar y examinar críticamente los resultados del conglomerado,
principalmente porque la validación es un
I El uso del término “clasificación” en este trabajo se refiere al acto de formar categorías de
sujetos o al acto resultante. Por el contrario, los términos "identificación" y "diagnóstico" se
refieren al proceso de asignación de un sujeto a un conjunto existente de categorías. Los
biólogos han reconocido consistentemente esta distinción (Simpson, 1961). Desafortunadamente,
los estadísticos no lo han hecho. Por lo tanto, el análisis discriminante, que en realidad es un
procedimiento de identificación que usa esta terminología, a menudo se ha llamado de manera inapropiada proced
Machine Translated by Google
proceso complejo. (6) El “empirismo ingenuo” prevalece cada vez más en los usos
aplicados del análisis de conglomerados. (7) Los métodos de agrupamiento no se basan
en una teoría estadística firme o una base bien probada; estos métodos, casi sin excepción,
son heurísticos.
Para presentar los diversos métodos de agrupación, se describirán siete clases
principales de procedimientos analíticos de agrupación. Estos son: (1) métodos de
aglomeración jerárquica; (2) métodos de división jerárquica; (3) técnicas de partición
iterativa; (4) técnicas de búsqueda de densidad; (5) variantes de análisis factorial; (6)
técnicas de agrupamiento; y, (7) técnicas gráficas. Dentro de cada una de estas clases
principales de agrupamiento, existen numerosos métodos específicos. Cada una de las
siete clases principales representa diferentes puntos de vista sobre cómo se definen los
conglomerados (McQuitty, 1967) y cómo se pueden descubrir grupos homogéneos (Anderberg, 1973).
82 MORRIS Y AL.
ters y combina clústeres que minimizan el aumento en la suma de cuadrados del error. Se ha
demostrado, como era de esperar, que estos diferentes métodos pueden producir soluciones
divergentes (Bartko, Strauss y Carpenter, 1971).
La tercera decisión básica, decidir el punto de parada en el proceso de agrupamiento que
proporciona la solución más adecuada, ha suscitado poca investigación y se discutirá con más
detalle en un punto posterior.
Aunque los métodos de aglomeración jerárquica son los más utilizados, no son necesariamente
los mejores métodos. Las soluciones jerárquicas pueden no ser apropiadas para muchos conjuntos
de datos. Además, algunos estadísticos se han desilusionado con la idoneidad de esta familia de
métodos (Hartigan, 1975).
(2) Los métodos divisivos jerárquicos utilizan el proceso inverso de los métodos aglomerativos
jerárquicos. La matriz inicial de observaciones se divide en dos subconjuntos. Cada conjunto se
puede dividir en más subconjuntos, y así sucesivamente . Dado que todas las divisiones posibles
de las observaciones no son posibles, excepto para pequeños conjuntos de datos, el método
habitual para formar conglomerados es mediante la división sucesiva de los conglomerados con la
mayor heterogeneidad. Un problema con ambos tipos de métodos jerárquicos es que una división
(o agrupación) ineficaz en una etapa temprana del proceso no se corrige más adelante.
(3) Los métodos iterativos de partición difieren de las técnicas jerárquicas en que pueden verificar
grupos de grupos y reubicar cualquier tema mal asignado a un grupo más apropiado. El punto de
partida de este proceso es una decisión sobre el número de conglomerados (K = número de
conglomerados ) presentes en el conjunto de datos. Para K dado, se encuentran estimaciones de
los centroides del conglomerado. Algunos procedimientos eligen los primeros K sujetos en el
conjunto de datos como estimaciones de los centroides; algunos eligen centroides al azar; otros
eligen observaciones K que están más alejadas; y finalmente, algunos permiten al investigador
especificar estimaciones más ocultas. Los sujetos se asignan a los grupos con los centroides más
similares y se definen nuevos centroides como las medias de las agrupaciones resultantes. Este
proceso se repite iterativamente hasta encontrar una solución estable. La mayoría de los métodos
iterativos de partición encuentran soluciones para un número fijo de conglomerados, aunque
algunos permiten la variabilidad en el número de conglomerados (ver Anderberg, 1973).
Una vez que se han asignado todas las observaciones a los conglomerados, se comprueba
cada conglomerado en busca de observaciones que no pertenezcan. Esta búsqueda generalmente
se realiza eliminando las observaciones del conglomerado o colocándolas en otro grupo de
conglomerados. La decisión de eliminar o colocar una observación particular en un conglomerado
generalmente se basa en la optimización de un criterio de conglomerado. Muchos de estos criterios
se derivan de las estadísticas utilizadas en el análisis de varianza multivariado.
Los principales problemas asociados con los métodos iterativos de partición son que estos
métodos a menudo se ven afectados por la elección de la partición inicial y que una búsqueda
verdaderamente exhaustiva de todas las particiones de un conjunto de datos es enormemente costosa.
Machine Translated by Google
(4) Una cuarta familia de métodos de agrupamiento es una colección de técnicas de búsqueda
de densidad . Si uno considera a los sujetos como puntos en el hiperespacio, los cúmulos
pueden conceptualizarse como áreas relativamente densas de puntos. Las técnicas de búsqueda
de densidad buscan estas áreas modales densas. Muchos de estos métodos actúan como el
método de enlace único, pero usan varios criterios para detener la inclusión de observaciones en
un grupo. El método TAXMAP deja de agregar observaciones si la adición de la siguiente
observación reduce la similitud promedio de un grupo en una cantidad inconsistente con las caídas
menores anteriores. El análisis de modo de Wishart (Wishart, 1969) utiliza un radio alrededor de
un punto que aumenta o disminuye gradualmente según los "valores de umbral".
Las técnicas de densidad se han estudiado teóricamente, pero rara vez se han utilizado con datos
aplicados. Por lo tanto, las características pragmáticas de estos métodos no son bien conocidas.
(5) Las variantes del análisis factorial, especialmente el análisis factorial tipo Q (o análisis
factorial inverso), se han utilizado en la investigación psicológica. Estos métodos comienzan
formando una matriz de correlación de similitudes entre sujetos. (Nota: el análisis factorial
estándar, llamado modo R, comienza formando una matriz de correlaciones entre variables). Los
factores se extraen de la matriz de correlación y se pueden usar varias técnicas de rotación. Los
sujetos se asignan a grupos en función de sus cargas factoriales.
El uso del análisis factorial tipo Q ha generado mucha controversia (Burt & Stephenson, 1939).
Los defensores más firmes de su uso han sido Overall y Klett (1972) y Skinner (1977). Estos
autores han privilegiado la representación dimensional generada por estos métodos. Las
representaciones categóricas derivadas de métodos jerárquicos no siempre son útiles o apropiadas.
Las críticas a la factorización @type incluyen el uso inverosímil de un modelo lineal entre sujetos,
el problema de las cargas factoriales múltiples y el doble centrado de los datos (Everitt, 1980;
Fleiss, Lawlor, Platman y Fieve, 1971). Fuera de la psicología, las variantes de factores se usan
solo en raras ocasiones. Las técnicas de ordenación relacionadas que proporcionan alternativas
incluyen análisis de componentes principales, análisis de factores múltiples, análisis de
coordenadas principales, escalamiento multidimensional no métrico y seriación (Sneath & Sokal,
1973).
(6) Los métodos de agrupación son técnicas de clasificación especiales que permiten la
superposición de grupos. Los métodos de agrupación se pueden utilizar en casos como la
clasificación de los significados de las palabras. Estos métodos comienzan con la matriz de coeficiente de similitud.
Luego, las observaciones se comparan con una observación elegida al azar y se usan ciertas
funciones matemáticas para los criterios de inclusión. A través del uso de varios puntos de partida,
se forman muchos grupos grandes y pequeños. Estos grupos luego se comparan e interconectan.
Un problema con estos métodos es que los mismos grupos pueden encontrarse muchas veces.
Otro problema es que los métodos de agrupamiento han tenido un uso limitado, por lo que sus
características no son bien conocidas (Jardine & Sibson, 1968).
Machine Translated by Google
84 MORRIS ETAI..
La discusión anterior sobre los métodos analíticos de conglomerados fue muy breve y no
describe adecuadamente las características de los métodos específicos. El mejor recurso para
obtener más información sobre el análisis de conglomerados se encuentra en un libro pequeño
pero fácil de leer de Everitt (1980). Se puede encontrar más información en los artículos de
Cormack (1971), Everitt (1979), Lance y Williams (1967) y en los libros de Sneath y Sokal
(1973), Anderberg (1973), Hartigan (1975) y Clifford y Stephenson. (1975).
(2) Variables: La segunda consideración fue la selección de variables apropiadas sobre las
cuales agrupar a estos sujetos con problemas de aprendizaje. Dado que no se pueden usar todas
las variables posibles, el propósito de la selección de variables es maximizar las diferencias de
subtipos. Las decisiones sobre la selección de variables pueden tener un impacto importante en
los resultados de un estudio de agrupamiento.
Una característica que ha demostrado ser importante en tales elecciones es si la distribución
de frecuencias de una variable es multimodal y/o sesgada.
Las variables normalmente distribuidas no sugieren la presencia de múltiples poblaciones. Otra
consideración en la selección de variables son las propiedades psicométricas de las variables.
Finalmente, la relevancia teórica debe ser una preocupación principal.
Dado que este estudio era preliminar, y debido a que investigaciones anteriores han sugerido
un gran número de dimensiones en las que se pueden diferenciar los niños con problemas de
aprendizaje, solo se utilizaron variables relacionadas con funciones cognitivas superiores. Estas
medidas se basaron mucho en los factores encontrados en un análisis factorial de la batería de
pruebas utilizada en este proyecto (Fletcher & Satz, 1980). El uso de puntajes factoriales parece
atractivo , pero dichos puntajes se distribuyen normalmente y, por lo tanto, se cree que son
limitantes en un problema de agrupamiento.
Se utilizaron variables relacionadas con la conceptualización verbal abstracta, las habilidades
verbales expresivas y las habilidades visomotoras y visoespaciales. Estas dimensiones fueron
representadas por la subprueba de Similitudes del WISC-R (SIM), una Prueba de Fluidez Verbal
(VF), una Prueba de Discriminación de Reconocimiento (RD) y la Prueba Berry de Integración
Visual Motora (VMI). Estas medidas son bien conocidas y se ha demostrado a través de
numerosos estudios predictivos y analíticos de factores que son medidas válidas de niños de
todas las edades involucradas (Fletcher et al., en prensa, a). Los coeficientes de confiabilidad
reales solo se informaron para la subprueba de Similitudes y la Prueba Berry de Integración
Visomotora para niños. Las variables se desviaron significativamente de una distribución normal
para la muestra de personas con problemas de aprendizaje (Kolmogorov Smirnov D-Statistic,
Stevens, 1974). Una justificación adicional para estas elecciones fue restringir el número de
pruebas para reducir la redundancia y la varianza del error aleatorio, y aumentar la interpretabilidad
del grupo (subtipo).
(3) Similitud: La tercera opción es una medida adecuada de similitud entre sujetos . Como se
describió anteriormente, el patrón y la elevación son consideraciones en cualquier
Machine Translated by Google
86 MORRIS ETAL.
decisión. En el presente ejemplo, se pensó que la elevación sería un factor crítico y que
una medida de distancia sería más apropiada. Esto se debió a la consideración de que
dos niños pueden tener exactamente el mismo patrón de rendimiento (una correlación de
1,00), pero si uno se desempeña a un nivel superior, mientras que el otro tiene un nivel
deficiente, pueden ser muy diferentes de un nivel clínico . Punto de vista. Por esta razón,
no se eligió la correlación. En su lugar, se seleccionó la distancia euclidiana al cuadrado
como medida de similitud/desigualdad (ver Fleiss & Zubin, 1969).
(4) Métodos de agrupamiento : El siguiente paso básico involucró la elección del método
de agrupamiento. Dado que este análisis de datos pretendía ser principalmente una
demostración, se tomó la decisión de utilizar el método de agrupamiento más popular :
las técnicas de aglomeración jerárquica. Además , se utilizó un método de partición
iterativo sobre los resultados de los métodos jerárquicos.
El programa informático elegido en este estudio fue CLUSTAN (versión IC2, Wishart,
1975). Este programa es el más versátil de los muchos programas de software para el
análisis de conglomerados, está razonablemente bien documentado y está ganando una
distribución bastante amplia (Blashfield, Aldenderfer y Morey, en prensa).
yo
Fig. 1. Árbol jerárquico usando la vinculación promedio en niños con problemas de aprendizaje.
TABLA 1
solución antes de tales saltos, cuando la solución del conglomerado parece más homogénea
(pequeña varianza dentro del conglomerado).
En el Cuadro I, los coeficientes de agrupamiento para el vínculo promedio , así como para tres
4
3 yo
2
(a)
Prueba
de
vocabulario
en
imágenes
de
Peabody**
(b)
Similitudes
(c)
Fluidez
verbal
(d)
Reconocimiento
-Discriminación
(e)
Integración
visomotora
de
Berry
Población
en
el
grado
5 Total Desactivado Aprendizaje valores
atípicos Grupo
Se
utiliza
como
marcador
de
coeficiente
intelectual
yno
para
agrupar. Los
puntajes
de
WRAT
son
el
equivalente
de
grado
menos
el
nivel
de
grado
en
meses.
236
89 14
32
3 12 23
103.5 102.0 106.7 86,8
101,8
14.1 94.4 97.3 79.2
16.6
estándar estándar
PPVT(a)**
10.9 10.7 11.0
3.6 2.7 8.6 9.8 6,3
5,6
10,1
Solución
de
seis
grupos
basada
en
el
método
de
enlace
promedio
27.7 22.3 36.3 35.8 18,1
18,5
10,6
24,2 SIM(b)
9.1
16.6 19.0 20.5 8,0
17,1
19,0
15,2
18.4
3.2 3.2
TABLA
2
106.2 145.0
21,9 92.3 99.0 88,5
71,0
83,5
110,4
17.6
-24,4 -20,0 -19.5 -24,9
-27,3
-20,8
-3
1 .O
BVMI(e)
26.2
1.3 9.7
-10.6 -29.7 -28.3 -26,7 -31,0
-29,3
-31,8
-20,3
22.2
Deletrear
6.8
Leer
-20,7 -17.0 -20,6 -20,9
-22,8
-28,3
WAT*
11.9
6.9
W
r M
>
-1
Matemáticas
Machine Translated by Google
Machine Translated by Google
A C
Este método adicional sacó a cada sujeto de su grupo asignado y luego comparó su similitud
entre sí para determinar a cuál era más similar. El método de K-medias, por lo tanto, intenta
aclarar aún más una solución de conglomerados. Estos cambios se examinan estadísticamente
y se intenta reducir la varianza dentro de los conglomerados y aumentar la varianza entre
conglomerados. También le permite al investigador examinar el número de sujetos 'reubicados',
lo que podría dar una idea de la estabilidad de la solución. Si muchos sujetos cambian de grupo
durante cada iteración, uno debe preguntarse sobre la idoneidad de los resultados.
En nuestro ejemplo, menos del 15 % de los sujetos se colocaron en un grupo diferente y hubo
muy pocos cambios en los perfiles y la composición del grupo.
La solución de seis conglomerados se muestra en la Figura 3. Se notará que solo se dan los
perfiles para cinco conglomerados. El grupo seis tenía un total de tres sujetos, pero no se
incorporó a ninguno de los grupos más grandes hasta una solución de cuatro grupos.
Siguiendo la recomendación de Everitt (1980), estos temas se consideraron "atípicos" y no se
consideraron más. Los "valores atípicos" pueden ser
Machine Translated by Google
90 MORRIS Y AL.
.-I
STD.
visto como resultado de errores de medición, o como individuos únicos para los cuales hay
pocos, si es que hay alguno, individuos de comparación en una muestra dada.
Para resumir, utilizando el análisis de conglomerados, hemos clasificado un grupo de 89 niños
de quinto grado con discapacidades de aprendizaje en cinco subtipos (conglomerados) que
muestran diferentes patrones de desempeño en cuatro variables utilizadas para inferir relaciones
cerebro-conducta. Estos cinco subtipos han sido informados por otros investigadores en el área
(Satz, & Morris, en prensa, a). En este punto, se han completado cinco de los pasos generales
en cualquier problema de agrupamiento. En cada uno de estos pasos, las decisiones tomadas se
basaron en criterios subjetivos donde otros investigadores podrían haber tomado decisiones legítimas.
Machine Translated by Google
opciones alternativas basadas en diferentes valoraciones. El punto importante es que, sin el paso
seis, la validación, los resultados podrían ser completamente aleatorios o simplemente los resultados
autocumplidos de nuestros sesgos.
(6) Validación: Los procedimientos de validación interna2 son métodos que buscan evaluar la
adecuación y la estabilidad de una solución de agrupamiento. Sin embargo, se han desarrollado
pocos métodos de validación de este tipo. Los sesgos que existen en muchos de estos métodos de
validación requieren que el usuario seleccione cuidadosamente procedimientos que sean compatibles
con los propósitos de la investigación y las metodologías de agrupación.
En la literatura se han identificado tres clases principales de procedimientos de validación interna:
medidas estadísticas, procedimientos de manipulación de datos y métodos gráficos. La primera
clase, medidas estadísticas, utiliza fórmulas diseñadas para: (1) centrarse en la relación entre
matrices de similitud (medidas cofenéticas, Hol gerson, 1978); (2) centrarse en la homogeneidad de
los sujetos dentro de los grupos resultantes (medidas de varianza); (3) centrarse en la "estrechez"
de los sujetos en el espacio multidimensional (medidas de distancia entre puntos); o (4) centrarse
en las estimaciones de probabilidad máxima para los parámetros de un modelo de agrupamiento
específico. Cabe señalar que muchas de estas medidas estadísticas no se desarrollaron para la
validación, y se desconoce su idoneidad para tales fines.
En resumen, los métodos de validación se pueden utilizar para investigar la relación de una
solución de agrupamiento con un marco teórico específico de lo que es una buena clasificación.
Como mínimo, se debe utilizar algún tipo de procedimiento de validación interna
92 MORRIS Y AL.
después de que se obtienen los resultados del agrupamiento postulado debido a las limitaciones
actuales y las decisiones subjetivas involucradas en el proceso de agrupamiento. Dubes y Jain
(1980) proporcionan una revisión más detallada de las técnicas de validación interna en el análisis
de conglomerados. Desafortunadamente, la mayoría de los estudios analíticos de conglomerados
en psicología y neuropsicología no han utilizado procedimientos de validación de ningún tipo. Por
lo tanto, el siguiente paso se discute con cierto detalle.
En el presente ejemplo, los cinco grupos (excluidos los valores atípicos) se usaron como un
estándar contra el cual se realizaron los procedimientos de manipulación de datos, gráficos y
validación estadística. Everitt (1980) sugiere que una buena solución debería reaparecer bajo
diferentes métodos de agrupamiento. Esto no implica que los resultados exactos deban ser
replicables en todos los tipos de análisis de conglomerados. Para nuestros propósitos, se utilizaron
tres métodos aglomerativos jerárquicos adicionales: enlace completo, centroide y varianza mínima.
Los resultados mostraron que menos del 11% de los sujetos, usando cualquiera de los métodos,
fueron ubicados en un grupo diferente. Dos medidas de distancia (Distancia euclidiana al cuadrado
y Suma de errores de cuadrados) arrojaron los mismos resultados dentro de cualquier método
jerárquico específico. Incluso con este pequeño número de sujetos cambiando entre soluciones,
es importante observar las descripciones reales de los grupos, ya que algunos sujetos pueden
influyen en gran medida en los perfiles medios de los conglomerados pequeños y posiblemente
cambien las interpretaciones.
Como segundo procedimiento, se empleó un diseño de muestra dividida que asignó
aleatoriamente a los 89 niños en dos submuestras. La expectativa era que los mismos sujetos se
agruparan y que las submuestras arrojaran resultados similares a los del estándar. El quince por
ciento de los sujetos cambiaron de sus grupos originales en las muestras divididas 1 y 2. Debido a
la pequeña cantidad de sujetos en algunos de estos grupos, los perfiles de grupo reales mostraron
algunas diferencias en sus características.
En el tercer procedimiento, se hizo una pregunta sobre el efecto en los grupos estándar si se
agregaran sujetos adicionales y se reagruparan los datos. En la primera adición, se agregaron a
los 89 niños originales 12 niños en un subgrupo de rendimiento (basado en las clasificaciones
originales de WRAT) que mostraban un déficit aritmético específico, pero una habilidad promedio
tanto en lectura como en ortografía. Estos 101 sujetos luego se sometieron al procedimiento
original utilizado para la agrupación.
Los cinco grupos estándar originales mantuvieron sus perfiles originales, y solo el cuatro por
ciento de los 89 sujetos originales cambiaron de grupo. Los 12 niños agregados se agruparon en
dos grupos, con un 33 % en el grupo cinco, mientras que el 50 % en el grupo cuatro. Este resultado
nuevamente apoyó la estabilidad de la solución de conglomerado original y también proporcionó
información interesante sobre los posibles procesos involucrados en los déficits aritméticos.
En la segunda adición, se agregaron a los 89 niños originales 25 niños que promediaron una
desviación estándar por encima de la norma de la población en lectura, ortografía y aritmética
WRAT . Estos 114 niños se agruparon utilizando los procedimientos originales. Sobre la base de
consideraciones diagnósticas y teóricas, se
Machine Translated by Google
esperaba que los niños promedio o por encima del promedio formarían un nuevo grupo. Estos
sujetos no cayeron en ningún grupo de déficit y formaron un nuevo grupo de habilidades promedio
o superiores al promedio. Solo el 10% de los sujetos de los 89 grupos originales cambiaron.
A continuación, se preguntó qué pasaría si se añadieran otras variables a las cuatro utilizadas
originalmente en el agrupamiento. Las dos variables que ocuparon el segundo lugar más alto en
el análisis factorial de la batería de pruebas en quinto grado, la Prueba de Vocabulario en Imágenes
de Peabody (PPVT) y la Prueba de Figuras Incrustadas (EF), se agregaron a las cuatro variables
originales. Esto dio como resultado un problema de seis variables y 89 sujetos que se agruparon
utilizando el procedimiento estándar original. Menos del 12% de los sujetos cambiaron de grupo y
las medias de los grupos no cambiaron apreciablemente. Este resultado era esperado debido a la
naturaleza altamente redundante de estas dos variables. La mayoría de las otras variables que
estaban disponibles eran menos confiables y se esperaba que agregaran varianza de error y
disminuyeran la estabilidad de la solución estándar.
También se utilizó un método más complicado, pero potencialmente útil, una simulación de
Monte Carlo. Dado que los métodos de agrupación encontrarán grupos incluso en datos aleatorios,
el desarrollo de un conjunto de datos que imite los parámetros conocidos de los datos originales,
pero que incluya perfiles de sujetos generados aleatoriamente, podría proporcionar información
útil. Con un conjunto de datos "aleatorio" de este tipo, los resultados del grupo se comparan con
los resultados originales. Si los resultados del conjunto de datos generado aleatoriamente y del
conjunto de datos reales son muy similares, uno comenzaría a cuestionar el rechazo de una
hipótesis nula de ausencia de conglomerados.
La creación de conjuntos de datos Monte Carlo apropiados es un proceso complejo. Se
generaron conjuntos de datos que tenían el mismo número de sujetos, variables, medias y
desviaciones estándar, y la misma matriz de covarianza que el conjunto de datos original. Los
"sujetos" reales dentro de estos conjuntos de datos se generaron a través de números aleatorios
multivariados. Tenga en cuenta que no existía ningún clúster real en estos conjuntos de datos artificiales.
La Tabla 3 presenta un resumen de las similitudes entre los centroides de conglomerados
generados en los datos reales del niño y los generados en los datos de Monte Carlo.
Valores altos de similitud (es decir, valores de correlación grandes [patrón similar] y distancias
pequeñas [elevación similar]) sugerirían que los resultados podrían basarse en un agrupamiento
aleatorio de los datos. Tres grupos de discapacidades de aprendizaje tienen correlaciones
significativas (patrón) con un grupo de Monte Carlo. Solo uno de estos grupos altamente
correlacionados (LD cluster 5) también tiene una pequeña distancia euclidiana (elevación) con su
contraparte de Monte Carlo. Estos resultados no respaldan completamente la hipótesis nula de
que estos grupos se basan en un agrupamiento aleatorio de los datos de problemas de aprendizaje.
Sin embargo, en base a las similitudes de patrones, tenderían a introducir cierto escepticismo
acerca de la solución de clúster total.
El uso de variables externas como criterio fue el último método de validación utilizado. En
En este enfoque, los conglomerados se prueban con procedimientos paramétricos (MANOVA,
ANOVA, Dim can's) y no paramétricos (Chi-cuadrado) utilizando varias medidas no utilizadas en
el proceso de conglomerado original como variables dependientes. Debido a su redundancia, las
variables que están altamente correlacionadas con las variables en la realidad
Machine Translated by Google
94 MORRIS Y AL.
TABLA 3
Relación entre los clústeres de problemas de aprendizaje y los clústeres de Monte Carlo
* pags< .05.
.RBRL FLUIDEZ
Se demostró que los cinco grupos difieren estadísticamente en una amplia variedad de
medidas y atributos. Estos incluyeron diferencias de grupos en los niveles de rendimiento
de los padres (WRAT de lectura y ortografía), estatus socioeconómico , signos neurológicos
leves, varios estigmas y la mayoría de las medidas neuropsicológicas de la batería
proporcionada en jardín de infantes, segundo y quinto grado. Además, se demostró que
estos grupos siguen diferentes patrones de desarrollo durante la investigación de seis años.
En resumen, los cinco conglomerados demostraron ser diferentes en la gran mayoría de
las variables obtenidas en el Proyecto Longitudinal de Florida. Se está preparando una
descripción más detallada de estos hallazgos.
OISCRIMINHNT FllP!~,~:lliJ I
a,
W
I1z _
w
w
METRO
yo
W
0
tu
[r
tu
+
tu
cn
wa
,-
t
m
3
bajo
GRÁFICO
96 MORRIS Y AL.
DISCUSIÓN
La clasificación es un tema fundamental en todas las ciencias. Un sistema de clasificación forma la base
conceptual sobre la cual se puede desarrollar una teoría de una ciencia. Por ejemplo, la clasificación
linneana de organismos vivos se desarrolló a mediados del siglo XVIII. Aproximadamente un siglo
después, este sistema de clasificación se convirtió en th; base conceptual sobre la que Darwin construyó
su teoría de la evolución.
En la ciencia de la neuropsicología, todavía se están desarrollando buenos sistemas de clasificación.
El análisis de conglomerados es un término genérico que se refiere a una amplia variedad de
procedimientos cuasiestadísticos utilizados para crear nuevas clasificaciones. El objetivo de la mayoría
de los métodos de agrupación es formar clasificaciones descriptivas en las que las categorías clasificatorias
sean relativamente homogéneas. Este documento ha discutido los métodos analíticos de conglomerados
y ha demostrado cómo estos métodos pueden aplicarse a la investigación neuropsicológica.
El análisis de conglomerados tiene algunas ventajas importantes para su uso en la investigación con respecto a las clases.
sificación Estas ventajas incluyen lo siguiente: (1) Los métodos
de análisis de conglomerados son objetivos y empíricos.
(2) Las técnicas de agrupación se pueden utilizar para formar clasificaciones descriptivas a partir de
grandes conjuntos de datos cuyo tamaño podría abrumar a un investigador humano.
(3) El análisis de conglomerados, el análisis factorial y el escalado multidimensional son técnicas que
pueden ayudar a un investigador a comprender la estructura multivariada de los datos.
Por otro lado, el análisis de conglomerados tiene algunos problemas importantes que cualquier usuario
debería conocer.
(1) Los métodos para realizar el análisis de conglomerados se han desarrollado durante las últimas dos
décadas. Las características estadísticas de los diversos métodos agrupados bajo este título
genérico no son bien conocidas.
(2) Diferentes métodos de agrupamiento a menudo generan clasificaciones sorprendentemente diferentes
Machine Translated by Google
NOTA DE REFERENCIA
1. Satz, P., Morns, R. y Darby, R. 0. Subtipos de problemas de aprendizaje: una búsqueda multivariante.
Simposio del Año Internacional del Niño. Vancouver, B. C., Canadá, 1979.
REFERENCIAS
Anderberg, M. R. Análisis de conglomerados para aplicaciones. Nueva York: Prensa Académica, 1973.
Bartko, J. J., Straws, J. S. y Carpenter, W. T. Una evaluación de técnicas taxométricas para
datos psiquiátricos. Boletín de la Sociedad de Clasificación, 197 I, 2, 2-28.
Blashfield, RK, Aldenderfer, M. S. y Morey, L. C. Software de análisis de conglomerados. En P. R.
Krishnaih (Ed.), Manual de estadísticas. Vol 2, Holanda Septentrional, en prensa.
Burt, C. y Stephenson, W. Puntos de vista alternativos sobre las correlaciones entre personas. Psicometrika.
1939, 4, 269-28 1.
Carroll, R. M., & Field, J. Una comparación de la precisión de clasificación de la similitud del perfil
medidas. Investigación conductual multivariante, 1974.9, 373-380.
Clifford, H. T. y Stephenson, W. Una introducción a la clasificación numérica. Nueva York:
Prensa Académica, 1975.
Cormack, R. M. Una revisión de la clasificación. El diario de la Royal Starisrical Society
(Serie A), 1971, 134, 321-367.
Darby, R. 0. Dificultades de aprendizaje: una búsqueda multivariada de subtipos. Disertación Doctoral
ción, Universidad de Florida, 1978.
Doehring, D. G., & Hoshko, I. M. Clasificación de problemas de lectura por las técnicas Q
Machine Translated by Google
98 MORRIS Y AL.
Fletcher, J., Satz, P. y Morns, R. El proyecto longitudinal de Florida: Implicaciones teóricas. En M. Harway
y S. Mednick (Eds.), US longiludiplprojects, en prensa. (a).
Fletcher, J., Satz, P. y Morris, R. El proyecto longitudinal de Florida: una revisión. En
M. Harway y S. Mednick (Eds.), EE. UU. proyectos longitudinales, en prensa. (b).
Hartigan, J. A. Representación de matrices de similitud por árboles. Revista de la Asociación
Estadounidense de Estadística, 1967, 62, 1140-1 158.
Hartigan, J. A. Algoritmos de agrupamiento. Nueva York: Wiley, 1975.
Hetler, J. H. Un examen crítico de la idoneidad de los análisis tipológicos proporcionados por varias técnicas
de agrupación. Tesis doctoral, Universidad de Minnesota, 1976.
Holgerson, M. El valor limitado de la correlación cofenética como criterio de agrupación. Patrón
Reconocimiento, 1978, 10, 287-295.
Jardine, N., & Sibson, R. La construcción de clasificaciones jerárquicas y no jerárquicas.
Computer Journal, 1968, II , 177-184.
Kertesz, A. y Phipps, J. B. Taxonomía numérica de la afasia. Cerebro y Lenguaje, 1977,4,
1-10.
Lance, G. N. y Williams, W. T. Una teoría general de las estrategias de clasificación clasificatorias. YO.
Sistemas jerárquicos. Revista informática. 1967,9. 373-380.
McQuitty, L. L. Un desarrollo mutuo de algunas teorías tipológicas y análisis de patrones
métodos. Medida Educativa y Psicológica, 1967,27,21-46.
En general, J. E., & Klett, C. J. Appliedmultivariateanalysis. Nueva York: McGraw-Hill, 1972.
Petrauskas, R. y Rourke, B. P. Identificación de subgrupos de lectores retrasados: un enfoque
neuropsicológico multivariado. Revista de Neuropsicología Clínica. 1979, I, 17-37.
Dislexia: una evaluación del conocimiento corriente. Nueva York: Oxford University Press, 1978.
Schwartz, E. L., Ramos, A, & John, E. R. Análisis de conglomerados de potenciales evocados de
gatos que se comportan Biología del Comportamiento, 1976, 17, 109-117.
Simpson, CI. G. Principios de taxonomía animal. Nueva York: Prensa de la Universidad de Columbia,
1961.
Skinner, H. A. Diferenciando la contribución de la elevación, la dispersión y la forma en el perfil
semejanza. Medida Educativa y Psicológica, 1978, 311, 297-308.
Skinner, H. A. Los ojos que te fijan : un modelo para la investigación de clasificación. Revisión psicológica
canadiense, 1977, 18, 142-151.
Sneath, P. H. A., & Sokal, R. R. Taxonomía numérica: los principios y la práctica de
clasificación numérica. San Francisco: WH Freeman & Co., 1973.
Sokal, R. R., & Sneath, P. H. A. Principios de taxonomía numérica, San Francisco: W. H.
Freeman, 1963.
Stevens, M. A. Uso de Kolmogorov-Smirnov, Cramer-Von Mises y estadísticas relacionadas sin tablas extensas.
Revista de la Asociación Estadounidense de Estadística, 1974,69. 630.
Tversky, A. Características de la similitud. Revisión psicológica, 1977, 84, 327-352.
Ward, J. H. Agrupación jerárquica para optimizar una función objetivo. Diario de la
Asociación Estadounidense de Estadística, 1963, SR, 236-244.
Wishart, D. R. Análisis de modo: una generalización del vecino más cercano que reduce los efectos de
encadenamiento. En A. J. Cole (Ed.), Taxonomía numérica. Londres: Prensa Académica, 1969.
Wishart, D. R. CLUSTANmanual de usuario, (3ra Edición). Londres: Computer Center, Universidad de
Londres, 1975.