Está en la página 1de 23

Machine Translated by Google

Este artículo fue descargado por: [Biblioteca de la Universidad McGill]


El: 20 de septiembre de 2013, a las: 01:32
Editorial: Routledge
Informa Ltd Registrada en Inglaterra y Gales Número de registro: 1072954
Domicilio social: Mortimer House, 37-41 Mortimer Street, Londres W1T 3JH, Reino Unido

Revista de Clínica
Detalles de la publicación de
neuropsicología , incluidas las instrucciones para los autores e
información de suscripción: http://www.tandfonline.com/loi/ncen18

Neuropsicología y análisis de
conglomerados: Potenciales y problemas
a a b
petirrojo morris , Roger Blashfield y Paul Satz
a
Universidad de Florida
b
Universidad de Victoria
Publicado en línea: 04 de enero de 2008.

Para citar este artículo: Robin Morris , Roger Blashfield & Paul Satz (1981) Neuropsicología y análisis de
conglomerados: Potenciales y problemas, Journal of Clinical Neuropsychology, 3:1, 79-99

Para enlazar a este artículo: http://dx.doi.org/10.1080/01688638108403115

POR FAVOR, DESPLÁCESE HACIA ABAJO PARA EL ARTÍCULO

Taylor & Francis hace todo lo posible para garantizar la exactitud de toda la información (el “Contenido”) contenida
en las publicaciones de nuestra plataforma. Sin embargo, Taylor & Francis, nuestros agentes y nuestros
otorgantes de licencias no realizan declaraciones ni garantías de ningún tipo en cuanto a la precisión, integridad
o idoneidad para cualquier propósito del Contenido. Todas las opiniones y puntos de vista expresados en esta
publicación son opiniones y puntos de vista de los autores, y no son los puntos de vista ni están respaldados por
Taylor & Francis. No se debe confiar en la precisión del Contenido y se debe verificar de forma independiente
con fuentes primarias de información. Taylor and Francis no será responsable de pérdidas, acciones, reclamos,
procedimientos, demandas, costos, gastos, daños y otras responsabilidades de ningún tipo o de cualquier forma
que surjan directa o indirectamente en relación con, o que surjan del uso de el contenido.

Este artículo se puede utilizar con fines de investigación, enseñanza y estudio privado.
Cualquier reproducción, redistribución, reventa, préstamo, sublicencia, suministro sistemático o distribución
sustancial o sistemática a cualquier persona está expresamente
Machine Translated by Google
prohibido. Los términos y condiciones de acceso y uso se pueden encontrar en http://
www.tandfonline.com/page/terms-and-conditions
Machine Translated by Google

Revista de neuropsicología clínica 1981,


vol. 3, núm. 1,79-99

Neuropsicología y Análisis de Clusters:


Potenciales y Problemas*

Robin Morris y Roger Blashfield


Universidad de Florida

Pablo Satz
universidad de victoria

RESUMEN

Este informe presenta una visión general selectiva de la literatura de análisis de conglomerados y
sus usos potenciales en neuropsicología. Además, se presenta un problema real que involucra
datos del Proyecto Longitudinal de Florida para brindar un ejemplo práctico de muchos de los
procesos y problemas involucrados en las técnicas de análisis de conglomerados. Se espera que el
lector obtenga una comprensión teórica y práctica de tales métodos y su utilidad potencial en
neuropsicología y otras áreas relacionadas.

La neuropsicología y el análisis de conglomerados son dos temas que recientemente han


recibido una mayor atención por parte de los científicos. Existen numerosas áreas de la
neuropsicología en las que la clasificación de sujetos basada en datos multivariantes podría
ser beneficiosa (lateralidad, neurolingüística, trastornos afásicos, esquizofrenia, etc.). El
análisis de conglomerados es una técnica cuasi estadística que se puede utilizar en datos
multivariados para crear tales clasificaciones. Por ejemplo, la investigación de Schwartz,
Ramos y John ( 1976) utilizó técnicas de análisis de conglomerados para clasificar patrones
de potenciales evocados en gatos. Kertesz y Phipps (1977) han utilizado la agrupación para
clasificar a los pacientes afásicos en función de su desempeño en un examen de afasia.
Probablemente, el área de la neuropsicología que ha experimentado el mayor uso de las
técnicas de análisis de conglomerados ha sido la de los problemas de aprendizaje.
Doehring y Hoshko (1977) y Doehring, Hoshko y Bryans (1979) han utilizado el análisis
factorial tipo Q y técnicas de agrupamiento aglomerativo jerárquico en un programa de
investigación en curso para identificar subtipos de niños con problemas de lectura en base a
extensas pruebas relacionadas con la lectura. En investigaciones relacionadas, Petrauskas y

* Los autores desean agradecer a los Dres. Kenneth Adams, Jack Fletcher, Byron Rourke y los demás
revisores de la revista por sus útiles críticas a este artículo.
Dirección para solicitudes de reimpresión: Robin Morns, Departamento de Psicología Clínica.
J. Hillis Miller Health Center, Universidad de Florida, Box 5-16, Gainesville, FL 32610, EE. UU.

Trabajo aceptado para publicación: 5 de marzo de 1981.


Machine Translated by Google

80 MORRIS ETAL.

Rourke (1979) y Fisk y Rourke (1979) han utilizado el análisis factorial tipo Q para identificar
subtipos de niños con problemas de aprendizaje basándose en los resultados de una extensa
batería de pruebas neuropsicológicas. El uso del análisis de conglomerados se ha dirigido tanto
a la validación de los sistemas de clasificación que se han desarrollado clínicamente como a la
creación de nuevos sistemas que luego pueden usarse para la investigación. Se necesitan
sistemas de clasificación válidos y fiables para fortalecer los cimientos sobre los que la
neuropsicología construirá su base teórica.
Este documento pretende ser un tutorial para describir el análisis de conglomerados a los
investigadores que trabajan en el área de la neuropsicología. Para lograr este objetivo, el
documento se divide en dos secciones: (1) una descripción general de la literatura analítica de
conglomerados; y (2) un ejemplo de análisis de datos multivariados de una población con
problemas de aprendizaje.

PARTE 1: ANÁLISIS DE CLUSTER

El análisis de conglomerados es un término genérico que se refiere a una familia de métodos


vagamente conectados que generan clasificaciones.' Los métodos clusteranalíticos intentan
formar grupos de sujetos relativamente homogéneos. Por lo tanto, estos métodos se pueden
utilizar como técnicas descriptivas para explorar la estructura de conjuntos de datos multivariados.

El mayor uso de técnicas de agrupamiento en las ciencias biológicas y sociales solo comenzó
en la década de 1960 con la publicación de Principios de taxonomía numérica por Sokal y
Sneath (1963). Desde entonces, las técnicas de agrupamiento se han expandido a las áreas de
la psicología, la antropología, la sociología, las humanidades, las ciencias de la información, el
reconocimiento de patrones, la educación y la medicina.
Una visión general de la literatura sobre el análisis de conglomerados lleva a las siguientes
conclusiones. (1) Hay un problema con la terminología, el etiquetado y, por lo tanto, la
comunicación inconsistentes. (2) Existen innumerables métodos y combinaciones de métodos,
algunos de los cuales se han descrito pero nunca se han utilizado, y muchos de los cuales no han
sido examinados críticamente ni ampliamente aceptados. (3) Diferentes problemas de clasificación
pueden requerir diferentes métodos y crear diferentes problemas que no siempre son evidentes.
(4) Hay tantos programas informáticos para el análisis de conglomerados como métodos; los
algoritmos, la documentación y la facilidad de uso varían entre los muchos programas. (5) Se ha
hecho poco intento de validar y examinar críticamente los resultados del conglomerado,
principalmente porque la validación es un

I El uso del término “clasificación” en este trabajo se refiere al acto de formar categorías de
sujetos o al acto resultante. Por el contrario, los términos "identificación" y "diagnóstico" se
refieren al proceso de asignación de un sujeto a un conjunto existente de categorías. Los
biólogos han reconocido consistentemente esta distinción (Simpson, 1961). Desafortunadamente,
los estadísticos no lo han hecho. Por lo tanto, el análisis discriminante, que en realidad es un
procedimiento de identificación que usa esta terminología, a menudo se ha llamado de manera inapropiada proced
Machine Translated by Google

NEUROPSICOLOGÍA Y ANÁLISIS DE CLUSTER 81

proceso complejo. (6) El “empirismo ingenuo” prevalece cada vez más en los usos
aplicados del análisis de conglomerados. (7) Los métodos de agrupamiento no se basan
en una teoría estadística firme o una base bien probada; estos métodos, casi sin excepción,
son heurísticos.
Para presentar los diversos métodos de agrupación, se describirán siete clases
principales de procedimientos analíticos de agrupación. Estos son: (1) métodos de
aglomeración jerárquica; (2) métodos de división jerárquica; (3) técnicas de partición
iterativa; (4) técnicas de búsqueda de densidad; (5) variantes de análisis factorial; (6)
técnicas de agrupamiento; y, (7) técnicas gráficas. Dentro de cada una de estas clases
principales de agrupamiento, existen numerosos métodos específicos. Cada una de las
siete clases principales representa diferentes puntos de vista sobre cómo se definen los
conglomerados (McQuitty, 1967) y cómo se pueden descubrir grupos homogéneos (Anderberg, 1973).

(1) Cuando se utilizan métodos aglomerativos jerárquicos, un investigador se enfrenta


a tres decisiones. Estas son la selección de (a) una, entre muchas, medidas de similitud,
asociación o distancia; (b) el método para combinar sujetos en grupos; y (c) el número
óptimo de conglomerados en un conjunto de datos.
El primer paso, la elección de la medida de similitud más apropiada, es importante
tanto por razones teóricas como prácticas. Teóricamente, la similitud es un concepto
central para la estructura de cualquier clasificación, Hartigan (1967) y Tversky (1977)
analizan los principales problemas teóricos que rodean la medición de la similitud.
Las medidas de similitud particulares solo son apropiadas para ciertos tipos de datos. Una
cuestión práctica importante es que diferentes medidas de similitud pueden conducir a
resultados diferentes cuando se utilizan los mismos datos y métodos de agrupación. Se ha
demostrado que la correlación es más útil para los datos en los que el patrón del perfil del
sujeto es importante. Una medida de distancia es más apropiada cuando la elevación a
través de las variables es una consideración importante y la similitud del patrón es menos
crucial. Todas las medidas de similitud implican un equilibrio entre el patrón del perfil y la
elevación (Skinner, 1978). Hetler (1976), Carroll y Field (1974), Cormack (1971) y Everitt
(1980) proporcionan revisiones de los coeficientes de similitud/desigualdad .
Desafortunadamente, estas revisiones no ofrecen reglas claras sobre qué coeficientes se
prefieren.
El segundo problema relacionado con el uso de métodos aglomerativos jerárquicos es
la elección de un método específico para definir la similitud entre grupos de sujetos.
Los métodos aglomerativos comienzan combinando los pares de observaciones más
similares en un grupo. La matriz de similitud/desigualdad se vuelve a calcular y este grupo
se compara con las observaciones restantes (u otros grupos). Nuevamente, las entidades
más similares se combinan para formar un grupo. Cada uno de los métodos de aglomeración
jerárquicos alternativos trata la definición de la distancia entre dos grupos de manera
diferente. Por ejemplo, los métodos de enlace único definen la similitud entre grupos como
la similitud entre sus miembros más cercanos. Los métodos de vinculación promedio
promedian las similitudes entre todos los miembros de cada grupo. El método de la varianza
mínima (Ward, 1963) considera todas las combinaciones posibles de clus
Machine Translated by Google

82 MORRIS Y AL.

ters y combina clústeres que minimizan el aumento en la suma de cuadrados del error. Se ha
demostrado, como era de esperar, que estos diferentes métodos pueden producir soluciones
divergentes (Bartko, Strauss y Carpenter, 1971).
La tercera decisión básica, decidir el punto de parada en el proceso de agrupamiento que
proporciona la solución más adecuada, ha suscitado poca investigación y se discutirá con más
detalle en un punto posterior.
Aunque los métodos de aglomeración jerárquica son los más utilizados, no son necesariamente
los mejores métodos. Las soluciones jerárquicas pueden no ser apropiadas para muchos conjuntos
de datos. Además, algunos estadísticos se han desilusionado con la idoneidad de esta familia de
métodos (Hartigan, 1975).

(2) Los métodos divisivos jerárquicos utilizan el proceso inverso de los métodos aglomerativos
jerárquicos. La matriz inicial de observaciones se divide en dos subconjuntos. Cada conjunto se
puede dividir en más subconjuntos, y así sucesivamente . Dado que todas las divisiones posibles
de las observaciones no son posibles, excepto para pequeños conjuntos de datos, el método
habitual para formar conglomerados es mediante la división sucesiva de los conglomerados con la
mayor heterogeneidad. Un problema con ambos tipos de métodos jerárquicos es que una división
(o agrupación) ineficaz en una etapa temprana del proceso no se corrige más adelante.

(3) Los métodos iterativos de partición difieren de las técnicas jerárquicas en que pueden verificar
grupos de grupos y reubicar cualquier tema mal asignado a un grupo más apropiado. El punto de
partida de este proceso es una decisión sobre el número de conglomerados (K = número de
conglomerados ) presentes en el conjunto de datos. Para K dado, se encuentran estimaciones de
los centroides del conglomerado. Algunos procedimientos eligen los primeros K sujetos en el
conjunto de datos como estimaciones de los centroides; algunos eligen centroides al azar; otros
eligen observaciones K que están más alejadas; y finalmente, algunos permiten al investigador
especificar estimaciones más ocultas. Los sujetos se asignan a los grupos con los centroides más
similares y se definen nuevos centroides como las medias de las agrupaciones resultantes. Este
proceso se repite iterativamente hasta encontrar una solución estable. La mayoría de los métodos
iterativos de partición encuentran soluciones para un número fijo de conglomerados, aunque
algunos permiten la variabilidad en el número de conglomerados (ver Anderberg, 1973).

Una vez que se han asignado todas las observaciones a los conglomerados, se comprueba
cada conglomerado en busca de observaciones que no pertenezcan. Esta búsqueda generalmente
se realiza eliminando las observaciones del conglomerado o colocándolas en otro grupo de
conglomerados. La decisión de eliminar o colocar una observación particular en un conglomerado
generalmente se basa en la optimización de un criterio de conglomerado. Muchos de estos criterios
se derivan de las estadísticas utilizadas en el análisis de varianza multivariado.
Los principales problemas asociados con los métodos iterativos de partición son que estos
métodos a menudo se ven afectados por la elección de la partición inicial y que una búsqueda
verdaderamente exhaustiva de todas las particiones de un conjunto de datos es enormemente costosa.
Machine Translated by Google

NEUROPSICOLOGÍA Y ANÁLISIS DE CLUSTER 83

(4) Una cuarta familia de métodos de agrupamiento es una colección de técnicas de búsqueda
de densidad . Si uno considera a los sujetos como puntos en el hiperespacio, los cúmulos
pueden conceptualizarse como áreas relativamente densas de puntos. Las técnicas de búsqueda
de densidad buscan estas áreas modales densas. Muchos de estos métodos actúan como el
método de enlace único, pero usan varios criterios para detener la inclusión de observaciones en
un grupo. El método TAXMAP deja de agregar observaciones si la adición de la siguiente
observación reduce la similitud promedio de un grupo en una cantidad inconsistente con las caídas
menores anteriores. El análisis de modo de Wishart (Wishart, 1969) utiliza un radio alrededor de
un punto que aumenta o disminuye gradualmente según los "valores de umbral".
Las técnicas de densidad se han estudiado teóricamente, pero rara vez se han utilizado con datos
aplicados. Por lo tanto, las características pragmáticas de estos métodos no son bien conocidas.

(5) Las variantes del análisis factorial, especialmente el análisis factorial tipo Q (o análisis
factorial inverso), se han utilizado en la investigación psicológica. Estos métodos comienzan
formando una matriz de correlación de similitudes entre sujetos. (Nota: el análisis factorial
estándar, llamado modo R, comienza formando una matriz de correlaciones entre variables). Los
factores se extraen de la matriz de correlación y se pueden usar varias técnicas de rotación. Los
sujetos se asignan a grupos en función de sus cargas factoriales.

El uso del análisis factorial tipo Q ha generado mucha controversia (Burt & Stephenson, 1939).
Los defensores más firmes de su uso han sido Overall y Klett (1972) y Skinner (1977). Estos
autores han privilegiado la representación dimensional generada por estos métodos. Las
representaciones categóricas derivadas de métodos jerárquicos no siempre son útiles o apropiadas.
Las críticas a la factorización @type incluyen el uso inverosímil de un modelo lineal entre sujetos,
el problema de las cargas factoriales múltiples y el doble centrado de los datos (Everitt, 1980;
Fleiss, Lawlor, Platman y Fieve, 1971). Fuera de la psicología, las variantes de factores se usan
solo en raras ocasiones. Las técnicas de ordenación relacionadas que proporcionan alternativas
incluyen análisis de componentes principales, análisis de factores múltiples, análisis de
coordenadas principales, escalamiento multidimensional no métrico y seriación (Sneath & Sokal,
1973).

(6) Los métodos de agrupación son técnicas de clasificación especiales que permiten la
superposición de grupos. Los métodos de agrupación se pueden utilizar en casos como la
clasificación de los significados de las palabras. Estos métodos comienzan con la matriz de coeficiente de similitud.
Luego, las observaciones se comparan con una observación elegida al azar y se usan ciertas
funciones matemáticas para los criterios de inclusión. A través del uso de varios puntos de partida,
se forman muchos grupos grandes y pequeños. Estos grupos luego se comparan e interconectan.
Un problema con estos métodos es que los mismos grupos pueden encontrarse muchas veces.
Otro problema es que los métodos de agrupamiento han tenido un uso limitado, por lo que sus
características no son bien conocidas (Jardine & Sibson, 1968).
Machine Translated by Google

84 MORRIS ETAI..

(7) La clase final de técnicas clusteranalytic contiene los métodos gráficos .


Con estos métodos, se mapea la representación bidimensional (a veces tridimensional) de
distancias entre observaciones. Por ejemplo, la técnica denominada árbol de expansión
mínimo utiliza un árbol ramificado para representar la estructura de similitudes entre sujetos.
Estos métodos también han tenido poco uso aplicado y, en general, se desconoce su potencial.

La discusión anterior sobre los métodos analíticos de conglomerados fue muy breve y no
describe adecuadamente las características de los métodos específicos. El mejor recurso para
obtener más información sobre el análisis de conglomerados se encuentra en un libro pequeño
pero fácil de leer de Everitt (1980). Se puede encontrar más información en los artículos de
Cormack (1971), Everitt (1979), Lance y Williams (1967) y en los libros de Sneath y Sokal
(1973), Anderberg (1973), Hartigan (1975) y Clifford y Stephenson. (1975).

PARTE 2: EJEMPLO CON DATOS DE DISCAPACIDAD DE APRENDIZAJE

Se puede desarrollar un ejemplo de la aplicación del análisis de conglomerados a partir de un


examen de los datos estudiados por Satz, Morris y Darby (Nota 1). Los investigadores han
esperado durante mucho tiempo que un grupo de niños que presentaban problemas de
aprendizaje en la escuela constituiría diferentes subtipos que fueran identificables en base a
medidas neuropsicológicas (Satz & Morris, en prensa, a). Se pensó que una clasificación
objetiva de los niños con problemas de aprendizaje ayudaría a promover una mejor predicción,
remediación y comprensión teórica de las discapacidades de aprendizaje. El siguiente ejemplo
es una descripción metodológica del uso del análisis de conglomerados aplicado a dichos
datos. Una revisión de los hallazgos específicos del estudio particular en cuestión y sus
limitaciones con respecto a los subtipos de niños con discapacidades de aprendizaje está más
allá del propósito y alcance de este informe.
En general, hay seis pasos prácticos principales en cualquier problema de agrupación: (1)
la elección de la población; (2) la selección de variables (atributos); (3) la elección de la medida
de similitud; (4) la determinación del método de agrupación; (5) la decisión sobre el número de
conglomerados presentes; y, (6) la validación de los resultados. Cada uno de estos pasos se
describirá para el presente ejemplo.

(1) Temas: un área importante de preocupación se relaciona directamente con la selección de


temas. Los sujetos fueron todos los hombres blancos que ingresaron al jardín de infantes
durante 1971-1972 en el condado de Alachua, Florida (Satz, Taylor, Friel y Fletcher, 1978).
Estos sujetos fueron seguidos durante un proyecto longitudinal de siete años y se sometieron
a extensas pruebas neuropsicológicas en jardín de infantes (KG), segundo (GZ) y quinto grado
(G5). Esta muestra se consideró adecuada para el propósito de encontrar subtipos. Las
características de los sujetos locales, el abandono del proyecto y el uso de solo niños varones
blancos siguen siendo limitaciones cuando se hacen generalizaciones (Fletcher, Satz y Morris,
en prensa, b). Cabe señalar que, sin técnicas estándar de muestreo aleatorio, es
Machine Translated by Google

NEUROPSICOLOGÍA Y ANÁLISIS DE CLUSTER 85

claramente posible generar subgrupos "antinaturales" debido a una muestra sesgada.


El problema actual era más complicado que el problema de clasificación promedio ya que se
requerían dos pasos de clasificación. El primer paso, que se describirá brevemente, requirió la
identificación de aquellos niños dentro de la población de sujetos que mostraron un rendimiento
bajo en el quinto grado. La muestra se clasificó según los niveles de rendimiento (Darby, 1978)
que se basaron en las puntuaciones del Wide Range Achievement Test (WRAT). Aquellos que
fueron clasificados en los dos grupos de logros más bajos fueron identificados como discapacitados
para el aprendizaje (n = 89) y constituyeron la muestra utilizada para la subtipificación (Satz &
Morris, en prensa, b).

(2) Variables: La segunda consideración fue la selección de variables apropiadas sobre las
cuales agrupar a estos sujetos con problemas de aprendizaje. Dado que no se pueden usar todas
las variables posibles, el propósito de la selección de variables es maximizar las diferencias de
subtipos. Las decisiones sobre la selección de variables pueden tener un impacto importante en
los resultados de un estudio de agrupamiento.
Una característica que ha demostrado ser importante en tales elecciones es si la distribución
de frecuencias de una variable es multimodal y/o sesgada.
Las variables normalmente distribuidas no sugieren la presencia de múltiples poblaciones. Otra
consideración en la selección de variables son las propiedades psicométricas de las variables.
Finalmente, la relevancia teórica debe ser una preocupación principal.
Dado que este estudio era preliminar, y debido a que investigaciones anteriores han sugerido
un gran número de dimensiones en las que se pueden diferenciar los niños con problemas de
aprendizaje, solo se utilizaron variables relacionadas con funciones cognitivas superiores. Estas
medidas se basaron mucho en los factores encontrados en un análisis factorial de la batería de
pruebas utilizada en este proyecto (Fletcher & Satz, 1980). El uso de puntajes factoriales parece
atractivo , pero dichos puntajes se distribuyen normalmente y, por lo tanto, se cree que son
limitantes en un problema de agrupamiento.
Se utilizaron variables relacionadas con la conceptualización verbal abstracta, las habilidades
verbales expresivas y las habilidades visomotoras y visoespaciales. Estas dimensiones fueron
representadas por la subprueba de Similitudes del WISC-R (SIM), una Prueba de Fluidez Verbal
(VF), una Prueba de Discriminación de Reconocimiento (RD) y la Prueba Berry de Integración
Visual Motora (VMI). Estas medidas son bien conocidas y se ha demostrado a través de
numerosos estudios predictivos y analíticos de factores que son medidas válidas de niños de
todas las edades involucradas (Fletcher et al., en prensa, a). Los coeficientes de confiabilidad
reales solo se informaron para la subprueba de Similitudes y la Prueba Berry de Integración
Visomotora para niños. Las variables se desviaron significativamente de una distribución normal
para la muestra de personas con problemas de aprendizaje (Kolmogorov Smirnov D-Statistic,
Stevens, 1974). Una justificación adicional para estas elecciones fue restringir el número de
pruebas para reducir la redundancia y la varianza del error aleatorio, y aumentar la interpretabilidad
del grupo (subtipo).

(3) Similitud: La tercera opción es una medida adecuada de similitud entre sujetos . Como se
describió anteriormente, el patrón y la elevación son consideraciones en cualquier
Machine Translated by Google

86 MORRIS ETAL.

decisión. En el presente ejemplo, se pensó que la elevación sería un factor crítico y que
una medida de distancia sería más apropiada. Esto se debió a la consideración de que
dos niños pueden tener exactamente el mismo patrón de rendimiento (una correlación de
1,00), pero si uno se desempeña a un nivel superior, mientras que el otro tiene un nivel
deficiente, pueden ser muy diferentes de un nivel clínico . Punto de vista. Por esta razón,
no se eligió la correlación. En su lugar, se seleccionó la distancia euclidiana al cuadrado
como medida de similitud/desigualdad (ver Fleiss & Zubin, 1969).

(4) Métodos de agrupamiento : El siguiente paso básico involucró la elección del método
de agrupamiento. Dado que este análisis de datos pretendía ser principalmente una
demostración, se tomó la decisión de utilizar el método de agrupamiento más popular :
las técnicas de aglomeración jerárquica. Además , se utilizó un método de partición
iterativo sobre los resultados de los métodos jerárquicos.
El programa informático elegido en este estudio fue CLUSTAN (versión IC2, Wishart,
1975). Este programa es el más versátil de los muchos programas de software para el
análisis de conglomerados, está razonablemente bien documentado y está ganando una
distribución bastante amplia (Blashfield, Aldenderfer y Morey, en prensa).

(5) Número de conglomerados: el primer análisis de datos reales se realizó utilizando


el método de aglomeración jerárquica de vinculación promedio, con la distancia euclidiana
al cuadrado como medida de similitud. Para decidir el número de conglomerados
(subtipos) presentes en los resultados, se examinaron tres tipos de resultados. Estos
incluían el árbol jerárquico (Figura I), el coeficiente de agrupamiento (Tabla 1) y las medias
del perfil de conglomerado para los diferentes conglomerados (Tabla 2).
El árbol jerárquico puede ser útil con algo de experiencia. Si se revisan los árboles de
la Figura 2, se pueden señalar una serie de puntos importantes. En el árbol 2-A, ha
ocurrido un proceso llamado 'encadenamiento'. Este resultado es común y sugiere que el
método no ha encontrado grupos, sino algunos valores atípicos. La figura 2-B es un
ejemplo del otro extremo del espectro de posibles resultados. Muestra claramente tres
grupos en los datos. Debe tenerse en cuenta que, con los métodos jerárquicos y sus
árboles, puede haber más de un nivel de subgrupos (clusters) que pueden conducir a un
resultado de clasificación adecuado. Un ejemplo de esto se muestra en la Figura 2-C. En
este ejemplo, se pueden ver resultados que sugieren una solución de dos grupos, con los
machos cayendo en un grupo y las hembras en el otro. Si uno se mueve más abajo en el
árbol, una solución de cuatro grupos también parece adecuada, con hombres y mujeres
divididos en grupos de diestros y zurdos.
Los coeficientes de agrupamiento que se muestran en la Tabla 1 representan una
métrica relacionada con la cantidad de varianza explicada en cada paso del proceso de
agrupamiento. Si uno tuviera que graficar estos datos, a veces es posible ver "saltos" en
los valores que están fuera de proporción con los cambios anteriores. Estos saltos
sugieren que la combinación de los dos grupos anteriores creó un grupo heterogéneo con
una amplia variación dentro del grupo. Por lo tanto, uno necesita mirar el grupo
Machine Translated by Google

NEUROPSICOLOGÍA Y ANÁLISIS DE CLUSTER 87

yo

Fig. 1. Árbol jerárquico usando la vinculación promedio en niños con problemas de aprendizaje.

TABLA 1

Coeficientes de conglomerados de cuatro métodos aglomerativos jerárquicos

n de Promedio Mínimo Más lejos


Centroide
usuarios de CI Enlace Diferencia Vecino

13 0.914 2.421 1.938 0.693


12 0,948 2.465 1.955 0,779
11 1,133 3.474 1.997 0,825
10 1,144 3.898 2.205 0.859
9 1.163 4.354 2.858 Yo .030
8 1.316 4.648 3.062 1.037
7 1.353 4.899 3.263 1.057
6 1.357 4.943 3.292 1.178
5 1.797 8.41 1 3.310 1.714
4 2.004 14.748 4.838 1.766
3 2.465 15.210 5.91 1 2.550
2 4.229 22.725 8.565 2.966
1 4.622 49.627 15.496 3.239

solución antes de tales saltos, cuando la solución del conglomerado parece más homogénea
(pequeña varianza dentro del conglomerado).
En el Cuadro I, los coeficientes de agrupamiento para el vínculo promedio , así como para tres
4
3 yo
2
(a)
Prueba
de
vocabulario
en
imágenes
de
Peabody**
(b)
Similitudes
(c)
Fluidez
verbal
(d)
Reconocimiento
-Discriminación
(e)
Integración
visomotora
de
Berry
Población
en
el
grado
5 Total Desactivado Aprendizaje valores
atípicos Grupo
Se
utiliza
como
marcador
de
coeficiente
intelectual
yno
para
agrupar. Los
puntajes
de
WRAT
son
el
equivalente
de
grado
menos
el
nivel
de
grado
en
meses.

236
89 14
32
3 12 23
103.5 102.0 106.7 86,8
101,8
14.1 94.4 97.3 79.2
16.6
estándar estándar
PPVT(a)**
10.9 10.7 11.0
3.6 2.7 8.6 9.8 6,3
5,6
10,1
Solución
de
seis
grupos
basada
en
el
método
de
enlace
promedio
27.7 22.3 36.3 35.8 18,1
18,5
10,6
24,2 SIM(b)
9.1
16.6 19.0 20.5 8,0
17,1
19,0
15,2
18.4
3.2 3.2
TABLA
2
106.2 145.0
21,9 92.3 99.0 88,5
71,0
83,5
110,4
17.6
-24,4 -20,0 -19.5 -24,9
-27,3
-20,8
-3
1 .O
BVMI(e)
26.2
1.3 9.7
-10.6 -29.7 -28.3 -26,7 -31,0
-29,3
-31,8
-20,3
22.2
Deletrear
6.8
Leer
-20,7 -17.0 -20,6 -20,9
-22,8
-28,3
WAT*
11.9
6.9
W
r M
>
-1
Matemáticas
Machine Translated by Google
Machine Translated by Google

NELJROPSICOLOGÍA Y ANÁLISIS DE CONJUNTOS 89

A C

Fig. 2. Ejemplo de árboles jerárquicos para demostración.

se muestran otros métodos jerárquicos. A partir de la Tabla 1 y la Figura 1, uno comienza a


formarse una idea del rango potencial de soluciones de clúster. En este ejemplo, consideramos
resultados de 3 y 4 grupos. Tenga en cuenta que esta decisión fue subjetiva, y el lector puede
tener una impresión diferente. Con esta información, una revisión de las estadísticas descriptivas
y las interrelaciones de cada grupo puede ser útil. En este proceso, uno puede rastrear qué
grupos se combinan en cada paso del proceso de agrupación, decidir si tales combinaciones
tienen sentido o si el método comenzó a forzar la unión de dos grupos muy diferentes. Todos los
métodos de aglomeración jerárquica continúan combinando grupos hasta que solo queda un
grupo. Si los métodos de aglomeración fuerzan la unión de dos grupos con perfiles muy
diferentes, es necesario considerar las soluciones inmediatamente anteriores. A partir de un
análisis de los centroides de los grupos, una solución de seis grupos parecía plausible. Estos
seis grupos de este primer método de aglomeración jerárquica se sometieron luego a un método
de partición iterativo de K-medias.

Este método adicional sacó a cada sujeto de su grupo asignado y luego comparó su similitud
entre sí para determinar a cuál era más similar. El método de K-medias, por lo tanto, intenta
aclarar aún más una solución de conglomerados. Estos cambios se examinan estadísticamente
y se intenta reducir la varianza dentro de los conglomerados y aumentar la varianza entre
conglomerados. También le permite al investigador examinar el número de sujetos 'reubicados',
lo que podría dar una idea de la estabilidad de la solución. Si muchos sujetos cambian de grupo
durante cada iteración, uno debe preguntarse sobre la idoneidad de los resultados.

En nuestro ejemplo, menos del 15 % de los sujetos se colocaron en un grupo diferente y hubo
muy pocos cambios en los perfiles y la composición del grupo.
La solución de seis conglomerados se muestra en la Figura 3. Se notará que solo se dan los
perfiles para cinco conglomerados. El grupo seis tenía un total de tres sujetos, pero no se
incorporó a ninguno de los grupos más grandes hasta una solución de cuatro grupos.
Siguiendo la recomendación de Everitt (1980), estos temas se consideraron "atípicos" y no se
consideraron más. Los "valores atípicos" pueden ser
Machine Translated by Google

90 MORRIS Y AL.

PROMEDIO DEL GRUPO CON ERROR SUMA DE CUADRADOS


6 SOLUCIÓN CLÚSTER CON REUBICACIÓN
'+ I
STD.

.-I
STD.

PPVT SIM VF RD VMI


Fig. 3. Patrones de conglomerados basados en el método de enlace promedio .

visto como resultado de errores de medición, o como individuos únicos para los cuales hay
pocos, si es que hay alguno, individuos de comparación en una muestra dada.
Para resumir, utilizando el análisis de conglomerados, hemos clasificado un grupo de 89 niños
de quinto grado con discapacidades de aprendizaje en cinco subtipos (conglomerados) que
muestran diferentes patrones de desempeño en cuatro variables utilizadas para inferir relaciones
cerebro-conducta. Estos cinco subtipos han sido informados por otros investigadores en el área
(Satz, & Morris, en prensa, a). En este punto, se han completado cinco de los pasos generales
en cualquier problema de agrupamiento. En cada uno de estos pasos, las decisiones tomadas se
basaron en criterios subjetivos donde otros investigadores podrían haber tomado decisiones legítimas.
Machine Translated by Google

NEUROPSICOLOGÍA Y ANÁLISIS DE CLUSTER 91

opciones alternativas basadas en diferentes valoraciones. El punto importante es que, sin el paso
seis, la validación, los resultados podrían ser completamente aleatorios o simplemente los resultados
autocumplidos de nuestros sesgos.

(6) Validación: Los procedimientos de validación interna2 son métodos que buscan evaluar la
adecuación y la estabilidad de una solución de agrupamiento. Sin embargo, se han desarrollado
pocos métodos de validación de este tipo. Los sesgos que existen en muchos de estos métodos de
validación requieren que el usuario seleccione cuidadosamente procedimientos que sean compatibles
con los propósitos de la investigación y las metodologías de agrupación.
En la literatura se han identificado tres clases principales de procedimientos de validación interna:
medidas estadísticas, procedimientos de manipulación de datos y métodos gráficos. La primera
clase, medidas estadísticas, utiliza fórmulas diseñadas para: (1) centrarse en la relación entre
matrices de similitud (medidas cofenéticas, Hol gerson, 1978); (2) centrarse en la homogeneidad de
los sujetos dentro de los grupos resultantes (medidas de varianza); (3) centrarse en la "estrechez"
de los sujetos en el espacio multidimensional (medidas de distancia entre puntos); o (4) centrarse
en las estimaciones de probabilidad máxima para los parámetros de un modelo de agrupamiento
específico. Cabe señalar que muchas de estas medidas estadísticas no se desarrollaron para la
validación, y se desconoce su idoneidad para tales fines.

Los procedimientos de manipulación de datos representan una amplia variedad de técnicas


diseñadas para evaluar la generalidad de un resultado de agrupación. Las manipulaciones pueden
incluir lo siguiente: ( 1) replicaciones de muestras cruzadas o muestras divididas; (2) alteración de
datos mediante la adición o eliminación de varianza aleatoria a través de sujetos o variables; o (3)
el uso de procedimientos de criterios externos para describir qué tan bien discrimina una solución
de agrupamiento entre variables que no se usaron en el agrupamiento real.
(Esta última también puede considerarse una validación concurrente).
La clase final de procedimientos, gráficos, representa numerosos intentos de permitir que los
investigadores "vean" qué tan significativa es una solución de agrupamiento. Los ejemplos de
técnicas gráficas incluyen lo siguiente: (1) el biplot, que traza grupos en el espacio de componentes
principales; y (2) la gráfica de la función discriminante, que grafica los grupos en el espacio
discriminante. Ha habido intentos de gráficos tridimensionales. Las técnicas gráficas tienen
limitaciones debido al número de dimensiones en la mayoría de los datos multivariados utilizados en
el análisis de conglomerados y al limitado sistema visual tridimensional del hombre.

En resumen, los métodos de validación se pueden utilizar para investigar la relación de una
solución de agrupamiento con un marco teórico específico de lo que es una buena clasificación.
Como mínimo, se debe utilizar algún tipo de procedimiento de validación interna

La validación interna se refiere a la evaluación de una solución de agrupamiento por


derecho propio, sin la influencia del tema (Dubes & Jain, 1980). La validación interna es el
enfoque principal de la presente revisión, a menos que se indique lo contrario. La
validación externa se refiere a las formas más tradicionales de validez de contenido,
concurrente y predictiva que dependen del tema y se refieren a la relevancia de una clasificación.
Machine Translated by Google

92 MORRIS Y AL.

después de que se obtienen los resultados del agrupamiento postulado debido a las limitaciones
actuales y las decisiones subjetivas involucradas en el proceso de agrupamiento. Dubes y Jain
(1980) proporcionan una revisión más detallada de las técnicas de validación interna en el análisis
de conglomerados. Desafortunadamente, la mayoría de los estudios analíticos de conglomerados
en psicología y neuropsicología no han utilizado procedimientos de validación de ningún tipo. Por
lo tanto, el siguiente paso se discute con cierto detalle.
En el presente ejemplo, los cinco grupos (excluidos los valores atípicos) se usaron como un
estándar contra el cual se realizaron los procedimientos de manipulación de datos, gráficos y
validación estadística. Everitt (1980) sugiere que una buena solución debería reaparecer bajo
diferentes métodos de agrupamiento. Esto no implica que los resultados exactos deban ser
replicables en todos los tipos de análisis de conglomerados. Para nuestros propósitos, se utilizaron
tres métodos aglomerativos jerárquicos adicionales: enlace completo, centroide y varianza mínima.

Los resultados mostraron que menos del 11% de los sujetos, usando cualquiera de los métodos,
fueron ubicados en un grupo diferente. Dos medidas de distancia (Distancia euclidiana al cuadrado
y Suma de errores de cuadrados) arrojaron los mismos resultados dentro de cualquier método
jerárquico específico. Incluso con este pequeño número de sujetos cambiando entre soluciones,
es importante observar las descripciones reales de los grupos, ya que algunos sujetos pueden
influyen en gran medida en los perfiles medios de los conglomerados pequeños y posiblemente
cambien las interpretaciones.
Como segundo procedimiento, se empleó un diseño de muestra dividida que asignó
aleatoriamente a los 89 niños en dos submuestras. La expectativa era que los mismos sujetos se
agruparan y que las submuestras arrojaran resultados similares a los del estándar. El quince por
ciento de los sujetos cambiaron de sus grupos originales en las muestras divididas 1 y 2. Debido a
la pequeña cantidad de sujetos en algunos de estos grupos, los perfiles de grupo reales mostraron
algunas diferencias en sus características.

En el tercer procedimiento, se hizo una pregunta sobre el efecto en los grupos estándar si se
agregaran sujetos adicionales y se reagruparan los datos. En la primera adición, se agregaron a
los 89 niños originales 12 niños en un subgrupo de rendimiento (basado en las clasificaciones
originales de WRAT) que mostraban un déficit aritmético específico, pero una habilidad promedio
tanto en lectura como en ortografía. Estos 101 sujetos luego se sometieron al procedimiento
original utilizado para la agrupación.
Los cinco grupos estándar originales mantuvieron sus perfiles originales, y solo el cuatro por
ciento de los 89 sujetos originales cambiaron de grupo. Los 12 niños agregados se agruparon en
dos grupos, con un 33 % en el grupo cinco, mientras que el 50 % en el grupo cuatro. Este resultado
nuevamente apoyó la estabilidad de la solución de conglomerado original y también proporcionó
información interesante sobre los posibles procesos involucrados en los déficits aritméticos.

En la segunda adición, se agregaron a los 89 niños originales 25 niños que promediaron una
desviación estándar por encima de la norma de la población en lectura, ortografía y aritmética
WRAT . Estos 114 niños se agruparon utilizando los procedimientos originales. Sobre la base de
consideraciones diagnósticas y teóricas, se
Machine Translated by Google

NEUROPSICOLOGÍA Y ANÁLISIS DE CLUSTER 93

esperaba que los niños promedio o por encima del promedio formarían un nuevo grupo. Estos
sujetos no cayeron en ningún grupo de déficit y formaron un nuevo grupo de habilidades promedio
o superiores al promedio. Solo el 10% de los sujetos de los 89 grupos originales cambiaron.

A continuación, se preguntó qué pasaría si se añadieran otras variables a las cuatro utilizadas
originalmente en el agrupamiento. Las dos variables que ocuparon el segundo lugar más alto en
el análisis factorial de la batería de pruebas en quinto grado, la Prueba de Vocabulario en Imágenes
de Peabody (PPVT) y la Prueba de Figuras Incrustadas (EF), se agregaron a las cuatro variables
originales. Esto dio como resultado un problema de seis variables y 89 sujetos que se agruparon
utilizando el procedimiento estándar original. Menos del 12% de los sujetos cambiaron de grupo y
las medias de los grupos no cambiaron apreciablemente. Este resultado era esperado debido a la
naturaleza altamente redundante de estas dos variables. La mayoría de las otras variables que
estaban disponibles eran menos confiables y se esperaba que agregaran varianza de error y
disminuyeran la estabilidad de la solución estándar.
También se utilizó un método más complicado, pero potencialmente útil, una simulación de
Monte Carlo. Dado que los métodos de agrupación encontrarán grupos incluso en datos aleatorios,
el desarrollo de un conjunto de datos que imite los parámetros conocidos de los datos originales,
pero que incluya perfiles de sujetos generados aleatoriamente, podría proporcionar información
útil. Con un conjunto de datos "aleatorio" de este tipo, los resultados del grupo se comparan con
los resultados originales. Si los resultados del conjunto de datos generado aleatoriamente y del
conjunto de datos reales son muy similares, uno comenzaría a cuestionar el rechazo de una
hipótesis nula de ausencia de conglomerados.
La creación de conjuntos de datos Monte Carlo apropiados es un proceso complejo. Se
generaron conjuntos de datos que tenían el mismo número de sujetos, variables, medias y
desviaciones estándar, y la misma matriz de covarianza que el conjunto de datos original. Los
"sujetos" reales dentro de estos conjuntos de datos se generaron a través de números aleatorios
multivariados. Tenga en cuenta que no existía ningún clúster real en estos conjuntos de datos artificiales.
La Tabla 3 presenta un resumen de las similitudes entre los centroides de conglomerados
generados en los datos reales del niño y los generados en los datos de Monte Carlo.
Valores altos de similitud (es decir, valores de correlación grandes [patrón similar] y distancias
pequeñas [elevación similar]) sugerirían que los resultados podrían basarse en un agrupamiento
aleatorio de los datos. Tres grupos de discapacidades de aprendizaje tienen correlaciones
significativas (patrón) con un grupo de Monte Carlo. Solo uno de estos grupos altamente
correlacionados (LD cluster 5) también tiene una pequeña distancia euclidiana (elevación) con su
contraparte de Monte Carlo. Estos resultados no respaldan completamente la hipótesis nula de
que estos grupos se basan en un agrupamiento aleatorio de los datos de problemas de aprendizaje.
Sin embargo, en base a las similitudes de patrones, tenderían a introducir cierto escepticismo
acerca de la solución de clúster total.
El uso de variables externas como criterio fue el último método de validación utilizado. En
En este enfoque, los conglomerados se prueban con procedimientos paramétricos (MANOVA,
ANOVA, Dim can's) y no paramétricos (Chi-cuadrado) utilizando varias medidas no utilizadas en
el proceso de conglomerado original como variables dependientes. Debido a su redundancia, las
variables que están altamente correlacionadas con las variables en la realidad
Machine Translated by Google

94 MORRIS Y AL.

TABLA 3

Relación entre los clústeres de problemas de aprendizaje y los clústeres de Monte Carlo

Clúster desde la correlación más alta Distancia euclidiana Correlación/Euclidiana


Muestra de LD con cualquier Monte Carlo entre LD Cluster Distancia entre LD
Grupo y Montecarlo Conglomerado y Muestra
Grupo Media (n = 89)
~~

.61 0,14 .78/0.16


yo .97* 2,28 .57/0.33
23 .97* 4,12 .03/2.54
4 .48 0,35 --.76/0.11
5 .89* 0,34 -.60/1.72
6 .85 1,62 .71/1.72

* pags< .05.
.RBRL FLUIDEZ

Fig. 4. Representación gráfica de los resultados del cluster.

El proceso de agrupación no debe seleccionarse como único criterio de validación. La


confiabilidad y validez de las medidas externas también son importantes, ya que las
variables poco confiables podrían conducir a errores de Tipo 2. En el ejemplo de la discapacidad de aprend
Machine Translated by Google

NEUROPSICOLOGÍA Y ANÁLISIS DE CLUSTER 95

Es importante que un subtipo se distinga de otros subtipos en una amplia variedad de


medidas neuropsicológicas, neurológicas o conductuales. Tales diferencias hablan
directamente de la validez externa clínica, experimental y teórica de tal clasificación.

Se demostró que los cinco grupos difieren estadísticamente en una amplia variedad de
medidas y atributos. Estos incluyeron diferencias de grupos en los niveles de rendimiento
de los padres (WRAT de lectura y ortografía), estatus socioeconómico , signos neurológicos
leves, varios estigmas y la mayoría de las medidas neuropsicológicas de la batería
proporcionada en jardín de infantes, segundo y quinto grado. Además, se demostró que
estos grupos siguen diferentes patrones de desarrollo durante la investigación de seis años.
En resumen, los cinco conglomerados demostraron ser diferentes en la gran mayoría de
las variables obtenidas en el Proyecto Longitudinal de Florida. Se está preparando una
descripción más detallada de estos hallazgos.

OISCRIMINHNT FllP!~,~:lliJ I

a,
W
I1z _

w
w
METRO

yo

W
0
tu
[r
tu
+
tu

cn
wa
,-
t
m
3
bajo

GRÁFICO

Fig. 5. Representación gráfica de los resultados del cluster.


Machine Translated by Google

96 MORRIS Y AL.

Las Figuras 4 y 5 representan dos intentos visual-gráficos con fines de validación.


El grado de conglomerados superpuestos es de gran interés. En la Figura 4, las dos variables utilizadas
en la fase de agrupamiento original con la menor intercorrelación (VMI, VF) se utilizan como eje para
graficar la solución de seis grupos. La Figura 5 representa el gráfico de la función discriminante para los
resultados del conglomerado.
En resumen, todos menos uno de los procedimientos de validación parecen respaldar los resultados
de los procedimientos de agrupación. Los conglomerados aparecen consistentemente en estos datos,
incluso después de algunas alteraciones en el conjunto de datos y los métodos de conglomerados. En la
replicación de muestra dividida, se encontraron resultados casi idénticos. La validación externa de las
variables independientes fue positiva. El único resultado poco claro fue el agrupamiento de datos
generados aleatoriamente, lo que arrojó similitudes con los datos reales. Por lo tanto, los resultados
deben tomarse con cautela. Un paso adicional importante sería la adquisición de datos comparables en
diferentes centros de investigación para intentar probar la generalidad de los grupos y explorar su validez
externa.

DISCUSIÓN

La clasificación es un tema fundamental en todas las ciencias. Un sistema de clasificación forma la base
conceptual sobre la cual se puede desarrollar una teoría de una ciencia. Por ejemplo, la clasificación
linneana de organismos vivos se desarrolló a mediados del siglo XVIII. Aproximadamente un siglo
después, este sistema de clasificación se convirtió en th; base conceptual sobre la que Darwin construyó
su teoría de la evolución.
En la ciencia de la neuropsicología, todavía se están desarrollando buenos sistemas de clasificación.
El análisis de conglomerados es un término genérico que se refiere a una amplia variedad de
procedimientos cuasiestadísticos utilizados para crear nuevas clasificaciones. El objetivo de la mayoría
de los métodos de agrupación es formar clasificaciones descriptivas en las que las categorías clasificatorias
sean relativamente homogéneas. Este documento ha discutido los métodos analíticos de conglomerados
y ha demostrado cómo estos métodos pueden aplicarse a la investigación neuropsicológica.

El análisis de conglomerados tiene algunas ventajas importantes para su uso en la investigación con respecto a las clases.
sificación Estas ventajas incluyen lo siguiente: (1) Los métodos
de análisis de conglomerados son objetivos y empíricos.
(2) Las técnicas de agrupación se pueden utilizar para formar clasificaciones descriptivas a partir de
grandes conjuntos de datos cuyo tamaño podría abrumar a un investigador humano.
(3) El análisis de conglomerados, el análisis factorial y el escalado multidimensional son técnicas que
pueden ayudar a un investigador a comprender la estructura multivariada de los datos.
Por otro lado, el análisis de conglomerados tiene algunos problemas importantes que cualquier usuario
debería conocer.
(1) Los métodos para realizar el análisis de conglomerados se han desarrollado durante las últimas dos
décadas. Las características estadísticas de los diversos métodos agrupados bajo este título
genérico no son bien conocidas.
(2) Diferentes métodos de agrupamiento a menudo generan clasificaciones sorprendentemente diferentes
Machine Translated by Google

NEUROPSICOLOGÍA Y ANÁLISIS DE CLUSTER 97

para los mismos datos y requieren muchas decisiones subjetivas.


(3) La literatura sobre el análisis de conglomerados es variada y se puede encontrar en las
revistas de una amplia gama de ciencias. La jerga asociada con esta literatura también es
bastante variada y difícil de aprender.
A la luz de estos problemas, los investigadores deben tener cuidado en la aplicación del
análisis de conglomerados. Un investigador debe abordar esta metodología sistemáticamente.
En la demostración de su uso en datos sobre niños con problemas de aprendizaje, hubo seis
pasos principales en el proceso: (1) muestreo de sujetos, (2) elección de variables, (3) elección
de medida de similitud, (4) elección de medida analítica de conglomerados, (5) determinación
del número de conglomerados existentes en los datos, y (6) validación. El último paso es
particularmente importante. La aplicación de un método de análisis de conglomerados no debe
ser independiente. El análisis de conglomerados siempre encontrará una solución de
clasificación de un conjunto de datos, incluso si no existe un grupo homogéneo en los datos.
Los métodos de validación interna son importantes porque permiten al investigador probar una
solución de agrupamiento de forma escéptica. Es fundamental poder discriminar entre una
solución de clúster en la que se ha encontrado un sistema de clasificación natural frente a una
solución en la que se ha impuesto una clasificación artificial a los datos. Sin una validación
interna adecuada, el objetivo más importante de la validación externa parecería destinado al
fracaso.

NOTA DE REFERENCIA

1. Satz, P., Morns, R. y Darby, R. 0. Subtipos de problemas de aprendizaje: una búsqueda multivariante.
Simposio del Año Internacional del Niño. Vancouver, B. C., Canadá, 1979.

REFERENCIAS

Anderberg, M. R. Análisis de conglomerados para aplicaciones. Nueva York: Prensa Académica, 1973.
Bartko, J. J., Straws, J. S. y Carpenter, W. T. Una evaluación de técnicas taxométricas para
datos psiquiátricos. Boletín de la Sociedad de Clasificación, 197 I, 2, 2-28.
Blashfield, RK, Aldenderfer, M. S. y Morey, L. C. Software de análisis de conglomerados. En P. R.
Krishnaih (Ed.), Manual de estadísticas. Vol 2, Holanda Septentrional, en prensa.
Burt, C. y Stephenson, W. Puntos de vista alternativos sobre las correlaciones entre personas. Psicometrika.
1939, 4, 269-28 1.
Carroll, R. M., & Field, J. Una comparación de la precisión de clasificación de la similitud del perfil
medidas. Investigación conductual multivariante, 1974.9, 373-380.
Clifford, H. T. y Stephenson, W. Una introducción a la clasificación numérica. Nueva York:
Prensa Académica, 1975.
Cormack, R. M. Una revisión de la clasificación. El diario de la Royal Starisrical Society
(Serie A), 1971, 134, 321-367.
Darby, R. 0. Dificultades de aprendizaje: una búsqueda multivariada de subtipos. Disertación Doctoral
ción, Universidad de Florida, 1978.
Doehring, D. G., & Hoshko, I. M. Clasificación de problemas de lectura por las técnicas Q
Machine Translated by Google

98 MORRIS Y AL.

de análisis factorial. Cortex, 1977, 13.281-294.


Doehring, D. G., Hoshko, I. M., & Bryans, A. Clasificación estadística de niños con lectura
problemas. Revista de Neuropsicología Clínica, 1979, I, 5-16 .
Dubes, R. y Jain, A. K. Estudios de validez en metodologías de agrupamiento. Reconocimiento de patrones,
1980, 11. 235-254.
Everitt, B. S. Problemas no resueltos en el análisis de conglomerados. Biometría, 1979, 35, 169-181.
Everitt, B. S. Análisis de conglomerados (2ª edición). Londres: Heineman Educational Books, 1980.
Fisk, J. L., & Rourke, B. P. Identificación de subtipos de niños con problemas de aprendizaje en tres niveles
de edad: un enfoque neuropsicológico multivariado. Revista de neuropsicología clínica, 1979, I,
289-310.
Fleiss, J. L., Lawlor, W, Platman, S. R. y Fieve, R. R. Sobre el uso del análisis factorial invertido para
generar tipologías. Revista de Psicología Anormal, 197 I, 77, 127-132.
Fleiss, J. L. y Zubin, J. Sobre los métodos y la teoría del agrupamiento. Investigación conductual
multivariante, 1969, 4, 235-250.
Fletcher, J. y Satz, P. Cambios en el desarrollo de los correlatos neuropsicológicos del rendimiento en
lectura: un seguimiento longitudinal de seis años. Journal of Clinical Neuropsychol Ogy, 1980.2, 23-37.

Fletcher, J., Satz, P. y Morns, R. El proyecto longitudinal de Florida: Implicaciones teóricas. En M. Harway
y S. Mednick (Eds.), US longiludiplprojects, en prensa. (a).
Fletcher, J., Satz, P. y Morris, R. El proyecto longitudinal de Florida: una revisión. En
M. Harway y S. Mednick (Eds.), EE. UU. proyectos longitudinales, en prensa. (b).
Hartigan, J. A. Representación de matrices de similitud por árboles. Revista de la Asociación
Estadounidense de Estadística, 1967, 62, 1140-1 158.
Hartigan, J. A. Algoritmos de agrupamiento. Nueva York: Wiley, 1975.
Hetler, J. H. Un examen crítico de la idoneidad de los análisis tipológicos proporcionados por varias técnicas
de agrupación. Tesis doctoral, Universidad de Minnesota, 1976.
Holgerson, M. El valor limitado de la correlación cofenética como criterio de agrupación. Patrón
Reconocimiento, 1978, 10, 287-295.
Jardine, N., & Sibson, R. La construcción de clasificaciones jerárquicas y no jerárquicas.
Computer Journal, 1968, II , 177-184.
Kertesz, A. y Phipps, J. B. Taxonomía numérica de la afasia. Cerebro y Lenguaje, 1977,4,
1-10.
Lance, G. N. y Williams, W. T. Una teoría general de las estrategias de clasificación clasificatorias. YO.
Sistemas jerárquicos. Revista informática. 1967,9. 373-380.
McQuitty, L. L. Un desarrollo mutuo de algunas teorías tipológicas y análisis de patrones
métodos. Medida Educativa y Psicológica, 1967,27,21-46.
En general, J. E., & Klett, C. J. Appliedmultivariateanalysis. Nueva York: McGraw-Hill, 1972.
Petrauskas, R. y Rourke, B. P. Identificación de subgrupos de lectores retrasados: un enfoque
neuropsicológico multivariado. Revista de Neuropsicología Clínica. 1979, I, 17-37.

Satz, P. y Morris, R. Subtipos de discapacidad de aprendizaje: una revisión. En F. J. Pirozzolo y M. C.


Wittrock (Eds.), Procesos neuropsicológicos y cognitivos en la lectura. Nueva York: Academic Press,
en prensa. (a).
Sats, P., & Morris, R. La búsqueda de clasificación de subtipos en niños con problemas de aprendizaje. En
R. E. Tarter (Ed.), El niño en riesgo. Nueva York: Oxford University Press, en prensa. (b).
Satz, P., Taylor, H. G., Friel, J. y Fletcher, J. Algunos precursores predictivos y del desarrollo de las
discapacidades de lectura: un seguimiento de seis años. En A. L. Benton y D. Pearl (Eds.),
Machine Translated by Google

NEUROPSICOLOGIA Y CLUSTER ANP.1.YSIS 99

Dislexia: una evaluación del conocimiento corriente. Nueva York: Oxford University Press, 1978.
Schwartz, E. L., Ramos, A, & John, E. R. Análisis de conglomerados de potenciales evocados de
gatos que se comportan Biología del Comportamiento, 1976, 17, 109-117.
Simpson, CI. G. Principios de taxonomía animal. Nueva York: Prensa de la Universidad de Columbia,
1961.
Skinner, H. A. Diferenciando la contribución de la elevación, la dispersión y la forma en el perfil
semejanza. Medida Educativa y Psicológica, 1978, 311, 297-308.
Skinner, H. A. Los ojos que te fijan : un modelo para la investigación de clasificación. Revisión psicológica
canadiense, 1977, 18, 142-151.
Sneath, P. H. A., & Sokal, R. R. Taxonomía numérica: los principios y la práctica de
clasificación numérica. San Francisco: WH Freeman & Co., 1973.
Sokal, R. R., & Sneath, P. H. A. Principios de taxonomía numérica, San Francisco: W. H.
Freeman, 1963.
Stevens, M. A. Uso de Kolmogorov-Smirnov, Cramer-Von Mises y estadísticas relacionadas sin tablas extensas.
Revista de la Asociación Estadounidense de Estadística, 1974,69. 630.
Tversky, A. Características de la similitud. Revisión psicológica, 1977, 84, 327-352.
Ward, J. H. Agrupación jerárquica para optimizar una función objetivo. Diario de la
Asociación Estadounidense de Estadística, 1963, SR, 236-244.
Wishart, D. R. Análisis de modo: una generalización del vecino más cercano que reduce los efectos de
encadenamiento. En A. J. Cole (Ed.), Taxonomía numérica. Londres: Prensa Académica, 1969.
Wishart, D. R. CLUSTANmanual de usuario, (3ra Edición). Londres: Computer Center, Universidad de
Londres, 1975.

También podría gustarte