Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
Teoria de la Información El Análisis Cluster constituye una importante
al análisis de datos técnica de análisis de datos, ampliamente utilizada
en distintas áreas de conocimiento (Biología, Psi-
definidos mediante cología, Arqueologia, Sociología, etc.) con el pro-
variables cualitativas pósito de identificar entidades similares a partir de
las características que poseen. En el campo de la
multi-estado: medidas Arqueología, la necesidad de clasificar los items
arqueológicos y construir tipologías precisas con-
de similaridad y análisis duce a una utilización, cada vez más amplia, de es-
cluster. te tipo de técnicas estadísticas, solventando deter-
minados problemas que aparecen en la arqueología
tradicional:
— manejo de grandes cantidades de datos que, debi-
do a su dimensionalidad, son diticiles de estudiar
José A. Esquivel Guerrero a menos que puedan clasificarse en grupos mane-
Francisco Contreras Cortés jables con la minima pérdidade información.
— necesidad de disponer de un método de agnipa-
Femando Molina González ción útil y nítido, que introduzca un grado de ob-
jetividad no obtenible por observación directa.
Josefa Capel Martínez
— utilización simultánea de varias características a
Departamento de Prehistoria. lo largo del proceso para evitar soluciones des-
Universidad de Granada. 18071 Granada. criptivas basadas, en general, en una única carac-
terística diferenciadora.
El análisis está constituido por dos procesos fun-
damentales: la obtención de una medida de simila-
ridad adecuada a las características de los objetos,
y un algoritmo que consiga la agrupación de los
objetos en clusters (grupos) con gran homogenei-
dad interna y alta heterogeneidad externa.
Las técnicas basadas en variables cuantitativas
han sido ampliamente estudiadas, utilizando los
métodos y resultados de la Geometría Euclídea pa-
ra obtener medidas de similaridad (generalmente a
partir de distancias) y algoritmos de agrupación (un
estudio detallado aparece en SNEATH & SOKAL,
1973; DUDA & HART, 1973; DIDAY & SIMON,
1976, y EVERITI’, 1980). Sin embargo, los datos
definidos mediante variables binarías o variables
cualitativas multiestado presentan mayores proble-
mas, ya que no existen modelos geométricos ade-
cuados. Los modelos binarios más comunes apare-
cen codificados en tablas presencia/ausencia, 1/O,
etc., y se han desarrollado varios coeficientes de si-
milaridad para los mismos (Jacquard-Sneath, Lan-
ce y Williams, Sokal y Michener, Rogers-Tanimo-
to, Yule, etc.) (en SNEATH & SOKAL, 1973, y
DUDA & HART, 1973, aparece una revisión com-
pleta de este tipo de coeficientes). Las variables
multiestado originan, debido a su carácter, mayores
problemas que las anteriores, y con ftecuencia se
José A. Esquive!, Francisco Contreras Cortés, Fernando Molina González y Josefa cape! Martínez
complutum. 1 <i99J). Madrid (pp. 53-64>.
han estudiado considerando cada estado de cada antropía de Sbannon y Weaver
variable como una variable dicotómica (KEN-
DALL, 1975, y ROMESBURG, 1984), aunque el
interés del problema en una amplia diversidad de H(X) = Pi 1g2p, E Pt = 1,
campos (reconocimiento de imágenes, reconoci-
miento de cadenas de símbolos, secuencias de fo- que mide la incertidumbre media asociada a un es-
nemas, estudio de documentos, organización de ba-
quema finito y completo de probabilidad, aun
ses de datos, etc.) ha suscitado que sea abordado cuando varios autores han sugerido otras definicio-
desde distintas teorías (ESQIJIVEL, 1988; PAL & nes de entropía que no verifican algunas de las
MAJUMOER, 1985; BACKER & JAIN, 1981;
condiciones de la entropía clásica (REZZA, 1961)
MICHALSKJ & STEPP, 1983; ITO, KODAMA & y, modernamente, se han realiiado diversas genera-
TOYODA, 1984; RAO, 1984; BEN-BASSAT & lizaciones de la entropía (RAO, 1984).
ZAIDENBERG, 1984; CHIU & WaNG, 1986;
WONG & CHIU, 1987). Al considerar un «espacio» de unidades defini-
das mediante variables cualitativas multiestado, la
En este trabajo se proponen varias medidas de
entropía debe tener en cuenta la incertidumbre de
símilaridad entre objetos definidos mediante varia-
los estados de cada variable, el número de estados
bIes cualitativas multiestado, a partir de métodos y
técnicas de la Teoría de la Información (este tema de las variables y la frecuencia de aparición de los
ha sido objeto de la Tesis Doctoral de uno de noso- mismos. En este trabajo se propone una medida de
entropía enfocada al estudio de este tipo de varia-
tros, J.A.E.) (ESQUIVEL, 1988). Además, se desa-
bIes, teniendo en cuenta las consideraciones ante-
rrolla un algoritmo de clustering basado en dichas
nores según:
medidas de similaridad, aplicándolo a un conjunto
de 50 vasos cerámicos extraídos del yacimiento La — la incertidumbre de un estado muy frecuente debe
Cuesta del Negro, Purullena (Granada) de la Edad ser pequeña, ya que la probabilidad de que dicho
del Bronce. estado aparezca en una unidad escogida al azar es
grande; recíprocamente, si un estado es raro su
contribución a la entropía debe ser grande.
2. Incertidumbre y Entropía — la incertidumbre asociada a una variable será ma-
yor cuanto menor sea el número de sus estados,
El estudio de uña distribución de objetos defini- pues la dicotomía que produce en la distribución
dos mediante variables cualitativas multiestado es mayor que si tuviese muchos estados.
exige obtener la máxima información de cada obje-
to, de cada variable y de cada estado, en función de
la frecuencia de aparición de los estados, número 3. Medidas de información
de estados de las variables, etc. Términos iguales a
rareza, abundancia y otras nociones intuitivas de- Una medida de información que verifique las an-
ben reflejarse de forma clara y precisa. tenores consideraciones se define cómo:
De acuerdo a la teoria de Shannon, en un modelo La información asociada al estado x¡k con proba-
níatemático de comunicación la información ven- bilidad pi~ es
drá determinada por un parámetro estadístico aso-
ciado a un esquema de probabilidad y «debe indi-
car tina medida relativa a la incertidumbre de
acuerdo a la ocurrencia de un mensaje particular en
siendo n~ el número de estados de la variable X~.
el conjunto de mensajes» (REZZA, 1961, y
Esta medida se ajusta a la axiomática de Shannon,
SHANNON, 1948). En la axiomática clásica, la
al ser solución de la ecuación
incertidumbré asociada a un suceso Ek pertenecien-
te a un conjunto de sucesos 0= {Eí E0} viene
,.., f(lA~) + f(l/m) = f(l/mn).
determinada por el valor La incertidumbre media (entropía) asociada a la
— lg2pk
variable Xi viene entonces determinada por
u.
siendo pk la probabilidad de ocurrencia del suceso
Ek. Y la media extendida a todos los sucesos de una Hx = = p(xw) lg=p(xik) >0
nj k •
distribución de sucesos viene determinada por la
Una aplicación de la Teoría de la Informacion... 55
ni (unidades) F = {Aí, A
2 An} definido sobre el
Zp(x&)= 1, conjunto de variables multiestado V= {Xí ,X2
X4, donde cada variable X tiene asociado un con-
que verifica las condiciones exigidas a las medidas junto de estados W~ = {x~i, x~2,.., x,0<>}, siendo n(i)
de incertidumbre en la Teoria de la Información. (a veces la notación n~ es menos cómoda, como en
La entropía asi definida tiende a suavizar la in- el caso anterior) el número de estados de la varia-
fluencia de los estados extremos (con frecuencia ble X. A cada unidad A~ se le asocia el objeto ma-
muy pequeña o muy grande). Sin embargo, la in- temático definido por la n-tupla (DUBOIS y PRA-
fluencia de estos estados es fundamental en el estu- DF, 1980)
dio de la asociación que pueda existir entre las uni-
m(A~) = (mi (As), m~ (Al) m~ (A¡)),
dades ya que la coincidencia de dos unidades en un
determinado estado debe valorarse en función de la siendo trw el procedimiento de medida asociado a
información completa que aporte dicho estado, esto la variable Xk y mk(A1) el estado que toma la uni-
es: dadA~enlavariableXk,i=l,..., nyk=l, ...,
Aí(At,A2)=F(Aí flA2),
pero la extensión a afinidad unidad-grupo o grupo- Similaridadfuerte Sí
grupo debe tener en cuenta, respectivamente, la
atracción que se ejerce entre dicha unidad y los ele- Esta medida (fig. 1) considera la intersección
mentos del grupo, y la atracción mutua ejercida por fuerte de los elementos de los grupos en la forma:
los elementos de los dos grupos: dados los grupos Gí = {At, A2 A0} y 02 = {B1,
9
1. La afinidad elemento-grupo se define como B~}, la intersección fuerte de Gi y 02 se de-
fine como
Aí(A~G)=F(GnA)~oAc(A~G)=FtU
N~
siG= {A1,A2 Gí
A
Ajinín
An}. ) y»=’
2. La afinidad grupo-grupo se define como
La similaridad St es entonces:
Ac (0, 09 =F (0 0’)
F (Gí n 02
que intuitivamente es una medida de la informa-
ción común a O y 0’, computando las conexiones S¡(GLG2)= F(GíUG2) ,O=Sí =1.
entre O y G’. Esta medida veriflea de forma estrícta las propie-
Ambas definiciones verifican las propiedades de dades de Backer y Jain, y Pal y Majumder.
Backer y Jain (ESQUIVEL, 1988).
Similaridad-afinidad 52
basada en la medida de similaridad establecida por que se inspira en la medida de similarídad de ITO,
ITa, KODAMA & TOYODA (1984), que, basada KODAMA Y TOYODA (1984), puesto que equi-
en la teoria de conjuntos, combina unión e intersec- vale a
ción para variables no-independientes. F(Gí)+F(G2)—F(Gi UG2
Esta medida está referida a dos unidades pero, al S2(G¡,G2)= F(G,UG2)
extenderla a similaridad entre grupos, surgen dos
posibilidades en función de la intersección que se
Por construcción, la medida S2 no verifica las
prefiera, puesto que con solamente dos unidades se
propiedades de Backer y Jain, y Pal y Majumder,
tiene que
debido a que toma en consideración todas las coo-
A1 (A1, A1) = F (A1 fl 01), currencias entre elementos de Gt y G2, y estas coo-
currencias añaden su efecto a la incertidumbre. Es-
Existen dos posibles extensiones: tos problemas inducen a considerar otras medidas
— extensión de A1 ci A1 como intersección de todos de similaridad derivadas de 52, que se inspiran en
los elementos del gnipo, denominada intersección distintos contextos y toman en cuenta el número de
fuerte y denotada por A~ A Aj. elementos coincidentes en los grupos.
— extensión de A~ A1 en la forma Ac (A1, A1).
ci
Similaridad S~
De acuerdo a la posibilidad que se adopte, resul-
tarán dos medidas básicas de similaridad (ESQUí- Inspirada en la definición de entropía de Kauff-
VEL, 1988). man (en PAL y MAJUMDER, 1985), considera la
O.9 0.9 0.’ - 0.6 0.5 0.4 0.5 0.2 0.’
campos de tratamiento de imágenes y Termodiná- el que, en cada nivel, se fusionan los grupos con
mica Estadistica; PAL y CHAKARBORTY (1986) mayor similaridad para, en un segundo paso, actua-
definen un indice de evaluación de patrones me- lizar las similaridades teniendo en cuenta los pará-
diante medidas intercíases e intraclases. metros del nuevo grupo creado.
El esquema del algoritmo consiste en (ESQUí-
VEL, 1988):
8. Algoritmo de agrupación 1. Cálculo de las probabilidades (frecuencias)
p(x) para todos los estados x de todas las variables.
Los indices Si S~ permiten desarrollar un algo-
— 2. N= p (el número inicial de clusters N coin-
ritmo de agrupación jerárquico y aglomerativo en cide con el número de elementos p).
le—
13.
.4.
27
:7 -
“e
SIM LAPIDAD 3
31.’
•9.
45.
ifio
So
r
9.
22.
35,
7,
4,
32,
38a
l lá
4,
l9~
38,
23,
0¿
24,
3, ¡ ¡ 1 3 ¡ ¡ t ¡ ¡ ¡
0.9 0.8 0.7 0.6 0.5 0.4 0,3 0.2 0.1
SIMILARIDAD 4
VARIABLES
E 1 2 3 4 5 6 7 8.
5
T 1 1 1 1 1 1 1 1 1
A 2 2 2 2 2 2 2 2 2
D
o 3 3 3 3 3 3 3 3 3
5 4 4 4
VARIABLES
1 2 3 4 5 6 7 8
alisado beige 500’ compacta + filo 1.35 fino
E marrón c¶~ro silie. 1.52
5
T 2 pulido gris marrón 600’ magra valor 1.53 medio
A medio grisáceo medio 1.69
D
o 3 bruñido marrón rojizo 650’ muy + cuan. 1.70 grueso
5 grisáceo magra 1.86
4 gris gris
oscuro oscuro
líticos de laboratorio más complejos para poder proporciona una clave previa introducida por el in-
computar una serie de~ atributos que requieren un vestigador con un determinado fin: una clasifica-
examen fisico-quimico o petrológico (difracción de ción previa dictada por la experiencia del investi-
Rayos X, estudio óptico, etc.) que nos han penniti- gador, una clave que indique alguna característica
do analizar la composición mineralógica de la arci- de las unidades (cuenco carenado, olla, etc.). Esta
lía, su matriz y contenido en desgrasante, la tempe- clave puede omitirse puesto que el análisis no la to-
ratura de cocción y la densidad. Estos análisis se maen cuenta para realizar la agrupación.
han realizado en la Estación Experimental del Zai-
Cuando se aplica el algoritmo de agrupación uti-
din (CSIC) de Granada, bajo la dirección de J. Ca-
lizando las distintas medidas se encuentran algunas
pcI, J. Linares y E Huertas.
dif!rencias debidas a la distinta naturaleza de di-
Las variables tienen consideración nominal, es chas medidas, pero los resultados son bastante con-
decir, no han sido categorizadas, por lo que los sístentes. Si bien, una vez analizadas las cuatro me-
símbolos asignados a cada uno de los estados en didas de similaridad podemos concluir que la me-
cada una de ellas no tienen significación, alguna dida 2 ofrece unos mejores resultados arqueológi-
(tablas l.y 2). cos en este caso concreto, distinguiéndose cuatro
En la tabla de los elementos (tabla 2) aparecen grandes grupos de vasos cerámicos. Cada uno de
los estados correspondientes a cada uno de ellos en ellos presenta características tecnológicas distintas.
las distintas variables. La segunda columna cOntie- Su aparición como ajuar funerario no es arbitraria,
ne un símbolo, que no se tiene en cuenta en el aná- smo que cada grupo aparece asociadoa distintos ti-
lisis aunque aparece en el dendrograma, y que pos de contextos funerarios. Para la discusión ar-
VARIABLES VARIABLES
Tabla 2.—Estados de las varjabí espara las cincuenta vasijas de La Cuesta del Negro (Purullena, Granada)
queológica de estos resultados nos remitimos a Fuzzy Set Decomposition». JEFE Trans. Pattern
CONTRERAS, MOLINA, CAiPEL y ESQUIVEL, AnaL and Machine Intel1, Vol. PAMI-3, January,
1988. pp. 66-75.
BEN-BASSAT, M., y L. ZAINDENBERG
1984 «Contextual Template Matching: A Distance
BIBLIOGRAFíA Mensure for Paileras with Hierarchically Depend-
ent Features», JEFE Trans. Pattern Anal. and
BACKER, E., yAK. JAN Machine Intelí.. Vol. PAMI-6, March, Pp. 201-
1981 «A Clustering Perforniance Mensure Based en 211.
nomy», ILEE Trans. Pattern Anal and Mach me
CI-IIU, D.K.Y., yA.K.C.WONQ
1986 «Syntliesizing Knowledge: A Cluster Analysis Iníelí., Vol. PAMI-5, July, Pp. 396-4 lO.
Approach Using’ Event Covering», JEFE Trans. MIYAMOTO, 5., y K. NAKAYAMA
Syst., Man and Cyberns., Vol. SMC-16, 1986 <Similaríty Mensures Based on a Fuzzy Set Mo-
March/Apríl, PP. 251-259. del azud Application to Hierarchical Clustering»,
CONTRERAS, E; E MOLINA, J. CAPEL y JA. ESQUí- ¡EFE Trans. Syst, Man and Cyberns., Vol. SMC-
VEL 16, May/June, PP. 479482.
1988 «Los ajuares cerámicos de la necrópolisargárica PAL, 5K., y B. CI-IAKRABORTY
de la Cuesta del Negro <Purullena, Granada). 1986 <Fuzzy Set Theoretic Mensure for Automatic
Avance al estudio analítico y estadístico», ¡ Curso Feature Evaluation,>, IFEE Trans. Syst., Man and
de Ciencia en Arqueología, La Laguna, Universi- Cvberns., Vol. SMC-l6, October, PP. 754-760.
dad de La Laguna (En prensa). PAL, 5K., y O. DUTTA MAJT.JMDER
DELUCA,A., yS.TERMINI . - 1985 Fuzzy Mathemañcal Approach ¡o Pauern Recog-
1972 ‘«A Definition of Nonprobabilistic Entropy in the nition, Wiley Eastem, New Delhi.
Setting of Fuzzy Sets Theor>h>, Jnform. and Con- REZZA, EM.
trol, Vol. 20, pp. 301-312. 1961 An Iníroduction to the Information Theory,
DIDAY, E., y J.C. SIMON McGraw-Hill, New York.
1976 Clustering Analysis: Communication aná RAO, C.R.
Cybernetics, Vol. 10, Sprínger Verlag, New York. 1984 «Use of lJiversity and Distance Measures in the
DUBOIS, D., y H. PRADE Analysis of Qualitative Data>,, en N. van Wark &
1980 Fuzzy Seis and Systems: Theo.y and Applica- W. W. Howell (eds.): Multivariate Siatistical Met-
tioiu: Academic Press, New York. hods in Physical Anrropology, Reidel Publishing
DUDA, R. O., y PE. HART Co., Dordrecht, Holland, PP. 49-67.
1973 Panero C’lassificarion and Sane Analysis, John ROMESBURG, FLC.
Wiley, New York. 1984 Cluster Análysis br Researchers, Lifetime Lear-
EVERITT, B. ning Publications, Belmont C. A.
1980 ClusíerAna¡ysis, 1-lubied Press, New York. SHANNON, CE.
ESQUIVEL GUERRERO, J. A. 1948 «A Mathematical Theory of Communication,>,
1988 Una aplicación de la entropía al Análisis Cluster Rail System Tech. Journaí Vol. 27, pp. 379-423,
‘mediante Variables Cualitativas Multiestado: Afi- 623-656.
nidad, Similaridad y Agrupación, Tesis Doctoral, SNEATH, EHA., y R.R. SOKAL
Departamento de Estadística, Universidad de 1973 Numerical Taxononíy: Tite Principies and Practi-
Granada. ce of Numerical Classlfication, W. Fi. Freeman,
ITO, T.; Y. KODAMA y J. TOYODA San Francisco.
1984 «A Sirnilarity Mensure Hettwen Patterns with No- WONG, A.K.C., y 13.K.Y CHIU
nindependent Attributes», IFEE Trans.’ Pattern 1987 «Synthesizing Statisíical Knowledge ftom lncom-
Anal and Machine Intelí, Vol. PAMJ-6, January, plete Mixed-Mode Data,>, IFEE Trans. Pattern
1.. Vol. PAMI-9, Novem-
Pp. 111-115. Anal and Machine Intel
ber.
KENDALL, M. G.
1975 Multivariate Analysis, Charles Griffin, London. XIE, W.X., y S.D. BEDROSIAN
1984 «A lnfornrion Measure for Fuzzy Scts», IEEE
MICIZIALSKI, RS., y R.E. STEPP Trans. Syst., Man and Cybems., Vol. SMC-14, Ja-
1983 «Automated Construction of Classiftcations: nuaty,/Februaty, pp. 151-1561
Conceptual Clustering versus Numerical laxo-