Teoria de La Informacion PDF

Una aplicación de la 1.
Introducción
Teoria de la Información El Análisis Cluster constituye una importante
al análisis de datos técnica de análisis de datos, ampliamente utilizada
en distintas áreas de conocimiento (Biología, Psi-
definidos mediante cología, Arqueologia, Sociología, etc.) con el pro-
variables cualitativas pósito de identificar entidades similares a partir de
las características que poseen. En el campo de la
multi-estado: medidas Arqueología, la necesidad de clasificar los items
arqueológicos y construir tipologías precisas con-
de similaridad y análisis duce a una utilización, cada vez más amplia, de es-
cluster. te tipo de técnicas estadísticas, solventando deter-
minados problemas que aparecen en la arqueología
tradicional:
— manejo de grandes cantidades de datos que, debi-
do a su dimensionalidad, son diticiles de estudiar
José A. Esquivel Guerrero a menos que puedan clasificarse en grupos mane-
Francisco Contreras Cortés jables con la minima pérdidade información.
— necesidad de disponer de un método de agnipa-
Femando Molina González ción útil y nítido, que introduzca un grado de ob-
jetividad no obtenible por observación directa.
Josefa Capel Martínez
— utilización simultánea de varias características a
Departamento de Prehistoria. lo largo del proceso para evitar soluciones des-
Universidad de Granada. 18071 Granada. criptivas basadas, en general, en una única carac-
terística diferenciadora.
El análisis está constituido por dos procesos fun-
damentales: la obtención de una medida de simila-
ridad adecuada a las características de los objetos,
y un algoritmo que consiga la agrupación de los
objetos en clusters (grupos) con gran homogenei-
dad interna y alta heterogeneidad externa.
Las técnicas basadas en variables cuantitativas
han sido ampliamente estudiadas, utilizando los
métodos y resultados de la Geometría Euclídea pa-
ra obtener medidas de similaridad (generalmente a
partir de distancias) y algoritmos de agrupación (un
estudio detallado aparece en SNEATH & SOKAL,
1973; DUDA & HART, 1973; DIDAY & SIMON,
1976, y EVERITI’, 1980). Sin embargo, los datos
definidos mediante variables binarías o variables
cualitativas multiestado presentan mayores proble-
mas, ya que no existen modelos geométricos ade-
cuados. Los modelos binarios más comunes apare-
cen codificados en tablas presencia/ausencia, 1/O,
etc., y se han desarrollado varios coeficientes de si-
milaridad para los mismos (Jacquard-Sneath, Lan-
ce y Williams, Sokal y Michener, Rogers-Tanimo-
to, Yule, etc.) (en SNEATH & SOKAL, 1973, y
DUDA & HART, 1973, aparece una revisión com-
pleta de este tipo de coeficientes). Las variables
multiestado originan, debido a su carácter, mayores
problemas que las anteriores, y con ftecuencia se
José A. Esquive!, Francisco Contreras Cortés, Fernando Molina González y Josefa cape! Martínez
complutum. 1 <i99J). Madrid (pp. 53-64>.
han estudiado considerando cada estado de cada antropía de Sbannon y Weaver
variable como una variable dicotómica (KEN-
DALL, 1975, y ROMESBURG, 1984), aunque el
interés del problema en una amplia diversidad de H(X) = Pi 1g2p, E Pt = 1,
campos (reconocimiento de imágenes, reconoci-
miento de cadenas de símbolos, secuencias de fo- que mide la incertidumbre media asociada a un es-
nemas, estudio de documentos, organización de ba-
quema finito y completo de probabilidad, aun
ses de datos, etc.) ha suscitado que sea abordado cuando varios autores han sugerido otras definicio-
desde distintas teorías (ESQIJIVEL, 1988; PAL & nes de entropía que no verifican algunas de las
MAJUMOER, 1985; BACKER & JAIN, 1981;
condiciones de la entropía clásica (REZZA, 1961)
MICHALSKJ & STEPP, 1983; ITO, KODAMA & y, modernamente, se han realiiado diversas genera-
TOYODA, 1984; RAO, 1984; BEN-BASSAT & lizaciones de la entropía (RAO, 1984).
ZAIDENBERG, 1984; CHIU & WaNG, 1986;
WONG & CHIU, 1987). Al considerar un «espacio» de unidades defini-
das mediante variables cualitativas multiestado, la
En este trabajo se proponen varias medidas de
entropía debe tener en cuenta la incertidumbre de
símilaridad entre objetos definidos mediante varia-
los estados de cada variable, el número de estados
bIes cualitativas multiestado, a partir de métodos y
técnicas de la Teoría de la Información (este tema de las variables y la frecuencia de aparición de los
ha sido objeto de la Tesis Doctoral de uno de noso- mismos. En este trabajo se propone una medida de
entropía enfocada al estudio de este tipo de varia-
tros, J.A.E.) (ESQUIVEL, 1988). Además, se desa-
bIes, teniendo en cuenta las consideraciones ante-
rrolla un algoritmo de clustering basado en dichas
nores según:
medidas de similaridad, aplicándolo a un conjunto
de 50 vasos cerámicos extraídos del yacimiento La — la incertidumbre de un estado muy frecuente debe
Cuesta del Negro, Purullena (Granada) de la Edad ser pequeña, ya que la probabilidad de que dicho
del Bronce. estado aparezca en una unidad escogida al azar es
grande; recíprocamente, si un estado es raro su
contribución a la entropía debe ser grande.
2. Incertidumbre y Entropía — la incertidumbre asociada a una variable será ma-
yor cuanto menor sea el número de sus estados,
El estudio de uña distribución de objetos defini- pues la dicotomía que produce en la distribución
dos mediante variables cualitativas multiestado es mayor que si tuviese muchos estados.
exige obtener la máxima información de cada obje-
to, de cada variable y de cada estado, en función de
la frecuencia de aparición de los estados, número 3. Medidas de información
de estados de las variables, etc. Términos iguales a
rareza, abundancia y otras nociones intuitivas de- Una medida de información que verifique las an-
ben reflejarse de forma clara y precisa. tenores consideraciones se define cómo:
De acuerdo a la teoria de Shannon, en un modelo La información asociada al estado x¡k con proba-
níatemático de comunicación la información ven- bilidad pi~ es
drá determinada por un parámetro estadístico aso-
ciado a un esquema de probabilidad y «debe indi-
car tina medida relativa a la incertidumbre de
acuerdo a la ocurrencia de un mensaje particular en
siendo n~ el número de estados de la variable X~.
el conjunto de mensajes» (REZZA, 1961, y
Esta medida se ajusta a la axiomática de Shannon,
SHANNON, 1948). En la axiomática clásica, la
al ser solución de la ecuación
incertidumbré asociada a un suceso Ek pertenecien-
te a un conjunto de sucesos 0= {Eí E0} viene
,.., f(lA~) + f(l/m) = f(l/mn).
determinada por el valor La incertidumbre media (entropía) asociada a la
— lg2pk
variable Xi viene entonces determinada por
u.
siendo pk la probabilidad de ocurrencia del suceso
Ek. Y la media extendida a todos los sucesos de una Hx = = p(xw) lg=p(xik) >0
nj k •
distribución de sucesos viene determinada por la
Una aplicación de la Teoría de la Informacion... 55
ni (unidades) F = {Aí, A
2 An} definido sobre el
Zp(x&)= 1, conjunto de variables multiestado V= {Xí ,X2
X4, donde cada variable X tiene asociado un con-
que verifica las condiciones exigidas a las medidas junto de estados W~ = {x~i, x~2,.., x,0<>}, siendo n(i)
de incertidumbre en la Teoria de la Información. (a veces la notación n~ es menos cómoda, como en
La entropía asi definida tiende a suavizar la in- el caso anterior) el número de estados de la varia-
fluencia de los estados extremos (con frecuencia ble X. A cada unidad A~ se le asocia el objeto ma-
muy pequeña o muy grande). Sin embargo, la in- temático definido por la n-tupla (DUBOIS y PRA-
fluencia de estos estados es fundamental en el estu- DF, 1980)
dio de la asociación que pueda existir entre las uni-
m(A~) = (mi (As), m~ (Al) m~ (A¡)),
dades ya que la coincidencia de dos unidades en un
determinado estado debe valorarse en función de la siendo trw el procedimiento de medida asociado a
información completa que aporte dicho estado, esto la variable Xk y mk(A1) el estado que toma la uni-
es: dadA~enlavariableXk,i=l,..., nyk=l, ...,
esto es, mk(At) xkJ si j es el índice del estado de

=
— Ja significación de una coincidencia de unidades
Ja variable Xk que aparece en A~. EJ conjunto de
en un ¿~tado poco frecuente debe ser mayor que si
coinciden en un estado más frecuente, puesto que objetos matemáticos correspondiente a una distri-
«...el acuerdo en estados raros es menos probable bución de unidades se denomina espacio de pato-
que el acuerdo entre estados frecuentes y debe ser iies (pattern space) S o espacio total y, aunque la
más valorado» (SNEATH y SOKAL, 1973). diferencia entre una unidad A y su objeto matemá-
— es menos significativa una coincidencia en un es- tico asociado es evidente, por simplicidad se deno-
tado de una variable con muchos estados que si el tarán de igual forma excepto cuando sea necesano
número de estados de la variable es escaso. llevar a cabo dicha distinción.
Con la anterior notación, pi(A) es el valor de la
Estas consideraciones llevan a la definición de
probabilidad (frecuencia relativa, o probabilidad en
entropia total o «distorsión» de una variable (ES-
un diseño probabilistico) del estado ~ si la unidad
QUIVEL, 1988):
A posee dicho estado en la variable X, es decir
ni
pdA)=p(x~~) si m~(A)=x~~, 1=j=ni
D(X~) = — i ~ lg~ p(xik),
De aquí que la distorsión (denominada campo)
k =
producida por una unidad se define como la incerti-
ni
dumbre total que dicha unidad produce en el espa-
Zp(xiiJ= 1,
cio de unidades
ic= i
y
que refleja la influencia que produce cada estado
en el espacio de unidades y en qué forma queda
F(A) — Z —lg2p~
1 (A) =0, ArT.
afectada la homogeneidad de dicho espacio, en
función de la información que aporta cada una de La distribución de unidades se comporta enton-
las unidades. ces de forma similar a un campo de fuerzas en
equilibrio dinámico, y cualquier modificación (en
las unidades, estados o variables) produce un re-
4. Incertidumbre ajuste en los valores de los campos de las unidades,
modificando la estructura de la distribucion.
de una unidad A partir de esta medida puede definirse la distor-
sión o campo producido por un gmpo de unidades,
Los elementos del «espacio» apodan su propia
que debe reflejar tanto la atracción existente entre
incertidumbre en función de las características que unidades semejantes como la repulsión (diversi-
los constituyen, modificando la estructura del espa-
dad) entre unidades no semejantes (o escasamente
cio, puesto que la introducción o eliminación de un
semejantes), en función de qué variables tienen es-
elemento trae consigo una modificación en los pa- tados comunes en el grupo (y en qué medida) y
rámetros que definen las características estructura-
cuáles los tienen distintos.
les del espacio (frecuencia de los estados, desapari-
Estas ideas tienen un punto de partida en dos no-
ción de algún estado, etc.).
ciones matemáticas que axiomatizan las ideas in-
Con estas premisas, sea el conjunto de elementos
tuitivas.
5. Unión e intersección
1g2pk (Al) (mk (A
— 1) = mk (A1))
de unidades
k=í nk
que mide la distorsión aportada por los estados que
Intersección
aparecen en algunas de ambas unidades, eliminan-
do los estados repetidos (ESQUIVEL, 1988).
Dadaslas-unidades A1, A1 cf, i, j = 1 Estas dos medidas verifican la relación funda-
p, la
íntersecció~ entre ellas está definida por su parte mental F(AUB)= E(A) F(B) F(AnB), enuncia-
+ —
común, es decir, da por Pal y Majumder, (PAL & DUTTA MAJUM-

DER, 1985) en el contexto de medir el grado de
A~flA1 = {akh/mk (A1) = m~ (Aj) = ambigiledad en un conjunto.
Esta propiedad puede generalizarse al cálculo del
k= 1,..., v,h= 1,..., 11k.
campo conjunto de varias unidades en función de
Intuitivamente, la intersececión está constituida los campos individuales y de las intersecciones
por un objeto matemático (en general no será una múltiples entre ellas (dos a dos, tres a tres, etc.). La
unidad, ya que puede no contener todas las varia- computación de la información conjunta proporcto-
bles) caracterizado por los estados de las variables nada por los elementos de un grupo G~ formado
comunes a ambas unidades. por los elementOs {Ai, A2 A~} será entonces
La información común a ambas unidades es en-
tonces F(G0) = F
y
4g2pk (Al) = que incluye tanto la similitud entre los elementos
F(A1 fl Aj) =— Z
k=t del grupo como las diferencias existentes entre
O, si mk (Aj) = 111k (A) ellos (en ESQUIVEL, 1988, se establece una axio-
mática completÉ).
Naturalmente, esta formulación es equivalente a
y
F(A~ flA 6. Afinidad entre grupos

1) = — ~ -4-:- lg2pk (Al) =
La noción de información conjunta asociada a un
grupo contiene tanto la similitud como la disimili-
=0,simk(Al)=mk(A~)
tud entre sus elementos, reflejando la estructura
Unión subyacente al grupo en base a los estados que los
configuran. Estas propiedades estructurales del
Dadas las unidades A1, A1 cf, i, j = 1,..., p, la in- grupo pueden reflejarse a partir de los valdres de la
tersección entre ellas está definida por los estados afinidad entre un elemento y el grupo o entre dos
que aportan algunas de las unidades, es decir, grupos, y debe verificar (BACKER & JAIN, 1981;
PAL&MAJUMDER, 1985):
A~UA~ 4 {auv’au, = mk (A¡) o au, = mk (A1)}, (i) La afinidad entre un elemento y un grupo no de-
k= 1,..., v,h= 1,..., nk. be ser menor si el elemento es un miembro del
grupo que si no está contenido en el grupo.
Intuitivamente, la unión de dos unidades está (u) La afinidad será aproximadamente O si el elemen-
córistituida por un objeto matemático (en general to es muy extraño respecto al grupo («si el ele-
no será una unidad, ya que en cada variable puede mento está distante del grupo o fuera de la región
tomar más de un estado) caracterizado por los esta- de interés», sic).
dos que aparecen en alguna de las unidades. (iii) La afinidad será igual a un máximo absoluto si el
grupo consiste en un único elemento que tenga la
La definici¿n de unión de dos unidades permite misma localización que el elemento bajo conside-
obtener la información conjunta a ambas unidades ración.
según:
Una caracterización intuitiva de la noción de afi-
y
nídad entre dos elementos es:
F(A1 u Aj) = — ~ —r-lg2pk (A1) —
Aí(At,A2)=F(Aí flA2),
pero la extensión a afinidad unidad-grupo o grupo- Similaridadfuerte Sí
grupo debe tener en cuenta, respectivamente, la
atracción que se ejerce entre dicha unidad y los ele- Esta medida (fig. 1) considera la intersección
mentos del grupo, y la atracción mutua ejercida por fuerte de los elementos de los grupos en la forma:
los elementos de los dos grupos: dados los grupos Gí = {At, A2 A0} y 02 = {B1,
9
1. La afinidad elemento-grupo se define como B~}, la intersección fuerte de Gi y 02 se de-
fine como
Aí(A~G)=F(GnA)~oAc(A~G)=FtU
N~
siG= {A1,A2 Gí
A
Ajinín
An}. ) y»=’
2. La afinidad grupo-grupo se define como
La similaridad St es entonces:
Ac (0, 09 =F (0 0’)
F (Gí n 02
que intuitivamente es una medida de la informa-
ción común a O y 0’, computando las conexiones S¡(GLG2)= F(GíUG2) ,O=Sí =1.
entre O y G’. Esta medida veriflea de forma estrícta las propie-
Ambas definiciones verifican las propiedades de dades de Backer y Jain, y Pal y Majumder.
Backer y Jain (ESQUIVEL, 1988).
Similaridad-afinidad 52
7. Medidas de similaridad La medida Sj computa solamente la incertidum-

bre proporcionada por aquellos estados de las va-
Las técnicas de la Teoría de Conjuntos inducen riables que aparecen en todos y cada uno de los
una medida conjuntista de similaridad en la forma elementos de los grupos, y basta que un estado no
aparezca en un elemento para que sea tomado en
F(AO+F(A1)—F(A~UA1) A A cuenta, es decir, es bastante estricta. Tomando co-
F (A1 UA1) cf, mo base la afinidad y, por tanto, incluyendo todas
las relaciones entre los miembros de los grupos, se
que equivale a define la medida 52 (fig. 2) en la forma:
F(A~~A1) =dSA) Ac (Gí, G2

r(A~, A1) = F(A1UA1) — F(A1UA~) S2(GI,G2) F(G,UG2)
basada en la medida de similaridad establecida por que se inspira en la medida de similarídad de ITO,
ITa, KODAMA & TOYODA (1984), que, basada KODAMA Y TOYODA (1984), puesto que equi-
en la teoria de conjuntos, combina unión e intersec- vale a
ción para variables no-independientes. F(Gí)+F(G2)—F(Gi UG2
Esta medida está referida a dos unidades pero, al S2(G¡,G2)= F(G,UG2)
extenderla a similaridad entre grupos, surgen dos
posibilidades en función de la intersección que se
Por construcción, la medida S2 no verifica las
prefiera, puesto que con solamente dos unidades se
propiedades de Backer y Jain, y Pal y Majumder,
tiene que
debido a que toma en consideración todas las coo-
A1 (A1, A1) = F (A1 fl 01), currencias entre elementos de Gt y G2, y estas coo-
currencias añaden su efecto a la incertidumbre. Es-
Existen dos posibles extensiones: tos problemas inducen a considerar otras medidas
— extensión de A1 ci A1 como intersección de todos de similaridad derivadas de 52, que se inspiran en
los elementos del gnipo, denominada intersección distintos contextos y toman en cuenta el número de
fuerte y denotada por A~ A Aj. elementos coincidentes en los grupos.
— extensión de A~ A1 en la forma Ac (A1, A1).
ci
Similaridad S~
De acuerdo a la posibilidad que se adopte, resul-
tarán dos medidas básicas de similaridad (ESQUí- Inspirada en la definición de entropía de Kauff-
VEL, 1988). man (en PAL y MAJUMDER, 1985), considera la
O.9 0.9 0.’ - 0.6 0.5 0.4 0.5 0.2 0.’
Fig. 1 —Dendograma obtenido con la medida de similari dad St,
media logaritmica de la afinidad relativa, al campo Similaridad S~

conjunto de los grupos según:
Tomando como punto de partida la entropía de
53 (Gt,G2)= 1g2 n0 A1 (Gt, 02) ,siendo De Luca y Termini (DE LUCA y TERMI?NI, 1972),
lg2n F(Gí UG2) que es una extensión de la información de Shannon
considerando n fuentes binarias, la medida 54 (fig.
x, Vy cGt U 02, x = y
4) se define como:
n= N(GtUG=) n0 A1(Gí,02
S4(Oi,G2) n F(GtUG2)
El término lg2n mantiene el valor máximo de Su
comprendido entre O y 1, y evita una influencia ex- Varias medidas derivadas han sido utilizadas, sin
cesiva del número de elementos en la similaridad el término n~, en distintos contextos: XIE y BE-
(fig. 3). DROSIAN (1984) aplican estos conceptos en los
SIM ¡ LA Rl DAD 2
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
Fig. 2.—Dendograma obtenido con la medida de similaridad S2.
campos de tratamiento de imágenes y Termodiná- el que, en cada nivel, se fusionan los grupos con
mica Estadistica; PAL y CHAKARBORTY (1986) mayor similaridad para, en un segundo paso, actua-
definen un indice de evaluación de patrones me- lizar las similaridades teniendo en cuenta los pará-
diante medidas intercíases e intraclases. metros del nuevo grupo creado.
El esquema del algoritmo consiste en (ESQUí-
VEL, 1988):
8. Algoritmo de agrupación 1. Cálculo de las probabilidades (frecuencias)
p(x) para todos los estados x de todas las variables.
Los indices Si S~ permiten desarrollar un algo-
— 2. N= p (el número inicial de clusters N coin-
ritmo de agrupación jerárquico y aglomerativo en cide con el número de elementos p).
le—
13.
.4.
27
:7 -
“e
SIM LAPIDAD 3
31.’
•9.
45.
ifio
So
r
9.
22.
35,
7,
4,
32,
38a
l lá
4,
l9~
38,
23,
0¿
24,
3, ¡ ¡ 1 3 ¡ ¡ t ¡ ¡ ¡
0.9 0.8 0.7 0.6 0.5 0.4 0,3 0.2 0.1
Fig. 3 —Dendograma obtenido con la medida de similaridad S~.
3. C¡={i} (cada cluster Ct solamente contie- 9. Calcular F(CO.

al comienzo del proceso).
nc al elemento
10. Repetir el proceso desde el paso 5.
4. Cálculo de S(C~, C1) para todos los grupos
C¡, C1, Mediante Si—S4. El algoritmo requiere actualizar, ¿n cada pato,
las afinidades existentes ente el nuevo giupo y los
5. Cálculo de los valores i, j tales que S~ =
S(C;, C1) sea máxima. grupos restantes, incluyendo el campo del nuevo
grupo. Este proceso se realiza en los pasos 7-9, y es
6. SiS*=OóN=, 1~ ó N N0 entonces finali- complicado computacionalmente debido al gran
zar. es el número prefijado de clusters (opcio- número de intersecciones múltiples que aparecen
nal). en su desarrollo. Sin embatgo, existen métodos nu-
7. C¡=C¡UCj;N=N—1;Cj={O}. méricos alternativos que computan directamente A,
8. Para todo k= i, si Ck {O} calcular S(C1, a partir de las probabilidades originales de los esta-
Ck). dos de la distribución (ESQUIVEL, 1988).
Una aplicación de la Teoría de la Informaciot.. 61
SIMILARIDAD 4
05 0.8 0.7 0.É 0.5 0.4 0.3 0.2 0,1
Fig. 4.—Dendograma obtenido con la medida de siinilaridad S~.
9. Resultados experimentales 4. Temperatura de cocción.

5. Matriz.
Los experimentos computacionales para evaluar 6. mineralogía.
las medidas de similaridad y el algoritmo de agru- 7. densidad.
pación se han aplicado a un conjunto de 50 vasos 8. Tipo de desgrasante.
cerámicos extraídos del yacimiento La Cuesta del
Negro, en Purullena (Granada), de la Edad del Para definir los atributos tecnológicos más apro-
Bronce. Los datos se han definido a partir de 8 va- piados para el análisis multivariante hemos utiliza-
riables nominales de tipo tecnológico, arqucoló- do dos tipos de métodos. Por un lado, métodos de
gicamente relevantes: observación directa de los artefactos (lupa binocu-
lar, tablas de colores...). Con este tipo de procedi-
1. Tratamiento de la superficie.
miento hemos analizado el tratamiento de las su-
2. Color de la superficie.
perficies, el color de la pasta y el color de las pare-
3. Color de la pasta. des. Por otro lado, hemos recurrido a métodos ana-
VARIABLES
1 2 3 4 5 6 7 8
Número de estado de las variables 3 4 4 3 3 3 3 3
VARIABLES
E 1 2 3 4 5 6 7 8.
5
T 1 1 1 1 1 1 1 1 1
A 2 2 2 2 2 2 2 2 2
D
o 3 3 3 3 3 3 3 3 3
5 4 4 4
VARIABLES
1 2 3 4 5 6 7 8
alisado beige 500’ compacta + filo 1.35 fino
E marrón c¶~ro silie. 1.52
5
T 2 pulido gris marrón 600’ magra valor 1.53 medio
A medio grisáceo medio 1.69
D
o 3 bruñido marrón rojizo 650’ muy + cuan. 1.70 grueso
5 grisáceo magra 1.86
4 gris gris
oscuro oscuro
Tabla 1.—Definición de las variables y sus estados.
líticos de laboratorio más complejos para poder proporciona una clave previa introducida por el in-
computar una serie de~ atributos que requieren un vestigador con un determinado fin: una clasifica-
examen fisico-quimico o petrológico (difracción de ción previa dictada por la experiencia del investi-
Rayos X, estudio óptico, etc.) que nos han penniti- gador, una clave que indique alguna característica
do analizar la composición mineralógica de la arci- de las unidades (cuenco carenado, olla, etc.). Esta
lía, su matriz y contenido en desgrasante, la tempe- clave puede omitirse puesto que el análisis no la to-
ratura de cocción y la densidad. Estos análisis se maen cuenta para realizar la agrupación.
han realizado en la Estación Experimental del Zai-
Cuando se aplica el algoritmo de agrupación uti-
din (CSIC) de Granada, bajo la dirección de J. Ca-
lizando las distintas medidas se encuentran algunas
pcI, J. Linares y E Huertas.
dif!rencias debidas a la distinta naturaleza de di-
Las variables tienen consideración nominal, es chas medidas, pero los resultados son bastante con-
decir, no han sido categorizadas, por lo que los sístentes. Si bien, una vez analizadas las cuatro me-
símbolos asignados a cada uno de los estados en didas de similaridad podemos concluir que la me-
cada una de ellas no tienen significación, alguna dida 2 ofrece unos mejores resultados arqueológi-
(tablas l.y 2). cos en este caso concreto, distinguiéndose cuatro
En la tabla de los elementos (tabla 2) aparecen grandes grupos de vasos cerámicos. Cada uno de
los estados correspondientes a cada uno de ellos en ellos presenta características tecnológicas distintas.
las distintas variables. La segunda columna cOntie- Su aparición como ajuar funerario no es arbitraria,
ne un símbolo, que no se tiene en cuenta en el aná- smo que cada grupo aparece asociadoa distintos ti-
lisis aunque aparece en el dendrograma, y que pos de contextos funerarios. Para la discusión ar-
VARIABLES VARIABLES
N.0 Si. 1 2 3 4 5 6 7 8 N.0 Si. 1 2 3 4 5 6 7 8

1 C 2 1 3 2 3 2 2 26 B 3 3 3 2 2 3 2
2 A 3 4 2 1 1 2 3 1 27 C 2 3 4 2 3. 1 2
3 A 3 3 3 1 1 3 3 1 28 B 3 3 2 3 1’ 1
4 A 3 3 2 1 3 3 1 29 B 3 3 2 2 2, 1 2 2
5 c 3 2 2 3 3 2 2 2 30 C 3 3, 1 3 2 2 2
6 B 3 3 3 2 2 3 2 31 C 3 3 2 3. 2 3 2 3
7 A 3 3 2 1 1 2 3 1 32 A 3 3 2 1 1 3 2
8 C 3 3 2 2 2 3 1 2 33 A 3 3 2 1 2 2 3
9 B 3 3 3 3, 1 2 3 1 34 E 3 3 2 3 1 1 3
10 A 3 3 2 1 1 3 3 1 35 A 3 3 2 1 1 2 3
11 A 3 3 2 1 1 3 2 1 36 A 3 3 2 1 1 3 2
12 A 3 3 3 1 2 3 1 37 A 3 3 2 1 1 3. 2
13 B 3 3 2 2 1 1 3 1 38 A 3 3 2 1 1 3, 3
14 A 3 3 2 1 1 3 2 1 39 E 3 3 3 3 1 II 3
15 B 3 3, 3 2 2 3 3 2 40 A 3 3 2 1 2 1 3
16 B 3 3 2 2 1 2 3 1 41 C 1 3 4 2 1 2
17 B 3 3 3 2 2 1 2 1 42 E 3 3 2 2 1 3 3
18 C 3 2 2 3 3 3 2 2 43 C 2 3 4 3 2 3 2
19 A 3 3 2 1 1 3 3 1 44 E 3 3 2 2 1 1 3
20 C 3 3 2 1 3 3 3 3 45 D 2 3 2 3 2 2 3
21 E 3 3 2 1 1 2 3 2 46 E 3 3 2 2 1 2. 2
22 E 3 3 3 3 1 2 3 1 47 C 3 3 2 3 2 2 3 3
23 A 3 3 2 1 1 3 3 1 48 B 3 4 2 2 1
24 A 3 3 3 1 1 3 3. 1 49 D 2 3 2 3 2 2. 3 3
25 A 3 4 2 1 1 3 3 1 50 D 1 1 3 3 2 3 3 3
Tabla 2.—Estados de las varjabí espara las cincuenta vasijas de La Cuesta del Negro (Purullena, Granada)
queológica de estos resultados nos remitimos a Fuzzy Set Decomposition». JEFE Trans. Pattern
CONTRERAS, MOLINA, CAiPEL y ESQUIVEL, AnaL and Machine Intel1, Vol. PAMI-3, January,
1988. pp. 66-75.
BEN-BASSAT, M., y L. ZAINDENBERG
1984 «Contextual Template Matching: A Distance
BIBLIOGRAFíA Mensure for Paileras with Hierarchically Depend-
ent Features», JEFE Trans. Pattern Anal. and
BACKER, E., yAK. JAN Machine Intelí.. Vol. PAMI-6, March, Pp. 201-
1981 «A Clustering Perforniance Mensure Based en 211.
nomy», ILEE Trans. Pattern Anal and Mach me
CI-IIU, D.K.Y., yA.K.C.WONQ
1986 «Syntliesizing Knowledge: A Cluster Analysis Iníelí., Vol. PAMI-5, July, Pp. 396-4 lO.
Approach Using’ Event Covering», JEFE Trans. MIYAMOTO, 5., y K. NAKAYAMA
Syst., Man and Cyberns., Vol. SMC-16, 1986 <Similaríty Mensures Based on a Fuzzy Set Mo-
March/Apríl, PP. 251-259. del azud Application to Hierarchical Clustering»,
CONTRERAS, E; E MOLINA, J. CAPEL y JA. ESQUí- ¡EFE Trans. Syst, Man and Cyberns., Vol. SMC-
VEL 16, May/June, PP. 479482.
1988 «Los ajuares cerámicos de la necrópolisargárica PAL, 5K., y B. CI-IAKRABORTY
de la Cuesta del Negro <Purullena, Granada). 1986 <Fuzzy Set Theoretic Mensure for Automatic
Avance al estudio analítico y estadístico», ¡ Curso Feature Evaluation,>, IFEE Trans. Syst., Man and
de Ciencia en Arqueología, La Laguna, Universi- Cvberns., Vol. SMC-l6, October, PP. 754-760.
dad de La Laguna (En prensa). PAL, 5K., y O. DUTTA MAJT.JMDER
DELUCA,A., yS.TERMINI . - 1985 Fuzzy Mathemañcal Approach ¡o Pauern Recog-
1972 ‘«A Definition of Nonprobabilistic Entropy in the nition, Wiley Eastem, New Delhi.
Setting of Fuzzy Sets Theor>h>, Jnform. and Con- REZZA, EM.
trol, Vol. 20, pp. 301-312. 1961 An Iníroduction to the Information Theory,
DIDAY, E., y J.C. SIMON McGraw-Hill, New York.
1976 Clustering Analysis: Communication aná RAO, C.R.
Cybernetics, Vol. 10, Sprínger Verlag, New York. 1984 «Use of lJiversity and Distance Measures in the
DUBOIS, D., y H. PRADE Analysis of Qualitative Data>,, en N. van Wark &
1980 Fuzzy Seis and Systems: Theo.y and Applica- W. W. Howell (eds.): Multivariate Siatistical Met-
tioiu: Academic Press, New York. hods in Physical Anrropology, Reidel Publishing
DUDA, R. O., y PE. HART Co., Dordrecht, Holland, PP. 49-67.
1973 Panero C’lassificarion and Sane Analysis, John ROMESBURG, FLC.
Wiley, New York. 1984 Cluster Análysis br Researchers, Lifetime Lear-
EVERITT, B. ning Publications, Belmont C. A.
1980 ClusíerAna¡ysis, 1-lubied Press, New York. SHANNON, CE.
ESQUIVEL GUERRERO, J. A. 1948 «A Mathematical Theory of Communication,>,
1988 Una aplicación de la entropía al Análisis Cluster Rail System Tech. Journaí Vol. 27, pp. 379-423,
‘mediante Variables Cualitativas Multiestado: Afi- 623-656.
nidad, Similaridad y Agrupación, Tesis Doctoral, SNEATH, EHA., y R.R. SOKAL
Departamento de Estadística, Universidad de 1973 Numerical Taxononíy: Tite Principies and Practi-
Granada. ce of Numerical Classlfication, W. Fi. Freeman,
ITO, T.; Y. KODAMA y J. TOYODA San Francisco.
1984 «A Sirnilarity Mensure Hettwen Patterns with No- WONG, A.K.C., y 13.K.Y CHIU
nindependent Attributes», IFEE Trans.’ Pattern 1987 «Synthesizing Statisíical Knowledge ftom lncom-
Anal and Machine Intelí, Vol. PAMJ-6, January, plete Mixed-Mode Data,>, IFEE Trans. Pattern
1.. Vol. PAMI-9, Novem-
Pp. 111-115. Anal and Machine Intel
ber.
KENDALL, M. G.
1975 Multivariate Analysis, Charles Griffin, London. XIE, W.X., y S.D. BEDROSIAN
1984 «A lnfornrion Measure for Fuzzy Scts», IEEE
MICIZIALSKI, RS., y R.E. STEPP Trans. Syst., Man and Cybems., Vol. SMC-14, Ja-
1983 «Automated Construction of Classiftcations: nuaty,/Februaty, pp. 151-1561
Conceptual Clustering versus Numerical laxo-

Teoria de La Informacion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoria de La Informacion PDF

Cargado por

Copyright:

Formatos disponibles

Una aplicación de la 1.

esto es, mk(At) xkJ si j es el índice del estado de

común, es decir, da por Pal y Majumder, (PAL & DUTTA MAJUM-

F(A~ flA 6. Afinidad entre grupos

7. Medidas de similaridad La medida Sj computa solamente la incertidum-

F(A~~A1) =dSA) Ac (Gí, G2

Fig. 1 —Dendograma obtenido con la medida de similari dad St,

media logaritmica de la afinidad relativa, al campo Similaridad S~

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Fig. 2.—Dendograma obtenido con la medida de similaridad S2.

Fig. 3 —Dendograma obtenido con la medida de similaridad S~.

3. C¡={i} (cada cluster Ct solamente contie- 9. Calcular F(CO.

05 0.8 0.7 0.É 0.5 0.4 0.3 0.2 0,1

Fig. 4.—Dendograma obtenido con la medida de siinilaridad S~.

9. Resultados experimentales 4. Temperatura de cocción.

Tabla 1.—Definición de las variables y sus estados.

N.0 Si. 1 2 3 4 5 6 7 8 N.0 Si. 1 2 3 4 5 6 7 8

También podría gustarte