Belda Ignasi - Mentes Maquinas Y Matematicas

Mentes, máquinas
y matemáticas
La inteligencia artificial y sus retos
Ignasi Belda
B i vhmhA o es m A tem ático

© 2 0 1 1 , Ignasi Belda p o r el texto
© 2011, R B A Coleccionables, S.A.
Realización: E D IT E C
Diseño cubierta: Llorenf M artí
Fotografías: iStockphoto, Corbis, Getty Images
Reservados todos los derechos. N inguna parte de esta

publicación puede ser reproducida, almacenada o transmitida
p o r ningún m edio sin perm iso del editor.
ISBN: 978-84-473-7436-6
D epósito legal: N A -2692-2011
Impreso y encuadernado en Rodesa.Villatuerta (Navarra)
Impreso en España - Printed in Spain

S u m ario
Prefacio ............................................................................................................................... 7
P reám b u lo .......................................................................................................................... 9
C a p ítu lo 1. ¿Q ué es la in telig en cia artificial? .................................................. 13

El test de T uring ........................................................................................................... 13
La b ú sq u e d a ,............................................................................................................... 19
El aprendizaje ................................................................................................................ 22
La planificación ............................................................................................................. 24
El razonam iento autom ático ..................................................................................... 25
El procesam iento del lenguaje n a tu ra l..................................................................... 32
Para term inar, gestionar lo que se s a b e .................................................................... 33
C a p ítu lo 2. B ú sq u ed a ............................................................................................... 37
D arw in ya lo d i j o .......................................................................................................... 38
La inicialización ............................................................................................................ 41
La e v alu a ció n ................................................................................................................. 41
La selección .................................................................................................................... 43
La re p ro d u c c ió n ............................................................................................................ 46
El reem p lazam ien to ...................................................................................................... 49
U n ejem plo práctico: evolucionando hacia u n bu en fármaco .......................... 50
C a p ítu lo 3. A pren d izaje a r tif ic ia l.......................................................................... 55

U n ejem plo de aprendizaje: la predicción de tu m o re s ........................................ 56
O tro ejem plo: el m arketing o n li n e ........................................................................... 61
El cerebro del robot: las redes neuronales .................................................................. 64
Las neuronas se agrupan ................................................................................................. 67
Y el cerebro funciona ..................................................................................................... 72
Y el cerebro se c o m p lic a ................................................................................................ 73
¿Son necesarios los exámenes? ...................................................................................... 75
C a p ítu lo 4. P lanificación y ra z o n a m ie n to a u to m á tic o .................................... 81

C óm o se gestiona un trasp lan te.................................................................................... 81
Planificar, ésa es la palabra .............................................................................................. 85
D etección de conflictos .................................................................................................. 90
C ap itu lo 5. Análisis de d atos ...................................................................................... 95

La m inería de datos ......................................................................................................... 96
La m aldición de la dim ensionalidad ............................................................................ 99
Visualización de d a to s .................................................................................................. 104
R eco n o cim ien to de p a tro n e s.................................................................................... 106
U n ejem plo práctico: análisis de ventas ..................................................................... 107
C'.apitulo 6 .V ida artificial ........................................................................................ 111

Introducción a la vida artificial ................................................................................. 111
Sistemas adaptables com plejos ................................................................................... 114
Prim era propiedad: la a g re g ac ió n ....................................................................... 116
P rim er mecanism o: el etiquetado ...................................................................... 116
Segunda propiedad: la no-linealidad .................................................................. 117
Tercera propiedad: la form ación de flujos ........................................................ 119
C uarta propiedad: la d iv ersid a d ........................................................................... 121
Segundo mecanismo.Tos m odelados internos ................................................... 123
Tercer m ecanism o: los bloques de construcción................................................. 124
Los autóm atas celulares .................................................................................................. 125
Sistemas inm unes artificiales ......................................................................................... 128
Inteligencia de e n ja m b re ............................................................................................ 131
Aplicaciones de la vida a rtific ia l.................................................................................. 133
Teoría de ju e g o s ........................................................................................................ 133
D e nuevo el data m itiin g .............................................................................................. 134
Program ación de robots ............................................................................................. 136
E pílogo .............................................................................................................................. 139
A nexo. C o n v ersació n c o n E l i z a ............................................................................... 141
G losario ............................................................................................................................ 143
B ibliografía ...................................................................................................................... 147
In d ice analítico .............................................................................................................. 149

P refacio
N o tengo miedo a los ordenadores.

A lo que tengo miedo es a la falta de ellos.
Isaac Asimov
D esde hace varias décadas la inteligencia artificial ha despertado la pasión de m uchos

científicos, estudiantes y ciudadanos. ¿Q ué hay de realidad y qué hay de ficción en
las películas, series y novelas en las que a m enudo vemos robots parlantes, máquinas
autónom as y sistemas autom áticos capaces de com portarse com o un auténtico ser
hum ano?
A lo largo de este libro intentarem os desentrañar algunos de los m isterios que
aglutinan estas dos palabras: «inteligencia artificial»; no contentos con ello, tam bién
harem os una breve introducción al concepto de «vida artificial». P u e s... ¿veremos
en el futuro próxim o máquinas parlantes? ¿Y a m edio plazo? ¿A cuánto estamos de
poder interactuar con sistemas autónom os e inteligentes que puedan extraer ener
gía de la com ida tal y com o lo haría un ser vivo? ¿Es todo ello una ficción?
Todas estas cuestiones y muchas más son las que revisaremos a lo largo del libro.
Y más concretam ente, analizaremos la inteligencia artificial desde sus cuatro ám bi
tos principales de aplicación: la búsqueda, el aprendizaje, la planificación y el razo
nam iento autom ático. Además, en el capítulo 5 hablaremos sobre el análisis de da
tos, uno de los campos de mayor uso y aplicación de las herram ientas inteligentes,
de gran im portancia en la era digital que estamos viviendo, en la que segundo a
segundo se generan miles de m illones de datos que serían inútiles si no existieran
las herram ientas inteligentes necesarias para p o d er extraer conocim iento de ellos.
Por últim o, en el capítulo 6 nos darem os una rápida zambullida en los abismos
de la vida artificial. ¿Q ué es u n ser vivo? ¿Y un ser vivo «artificial»? ¿Tendremos
algún día la capacidad de crear organismos vivos e inteligentes co n los que p o d er
interactuar? ¿Acaso somos capaces de hacerlo ya? Todas estas preguntas hallarán
respuesta m ediante ejem plos prácticos del día a día, en los que podrem os reconocer
los seres «vivos artificiales» que nos rodean ya en nuestra vida cotidiana.
Para term inar este prefacio, sólo nos queda señalar que aunque las ciencias de la
com putación son una disciplina aplicada de las matemáticas, nos hem os esforzado
en gran m edida en «ocultar» la vertiente más m atem ática y analítica que da soporte
a todas las técnicas y ejem plos explicados, con el fin de facilitar una visita divulga-
tiva a este interesante tema. Y parece ser que lo hem os conseguido, hasta el pu n to
de que más de una vez nuestro editor, un reputado y experim entado divulgador
m atem ático, nos ha preguntado: ¿pero este libro va realm ente de matemáticas? Pues
sí, va de matemáticas y, de hecho, sin las matemáticas todo lo explicado aquí no
sería posible.
P o lém ica por las m edidas del Gran O rdenador Central
Graves disturbios en las principales

ciudades europeas en contra de
los recortes sociales del G obierno
arís, Bruselas, B arce sabido, la C o n stitu ció n E u
las neuronas vecinas, crean
P lo n a , M ilá n , O p o r -
to , M u n ic h y m uchas
otras ciudades europeas se
h an visto gravem ente afecta
ropea, revisada hace 39 años
y ratificada p o r el Pueblo,
otorga u n gran p o d e r ejecu
tivo, legislativo y judicial al
do así u n a gran red n e u ro
nal. Esta red neu ro n al es
cam biante, es decir, dado un
nuevo suceso, el valor de la
das p o r las m anifestaciones y G O C , cuya capacidad de variable q u e co rresponde a
revueltas populares en p ro com putación, m em o ria y ra dicho suceso cam bia, y a
testa p o r las últim as m edidas pidez de análisis supera de co n tin u ació n , co m o si de
aprobadas p o r el G ran O r largo la habilidad de cual u n a reacción en cadena se
d en ad o r C en tral (G O C ). q uier equipo hum ano. tratara, lo hacen las neuronas
La nueva legislación ten d rá A u n q u e diversos Analistas conectadas a ella.
u n im p acto d irecto en la A utom áticos (AA) de los P or explicarlo gráficam ente,
gran clase m edia europea, ya principales Sistemas Inde es com o si tiráram os una
qu e el p aq u ete de m edidas pendientes de Análisis A u to piedra sobre una piscina. El
aprobado reduce en u n 10% m ático (SIAA) han co rro b o lugar d o n d e la piedra ha im
el n ú m ero de días de vaca rado la efectividad del pa pactado co n la superficie del
ciones, pasando de 200 días quete de m edidas del G O C , agua sufre u n cam bio en las
anuales a 180, reduce la te m los representantes del P ueblo tensiones superficiales, que
p eratu ra de los habitáculos afirm an que es u n ataque son transm itidas casi instan
en 1 °C, pasando de 25 °C a frontal a las libertades ciuda táneam ente a las otras m o
24 ° C ,y se dejará de subven danas en respuesta a la firm e léculas de agua q u e hay en
cio n ar el q u in to ro b o t asis negativa hum ana a aprobar la superficie de la piscina,
ten te p o r ciudadano, im pli una D eclaración Universal creando así las conocidas o n
cando u n a red u cció n del de D erechos de los R o b o ts y das que se van desplazando
20% en el presupuesto asis M áquinas A utónom as. p o r toda la piscina hasta esta
ten cia! bilizarse.
E ste paq u ete de m edidas su E n las e n tra ñ a s del G ra n C u a n d o se c o n stru y ó el
p o n e u n ah o rro de 8.000 b i O rd e n a d o r C e n tra l G O C , se in tro d u je r o n en
llones de euros q u e serán E l G O C está guiado p o r u n el m apa cognitivo cu atrillo
destinados al au m en to de la «mapa» cognitivo co n trillo— nes de datos recogidos a lo
productividad m inera en las nes de variables, cada u n a de largo de la histo ria de la h u
colonias de M arte y Venus, se ellas contenida en lo que m anidad. S eguidam ente, el
gún declaraciones del G O C , q ue se co n o ce co m o «neu m apa cognitivo a u to c o n s-
que desde hace 34 años go ronas», las cuales, en el m o tru y ó sus co n ex io n es n e u
b iern a co n m an o férrea el m e n to de la construcción, ronales en base a la e x p e
Sistem a E uropeo. C o m o es fu ero n interconectadas con rien cia pasada.
segundos de iniciarse el pro
Árbol combinatorio de medidas políticas ceso. C o m o es obviam ente
im posible com putar u n árbol
infinito, el G O C usa diversas
herram ientas para «podar»
aquellas ramas del árbol por
las que va viendo que no es
viable conseguir el objetivo
deseado. P or ejem plo, si se
quiere reducir el déficit fiscal
y n o se m odifica n in g ú n im
puesto ni se anim a al creci
m ien to de la econom ía m e
diante una expansión fiscal,
ya puede predecir que esta
vía conduce a u n cam ino sin
salida. P or tanto, todas aque
llas ramas del árbol que re
presenten este tipo de solu
ciones ya se p u ed en descartar.
Estas herram ientas para la
«solución de problemas», co
nocidas com o heurísticas, se
construyeron de form a auto
U n a vez co n stru id a la red de G O C d etecta q u e debe so m ática a p artir de datos his
co n ex io n es neuronales, el lucionar u n problem a o al tóricos. C o n posterioridad,
G O C la usa n o sólo para te guna carencia, despliega u n u n equipo de investigadores
n e r co n tro lad o el Sistem a árbol de com binaciones que en ciencias sociales de toda
E u ro p eo sino tam b ién para reflejan todas las m edidas E uropa hizo una revisión
to m ar decisiones de actua políticas, sociales, e co n ó m i p o rm en o rizad a de ellas. Para
ción, y esto lo hace a través cas e incluso m ilitares que se sorpresa de los escépticos, las
de u n sistema de razona p o d rían adoptar. C o m o la variaciones introducidas p o r
m ien to autom ático. Este sis política es tan y tan co m p le los expertos en las prim eras
tem a es capaz de lanzar h i ja, este árbol, a los pocos m i- versiones de las heurísticas
pótesis y p red ecir sus efec lisegundos ya co n tien e m i sólo son u n 0,003% c o n res
tos. S iguiendo co n el símil llones de ram ificaciones, y si pecto al total. La revisión ex
an terio r, se lanza la piedra a no se hiciera nada más, a los p erta tardó 5 años en co m
la piscina, p ero n o en la pis pocos segundos tendría más pletarse, m ientras q u e la
cina real, sino en un a copia ram ificaciones que átom os ded u cció n autom ática sólo
de la piscina o riginal, y se hay en el U niverso. había tardado 3 días.
observa có m o cam bia la su Supongam os que el objetivo Este sistema de deducción
p erficie del agua. Si el efecto es reducir el déficit fiscal en autom ático de heurísticas está
es positivo, se ejecuta dicho u n 1,5%. C o n la velocidad de basado en algoritm os evolu
cam bio. cálculo de los supercom puta- tivos, es decir, en «sistemas
Sim plificando m u ch o , el sis dores cuánticos actuales, un inteligentes» que pro p o n en
tem a de razo n am ien to au to árbol com binatorio com o soluciones aleatorias (en este
m ático del G O C es u n algo éste se convierte en práctica caso, cada solución es una
ritm o de búsqueda. Si el m en te infinito a los pocos heurística propuesta), y se va
refinando a lo largo del tiem palabras, las heurísticas que m edidas propuestas p o r el
po, tratando de sim ular un más respaldo tienen p o r parte H ércules v3 .4 llevan a n ues
proceso de evolución natural, de los datos históricos, más tra sociedad a b u en térm in o ,
co m pletam ente basado en las probabilidades tienen de pro tal y co m o ha venido suce
leyes de la evolución dictadas pagarse en este proceso de dien d o en los últim os 34
p o r D arw in. Es decir, las so evolución virtual y de dejar años, y ver si al final to d o
luciones m ejo r adaptadas al descendencia. ello red u n d a en u n au m en to
m edio son las q u e más des A h o ra tan sólo queda espe sustancial de nuestra calidad
cendientes dejan, o en otras rar para c o m p ro b ar q u e las de vida.
C o m o h a b r á a d iv in a d o el le c to r , esta n o tic ia es t o ta lm e n te fic tic ia y q u e d a to d a v ía

m u y le jo s d e lo q u e es p o s ib le e n la a c tu a lid a d . ¿ P e ro se ría p o s ib le u n e s c e n a r io
c o m o éste d e n tr o d e 5 0 años? ¿ U n e s c e n a r io d o n d e las g ra n d e s d e c is io n e s q u e d i
r ija n el d e s tin o d e la h u m a n id a d se a n to m a d a s , c o n tro la d a s , v ig ila d a s y an alizad as
p o r m á q u in a s p e n s a n te s?
D e h e c h o , c o m o se v e rá e n el c a p ítu lo 4 , e n C h ip r e , d o n d e la s itu a c ió n p o lític a
y m ilita r es e x tr e m a d a m e n te c o m p le ja , in v e s tig a d o re s d e la u n iv e rs id a d lo c a l y el
B a n c o d e G re c ia y a h a n p r o p u e s to u n sis te m a b a s a d o e n m a p a s c o g n itiv o s p a ra
p r e d e c ir la e s ta b ilid a d d e l sis te m a a n te c a m b io s p la n te a d o s p o r c u a lq u ie r a d e los
a c to re s im p lic a d o s: g r ie g o s , tu r c o s , O T A N , U n i ó n E u r o p e a , etc.
P a ra h a c e r n o s u n a id e a m ás a p r o x im a d a d e h a sta q u é p u n t o este re la to in ic ia l es
p la u s ib le o n o , v e a m o s e n q u é s itu a c ió n se e n c u e n tr a a c tu a lm e n te la in te lig e n c ia
a rtific ia l p a ra , a p a r t i r d e a h í, i n t e n ta r a v e r ig u a r c u á n le jo s se sitú a u n e s c e n a r io
c o m o éste. B ie n v e n id o s al a p a s io n a n te m u n d o d e la in te lig e n c ia a rtific ia l, d o n d e
m a te m á tic a s , c o m p u t a c i ó n y filo so fía se d a n la m a n o y se a s o m a n al lím ite m is m o
d e lo q u e n o s h a c e h u m a n o s .
C ap ítu lo 1
¿Qué es la inteligencia
artificial?
A m enudo vemos en la televisión películas de ciencia ficción en las que las m áqui
nas son autónom as y capaces de tom ar decisiones p o r ellas mismas. ¿Q ué hay de real
y de ficción en todo ello? ¿Hasta qué pu n to está avanzada hoy en día la inteligencia
artificial? ¿Llegará pronto el m o m en to en que podam os desarrollar sistemas com o
los que aparecen en 2 0 0 1 : Una odisea en el espacio o, más recientem ente, en la versión
cinem atográfica de Yo, robot?
Antes de empezar, sin embargo, debem os dar una definición precisa del concep
to que nos ocupa. C o n «artificial» seguram ente todos estaríamos de acuerdo: «no
natural», es decir, «hecha, creada p o r la voluntad humana». A hora bien, ¿qué es la
«inteligencia»? Según la mayoría de diccionarios, la palabra «inteligencia» tiene n u
merosas acepciones, entre ellas las de «capacidad de en ten d er o com prender», «ca
pacidad de resolver problemas» o «habilidad, destreza y experiencia». E n realidad, el
hecho de que existan definiciones tan diferentes para este térm ino po ne de m ani
fiesto la com plejidad que hay detrás de tal concepto.
Los psicólogos y filósofos han tratado de delimitar, definir y m edir la inteligencia
a lo largo de los siglos. Sin embargo, estas métricas son todavía más confusas cuando
se aplican a una entidad no hum ana. Por ejemplo, ¿diríamos que es inteligente un
program a de ordenador que puede sincronizar y coordinar un com plejo sistema
m o to r de vuelo, que dispone de un sistema autónom o para decidir la ruta aérea en
función de las necesidades del m o m en to y que posee una fiabilidad del 100%? P ro
bablem ente sí. E n cambio, ¿diríamos lo m ism o de u n m osquito? Este insecto es capaz
de coordinar un com plejo sistema m o to r de vuelo, tom a decisiones autónom as de
rutas aéreas y cuenta con una fiabilidad en sus operaciones aéreas del 100%.
El test de Turing
La prim era solución práctica a la pregunta de si una determ inada entidad no hu m a
na es inteligente o no llegó en el año 1950 de la m ano del m atem ático Alan Turing,
c o n s id e ra d o u n o d e lo s p a d re s d e la in te lig e n c ia a rtific ia l. É l es el a u to r d e l te s t d e
T u rin g , q u e d e t e r m i n a la e x is te n c ia d e in te lig e n c ia e n u n a m á q u in a b a s á n d o s e e n
u n a id e a m u y sim p le : si u n a m á q u in a se c o m p o r ta e n to d o s lo s a sp e c to s c o m o u n
e n te in te lig e n te , e n to n c e s d e b e d e se r in te lig e n te .
E l te s t c o n s iste e n s itu a r u n e v a lu a d o r h u m a n o y la m á q u in a s u je ta a e v a lu a c ió n
e n d o s salas d ife re n te s se p ara d as p o r u n ta b iq u e q u e im p id e q u e se v e a n . A c o n ti
n u a c ió n , m e d ia n te u n te c la d o y u n a p a n ta lla , el e v a lu a d o r h a c e u n a s e rie d e p r e g u n
tas a la e n tid a d q u e está s ie n d o e v a lu a d a y ésta le re s p o n d e . Si e l e v a lu a d o r c o n s id e
ra q u e q u i e n está r e s p o n d ie n d o es u n se r h u m a n o , se d e d u c e q u e la m á q u in a ev a
lu a d a es in te lig e n te y q u e , p o r ta n to , tie n e in te lig e n c ia a rtific ia l.
X re a liz a las p re g u n ta s
A p r o b a d a si X n o d e te c ta b a
q u i é n le re s p o n d ía
La persona que realiza las preguntas a la máquina (X) se las hace a un sistema
con el que no tiene contacto visual. De esta manera, sólo a través del
análisis de las respuestas puede evaluar si es o no un humano.
C o m o n o p o d ía se r d e o tr o m o d o , e l te s t d e T u r in g r e c ib ió u n a lu v ió n d e c r íti
cas p o r p a r te d e a lg u n o s te ó r ic o s . ¿Se p u e d e d e c ir q u e u n a m á q u in a es in te lig e n te
s im p le m e n te p o r r e s p o n d e r a las p r e g u n ta s b a s á n d o s e e n u n d ic c io n a r io e n o r m e d e
p r e g u n ta s -re s p u e s ta s ? ¿ O c o n s iste la in te lig e n c ia e n a lg o m á s q u e c ie r to c o m p o r t a
m i e n t o a p a re n te , c o m o , p o r e je m p lo , la e x is te n c ia d e c o n s c ie n c ia ?
A LA N TURING (1912-1954)
Al matemático y filósofo inglés Alan Turing
no sólo se lo considera uno de los padres
de la inteligencia artificial, sino también
de la informática moderna, por todos los
avances teóricos fundamentales que apor
tó a esta ciencia en sus 42 años de vida.
Durante la Segunda Guerra Mundial tra

bajó para el ejército británico en tareas de
criptoanálisis, y fue uno de lo principales
artífices de la ruptura de los códigos de
la máquina Enigma, gracias a lo cual los
aliados pudieron anticipar los movimientos
del ejército nazi.
Su principal aportación teórica a la cien
cia de la computación fue la hoy conocida
como «máquina de Turing», un modelo
teórico de computador universal. Un computador universal es aquel capaz de procesar cual
quier dato de entrada y resolver su salida en un tiempo finito. La máquina de Turing consta
de una cinta infinita con símbolos escritos sobre ella, un cabezal que puede desplazarse a
izquierda o derecha sobre la cinta, leer los símbolos, borrarlos y escribir otros nuevos, y unas
reglas que determinan el comportamiento del cabezal para cada posible símbolo que se
detecte sobre dicha cinta. En la informática práctica estas reglas simbolizarían un programa
informático, y la cinta representaría el sistema de entrada/salida del programa y un registro

sobre su estado de ejecución.
Hoy en día, cuando se diseña un nuevo lenguaje de programación, como podría ser el C,
el Pascal, el Java, etc., lo primero que se debe demostrar de manera formal es que el nuevo
lenguaje es Turing-compatible, es decir, es equivalente a una máquina de Turing.
Por desgracia, Turing acabó su vida siendo perseguido por la justicia británica debido a su
homosexualidad. En el transcurso de su juicio decidió no defenderse al considerar que no
tenía de qué disculparse, por lo que fue considerado culpable, pero en la sentencia, Turing
escogió la castración química antes que ir a prisión. Esto le provocó importantes alteraciones
físicas que condujeron a su suicidio. En 2009 el primer ministro británico Gordon Brown pidió
disculpas oficiales por el trato que recibió Turing durante sus últimos años de vida.
L a p r i n c ip a l c r ític a al te s t d e T u r i n g la e s c e n ific ó el filó s o fo J o h n S e a rle m e
d ia n te e l e x p e r i m e n t o d e la h a b it a c ió n c h in a . I m a g in e m o s q u e u n a s p e r s o n a s
c u a le s q u ie ra q u e n o s a b e n n i u n a p a la b r a d e c h i n o s o n in tr o d u c id a s e n u n a h a b i
t a c i ó n c e r r a d a e n u n c e n t r o c o m e r c ia l d e S h a n g a i. A c o n t in u a c i ó n se in v ita a las
p e r s o n a s q u e p a s a n p o r allí a q u e f o r m u l e n p r e g u n ta s a lo s in d iv id u o s q u e e s tá n
d e n t r o d e la h a b ita c ió n ; p a ra e llo d e b e n in tr o d u c ir la s p o r e s c r ito a tra v é s d e u n a
a b e r tu r a . P o r o tr o la d o , d e n tr o d e la h a b i t a c ió n h a y u n m a n u a l e n e l q u e e s tá n
c la r a m e n te r e p re s e n ta d o s to d o s lo s c a r a c te re s c h in o s q u e c o n f o r m a n las re sp u e s ta s
¿SE PU ED E FINGIR LA IN TELIG EN CIA ? A JED REZ, KA SPA R O V

Y D EEP BLUE
El ajedrez es un clásico problema combinatorio en el que, desde los principios de la informáti
ca, se han intentado aplicar, sin éxito, técnicas inteligentes para vencer a jugadores humanos.
Pero ¿por qué no se puede fingir la inteligencia en juegos como el ajedrez? Imaginemos que
introducimos en un ordenador las reglas del juego y éste construye el conjunto de todas las
jugadas posibles. Seguidamente podríamos anotar, jugada a jugada, cuál es el mejor movimiento
que conviene realizar ante cada una de ellas. Sin embargo, si calculamos el número de jugadas
posibles, éste es del orden de 10123. ¡Este número es mayor que el del total de electrones del
universo! Por tanto, ¡sólo para almacenar los resultados deberíamos contar con una memoria
mayor que la masa total del universo! Así pues, en el caso del ajedrez es totalmente imposible
fingir la inteligencia mediante un diccionario de jugadas-movimientos, a diferencia de lo que
sucedía en la habitación china.

El caso más polémico de programas de ordenador ajedrecistas fue el que enfrentó a la máquina
Deep Blue y a Garry Kasparov. Deep Blue era un superordenador programado para jugar al
ajedrez que venció por primera vez, en 1996, a un campeón del mundo humano. Sin embargo,
del total de seis partidas que disputaron, el resultado final fue de 4-2 a favor del jugador ruso.
En esa época, Deep Blue podía analizar 100 millones de movimientos por segundo. La polémica
llegó cuando el campeón se enfrentó a una segunda versión, Deeper Blue, que podía analizar
ya 200 millones de movimientos por segundo. En esa ocasión la máquina venció, pero Kasparov
denunció que en un momento de la partida la máquina había sido ayudada por un operador
humano. La situación fue la siguiente: él planteó una jugada donde, sacrificando un peón, podía
armar un contraataque en jugadas subsiguientes. Esta trampa era imposible de detectar por el
ordenador, ya que su capacidad de análisis era de un número limitado de jugadas futuras, en las
que todavía no se desarrollaba el contraataque del jugador. Sin embargo, la máquina no cayó
a cada una de las posibles preguntas que se podrían form ular. P or p o n e r u n ejem
plo: u n chico joven escribe en chino en un a hoja de papel «¿Hace calor ahí d en
tro?» y la pasa p o r la rendija. A cto seguido, las personas que se encuentran en el
in te rio r de la habitación m iran los caracteres chinos, los buscan en el m anual y
seleccionan una posible respuesta a esa pregunta. A contin u ació n la transcriben,
trazo a trazo, en una nueva hoja que pasan p o r la rendija de salida hacia el chico
que hizo la pregunta. E n la hoja de respuesta pone, en chino: «No, de h ech o hace
un frío que pela». Lógicam ente, tanto ese jo v en chino co m o los demás evaluadores
en la trampa, lo cual levantó las sospechas del campeón ruso. Kasparov pidió posteriormente
los registros por escrito de los procesos de la máquina, a lo cual IBM accedió, aunque al final
nunca los presentó.
Deep Blue, el supercom putador de IBM que venció al campeón del mundo de ajedrez.
están recibiendo respuestas coherentes en su idiom a, p o r lo que pensarán que las
personas que hay d entro de la habitación saben hablar chino perfectam ente. Sin
em bargo, los individuos de la habitación han basado sus respuestas en u n m anual
de correspondencias y no han enten d id o ni una sola palabra de n inguna de las
conversaciones.
Pero ¿podemos sospechar que una m áquina que supera el test de T uring puede
estar engañándonos de una m anera similar a com o lo hace la habitación china? La
respuesta es que no. La habitación china es u n escenario engañoso porque en reali
dad, si bien es cierto que las personas que había dentro de ella no sabían chino,
quien realm ente contestaba a las preguntas era un conjunto de entidades form ado
p o r las personas y el manual. A unque no se puede decir que el m anual «supiera»
chino, en todo caso sí fue confeccionado p o r alguien que, efectivam ente, conocía
dicho idiom a, ya que, si no, no habría sido capaz de escribir el conjunto de pregun
tas y respuestas.
D e m anera práctica, hoy en día se considera que una nueva tecnología es in te
ligente si es capaz de resolver u n problem a de una m anera creativa, algo que desde
siem pre se ha considerado potestad exclusiva del cerebro hum ano. U n ejem plo
representativo de tecnología que parece in teligente pero que no se la considera
com o tal es la de los prim eros sistemas expertos que aparecieron en la década de
1960. U n «sistema experto» es u n program a inform ático que se ha im plem entado
con unas determ inadas reglas, más o m enos complejas, y que p uede actuar de
m anera autónom a en el control de ciertos sistemas. U n ejem plo de ello podría ser
u n program a de o rd en ad o r co n un a e n o rm e lista de síntom as m édicos program a
dos de m anera que, dado u n nuevo paciente y sus síntom as, p uede d eterm in ar el
tratam iento que dicho paciente necesita. Sin em bargo, si el sistema no es capaz de
crear una nueva regla deducida de las anteriores n i inventar u n nuevo tratam iento
cuando la situación lo requiera, se considera que no es creativo y, p o r ende, no es
inteligente.
Así pues, para considerar que u n program a inform ático es inteligente se deben
cum plir unas condiciones un tanto subjetivas, com o, p o r ejem plo, que tenga capa
cidad de aprender en materias complejas, de optim izar funciones matem áticas con
m uchos parám etros (dimensiones) y en un intervalo (dom inio) enorm e, o de plani
ficar una gran cantidad de recursos con restricciones.
Al igual que sucede con el resto de las áreas de la ciencia y de la tecnología, la
inteligencia artificial se ha especializado y dividido en cinco grandes ramas, que son
las siguientes:
1. La búsqueda.
2. E l aprendizaje.
3. La planificación
4. El razonam iento autom ático.
5. El procesam iento del lenguaje natural.
Sin em bargo, las tecnologías y los algoritm os usados en las distintas especialida
des muchas veces son los mismos. A continuación repasaremos estas ramas y dare
m os algunos ejem plos prácticos.
La búsqueda
La búsqueda hace referencia al proceso de buscar la solución óptim a a u n determ i
nado problem a. C uando dicho problem a es definible m ediante una función m ate
mática estaríamos hablando de optim ización de funciones, es decir, de la búsqueda
de los parám etros de entrada que m axim izan la salida de la función. A m enudo hay
problemas que im plican la optim ización de varias funciones a la vez, y estas funcio
nes son, además, difíciles de definir y de delimitar. Para u n sistema autom ático, la
optim ización de funciones es u n problem a com plejo, en especial si no se dispone
de una fórm ula analítica de la función y sólo se puede inferir la «forma» de la fun
ción a partir de unas pocas muestras. Además, a m enudo sucede que la función en
cuestión tiene centenares de parám etros distintos que ajustar, o que para la o b ten
ción de cada una de las muestras se necesitan varias horas de cálculo, o incluso que
las muestras contienen ruido, es decir, que el valor de la función en u n determ inado
pu n to del espacio no es exacto.
Para abordar estos escenarios com plejos se utiliza la inteligencia artificial. N ó te
se que el ser h um ano puede resolver en instantes complejas funciones matemáticas
m ultidim ensionales de m anera instintiva. U n caso ejem plar son las funciones de
similitud. Imagínese que usted conoce a más de 500 personas, pero si observara la
fotografía de u n determ inado individuo, rápidam ente podría decir si esa fotografía
corresponde a alguno de sus conocidos y a cuál de ellos. Esta, en apariencia, sencilla
operación se resuelve m entalm ente m ediante la optim ización de una función que
m ide las diferencias entre los rostros que usted tiene m em orizados y el rostro foto
grafiado que está observando. E n u n rostro hay miles de características o dim ensio
nes observables, com o, p o r ejem plo, el color de los ojos, la relación de tam año entre
la boca y la nariz, la existencia de pecas, etc. N uestro cerebro es capaz de detectar
EL G O , UNO DE LOS G RA N D ES RETOS PENDIENTES
DE LA IN TELIG EN CIA ARTIFICIA L
El go es un buen ejemplo de problema combinatorio donde un humano medianamente entrenado
puede detectar de un vistazo ia estrategia más inteligente para cada escenario, pero que, en cam
bio, resulta extremadamente complejo para un ordenador. Hasta el momento, ningún programa
de ordenador ha sido capaz de vencer a ningún jugador profesional sin desventajas iniciales.
Este juego de estrategia de origen chino tiene unas reglas extremadamente sencillas que dan
lugar a escenarios de gran complejidad estratégica. Se trata de un tablero con una cuadrícula de
1 9 x 1 9 líneas donde dos jugadores van ubicando, en turnos alternativos, fichas blancas y negras
en las intersecciones libres. Si una ficha o grupo de fichas queda completamente rodeado por
las fichas del color contrario, el grupo queda capturado y estas fichas se retiran del tablero. Se
puede pasar el turno si se cree conveniente, pero si los dos jugadores pasan consecutivamente la
partida se acaba y gana aquel jugador que en ese momento esté dominando una mayor porción
del tablero de juego.

Matemáticamente, el go se clasifica como un juego de estrategia en todo similar al ajedrez.
Sin embargo, mientras que existen programas informáticos capaces de vencer a los campeones
mundiales de ajedrez, es difícil que un programa de go pueda ganar a un jugador aficionado.
Esto sucede principalmente por tres razones: primero, por las dimensiones del tablero de go,
que es más de cinco veces mayor que el de ajedrez, lo cual implica un mayor número de jugadas
que analizar; segundo, porque un movimiento de go puede afectar en centenares de turnos
posteriores, de modo que es casi imposible para un ordenador hacer predicciones a tan largo
plazo, y, finalmente, porque en ajedrez las piezas se capturan de una en una y todas tienen un
determinado valor, por lo que se puede evaluar con bastante precisión qué beneficios dará una
jugada, mientras que en el go, en cambio, el beneficio que se obtenga de una captura depende
por completo de las piezas que se capturen, lo cual viene dado por la situación de las piezas en
aquel momento.
todas esas características y compararlas con las de los rostros de todas las personas
que conocem os; puede m edir las distancias correspondientes al rostro de la fotogra
fía y compararlas con las de todos los demás, y así encontrar el rostro en el que la
distancia es m ínim a. Además, es capaz de decidir si esa distancia es lo suficiente
m ente reducida com o para deducir que la persona fotografiada y la recordada son
o no la misma. El cerebro hum ano realiza todas estas operaciones en m enos de un
segundo. Sin embargo, para un ordenador el reconocim iento de rostros es una ope-
H l
» * •
♦ •
fe
Arriba, tablero y fichas de go ; estas últimas

reciben el nombre de «piedras».
A la izquierda, situación de la partida
en la final del campeonato mundial celebrado
en el año 2002 entre Choe Myeong-hun
(blancas) y Lee Sedol al final de la apertura.
ración extrem adam ente com pleja y, probablem ente, un m o d ern o com putador tar
daría m inutos en o btener la solución;
Pero ¿por qué llamamos «búsqueda» a esta ram a de la inteligencia artificial si
hem os estado hablando de optim ización num érica? La búsqueda incluye la solu
ción a otro tipo de problemas, p o r ejem plo, los llamados «problemas com binato
rios». U n problem a com binatorio es aquel cuya solución está form ada p o r distintos
elem entos que pueden com binarse entre sí y dar lugar a u n espacio com binatorio.
La solución viene determ inada p o r el conjunto de elem entos óptim o. U n buen
ejem plo com binatorio sería una partida de ajedrez, en la que la solución óptim a
term ina siendo una sucesión de m ovim ientos de las piezas que llevan a ganar la
partida. O tro ejem plo clásico es el conocido com o problem a de la m ochila, en el
que existen diversos objetos que podem os m eter en una m ochila antes de una ex
cursión. E n este caso la solución es la com binación de objetos que m inim iza el peso
de la m ochila pero maxim iza el valor de los objetos contenidos en ella. D e nuevo,
a m enudo sucede que un problem a com binatorio relativam ente sencillo para un
hum ano es extrem adam ente com plejo de resolver para una com putadora.
Éste es uno de los m uchos sistemas informáticos utilizados para

el reconocimiento de formas, en este caso de rostros. La presente imagen
responde a un desarrollo de la compañía japonesa NEC.
El aprendizaje
La siguiente ram a de la inteligencia artificial es el aprendizaje. ¿Es inteligente un
sistema que puede aprender de experiencias pasadas? R ecu p erem o s el ejem plo del
sistema de diagnóstico m édico autom ático, al que se le ha in troducido u n co n ju n
to de síntom as asociados a una patología. A este proceso de in troducción de infor
m ación asociada entre sí se le llama entrenam iento. Así pues, una vez entrenado el
sistema, cuando se le da u n nuevo síntom a es capaz de rebuscar en su m em oria
para ver si éste apareció en el pasado y, de ser así, responder con la patología que
tenía asociada. E n este caso, se dice que el sistema aprende a base de m em orización
y que, p o r tanto, no es inteligente. La ram a del aprendizaje se basa en entrenar
sistemas para que después sean capaces de generalizar, es decir, de deducir unas
reglas que luego puedan aplicarse a nuevos problem as que no han aparecido an te
riorm ente.
El aprendizaje autom ático ha sido una de las áreas más prolíficas de la inteligen
cia artificial. N um erosas universidades, centros de investigación y empresas aportan
a diario avances en este campo. Probablem ente esto se debe, p o r u n lado, a la gran
necesidad de sistemas expertos que existe en determ inadas áreas del conocim iento
y en la industria, y, p o r otro, a la com plejidad de la program ación de los sistemas
expertos útiles. A u n sistema experto inteligente se lo entrena con una serie de
casos asociados a sus soluciones para que sea capaz de deducir las reglas y norm as
que los asocian. D espués, dado u n nuevo caso, el sistema puede determ inar la nueva
solución. Así, para que u n sistema experto se considere inteligente y sea útil, es
fundam ental el hecho de que pueda aprender y generalizar de m anera autom ática,
es decir, que no se le tengan que in troducir las reglas m anualm ente, y que, una vez
entrenado, pueda com portarse com o u n experto en la m ateria para la que ha sido
entrenado.
Más adelante desarrollaremos con detalle el tem a de las aplicaciones de los siste
mas expertos, aunque cabe citar algunos ejem plos ilustrativos de sistemas expertos
actuales, com o, p o r ejemplo, los de predicción de m orosidad en hipotecas bancarias,
de detección precoz de tum ores malignos o de clasificación autom ática de correo
electrónico no deseado (spam).
. PAM commoiTMl tin to * »

***SP A M ‘ ** 60 »0 Orr Atl u ™ " ! . ’ ,
***SP A M *** Fice CoiuukMW» »»h , V , „ ,
SPA M *** To: fdhgf.nt
***SP A M *** Plmtainrv Diuoum foi
***SP A M *** Re caiid?
***SPAM*** S upm tai stockr*poii
***SPAM***Fw:
***SPA M *** Fi'oe ( ’oBsullaiinn ■ '
***SPA M *** C ttsto m m « Im i, »«-» ji <-•> • t.
***SPA M *** Phnramcv Dhfonnt )■» a .
***SPA M *** K f candy
* * * S P 4 M * * ‘ Impioved (Ijmh
* * * S P A M * * * Don'i M M »»«>•" ^ ~
* * * S P A M * * * Kit-p t ’ ou'uliüu 1*11 »>' ‘ ' _ ,
La clasificación automática del correo electrónico, con el fin de separar el spam

del correo legitimo, es una de las aplicaciones de los sistemas expertos.
La planificación
La tercera gran ram a de la inteligencia artificial es la planificación. Esta capacidad
ha acom pañado al ser h um ano desde tiem pos inm em oriales y, de hecho, es la que
ha perm itido su supervivencia a lo largo de la historia. Si nos rem ontam os al Pa
leolítico, nos podem os encontrar ya con u n dilem a que requiere planificación:
dados unos recursos alim enticios concretos y una serie de consum idores, que son
los integrantes de la trib u , ¿cóm o se tiene que distribuir el alim ento entre todos los
EL PR O B LEM A D EL VIA JA N TE
A menudo, un determinado problema puede ser clasificado en una u otra rama de la in
teligencia artificial según cómo se enfoque su resolución. Un buen ejemplo es el famoso
problema del viajante (también conocido como TSP por sus iniciales del inglés: Travelling
Salesman Problem), el cual se puede resolver siguiendo una estrategia de búsqueda o bien
de planificación.
El enunciado dice así: dados un conjunto de ciudades, las rutas que las interconectan y la
distancia que las separa, planifíquese la ruta que debería realizar un representante comercial
que tiene que visitar clientes en cada una de las ciudades. Se pide que el viajante no repita
ciudad y que, además, el número final de kilómetros recorridos sea el mínimo. Como el lector
puede intuir, en algún caso es posible que, en función del aspecto de las rutas entre las ciu
dades, sea estrictamente necesario repetir una ciudad para poder visitarlas todas; por tanto,
la repetición de una ciudad se puede ver como una condición violable.
Ejemplo de grafo de ciudades conectadas entre sí a la

distancia en kilómetros que indican los números de las aristas.
individuos? ¿D aremos las carnes más suculentas y más ricas en recursos energéticos
al personal encargado de la recolección de bayas o a los fuertes cazadores de la
tribu? Pero ¿qué pasa si una de las recolectoras está en avanzado estado de gesta
ción? B ien, todas estas preguntas co rresponden a lo que llamamos las «restricciones
del sistema», es decir, aquellas circunstancias que deben tenerse en cuenta cuando
se elabora u n plan.
Las restricciones básicam ente p u ed en ser de dos tipos: violables e inviolables. En
el ejem plo anterior de la tribu prehistórica, aunque las m ejores piezas de carne
deberán ir a quien más las necesita, no pasa nada si u n día el cazador más fuerte de
la tribu no se lleva el trozo más suculento de la presa del día. A unque esta situación
es insostenible en el tiem po, el individuo puede aguantar su ham bre p o r un día. Por
tanto, ésta es una restricción violable.
El caso contrario podría ser, p o r ejem plo, la distribución de los recursos de una
gran universidad (aulas y profesores) para planificar u n año escolar. E n este caso los
consum idores de recursos serían el conju n to de estudiantes m atriculados en la asig
natura de, p o r ejemplo, cálculo num érico, el de los m atriculados en derecho m er
cantil, el de los m atriculados en física, etc. A la hora de hacer la distribución, debe
rem os tener en cuenta que el g rupo de derecho m ercantil y el de física no pueden
estar com partiendo el aula 455 al m ism o tiem po. El catedrático de cálculo n u m éri
co tam poco puede estar dando una clase de derecho m ercantil en n ingún m o m en
to del año, ya que, probablem ente, no está cualificado para ello. E n este ejem plo, las
restricciones son inviolables.
La violabilidad o inviolabilidad de los recursos es crítica y constituye u n aspecto
fundam ental que debe tenerse en cuenta cuando se program a u n algoritm o inteli
gente de planificación.
El razonam iento autom ático

La cuarta rama de la inteligencia artificial es el razonam iento autom ático. Sin duda
alguna, ésta es la ram a que más interés y fascinación ha despertado entre el gran
público y, de hecho, constituye u n tem a habitual de las películas y de los libros de
ciencia ficción. Sin embargo, este cam po nació en el entorno, ya no tan glamuroso,
de la dem ostración autom ática de teorem as m atem áticos.
A m enudo se plantean nuevos teoremas que los matem áticos deben dem ostrar
si son ciertos o no, proceso que puede revestir una gran com plejidad. Es lo que
o cu rrió co n el teorem a de Ferm at (en el que si n es u n núm ero entero m ayor que
dos, entonces no existen núm eros naturales no nulos que cum plan la igualdad
z " = x " + y"), que ¡tardó en ser dem ostrado más de 200 años!
E n este contexto, en el año 1956, el econom ista H erb ert Sim ón (1916-2001) y
el ingeniero Alan N ew ell (1927-1992) desarrollaron conjuntam ente la m áquina Lo
gic T heorist, capaz de dem ostrar teoremas nada triviales de lógica m atem ática. D es
de luego, el desarrollo de esta m áquina m arcó u n im portante hito en la disciplina de
la inteligencia artificial y reavivó las discusiones filosóficas sobre la posibilidad de
construir máquinas pensantes; sin lugar a dudas, m uchos de los libros y de las pelí
culas de las décadas de 1960 y 1970 en los que aparecían malévolas máquinas in te
ligentes estuvieron influidos p or estas discusiones. Según la influyente filósofa Pa
m ela M cC orduck, Logic T heorist es la prueba de que una m áquina puede ejecutar
tareas consideradas inteligentes, creativas y únicam ente realizables p o r un hum ano.
Herbert Simón (izquierda) y Alien Newell jugando al ajedrez en 1958.
Logic T h eo rist usaba lo que se conoce co m o «sistemas simbólicos», unos siste

mas inventados p o r los m atem áticos para dar sentido a algunas expresiones sin re
ferirse a convenciones arbitrarias. P or ejem plo, podem os decir que «ser u n h o m
bre» im plica «ser mortal», sentencia que puede formalizarse m ediante la expresión
m atem ática «A —» B», en la que el sím bolo «A» equivale a «ser u n hom bre», el
sím bolo «—>» significa «implica» y «B» equivale a «ser mortal». «Ser u n hom bre
im plica ser mortal» es una expresión arbitraria que se form aliza m ediante la expre
sión «A —> B». U na vez que los térm inos arbitrarios están formalizados, es m ucho
más sencillo m anipularlos y hacer operaciones con ellos desde u n p u n to de vista
inform ático o m atem ático.
C o n el propósito de simplificar las operaciones matemáticas, los sistemas sim bó
licos parten de axiomas para construir teoremas con ayuda de reglas de derivación.
La ventaja de los sistemas simbólicos es que, al ser sistemas formales perfectam ente
definidos y sin am bigüedades, su program ación inform ática es relativam ente senci
lla. Veamos un ejemplo:
Sócrates es un hom bre.

Todos los hom bres son mortales.
P or tanto, com o Sócrates es u n hom bre, es m ortal.
Si lo formalizamos m atem áticam ente, estas sentencias quedarían de la siguiente

m anera:
A: Sócrates
B: hom bre (s)
A -» B
C: mortal(es)
B -* C
Si A —» B y B —*> C, entonces A —1►C, es decir, Sócrates es m ortal.
E n este caso, una regla de derivación conocida com o «silogismo hipotético» nos
perm ite concluir que A —» C si es cierto que A —» B y B —*» C.
Sin embargo, la derivación autom ática y sistemática de teorem as a p artir de los
axiomas y las reglas de derivación p uede conducirnos a u n núm ero de com binacio
nes que, de nuevo, nos acerca peligrosam ente al núm ero de átom os del universo. Por
ello, Logic T h eo rist se valía de consideraciones heurísticas, es decir, de un instru
m ento vagam ente predictivo que ayuda a seleccionar las m ejores derivaciones de
entre todas las posibles, para identificar la secuencia correcta de derivaciones que se
deben realizar sobre los axiomas hasta llegar a la dem ostración de los teoremas.
A continuación m ostram os u n ejem plo práctico. Q uerem os saber si Sócrates es
m ortal o no lo es y conocem os los siguientes axiomas iniciales:
A: Sócrates
B: hincha del O lym piacos
C: griego
D: hom bre
E: m ortal
A -* C
C -+ D
A -» D
C -* B
D -» E
Y querem os saber si A —* E es verdadero o falso m ediante «fuerza» bruta, es

decir, probando todas las com binaciones posibles; de este m o d o tenem os:
A —» C —» D —» E
A -> C -* B
A -* D -» E
Es decir, hem os realizado siete operaciones lógicas partiendo sólo de ciño axio
mas y usando únicam ente una regla de derivación: el silogismo hipotético. C om o
el lector podrá imaginarse, en escenarios mas complejos, con más axiomas y más
reglas de derivación en uso, el núm ero de com binaciones posible puede ser tan
elevado que se tardarían años en o b ten er dem ostraciones concluyentes. Para atajar
este problem a, tal y com o propusieron Sim ón y N ewell, una consideración heurís
tica (o com o dicen los especialistas, «una heurística») nos habría avisado en el ejem
plo anterior de que no vamos p o r el b u en cam ino si para dem ostrar que alguien es
m ortal tenem os que em pezar a hablar de fútbol (A —> C —* B),
E n la actualidad, más allá de los sistemas autom áticos de dem ostración de teore
mas matem áticos, tanto los sistemas simbólicos com o las heurísticas son amplia
m ente utilizadas en la resolución de problemas prácticos.
Para ilustrar otro caso del uso de heurísticas volveremos al cam po del ajedrez. E n
u n turno de ajedrez existen de m edia 37 posibles m ovim ientos. Por ello, si u n pro
grama de ordenador pretendiera analizar una jugada con 8 turnos de profundidad
tendría que analizar el equivalente a 378 escenarios posibles, es decir 3.512.479.453.921
jugadas, o, en otras palabras, más de 3,5 billones de jugadas. Si el ordenador invirtie-
LÓ G IC A M A TEM Á TIC A
La lógica matemática es una parte de las matemáticas que se encarga de estudiar la forma
del razonamiento, es decir, es una disciplina que, por medio de reglas y técnicas, determina
si un argumento es válido o no. La lógica es ampliamente utilizada en filosofía, matemáticas
y, por supuesto, computación como instrumento para validar o derivar nuevo conocimiento.
Fueron George Boole, con su álgebra denominada luego «booleana», y Augustus De Morgan,
con sus leyes lógicas, quienes desarrollaron las bases lógicas aristotélicas y, mediante una
nueva notación más abstracta, desarrollaron este instrumento útil para investigar sobre los
fundamentos de la matemática.
En los últimos cincuenta años, la lógica matemática ha experimentado grandes avances y
ha dado lugar a la llamada «lógica moderna». Para distinguirla de la lógica clásica, a esta
última se la denominó «lógica de primer orden». Formalmente, la lógica de primer orden
implica sólo expresiones finitas y fórmulas bien definidas, sin lugar para dominios infinitos
ni para la incertidumbre.
Por complicada que parezca una expresión escrita en la pizarra,

muy raramente utilizará un marco de significado
fuera de la lógica de primer orden.
ra un m icrosegundo en estudiar cada jugada, esto querría decir que sólo para anali
zar 8 niveles del jueg o (algo que para un ju g ad o r experto es bastante sencillo) ¡un
ordenador potente estaría pensando más de dos años y m edio p o r turno!
Así pues, ya podem os intu ir que es necesario introducir algún tipo de m ejora en
el m étodo que perm ita acelerar el proceso, y esa m ejora son las heurísticas. Se trata
de unas reglas predictivas que ayudan al algoritm o a descartar aquellas jugadas que,
p o r alguna razón, se percibe que van a conducir a situaciones m uy desfavorables, de
m odo que no hace falta continuar explorándolas. Sólo con que las heurísticas eli
m in en el análisis de unas pocas jugadas absurdas, el ahorro en núm ero de jugadas
que se deben analizar puede ser enorm e. En resum en, las heurísticas son h erram ien
tas predictivas fuertem ente basadas en la intuición del program ador y resultan tan
G EO R G E BO O LE (1815-1864) Y SU LÓ G IC A
Si decimos que Alan Turing es uno
de los padres de la informática mo
derna, de George Boole se puede
decir que es el abuelo. En efecto,
este matemático y filósofo británi
co desarrolló el álgebra de Boole, la
base de la aritmética computacional
moderna, en la cual se fundamenta
toda la electrónica digital.
Boole ideó un sistema de reglas que,
mediante procedimientos matemáti
cos, permiten expresar, manipular y
simplificar problemas lógicos que ad
miten dos estados, verdadero o fal
so. Las tres operaciones matemáticas
básicas del álgebra booleana son la
negación o complemento, la unión
u «o» y la intersección o «y». La negación, representada con el símbolo consiste en invertir el
estado de una variable. Por ejemplo, si A= «Aristóteles es un hombre», entonces -A=«Aristóteles
no es un hombre». La unión, representada con el símbolo v , es un operador binario, es decir,
que necesita dos parámetros para obtener el resultado. Éste es verdadero si alguno de los dos
fundam entales en la mayoría de sistemas inteligentes que condicionan en gran m e
dida la calidad de los mismos.
E n los últim os años, la ram a del razonam iento autom ático ha ido avanzando
progresivam ente hasta llegar a p o d er razonar en sistemas incom pletos, inciertos y
n o -m o nótonos, es decir, en entornos en los que falta inform ación (incom pletitud),
puede haber afirm aciones iniciales contradictorias (incertidum bre) o, al introducir
nuevos conocim ientos al sistema, el conocim iento global sobre el en to rn o no tiene
p o r qué aum entar (no-m onotonía).
U na herram ienta de en o rm e potencia para trabajar en estos entornos es la lógi
ca difusa, esto es, un tipo de lógica m atem ática en la que las afirm aciones no tienen
p o r qué ser todas ciertas o falsas. M ientras que en la lógica booleana «clásica» dada
parámetros es verdadero. Por ejemplo: «¿Es verdadero que lo que usted está haciendo ahora es
leer "o " conducir?». La respuesta es «Sí, es verdadero», dado que lo que usted está haciendo
ahora es leer este libro. Si ahora usted estuviera conduciendo y no leyendo, la respuesta a la
pregunta también seria afirmativa. Incluso sería igualmente verdadera si estuviera cometiendo la
grave imprudencia de conducir y leer este libro al mismo tiempo. Finalmente, el tercer operador
es la intersección, representada con el símbolo a y que también es un operador binario. Si refor-
mulamos la pregunta anterior y decimos «¿Es verdadero que lo que usted está haciendo ahora
es leer "y" conducir?», sólo podríamos contestar «Sí, es verdadero» si estuviéramos cometiendo
tamaño disparate.
A partir de estos tres operadores, se pueden construir otros operadores más sofisticados, como
la o-exclusiva ( a ), que sólo sería cierta, en el segundo ejemplo, si estamos leyendo o condu
ciendo, pero no si hacemos las dos cosas a la vez. El operador a no es un operador básico
del álgebra booleana dado que se puede reescribir mediante los otros tres operadores básicos:
A a B = (A a -y B) v (->A a B).
En electrónica digital «verdadero» y «falso» se simbolizan con un 1 y un 0, respectivamente, y
se les da el significado de dejar pasar la corriente eléctrica (1) o no dejarla pasar (0). Las opera
ciones lógicas se realizan mediante la combinación de transistores y ha sido la alta integración
de estos dispositivos electrónicos lo que ha permitido que la informática haya avanzado tanto en
los últimos 40 años. El microprocesador del ordenador de su casa, que es el cerebro central del
aparato, ¡contiene centenares de millones de transistores distribuidos en unos pocos centímetros

cuadrados!
una afirm ación siempre se puede decir si ésta es cierta o falsa (por ejem plo, es falso
que «algún hom bre es inmortal» y es cierto que «todos los hom bres son mortales»),
en cambio en la lógica difusa se in corporan gradaciones entre la verdad y la false
dad. Así, antes, si se decía que Creso no era pobre, significaba autom áticam ente que
era rico, y si se afirmaba que D iógenes no era rico, esto quería decir que era pobre
(en este ejem plo, la lógica booleana ¡discrimina a la clase media!); pero ahora, usan
do la lógica difusa, podríam os decir que Aristóteles fue rico en un grado de, p or
ejem plo, 0,6.
El procesam iento del lenguaje natural

E ntender el lenguaje natural de un hum ano, así com o p o d er com unicarse m edian
te él, es uno de los grandes retos pendientes de esta área de la ciencia. Q u e u n sis
tem a artificial pueda entender a u n hum ano en su lenguaje natural, in d ependiente
m ente del idiom a que éste utilice, sin necesidad de los lenguajes de program ación,
ayudaría en gran m edida a hum anizar las m áquinas, al m argen de su inteligencia.
A hora bien, p o r po d er «procesar el lenguaje natural» no se entiende solam ente el
hecho de transliterar sonidos en fonem as y en signos escritos, sino tam bién en ten
der los conceptos trasmitidos (ya sea de form a escrita u oral) para llevar a cabo al
guna acción con ellos.
Los prim eros avances en el procesam iento del lenguaje natural vinieron de la
m ano del ingeniero Joseph W eizenbaum (1923-2008) entre 1964 y 1966 con su
program a Eliza. A este program a inform ático, que simulaba ser u n psicoterapeuta, los
usuarios le podían hacer preguntas o com entarios, y Eliza parecía que los entendía,
pues a continuación era capaz de responder, más o m enos, con sentido. U n a conver
sación real que m antuvo el autor de este libro con Eliza mientras lo escribía es:
I. Belda: N ecesito unas vacaciones.

Eliza: ¿Q ue significaría para ti si tuvieras vacaciones?
I. Belda: Pues podría estar más tiem po con m i esposa.
Eliza: C uéntam e más sobre tu familia.
I. Belda: B ien, sólo tengo una esposa.
Eliza: ¿Dices que tienes sólo una esposa?
I. Belda: Sí, no soy polígamo.
Eliza: Pareces ser m uy positivo.
I. Belda: Ella se llama Laia.
Eliza: ¿Y quién más hay en tu familia?
I. Belda: N adie más.
Eliza: D e verdad, ¿nadie más?
I. Belda: Pues no.
Eliza: ¿Estás seguro?
I. Belda: Segurísimo.
C o m o el lecto r pued e apreciar, p o r suerte para los psicólogos, Eliza no les

quitará el trabajo de m anera inm in en te. Sin em bargo, desde la década de 1960 el
procesam iento del lenguaje natural ha ido avanzando de m anera significativa y
hoy en día existen técnicas de procesam iento del lenguaje natural que se utilizan
para aspectos tan diversos co m o la detecció n de plagios literarios, la traducción
autom ática de textos o la co n stru cció n de interfaces h o m b re-m á q u in a más h u
manizadas. Si el lecto r tien e curiosidad, p u ed e conversar online co n Eliza en:
h ttp ://w w w .c h a y d e n .n e t/eliza/E liza.h tm l.
Para term inar, gestionar lo que se sabe

E structurar adecuadam ente el conocim iento es m uy im portante, y para ilustrar el
porqué de esta im portancia pondrem os u n ejem plo: im aginem os que alguien nos
pregunta quién es el alcalde de A ustin (Texas). Probablem ente, si no somos de esa
zona de Estados U nidos, responderem os rápidam ente: «No lo sé». E n cambio, un
sistema que no tenga bien estructurado su conocim iento, com o puede ser cualquie
ra de nuestros ordenadores personales, invertirá unos cuantos m inutos en analizar
todos los docum entos de su disco duro buscando si en algún do cu m en to se explí
cita el nom bre del alcalde de dicha población. U n sistema inteligente, o que p reten
da serlo, debería responder de una m anera tan tajante com o lo haría un hum an o y,
para ello, el conocim iento debe estar bien estructurado y ser fácilm ente accesible.
E n la resolución de un problem a práctico no sólo se debe estructurar adecuada
m ente el conocim iento, sino que además se tienen que program ar las herram ientas
adecuadas para navegar p or él y m antenerlo ordenado. E n esta base de conocim ien
to es donde el sistema aplica sus estrategias de razonam iento, búsqueda, aprendizaje,
etc. y, p o r tanto, la base de conocim ientos de u n sistema inteligente es cambiante.
Por ese motivo, los sistemas inteligentes necesitan m otores de control del conoci
m iento que resuelvan, p o r ejem plo, las contradicciones que puedan ir apareciendo,
que elim inen redundancias e incluso que generalicen conceptos.
Para ten er u n b u en control sobre el conocim iento contenido en una base de
conocim iento se necesita m etainform ación que explique cóm o está representado
internam ente el co nocim iento y que nos ayude a delimitarlo. Saber cóm o está re
presentado el conocim iento no es u n asunto baladí, ya que éste puede ser estructu
rado en un sinfín de formas. Por eso, disponer de inform ación acerca de la estruc
turación del conocim iento alm acenado puede ayudar en gran m anera a los sistemas
autom atizados a navegar p o r él.
O tro aspecto que debe tenerse en cuenta es la delim itación del conocim iento,
puesto que saber qué abarca y hasta dónde llega nuestra base de conocim iento al
m acenado, de nuevo, ayuda al sistema inform atizado a recorrerlo. D e hecho, un
hum ano puede trabajar fácilm ente con la idea de la incom pletitud de su conoci
m iento, pero a u n sistema inform atizado se le debe especificar m uy bien qué es lo
que sabe y lo que no. P or ello, u n o de los prim eros m étodos para gestionar las bases
de conocim iento fue la asunción de m u n d o cerrado (CW A, Closed W orld A ssum p-
tion). La C W A fue propuesta p o r R ay m o n d R e ite r en 1978 y se basa en una afir
m ación sencilla pero de notables consecuencias: «Los únicos objetos que pueden
satisfacer el predicado P son aquellos que lo deben hacer», o, en otras palabras, que
todo aquel conocim iento que no se tenga registrado no es cierto.
U n buen ejem plo de ello sería: si nos preguntaran si una determ inada persona
trabaja en una empresa, para averiguarlo consultaríam os la lista del personal de la
misma, y si la persona no figurara en ella diríam os que no trabaja allí.
La C W A fue u n gran avance en su m om ento y facilitó m uchísim o la gestión de
bases de conocim iento. Sin embargo, com o el lector habrá intuido, la C W A tiene
im portantes limitaciones, ya que u n factor desconocido no implica, en la vida real,
que sea autom áticam ente falso. R e to m an d o el ejem plo anterior de la lista de p er
sonal de una empresa, ¿qué pasa si un a persona que trabaja en ella no figura en la
lista de trabajadores p o r el simple m otivo de que la lista contiene u n error o bien
no está actualizada? Justam ente éste es u n o de los puntos más débiles de la CW A, la
incorrección o inconsistencia de los datos de la vida real. Su otro p u n to débil es que
nos obliga a utilizar razonam ientos puram ente sintéticos. Veámoslo con u n ejem plo
práctico:
Im aginem os que tenem os la siguiente lista de solteros y no solteros:

Soltero Juan
Soltero M aría
N o-soltero David
Si alguien pregunta al sistema si Jorge es soltero, com o esto es una lista de solte
ros, contestará que no, dado que no aparece en ella. Sin em bargo, podem os cons
truir una nueva lista de casados, que quedaría así:
N o-casado Juan
N o-casado María
Casado David
Y si ahora le preguntam os al sistema si Jorge está casado, tam bién nos responde
rá que no. C o n lo cual finalm ente tendríam os que, p o r no disponer de inform ación
sobre el estado civil de Jorge, el sistema llega a la conclusión in co n g ru en te de que
no está casado ni soltero. Podem os ver claram ente que el C W A n o funciona bien
en casos de incertidum bre o incom pletitud del conocim iento y, p o r ello, hoy en día
sólo se usa en la resolución de problemas m uy particulares.
Por últim o, no podem os term in ar con la gestión de bases de conocim iento sin
hablar de los sistemas de m antenim iento de la verdad (TMS, Truth Maintenance
Systems). Los TM S son los elem entos que vigilan y controlan que-la base de co n o
cim iento sea consistente con ella misma, y resultan especialm ente útiles cuando se
usan m étodos de razonam iento n o -m o n ó to n o s, es decir, aquellos en los que la base
de conocim iento va aum entando o dism inuyendo a m edida que se razona. Los
T M S pueden ser de dos tipos: de «búsqueda vertical» o de «búsqueda horizontal».
Los prim eros recorren la base de conocim iento yendo de lo general a lo particular
en busca de contradicciones y, en caso de que detecten una, deshacen el cam ino
recorrido para solventarla. P or el contrario, los de búsqueda h o rizontal plantean
diferentes escenarios o hipótesis paralelas, de m anera que el universo de contextos
se va podando a m edida que se detectan contradicciones. Es decir, dado u n con tex
to posible (piénsese en una determ inada situación de las piezas del ajedrez), identi
fica los diferentes escenarios en los que puede evolucionar la situación actual (en el
caso del ajedrez, serían los posibles m ovim ientos), y elimina aquellos que resultan
contradictorios (en ajedrez u n escenario contradictorio sería una jugada m uy des
favorable para la m áquina, dado que el objetivo de ésta es ganar la partida y sería una
contradicción plantear una jugada desfavorable para ella).
C ap ítu lo 2
Búsqueda
¿C óm o se diseña un nuevo farmaco? Hasta hace m uy poco las empresas farm acéuti
cas aún lo hacían com pletam ente a mano, es decir, sin ninguna otra ayuda tecnológi
ca más que un lápiz y u n papel. D iseñaban y optimizaban la estructura quím ica del
fármaco y, m ediante el uso de laboratorios especializados, sintetizaban y probaban
cada versión m ejorada para com probar si su efectividad aum entaba o no. Este proce
so com pletam ente manual de prueba y error es lo que, en parte, provoca que el coste
de diseñar un nuevo m edicam ento ronde los 1.000 millones de dólares de media.
C uando se diseña u n nuevo fármaco, p o r lo general se está diseñando una m o
lécula que pueda interaccionar co n una proteína y, eventualm ente, inhibir su com
portam iento. Las proteínas actúan en los seres vivos desencadenando lo que se co
noce com o «cascadas metabólicas», que son una sucesión de reacciones bioquím icas
mediadas p o r las mismas proteínas. P or tanto, si una m olécula inhibe el com porta
m iento de una de las proteínas involucradas en la ruta m etabólica de interés, esta
molécula interrum pirá dicha ruta y podría ser u n bu en farmaco.
Escenario sin fármaco
( P r o te ín a a ) ------------------ ► ^ ^ d i a n a ) ^ --------------------* ( P r o te ín a c )
Escenario con fármaco
En este escenario simplificado, el fármaco impide la interacción de la proteina

diana con la proteina c, interrumpiendo la ruta metabólica.
Para conseguir inhibir una de estas proteínas se debe conseguir que el fárm aco
se una a ella de una m anera determ inada. P or tanto, gran parte del esfuerzo de di-
seño cuando se desarrolla u n nuevo fárm aco es que esta m olécula se una al centro
activo de la proteína de interés, tam bién conocida com o diana terapéutica.
Para saber si una m olécula se une eficientem ente a una proteína se debe m edir
la energía de la interacción. La energía de la interacción entre una m olécula candi-
data a convertirse en fárm aco y su proteína diana es aquella energía que debe apli
carse al sistema para que éste se m antenga unido. P or ejem plo, si quisiéramos unir
u n im án de nevera a la pu erta de dicho electrodom éstico,.no sería necesario aplicar
ninguna fuerza de form a continua, ya que el im án tiende a unirse al m etal de la
puerta debido a sus propiedades magnéticas. Incluso en el caso de que el im án sea
realm ente potente, sólo con acercarlo a la p u erta ya notam os cóm o es atraído con
cierta fuerza hacia ella. E n este caso, estaríamos hablando de que la energía que debe
aplicarse para m antener unidos im án y puerta es negativa, ya que, de hecho, ambos
objetos se atraen.
C o m o se podrá suponer, un fárm aco que no se sienta atraído p o r su proteína
diana no tiene valor com o tal, ya que se limitará a flotar p o r el riego sanguíneo o
los tejidos, ignorando y siendo ignorado p o r la proteína que debería ser inhibida.
Así pues, cuando se busca un buen candidato a fármaco se pretende encontrar un
com puesto cuya energía de interacción sea lo más negativa posible, ya que esto es
una muestra de hasta qué p u n to se verán atraídos fármaco y proteína. Por tanto, el
principal objetivo que se debe optim izar en un proceso de diseño de un nuevo
fárm aco es la m inim ización de esa energía de unión.
Este tipo de problemas cuya solución consiste en la determ inación de unos pa
rám etros óptim os (ya sea determ inar qué pieza del tablero de ajedrez se debe m over
en cada tu rn o con el fin de ganar la partida, o bien las dim ensiones y posiciones que
debe ten er cada una de las vigas que conform an u n p u en te para m inim izar su cos
te y m axim izar su resistencia) se agrupan bajo la categoría de «problemas de bús
queda». La búsqueda es una de las grandes áreas de la inteligencia artificial. E n un
ejercicio de búsqueda, a m enudo se deben encontrar los parám etros que m aximizan
una función m atem ática y, en este caso particular esa búsqueda tam bién es conoci
da com o «optimización».
D arw in ya lo dijo
U na de las técnicas más utilizadas para resolver problemas de búsqueda es la co m
putación evolutiva. D el m ism o m odo que la naturaleza ha sabido hacer evolucionar
a sus seres vivos para optim izar su supervivencia en sus respectivos m edios naturales,
la com putación evolutiva utiliza mecanismos similares para optim izar funciones de
diversa com plejidad.
La com putación evolutiva fue inicialm ente propuesta p o r el investigador Jo h n
H olland en 1975 en su libro A daptation in N atural and Artificial Systems (Adaptación
en sistemas naturales y artificiales), aunque la ciencia occidental descubrió más tarde
que los ingenieros alem anes ya usaban estas estrategias para optim izar las toberas
de los prim eros m otores a reacción de los aviones en la Segunda G uerra M undial.
La com putación evolutiva abarca una gran colección de técnicas o algoritm os
evolutivos com pletam ente inspirados en las leyes de la evolución natural propues
tas p o r D arw in, según las cuales los individuos m ejor preparados son los que m e
jores índices de supervivencia presentan y, p o r tanto, los que más descendientes
tienen.
E n esta m etáfora inspirada en las leyes de la evolución natural se cuenta con
poblaciones de individuos en las que cada u n o de ellos representa una posible solu
ción a u n problema.Y, ya sea una buena o una mala solución, lo que tratan de hacer
los algoritm os evolutivos después de evaluar la bondad de cada u n o de los indivi
duos es seleccionar los m ejores para, a partir de ellos, dar lugar a una segunda gene
ración. Siguiendo u n proceso iterativo, los individuos de las sucesivas generaciones
son evaluados, seleccionados y cruzados de m anera que se obtienen poblaciones o
generaciones nuevas cada vez. Este proceso se term ina según criterios de parada que
p ueden variar dependiendo del problem a. Así pues, u n algoritm o evolutivo se basa
en cinco grandes etapas: inicialización, evaluación, selección, reproducción y reem
plazam iento, tal com o se muestra en el siguiente esquema:
Las diferencias entre u n algoritm o evolutivo y otro vienen determ inadas p o r las
diversas maneras en que se im plem enta cada una de estas grandes etapas.
DARW IN Y LA M A R C K : DOS VISIO NES DISTINTAS SOBRE
LA EVO LU CIÓ N
Jean-Baptiste-Pierre-Antoine de Monet, Caballero de Lamarck (1744-1829), fue un naturalista
francés que revolucionó la biología con importantes aportaciones, como la clasificación de
los seres vivos según su complejidad o la determinación de una división clara entre el mundo
orgánico y el inorgánico. Otra de sus aportaciones a la ciencia fue la elaboración de la pri
mera teoría de la evolución biológica, descrita en su obra Philosophie Zoologique (Filosofía
zoológica) en 1809, cincuenta años antes de que se diera a conocer la teoría de la evolución
de Darwin.
La teoría lamarckiana, al contrario que la darwinlsta, se basa en la «herencia de los carac
teres adquiridos», esto es, en la capacidad de los individuos de trasladar a su descendencia
las adaptaciones al medio que ellos hayan realizado en vida. Un buen ejemplo en el que se
distinguen perfectamente los dos puntos de vista con respecto a la evolución es el largo cuello
de las jirafas. Según Lamarck, la jirafa que estiró más el cuello y logró desarrollar mejor los
músculos para llegar a las hojas más altas pasó esta característica a su descendencia, que a su
vez siguió desarrollando tales músculos y pasándoselos a su descendencia hasta que el cuello
alcanzó el tamaño actual. Según la teoría darwinista, en cambio, fue la jirafa que nació con
un cuello más largo o con unos músculos más potentes la que logró pasar dicha característica
a su descendencia, independientemente
de los esfuerzos que realizara en vida.
Aunque las hipótesis de Lamarck fueron
desechadas como falsas en favor de las
de Darw in, recientem ente se les han
reconocido cierta veracidad en algunos
casos concretos. Por ejemplo, se sabe
que una madre que haya superado una
enfermedad para la que ha generado
anticuerpos, puede transmitir estos an
ticuerpos a su descendencia, de modo
que sus hijos serán inmunes también a
dicha enfermedad. Así pues, estaríamos
ante un caso de transmisión de caracte
res adquiridos en vida como adaptación
al medio.
La inicializ ación
La inicialización de la población es una etapa bastante independiente del algoritm o
evolutivo que se use; de hecho, depende más de las características del problem a en
cuestión. H ay problemas en los que existen restricciones que deben tenerse en
cuenta; otros en los que no se conoce absolutam ente nada sobre cóm o tiene que ser
una buena solución y, p o r tanto, el problem a se inicia de m anera com pletam ente
aleatoria, y otros en los que se prefiere que la inicialización sea aleatoria, pero pos
tulando que los individuos generados en esta p rim era generación tengan una cierta
diversidad garantizada, para así estar seguros de que no se deja ningún espacio por
explorar.
La decisión de cóm o debe representarse el conocim iento dentro de u n indivi
duo es especialm ente im portante en esta etapa, ya que determ inará en gran m edida
el resto del algoritm o evolutivo. U n a de las representaciones más com unes se reali
za m ediante cromosomas, un nuevo concepto inspirado en la naturaleza: un crom o
som a es una secuencia de genes, y cada gen es u n núm ero que representa parte de
una solución.
Pongam os com o ejem plo u n algoritm o que busca m axim izar la capacidad de
una caja de cartón m inim izando la cantidad de cartón usado para fabricarla. Si se
utiliza u n algoritm o evolutivo, los crom osom as que representarían la solución ten
drían tres genes: longitud, am plitud y altura. Por tanto, en la etapa de inicialización
se crearía una población de cajas aleatorias representadas p o r ternas de núm eros
dentro de los rangos perm itidos, y el algoritm o iría evolucionado las poblaciones de
cajas hasta encontrar la caja óptim a según los criterios establecidos.
La evaluación
D espués de la inicialización viene la etapa de evaluación, que suele decirse que es
la más im portante del proceso, ya que define el problem a que debe resolverse. El
p rim er paso de la evaluación es reconstruir la solución, es decir, para cada individuo
se tom a la inform ación de su crom osom a (genotipo) para simular la solución repre
sentada (fenotipo). Este proceso puede albergar distintos grados de com plejidad,
desde el simple cálculo del volum en de una caja conociendo sus dim ensiones, com o
ocurría en el problem a de la caja de cartón, hasta cálculos extrem adam ente costosos
y complejos, com o la sim ulación de la resistencia de u n puen te en su proceso de
diseño.
U na vez que se tiene el fenotipo reconstruido, se procede a evaluar la b ondad de
esta solución y se le asigna u n valor de bondad a cada individuo, valor que en pos
teriores etapas evolutivas será usado para discernir entre las buenas y las malas so
luciones. D e nuevo, el propio proceso de evaluación de fenotipos puede ser com
plejo, costoso e incluso ruidoso; es decir, en la resolución de algunos problemas
complejos, un m ism o fenotipo evaluado diversas veces no tiene p o r qué dar siempre
el m ism o grado de bondad. El ruido, al cual tam bién podríam os llamar «error», es
una constante en problemas en los que la evaluación de la b ondad pasa p o r realizar
simulaciones num éricas. P or ejem plo, en la sim ulación de la resistencia a la fatiga de
una pieza de un m o to r de com bustión, resolver las ecuaciones matemáticas que
determ inan dicha fatiga sería tan costoso que lo m ejor es pasar p o r u n proceso si
m ulador, el cual, probablem ente, nos llevará a resultados algo diferentes en cada
sim ulación independiente de la misma pieza.
E n unos resultados presentados p o r la empresa H onda en el año 2004 en los que
se habían usado algoritm os genéticos para diseñar piezas de m otores de com bustión,
el proceso de evaluación no sólo era ruidoso y un tanto inexacto, sino tam bién
lento, ya que se tardaba ocho horas en o b ten er el resultado de la bondad calculada
de cada individuo de la población.
EL PÁ JARO R ECH O N CH O DE LAS ISLAS M AURICIO

Y LA PRESIÓN EV O LU T IV A
Cuando los exploradores llegaron por primera vez a las Islas Mauricio, en el siglo x v ii, se encontra
ron con un inesperado regalo de los cielos: un pájaro rechoncho, de carne suculenta, con unas alas
demasiado pequeñas para permitirle alzar el vuelo y unas patas demasiado cortas para poder huir,
al que los hombres llamaron «dodo». Lo cazaron sin piedad y las mascotas de los hombres (perros
y gatos), así como otras nuevas especies introducidas en las islas, como las ratas, destruyeron sus
nidos para comerse sus huevos. El pobre dodo se extinguió en poco menos de un siglo y actual
mente sólo nos quedan dibujos y grabados de cómo debió de ser esta simpática e inofensiva ave.
El dodo no había experimentado nunca la «necesidad» de evolucionar, nunca había estado someti
do a una presión evolutiva, y cuando ésta apareció ya no tuvo tiempo de hacerle frente. La presión
evolutiva es el motor de la evolución. Sin una cierta presión evolutiva los seres vivos no tienen ra
zones suficientes para adaptarse al medio, de modo que no tienen la necesidad de desarrollar una
forma, un comportamiento o un aspecto óptimos. A lo largo de la historia de las ciencias naturales
se han ido documentando especies que estaban claramente en esta situación, es decir, especies
La selección
La siguiente etapa de u n algoritm o evolutivo, una vez que se han evaluado los in d i
viduos de la presente generación, es la selección. La idea últim a de la selección es
escoger los m ejores individuos que se reproducirán para generar la descendencia
que form ará la siguiente generación. Este proceso de selección de los m ejores indi
viduos es tam bién la base de la evolución natural y se denom ina «presión evolutiva».
La presión evolutiva es m ayor en función de cuán reducido es el porcentaje de in
dividuos que pasan a la siguiente generación. Sin embargo, si se aplica una estrategia
tan sencilla com o coger directam ente los m ejores individuos, se puede dem ostrar
que la presión evolutiva aplicada es demasiado elevada y, ante presiones evolutivas
excesivas, los algoritm os evolutivos no suelen funcionar bien, ya que suelen caer en
m áxim os locales.
La principal utilidad de u n algoritm o evolutivo es p o d er encontrar soluciones
buenas en grandes espacios de búsqueda, o, dicho en térm inos m atem áticos, en co n
trar los óptim os de funciones, n o rm alm ente con m uchas dim ensiones y m u ltim o-
dales, es decir, funciones con diversos máxim os locales o globales. Si la presión
aplicada a la optim ización evolutiva es excesiva, esto es, si se trata de encontrar la
inmersas en un entorno con abundancia de alimento,
ausencia de depredadores o poca competencia entre
especies, hecho que ha dificultado la aparición de
ciertas propiedades indispensables para otras espe

cies similares en entornos más competitivos,
Se podría decir que eso es lo que le ocurrió al dodo.
Sin depredadores ni escasez de alimentos en su
protegido ecosistema isleño, no tuvo necesidad de
desarrollar unas alas útiles o unas patas capaces de
dotarlo de velocidad. De hecho, la traducción literal

del portugués de la palabra dodo es «estúpido». ¿Tal
vez fue la ausencia de presión evolutiva la que con
virtió a este animal en un «estúpido»? Dodo en un grabado del siglo xvn.

solución demasiado deprisa seleccionando enseguida los m ejores individuos sin
explorar más allá, el algoritm o estará convergiendo prem aturam ente y estará cayen
do en máxim os locales.
La selección es la etapa ideal en la que se puede m odular la presión evolutiva de
un algoritm o evolutivo. El extrem o donde esa presión sería más elevada se tendría
en el caso de que se realizara una selección unitaria, es decir, seleccionando sólo el
m ejor individuo de la población para dar lugar con él a los individuos de la gene
ración siguiente. E n el otro extrem o estaría la selección aleatoria, aquella en la que
no se tiene en cuenta la bondad de los individuos. Lógicam ente, la estrategia que
conviene seguir será un pu n to m edio entre las dos, donde se intenten seleccionar
los m ejores individuos para que se reproduzcan, pero introduciendo siempre cierto
grado de diversidad para explorar otros caminos. Siguiendo esta estrategia, u n indi
viduo, por malo que sea, siempre tendrá alguna probabilidad de ser seleccionado
aunque en la población se encuentren presentes individuos m ucho mejores. Las tres
estrategias de selección que se com portan de esta manera, y que son, además, las más
utilizadas en la actualidad, son: la ruleta, la selección basada en el rango y el torneo.
La estrategia de selección de la ruleta es u n siste'ma bastante sencillo en el que
cada individuo tiene una probabilidad de ser seleccionado proporcional a su b o n
dad en relación a las bondades del resto de los individuos. P or tanto, si se tienen que
seleccionar diez individuos, se hace girar la ruleta diez veces.
Individuo 8
8%
Individuo 7
10 %
Individuo 1
Individuo 6 30%
8%
Individuo 5
3 %
Individuo
3%
Individuo 2
15 %
Individuo 3
23 %
E n el ejem plo de la figura hay ocho individuos y cada u n o tiene una bondad
proporcional al total indicado en cada porción. C o m o se puede intuir, cada vez que
se hace girar la ruleta, la probabilidad de que un individuo determ inado sea selec
cionado es proporcional a esta bondad con respecto al total pero, además, la estrate
gia de la ruleta no excluye la selección de individuos co n m en o r bondad, sino que
sim plem ente hay m enos probabilidad de que esto ocurra. Si se hace rodar la ruleta
diez veces, seguro que se selecciona en diversas ocasiones a individuos buenos, pero
tam bién es probable que alguna de las veces se seleccione u n individuo poco co m
petitivo. Esta posibilidad de seleccionar individuos poco com petitivos es lo que dota
a los algoritm os genéticos de tanta potencia, ya que les perm ite seguir distintas pis
tas al m ism o tiem po, de m odo que p ueden descubrir otros espacios, p o r lo que son
capaces de identificar u n gran núm ero de distintos m áxim os y encontrar, a largo
plazo, u n buen m áxim o local o, en el m ejor de los casos, el m áxim o global.
O tro sistema de selección adecuado para la resolución de problemas complejos
es la selección basada en el rango. El sistema vuelve a ser bastante sencillo: se trata
de seleccionar n copias del m ejor individuo, n — 1, del segundo individuo, y así has
ta que se llega a n = 0. C o n este sistema se elim ina la posibilidad de que u n superin-
dividuo eclipse las posibilidades de selección de cualquier otro individuo. Se co n o
ce com o «superindividuo» a aquel individuo que, aun estando lejos de un óptim o,
es m ucho m ejor que sus com pañeros de generación y, p o r tanto, la población se
estanca alrededor de él y el algoritm o n o es capaz de m ejorar sus cualidades.
Sin em bargo, es el tercer m étodo, el del torneo, el que finalm ente ha conseguido
el m onopolio entre las políticas de selección usadas en la resolución de problemas
reales p o r sus buenas propiedades matemáticas y p o r la alta versatilidad que ofrece
en la m odulación de la presión evolutiva. El to rn eo funciona del m ism o m o d o que
los em parejam ientos en una com petición deportiva. Se seleccionan em parejam ien
tos aleatorios de individuos, de dos en dos, y se considera que el m ejor es aquel que
gana el to rn eo y queda seleccionado. P or tanto, en este caso deben realizarse tantos
em parejam ientos com o individuos se necesite seleccionar. Pero ¿por qué se dice
que el m étodo del torn eo es tan versátil en la m odulación de la presión evolutiva?
Bien, ¿qué pasaría si en vez de organizar torneos de dos individuos se hicieran de n
individuos? ¿Y si en vez de haber u n solo ganador p o r to rn eo hubiera m? E n este
caso se dice que se están organizando torneos de n:m y, cuanto m ayor sea n, m ayor
presión evolutiva se ejerce, y cuanto m ayor sea m, m en o r es la presión evolutiva.
Para entender m ejor el esquem a del torneo, piénsese en las liguillas iniciales de
la U EFA C ham pions League. E n ese caso, los torneos son 4:2, es decir, se seleccio
nan aleatoriam ente cuatro equipos de fútbol y sólo los dos m ejores son selecciona
dos para pasar a la siguiente fase de la com petición. E n realidad, en el caso de la
C ham pions League no se p uede hablar de u n to rn eo estrictam ente aleatorio, ya que
rigen algunas norm as en la selección de estos cuatro equipos iniciales, com o que no
coincidan dos del m ism o país en las prim eras fases. D e la m ism a m anera, en los al
goritm os evolutivos podem os tam bién p o n er nuestras norm as, lo que derivará en
u n tipo de evolución o en otra.
U na norm a bastante usada es la de que sólo com pitan en u n m ism o to rn eo los
individuos más parecidos entre sí. D e esta manera, el algoritm o es capaz de optim i
zar funciones con m uchos óptim os.
Estos «cangrejos-robot» son buscadores de luz. Uno carece de patas,

mientras que el otro tiene cuatro. Am bos fueron utilizados p o rJo sh Bongard,
de la Universidad de Vermont, quien los dotó de un algoritmo genético evolutivo
y pudo comprobar que sus máquinas, una vez evolucionadas, funcionaban
m ejor que los robots normales ideados expresamente para el mismo fin.
La reproducción
U na que vez se han seleccionado los individuos que van a ten er descendencia,
llega la etapa de la reproducción. Existen varios tipos de sistemas de reproducción
y, a unque ésta no es necesariam ente la parte más im p o rtan te de un algoritm o evo
lutivo, en realidad éste se define p o r su sistema de reproducción; es decir, un algo
ritm o evolutivo concreto recibe su n om bre en función del tipo de reproducción
que utiliza. Por ejem plo, los algoritm os genéticos, de los que hablarem os a co n ti
nuación, son los algoritm os evolutivos que tienen u n sistema de reproducción de
cruce con m utación.
Los algoritm os genéticos son los algoritm os evolutivos más usados gracias al
buen com prom iso que consiguen entre dificultad de program ación y buenos resul
tados obtenidos con ellos. La reproducción p o r cruce y m utación está basada fuer
tem ente en los conceptos de la genética. E n un algoritm o genético cada u n o de los
individuos está representado m ediante u n crom osom a, y cada crom osom a es una
secuencia de genes. C uando se cruzan los crom osomas de los progenitores, prim ero
se crea u n pu n to de corte aleatorio que los divide en dos mitades. A continuación,
estas cuatro mitades (dos p o r cada progenitor) se cruzan entre sí para generar dos
descendientes: el p rim er descendiente contiene la prim era parte del crom osom a del
prim er progenitor (llamémosle padre) más la segunda parte del crom osom a del se
gundo progenitor (madre), y el segundo descendiente consta de un crom osom a
form ado p o r la prim era parte del crom osom a de la madre, hasta el pu n to de corte,
y p o r la segunda parte del crom osom a del padre.
P unto de corte
Padre D escendiente 1
M adre D escendiente 2
Para concluir con los algoritm os genéticos, una vez que los descendientes han
sido creados, se pasa p o r u n proceso de m utación en el que, m ediante una proba
bilidad m uy baja (típicam ente alrededor del 5%), se cam bian de m o d o aleatorio
valores de los genes que co m p o n en los nuevos crom osom as. Tanto en la práctica
com o en la teoría se puede dem ostrar que, sin la m utación, los algoritm os genéti
cos no son buenos m otores de optim ización, ya que se suelen estancar en subóp-
tim os o m áxim os locales. La m utación perm ite a los algoritm os genéticos ir dando
pequeños saltos aleatorios dentro del espacio de búsqueda. Si los resultados de es
tos saltos aleatorios no son prom etedores, se perderán en el proceso evolutivo, pero
si son positivos, serán adoptados p o r los buenos individuos de las generaciones
venideras.
G R EG O R M EN D EL Y LA G EN ÉTIC A
Gregor Mendel (1822-1884) fue un
monje austríaco que descubrió y

publicó, en 1866, las primeras leyes
existentes sobre genómica. Estas le
yes, conocidas en la actualidad como
leyes de Mendel, describían la trans
misión de ciertas características de
padres a hijos basándose en un es
tudio que cruzaba distintas especies
de guisantes. Estas leyes introdujeron
un concepto esencial para la genética
y para la ciencia en general: el de la
existencia de genes dominantes y ge
nes recesivos.
Mendel inició sus experimentos rea
lizando observaciones sobre la colo
ración de las semillas que producían
distintas plantas de guisantes. La pri

mera generación la obtuvo a base de cruzar una planta que producía semillas de color amarillo
con otra que las generaba de color verde. Entonces observó que las plantas resultantes de
dicho cruce producían sólo semillas amarillas. Sin embargo, más tarde observó que, aunque
al cruzar estas plantas entre sí la generación resultante producía en su mayoría semillas ama
rillas, sorprendentemente, algunas plantas volvían a generar semillas verdes. La relación entre
plantas de semillas amarillas y verdes era de 3:1. Después de realizar experimentos similares
con otras características, finalmente Mendel llegó a la conclusión de que existían unos genes
que eran dominantes sobre otros, de modo que oscurecían la existencia del gen dominado y
no le permitían expresarse en el individuo. Esto explicaba que del cruce de individuos con el
mismo gen expresado pudieran darse descendientes en que el gen expresado fuera otro, ya
que, sin saberlo, ambos padres poseían dicho gen, aunque «oscurecido» por el dominante.
A pesar de que en su momento no tuvieron gran trascendencia, los trabajos de Mendel
describen la base de la genética, el área de la ciencia que estudia los genes y la transmisión
de las características de padres a hijos, y que ha sido absolutamente determinante para la
medicina moderna.
El reem plazam iento
Por últim o, la etapa que cierra el ciclo del proceso evolutivo es la del reem plaza
m iento. E l objetivo de esta etapa es seleccionar qué individuos de la generación
an terio r serán reem plazados p o r los nuevos individuos generados en la rep ro d u c
ción. La estrategia más habitual es reem plazar todos los individuos de la an terio r
generación excepto el m ejor, al que se le da la o p o rtu n id ad de «vivir» durante
otra generación más. Este m étodo, co nocido co m o «elitismo», ha dem ostrado que,
aun siendo u n proceso m uy simple y no m uy natural, tiene una p o ten cia extraor
dinaria.
Sin em bargo, se han propuesto m uchas otras estrategias para reem plazar indivi
duos. N ótese que, de nuevo, al igual que en la etapa de selección, según com o se
seleccionen los individuos que van a ser reem plazados, se p uede m odular la p re
sión del proceso evolutivo: si siempre se seleccionan todos los individuos de la
población y se reem plazan p o r los nuevos individuos, no se aplica ning u n a presión
evolutiva, y al contrario, si sólo se seleccionan los malos individuos de la población
an terio r para ser reem plazados, la presión aum enta en o rm em en te.
A LG O RIT M O S EV O LU TIV O S LA M A R C K IA N O S
La dualidad evolución darwiniana-evoluclón lamarckiana también existe en los algoritmos
evolutivos y, de hecho, ambos métodos han demostrado ser altamente eficaces para resolver
problemas de optimización numérica. Los algoritmos evolutivos darwinianos son los habitua
les, los que se han ido describiendo a lo largo de este capítulo, mientras que los lamarckianos
incluyen un paso adicional entre la evaluación y la selección. Este paso consiste en una corta
optimización local que simula el aprendizaje o la adaptación de un individuo al medio antes
de tener descendencia.
Esta etapa de optimización local normalmente se basa en pequeñas mutaciones que se aplican
a cada individuo. Luego se vuelve a evaluar la bondad del individuo para ver si la mutación
ha introducido una mejora. Si es así, ésta se acepta y se repite de nuevo el ciclo de mutación-
evaluación, pero si la mutación ha empeorado la bondad del individuo, ésta se descarta y se
vuelve a repetir el ciclo de mutación-evaluación desde el estado anterior a la mutación actual.
Los primeros algoritmos evolutivos lamarckianos fueron bautizados como «estrategias evo
lutivas» y, como ya se ha dicho, los alemanes los usaron durante la Segunda Guerra Mundial
como herramienta para optimizar las toberas de los motores de reacción de sus aviones.
Por otro lado, en esta etapa tam bién se p ueden aplicar de m odo eficiente políti
cas de especiación, es decir, m étodos que faciliten la identificación de varias solu
ciones para aquellos problemas que tengan diversos óptim os. El m étodo más usado
en este caso es el reem plazam iento m ediante niching. Esta estrategia consiste en se
leccionar, para cada nuevo individuo generado, los individuos de la población ante
rio r que más se asem ejen a él. E n la siguiente generación, sólo el m ejor individuo
del grupo de similares podrá perm anecer en ella.
Hasta el m om en to se han explicado algunos de los m étodos más habituales para
llevar a cabo cada una de las etapas evolutivas. Sin embargo, el lector debe saber que
existen u n sinfín de m étodos para realizar cada una de estas fases evolutivas.
U n ejem plo práctico: evolucionando hacia

u n b u en fárm aco
C om o ya se ha visto, la inteligencia artificial ofrece m étodos de optim ización basa
dos en procesos naturales que obtienen grandes resultados. Y, recientem ente, la
com putación evolutiva ha penetrado en el nicho científico del diseño de fármacos
con u n éxito apreciable. R ecordem os que en el diseño de m edicam entos, el objeti
vo es lograr u n com puesto cuya energía de u n ió n con una proteína determ inada sea
lo más negativa posible, de m o d o que una atracción irresistible las ju n te en el in te
rio r de nuestro organism o com o u n caramelo y u n n iño goloso.
Veamos cóm o actuaría u n algoritm o evolutivo en el proceso de optim ización de
un candidato a fármaco. En p rim er lugar, el algoritm o tiene que inicializar la pobla
ción de moléculas. E n esta etapa lo que suele hacerse es p ro p o n er una generación
aleatoria de moléculas. Para simplificar el ejemplo, harem os generaciones de sólo
tres moléculas, aunque n o rm alm ente las generaciones contienen centenares de ellas:
A continuación, se deben evaluar estas moléculas iniciales m ediante la estim a

ción de la energía de interacción de cada una de ellas con la proteína diana. Para
ello se pueden utilizar diversas herram ientas com putacionales. U n a de ellas (que
sólo m encionarem os, pero no explicaremos) es el docking, un proceso de simulación
tridim ensional que prevé cuál será el co m portam iento de la m olécula cuando se
encuentre con su diana: si va a p o d er encajar en ella o no y cuál será la energía de
la unión. D e este m odo, se da la curiosa circunstancia de que m ientras usamos un
algoritm o evolutivo para encontrar nuestra m olécula perfecta, tam bién estamos u ti
lizando un algoritm o evolutivo para evaluar cuán buena es esta m olécula con res
pecto a las demás.Tras el docking ya tenem os las moléculas evaluadas:
E=9 E = —8
La siguiente etapa es la selección, que organizarem os, p o r ejem plo, a través de

u n to rn eo molecular, en el que se seleccionarán parejas de m oléculas al azar, se
com pararán sus energías de interacción y se decidirá si éstas «se quedan» o «se van».
R ecordem os que las energías de interacción deben ser lo más negativas posible.
E=9
El siguiente paso evolutivo es la reproducción, donde, a partir de las moléculas
seleccionadas, se crean nuevas m oléculas que com binan las propiedades de las p ri
meras. Así pues, se cruzan las dos moléculas seleccionadas en el paso an terior para
generar dos nuevas moléculas, que serán u n cruce de sus progenitores:
E n la siguiente ilustración vemos cóm o las dos moléculas se parten en dos sec
ciones:
Y, p o r últim o, se originan dos nuevas moléculas u n iendo las partes de las ante
riores:
Finalm ente, en la etapa de reem plazam iento, se retiran los individuos de la p ri
m era generación y se reem plazan p o r los nuevos individuos creados. El m étodo de
reem plazam iento más usado, y tam bién el más simple, es el del elitismo, en el que
todas las m oléculas de una generación quedan reemplazadas, excepto la m ejor. E n
este caso, la nueva generación contiene las dos moléculas generadas a partir del
cruce, más la m ejo r m olécula de la generación anterior, que era la que tenía una
energía de interacción de —8.
Después del reem plazam iento, el ciclo evolutivo se cierra y se itera tantas veces
com o sea necesario. Es decir, ahora estas moléculas de segunda generación se eva
luarían, después se seleccionarían, etc., y se llegaría a una tercera generación.Y así
hasta que se repita u n núm ero de generaciones predefinidas o la población haya
convergido, es decir, que el 90% de los individuos sean la misma molécula.
N aturalm ente, la realidad es bastante más complicada; lo que hem os explicado
aquí es una burda simplificación, pero ¿a qué es bonito?
C apítulo 3
Aprendizaje artificial
Jueves 6 de mayo de 2010, 9:30 h de la mañana. A pertura de los m ercados de valo
res estadounidenses. E n principio, un día norm al de transacciones financieras: la
m añana va pasando sin anorm alidades aparentes. Pero p o r la tarde, a las 14:45 h, sin
ninguna causa clara, algunos de los valores más im portantes del m ercado empiezan
a desplomarse en cuestión de segundos. A un con la volatilidad característica de los
m ercados en aquel period o de inestabilidad financiera, esta caída fue bastante sor
prendente, ya que algunas de las compañías más grandes y sólidas estaban sufriendo
bajadas de más del 60%, y to d o el m ercado de valores norteam ericano y, p o r consi
guiente, el m undial, se estaba desm oronando en cuestión de m inutos. A quel día, el
Indice Industrial D o w Jones (uno de los índices de referencia bursátil más usados a
escala internacional) llegó a caer un 9,2%, el descenso en un solo día más im p o r
tante de toda la historia, aunque después llegó a estabilizarse en u n descenso de
«sólo» el 3,2%. E n pocos segundos desaparecieron del m ercado un trillón de dólares
de valor, en lo que hoy en día se conoce com o el «Flash Crash».
En el parqué de la Bolsa de Nueva York, en Wall Street, fue donde

se detectaron algunos de los primeros indicios del Flash Crash.
A unque se ha tratado de dar m uchas razones para explicar el Flash Crash, aún
no se ha determ inado una causa clara. Sin embargo, una de las hipótesis que más
fuerza ha tom ado entre los investigadores financieros fue el im pacto de los H F T
(H igh Frequency Traders) o negociadores de alta frecuencia, aunque esta explica
ción siempre ha sido negada p o r los reguladores del mercado. Los H F T son sistemas
autom áticos e inteligentes de com praventa de acciones y productos financieros que
son capaces de tom ar decisiones y de actuar en cuestión de microsegundos. Se cal
cula que hoy en día el 50% de las operaciones financieras internacionales están
realizadas p o r sistemas HFT.
Pero ¿cóm o pu ed e u n sistema inform ático, inteligente o no, to m ar decisiones
de tal m agnitud de m anera tan rápida? C ualq u ier inversor amateur sabrá que los
precios de los m ercados financieros depen d en de u n sinfín de variables socio-
económ ico-políticas estructurales y coyunturales, desde las últimas declaraciones
del m inistro de trabajo finlandés sobre las regulaciones laborales de su país hasta un
descenso im previsto de la dem anda de crudo a causa de una subida de las tem pe
raturas en el sur de A lemania. ¿C óm o podría entonces u n sistema inform ático te
ner en cuenta tanta in form ación com o para tom ar decisiones aparentem ente in te
ligentes de com praventa de acciones, y además hacerlo en segundos? Esa es la
cuestión. El aprendizaje artificial es u n o de los grandes pilares de la inteligencia
artificial. Posiblem ente no seamos conscientes de ello, pero gran parte de las acti
vidades y escenarios en los que nos vem os envueltos a diario están controlados p o r
com pleto p o r m áquinas inteligentes. Sin em bargo, antes de em pezar a operar, éstas
deben aprender cóm o hacerlo.
U n ejem plo de aprendizaje: la predicción de tum ores

La predicción de tum ores es u n o de aquellos casos en los que la inteligencia artificial
puede ser de gran utilidad para los expertos m édicos a la hora de tom ar decisiones
en diferentes etapas de diagnóstico. Someterse a una mamografía es, o debería ser,
una práctica regular entre las mujeres adultas para la predicción precoz de cánceres
de mama. U na m am ografía no es más que una radiografía de la glándula mam aria
que perm ite ver ciertas anomalías en el tejido, algunas de las cuales podrían ser tu
mores incipientes de mama. Por eso, cada vez que u n radiólogo identifica una de
estas anomalías en una mamografía, ordena hacer u n análisis más exhaustivo que re
quiere una biopsia, o extracción del tejido, una práctica bastante más agresiva, m oles
ta y cara que la mamografía.
Sin embargo, una vez que se analizan los resultados de la biopsia, sucede que en
un 10% de los casos se trataba de un falso positivo, es decir, se apreciaba una ano
malía en la m am ografía, pero al hacer la biopsia no se identificó n ingún rastro de
tum or. P or ello sería de gran valor contar con una herram ienta que perm itiera re
d ucir al m áxim o ese 10% de falsos positivos, no sólo para ahorrar costes a la sanidad
pública, sino tam bién para evitar a las pacientes las molestias causadas p o r las agre
sivas biopsias y para reducir su estrés y ansiedad al encontrarse en esa situación.
Por otro lado, tam bién existen los falsos negativos, aquellos casos en que la m a
m ografía no refleja ninguna anomalía, pero, desgraciadam ente, sí que existe u n tu
m or. Los problemas sanitarios derivados de la existencia de falsos negativos son
evidentes, y de ahí la im portancia de que las nuevas herram ientas diagnósticas sean
eficientes tanto en la reducción de falsos positivos com o de falsos negativos. C om o
se verá a continuación, es bastante más com plejo lograr que una herram ienta sea
capaz de reducir los falsos negativos que los falsos positivos. Y los falsos negativos
son m ucho más graves.
Im aginem os que un oncólogo tiene que analizar una mam ografía de una pa
ciente para determ inar si hay indicios de tum or. D e m anera general, el razonam ien
to o m etodología que sigue p uede descom ponerse en los siguientes pasos:
1. O bserva la mam ografía y detecta las características más relevantes con la fina
lidad de determ inar el nuevo problem a. E l conjunto de las características de
tectadas perm iten describir la situación.
2. Busca mamografías diagnosticadas previam ente, tanto p o r él com o en los li
bros de m edicina, que tengan características similares.
3. E m ite un diagnóstico teniendo en cuenta los diagnósticos del conjunto de
mamografías que había recopilado com o similares.
4. Finalm ente, si lo considera necesario, pide una segunda opin ió n a com pañeros
suyos con la finalidad de validar su diagnóstico.
5. A partir del diagnóstico realizado, tom a notas pertinentes para recordar el
nuevo caso resuelto, ya que éste le pu ed e ser útil en el futuro.
Este procedim iento coincide paso a paso con una de las técnicas de predicción
más utilizadas en inteligencia artificial llamada «razonam iento basado en casos», en
adelante C B R (Case-Based R easoning) conform e a sus siglas en inglés. C onsiste en
resolver nuevos problemas buscando analogías con problemas resueltos de m anera
satisfactoria en el pasado y, una vez seleccionada la solución más similar, adaptarla a
las características del nuevo problem a. P or ello, el C B R no es sólo una herram ienta
de análisis de datos, sino que con los datos analizados se pretende conseguir un
objetivo más general, que es la resolución inteligente de problemas.
CARA CTERÍSTICA S USAD AS EN LA D ETECCIÓ N DE T U M O R ES

DE M A M A
El CBR, así como otras técnicas inteligentes, se puede usar para ayudar a diagnosticar la
presencia de tumores malignos a partir de mamografías. Como los datos de entrada de
cualquiera de estas técnicas son numéricos, se requiere un paso intermedio que haga una
extracción automática de esos valores a partir de las imágenes médicas. Concretamente, en
el caso de los tumores de mama se suelen extraer diversas mediciones sobre unos elementos
frecuentes en las mamas denominados microcalcificadones, que son unas milimétricas aglo
meraciones de calcio en el tejido mamario. Algunas de las características usadas normalmente
para la detección de microcalcificadones malignas en las mamas son: el área de las mismas,
su perímetro, la compactibilidad (relación entre el área y su perímetro), el número de agujeros
que presentan, la rugosidad (relación entre el perímetro y su irregularidad), la longitud, la
amplitud, la elongación (una relación entre la amplitud y la longitud) y la posición del centro
de gravedad de la microcalcificación.
D e la misma m anera que un experto guardaría su experiencia en su m em oria o

en sus notas, el C B R dispone de una estructura de datos llamada «m em oria de ca
sos» donde se alm acenan los casos previam ente resueltos. El siguiente dibujo resume
el funcionam iento del C B R :
La prim era fase del C B R , la de recuperación, trata de buscar las soluciones más
parecidas al nuevo problem a en la m em oria de casos del sistema. Aplicado a nuestro
ámbito, el objetivo de la fase de recuperación es buscar mamografías diagnosticadas
que tengan unas características similares a las de la nueva mam ografía que se quiere
diagnosticar.
A continuación viene la fase de adaptación, en la que se trata de adaptar la solu
ción similar encontrada a las características del nuevo caso. Por ejemplo, supongamos
que una empresa de logística necesita llevar u n cam ión desde Lisboa a R o m a y quie
re usar C B R para la optim ización de la ruta. Lo prim ero que hará será buscar en su
m em oria de casos el viaje más parecido realizado hasta el m om ento. Im aginem os
que encuentra otro viaje con una ruta ya optimizada entre M adrid y Milán. Por
tanto, gran parte del recorrido se puede reaprovechar y sólo hace falta optim izar la
ruta entre Lisboa y M adrid, y entre M ilán y R o m a. Estas dos optimizaciones de una
pequeña parte de la ruta se p ueden llevar a cabo m ediante otras técnicas informáticas
clásicas, pero el caso es que este proceso de adaptación de la ruta M adrid-M ilán a la
nueva ruta que se planteaba, Lisboa-R om a, es precisam ente la fase de adaptación.
Se pasa ahora a la fase de revisión, en la que el experto debe revisar el diagnós
tico realizado p o r la m áquina. Es en esta etapa donde h om bre y m áquina colaboran,
lo cual sirve para m ejorar día a día el rendim iento de la m áquina y, sobre todo, para
aum entar la fiabilidad en sistemas en los que la predicción es crítica. E n el caso
particular de la predicción de tum ores, debido a la m ism a relevancia del tem a, es
m uy difícil que un sistema sanitario acepte dejar la tarea de diagnóstico únicam en
te a una herram ienta autom ática de estas características sin la participación de un
experto m édico. Sin em bargo, quién sabe si esto podría cambiar en el fu tu ro ...
Finalmente, la última etapa del C B R es la fase en la que, una vez resuelto y revi
sado p o r el experto, se decide si el caso entrará a form ar parte de la m em oria de casos,
es decir, se decide si es lo suficientem ente representativo com o para incluirlo dentro
del conjunto de mamografías que servirán para diagnosticar tum ores en el futuro.
El éxito del C B R (pero tam bién del razonam iento de u n experto) se basa en la
capacidad de desarrollar correctam ente cada una de las cuatro fases del m étodo. Por
ello, los aspectos básicos que deben tenerse en cuenta en cada una de ellas son:
-— C riterio de recuperación: no todas las experiencias son útiles. H ace falta

determ inar qué casos de la experiencia pasada se seleccionan ante un nuevo
caso para ser usados en la resolución de éste. Para ello, cabe definir métricas
o distancias matem áticas que estim en la distancia entre el nuevo caso y los
que se encuentran almacenados en la m em oria de casos. Por ejemplo, en el
asunto de las mamografías, ante un nuevo caso que resolver, m ediante estas
m étricas matemáticas se determ ina cuál es la mam ografía anterior, ya diag
nosticada, que más se parece a la que hay que diagnosticar ahora.
— C riterio de fiabilidad: cada dom inio tiene una com plejidad im plícita y un
nivel de riesgo propio, según el «precio a pagar» p o r equivocarse. E n el caso
de la detección de tum ores es obvio que el precio que se debe pagar p or
em itir u n falso negativo es m ucho m ayor que el de predecir com o peligrosa
una anomalía que no lo era. Por ello, es vital establecer m ecanism os para la
definición de criterios que ayuden a garantizar la fiabilidad de la propuesta.
— C riterio de validación: la validación de una propuesta requiere la interven
ción de un experto. E n el caso de las mamografías, p o r su criticidad, es n o r
mal que esta fase de validación sea ejercida p o r el experto radiólogo.
— C riterio de m antenim iento del conocim iento: la capacidad de resolver p ro
blemas está estrecham ente ligada a la experiencia de la que se dispone. Por
eso hace falta asegurarse bien de la consistencia de ese conocim iento, tanto
incluyendo casos nuevos que se hayan resuelto com o elim inando aquellos
que confunden al sistema.
Todos los puntos anteriores tienen el m ism o denom inador com ún: la experien
cia del sistema almacenada en la m em oria de casos. Lo deseable sería que esta m e
m oria de casos se caracterizara siempre p o r las propiedades de ser:
— Com pacta: no debe contener casos redundantes ni con ruido porque éstos
pueden distorsionar la realidad y confundir al sistema en el proceso de recu
peración de los casos más similares.
— Representativa: no es posible resolver aquello de lo que no se tiene constan
cia; así pues, es necesario disponer de casos representativos de todos los dife
rentes aspectos característicos del dom inio para no ten er una visión parcial
de la realidad.
— R educida: la velocidad con la que responde el sistema está relacionada con el
núm ero de elem entos de los que se dispone. El tam año de la m em oria tiene
que perm itir la respuesta del sistema en u n tiem po razonable.
Estas tres propiedades p ueden resumirse en la premisa siguiente: disponer de un
conjunto m ínim o de casos independientes capaces de representar com pletam ente
el dom inio.
O tro ejem plo: el m arketing online
D esde la popularización de In tern et, la disciplina del m arketing ha cambiado p o r

com pleto. D e hecho, hoy en día u n elevadísimo porcentaje del m arketing diario ha
dejado de ser estático y se ha pasado de u n m arketing de masas a otro personalizado.
P or ejemplo, cuando se visita una página w eb o, en general, se navega p o r Internet,
van apareciendo anuncios, o banners, arriba, abajo o en los laterales de las páginas
visitadas. Estos anuncios n o son en absoluto aleatorios ni estáticos, sino que m e
diante diversas herram ientas se va siguiendo y analizando el p atrón de com porta
m iento del navegante y los anuncios que éste ve están com pletam ente personaliza
dos en función de sus intereses actuales.
¿Q uién no ha recibido u n correo electrónico a través de Gmail, el servicio de
correo de Google, y no ha observado que en los laterales siempre aparece publici
dad relacionada con el contenido del m ensaje que en ese m o m en to se está leyendo?
¿O quién no ha visitado una página w eb para consultar alguna cosa y se ha en co n
trado con anuncios de hoteles en París, cuando justam ente es lo que estuvo buscan
do la semana anterior?
Todos los m ecanism os usados p o r Google, y p o r otras empresas similares, para
dirigir el m arketing online son herram ientas inteligentes que, de m anera instantá
nea y autom ática, pueden tom ar esas decisiones de publicidad sin la intervención
hum ana. D e hecho, si se incorporara algún tipo de intervención hum ana sería im
posible realizar tantas acciones de m arketing p o r segundo, ya que el n úm ero de
páginas web visitadas p o r segundo en todo el m undo es una cifra que debe rondar
las decenas de millones.
Si se tuviera que escoger la herram ienta de m arketing online más inteligente de
entre todas las posibles, m uchos optarían p o r el m ecanism o de sugerencia de libros
que usa A m azon, que, dicho sea de paso, es el m ism o que utilizan otras empresas
para propósitos similares, com o, p o r ejem plo, Yahoo en su R ad io L A U N C H cast,
que se basa en las canciones que el usuario ha pun tu ad o positivam ente para crear su
perfil y pincha en el futuro canciones que otros usuarios de u n perfil similar al suyo
tam bién han escuchado y puntu ad o positivam ente. E n A m azon este sistema se p u e
de apreciar claram ente cada vez que se busca u n objeto determ inado, tanto si se es
un usuario registrado com o si no, en la sección Customers who bought this ítem also
bought... («Clientes que com praron este objeto tam bién com praron...»). A unque
pueda parecer trivial, la com plejidad que se esconde tras esta simple idea es m uy
im portante, hasta el punto de que esta herram ienta se basa en técnicas clasificadas
dentro de la inteligencia artificial, que van bastante mas allá del m ero hecho de
explorar qué hay en las cestas de la com pra de otros usuarios que com praron el
mism o objeto que se está revisando ahora.
Página de búsqueda de afinidades de Amazon.
La herram ienta típica utilizada para aproxim ar este tipo de problemas es lo que
se conoce com o «redes bayesianas» y, de hecho, el m ayor centro de investigación
m undial especializado en esta herram ienta es el M icrosoft R esearch Institute, d o n
de se estudia la aplicabilidad de esta técnica no sólo para el m arketing online sino
tam bién para otros aspectos, com o que la interfaz de usuario de W indow s se adapte
autom áticam ente a cada individuo según su m anera de trabajar o sus preferencias.
La idea que subyace detrás de una red bayesiana es que hay cadenas de eventos
que suelen sucederse y que p ueden com partir probabilidades con otras cadenas de
eventos; p o r eso se llaman «redes», p orque son cadenas de probabilidades entrecru-
zadas.Veamos u n ejem plo sobre la com pra de libros:
O TRO S USOS D EL M ARKETIN G A U T O M Á TIC O
El m arketing en superm ercados tiene
como objetivo acertar nuestros gustos y
necesidades para que, de este modo, lle
nemos más fácilmente nuestro carro de la
compra. El marketing automático no sólo
se aplica en el mundo virtual de Internet:
hoy en día los bancos, los operadores de
telecomunicaciones e incluso los super
mercados de barrio son usuarios de esta

Interior de un supermercado en Nueva York
nueva aproximación. Por ejemplo, ¿quién (fuente: David shankboney
no conoce los cupones de descuento del
supermercado en el que muchas veces hacemos la compra semanal? Lógicamente, no nos
suelen dar cupones de descuento para los productos que ya compramos habitualmente (supo
niendo, claro esté, que lo hagan bien), sino para productos que nosotros no solemos adquirir
pero que otros clientes con cestas de la compra similares a la nuestra sí que compran. Con
ello, nos dan a conocer ese producto, que posiblemente no conocíamos o no habíamos com
prado nunca, para que a partir de esta primera compra tal vez se convierta en un habitual de
nuestra cesta. Lo mismo sucede con otro tipo de empresas, como los servicios financieros o de
telecomunicaciones, de los que es bastante habitual recibir ofertas para productos que no co
nocíamos pero que ellos intuyen que, por nuestro perfil de consumidor, nos pueden interesar.
E n la red del ejem plo podem os ver que el 98% de los clientes que com praron
Yo, robot tam bién adquirieron La fundación. E n cambio, ninguno de los que com pra
ron D une adquirió tam bién Orgullo y prejuicio, p o r lo que no se establece ninguna
relación entre estos dos libros. P or eso, si el sistema detecta que u n cliente acaba de
adquirir Yo, robot y ahora está buscando inform ación sobre La fundación, en el apar
tado de recom endaciones ya estará apareciendo D une y Contacto, ya que u n p o rcen
taje m uy significativo de la gente que com pró los dos prim eros tam bién adquirió
estos otros. C o n todo ello, el sistema trata de aum entar sus ventas m ediante una
campaña de m arketing individualizada a cada cliente y autom atizada para anunciar
dos productos que quizás el cliente no sabía que existían, pero com o el sistema
tiene m ucha inform ación de otros com pradores previos, ha podido establecer esta
red de relaciones causales y la usa para hacer nuevas recom endaciones.
Además, el sistema tam bién sabe que publicitar Orgullo y prejuicio a u n cliente
que está com prando ciencia ficción, que es lo que sucedería si se hiciera una cam
paña de m arketing clásica, es perder el tiem po. E n una campaña tradicional de
m arketing se anunciaría la nueva edición de Orgullo y prejuicio dentro del program a
tem ático sobre libros y lectura que se em itiera en el canal cultural a las 23:00 h, p or
ejemplo. Sin em bargo, aunque se habría escogido el program a y la franja horaria
donde el telespectador tendría más probabilidad de estar interesado en el producto,
seguiría existiendo u n gran núm ero de telespectadores aficionados a los libros de
ciencia ficción en los que este anuncio no estaría surgiendo n ingún efecto, con la
pérdida m onetaria que esto supone para la empresa anunciante. Para un canal de
m arketing estático, com o la televisión, la radio o los carteles en las calles, es im p o
sible que el anunciante conozca el perfil individualizado de los clientes del m o m en
to y, aunque lo supiera, carece de las herram ientas necesarias para adaptar el anuncio
em itido a cada uno de ellos.
El cerebro del robot: las redes neuronales

La robótica es una de las áreas más complejas de la ingeniería, no sólo p o r toda la
electrom ecánica y servocontrol que se debe im plem entar en un simple brazo robo-
tizado, sino p o r los sofisticados cálculos m atem áticos que se requieren para calcular
las trayectorias de sus partes móviles. Para ello, en algunos casos el robot cuenta con
un cerebro artificial com puesto, del m ism o m odo que lo están los cerebros de los
seres superiores, p o r redes de neuronas. E n este caso, sin embargo, estaremos hablan
do de neuronas artificiales.
Infografía de una de las neuronas que componen

el cerebro humano (fuente: Nicolás R Rougier).
Los conceptos de «red neuronal» y «neurona artificial» han pasado p or diferentes
ciclos de euforia-decepción a lo largo de su corta vida. Sus inicios se rem ontan al
algoritm o T hreshold Logic U n it (U nidad Lógica U m bral), propuesto p o r W arren
M cC ulloch y W alter Pitts en la década de 1940 y que tuvo un éxito abrum ador.
U na neurona artificial es, de hecho, la encapsulación de dicho algoritm o, el cual es
definido p o r los profesionales de la com putación com o:
E ntrada( —> Xj
E ntrada, —* X2
Entrada.I —> X.I
si Z (X. • Peso.) > U m bral,

entonces Salida ■*— 1
sino Salida <— 0
que quiere decir, en lenguaje corriente, que si el estím ulo [la sum a de productos
(X - Peso.)] supera u n determ inado um bral, entonces, y sólo entonces, se dispara la
neurona.
C o m o puede verse, una neurona es u n elem ento extrem adam ente simple, pues
sólo im plem enta unas pocas operaciones aritm éticas y una com paración. Este h e
cho facilitó la im plem entación de las neuronas artificiales en microchips, de m ane
ra que se pudieron im plem entar redes neuronales completas en hardware a partir de
finales de los años noventa. Estos m icrochips se usan en la actualidad para construir
aparatos electrónicos de predicción, com o, p o r ejemplo, los instrum entos capaces de
detectar la causa del malestar de un bebé que llora.
El funcionam iento de una neurona artificial es parecido al de una neurona na
tural y, com o se ha podido observar, bastante sencillo. D e hecho, la dificultad de las
redes neuronales radica principalm ente en dos elem entos que deben ajustarse y de
los cuales dependerá que la red pueda realizar predicciones más o m enos correctas:
el peso de las diversas entradas y el um bral. El arduo proceso de ajustar estos valores
para que, dada una serie de entradas, la neurona produzca la salida deseada es lo que
se conoce com o «proceso de entrenam iento», o en térm inos psicológicos, «apren
dizaje». La innovación del aprendizaje neuronal fue introducida p o r Frank R o se n -
blatt a finales de la década de 1950, y el invento de una neurona que pudiera ajustar
los pesos y el um bral fue conocido com o «perceptrón».
E n térm inos biológicos, el com portam iento de una neurona natural es práctica
m ente el mismo: cada neurona tiene un conjunto de entradas p or las que percibe
señales eléctricas provenientes de otras neuronas, lo que se conoce com o «conexio
nes sinápticas», y a partir de ellas evalúa si esos estímulos superan u n um bral de
sensibilidad, siempre teniendo en cuenta que hay conexiones sinápticas que son más
im portantes que otras (los pesos de los que se hablaba antes). Si se supera este u m
bral de sensibilidad, se propaga una señal eléctrica a través del axón, o lo que sería
su equivalente en una neurona artificial, la salida.
M ediante esta relativa simplicidad, el perceptrón se planteó com o un a útil h e
rram ienta predictiva: dada una muestra, predice si es de una clase (0) o de otra (1).
U n ejem plo clásico es el problem a del género botánico Iris, en el que se tienen
muestras de tres especies: Iris setosa, Iris versicolor e Iris virginica. C ada m uestra recogi
da se define p o r cuatro parámetros: la lo ngitud de sus pétalos, la am plitud de los
mismos, la longitud de sus sépalos y la am plitud de éstos. El objetivo es que, dada
una nueva muestra, la herram ienta nos diga a qué especie pertenece. E n este caso,
usaremos tres perceptrones, cada u n o especializado en la detección de una sola de
las tres especies, de tal m anera que si la nueva m uestra es de la especie Iris setosa, sólo
uno de los perceptrones debería retornar l , y los otros dos, 0.
Iris setosa, I. versicolor e I. virginica, en este orden. Según la forma y dimensión

de los pétalos y sépalos, el sistema es capaz de categorizar nuevas flores.
E n estos m om entos, es posible que el lector esté pensando que p or qué no se usan
herramientas de tipo estadístico para resolver el problem a del Iris. E n efecto, este p ro
blema es tan simple que tam bién se podría resolver m ediante herramientas estadísticas
clásicas, com o el análisis de com ponentes principales. Sin embargo, nótese que el
perceptrón y las herramientas estadísticas nos aportan dos maneras de razonar m uy
distintas, y que tal vez la más similar al razonam iento natural sea la del perceptrón.
E n el caso de utilizar herram ientas estadísticas, en el problem a del Iris hubiéra
mos obtenido reglas del tipo: «si los pétalos están entre tal y tal longitud, y su an
chura está entre ésta y esta otra, es probable que esta m uestra sea de la especie X».
M ientras que la m anera de razonar de un perceptrón es la siguiente: «si los pétalos
están entre tal y tal longitud, y su anchura está entre ésta y esta otra, es probable que
esta m uestra sea de la especie X , a no ser que tenga unos sépalos tan cortos que
entonces ya no m e im porta cóm o sean los pétalos p o rque p uedo decir que es de la
especie Y».
Es decir, m ediante el sistema de ponderar el valor de las entradas para la tom a de
decisiones hay alguna inform ación que puede pesar m ucho m enos que otra, pero
que, si se llega a u n valor extrem o, esta entrada antes poco im portante pasa a co n
vertirse en m uy relevante para la tom a de la decisión.
Las neuronas se agrupan

A pesar de la gran innovación que supuso el perceptrón y del amplio rango de
aplicabilidad que se le preveía, pronto se descubrió que no podía operar en un de
term inado grupo de problemas llamados «no-separables linealmente». Por desgracia,
la mayoría de problemas de la vida real son de este tipo. P or eso, en la década de
1980 surgieron num erosos críticos a las redes neuronales en un debate que a m en u
do sobrepasaba lo científico y entraba a descalificar personalm ente a los defensores
del perceptrón.
Este hecho coincidió, para m ayor decepción y frustración de los científicos que
investigaban en estas áreas, con la época oscura de la inteligencia artificial, etapa que
se vio marcada p o r u n más que significativo descenso de los fondos dedicados a ella,
tanto en Estados U nidos com o en Europa.
E n p rim er lugar, la sociedad se dio cuenta
de que la idea que se había vendido en p e
lículas com o 2 0 0 1 : Una odisea en el espacio
no iba a ser cierta en u n larguísimo lapso de
tiem po; en segundo lugar, las agencias gu
bernam entales estadounidenses, que habían
Durante años se pensó que la creación de

ordenadores superinteligentes com o HAL 9000,
de 2001: Una odisea en el espacio, era una
posibilidad muy real. Pronto llegó la decepción.
LA N O-SEPARA BILIDA D LIN EAL
Si consideramos una situación en la que ias muestras puedan ser de dos categorías y cada
una de ellas esté descrita por dos descriptores (por tanto, dos entradas), podríamos dibujar
un gráfico como el siguiente, con ocho muestras recogidas.
En él, los círculos blancos representan las muestras de la categoría A, y los negros, las de la
categoría B. Como puede apreciarse, es fácil trazar una línea que separe ambas categorías,
y eso es justamente lo que hace un perceptrón cuando se ajustan el umbral y los pesos de
cada entrada. Sin embargo, ¿qué pasa si analizamos el problema sintético de la X-OR? X-OR
es una operación lógica (corresponde al «o» exclusivo) que cumple con la siguiente relación:
Entrad as Salida
00 0
01 1
10 1
11 0
Ahora el gráfico queda así:
En este caso no es posible dibujar ninguna recta que separe los círculos blancos de los negros
y, por tanto, estamos ante un problema no-separable linealmente. Un perceptrón no podría ser
entrenado correctamente en la solución de un problema lógico tan simple como el de X-OR.

depositado grandes esperanzas en la inteligencia artificial para decantar a su favor la
G uerra Fría, sufrieron notables fracasos, com o el de la traducción autom ática, que
era de capital im portancia para la interpretación de docum entos técnicos rusos. A
pesar de la enorm e reducción de fondos que supuso descubrir la ineficacia de los
perceptrones en los problemas no-separables linealm ente, la investigación en el
tem a continuó, si bien a una velocidad m ucho m en o r y algunas veces en secreto,
con el fin de que sus investigadores no fueran ridiculizados p o r la gran mayoría de
detractores. Pero ¿se podía solventar realm ente el problem a de la no-separabilidad
lineal?
La respuesta vino a finales de los años ochenta y era tan obvia y natural que, de
hecho, no se com prende cóm o los investigadores no se habían percatado antes. La
propia naturaleza ya había descubierto la respuesta m illones de años atrás: la solu
ción estaba en conectar diversos perceptrones entre sí para form ar lo que se conoce
com o «redes neuronales».
E n la figura siguiente se m uestra una red neuronal form ada p o r tres capas n eu
ronales: la prim era es la de entrada, la segunda es la oculta y la última, la de salida. A
esta red neuronal se la denom ina «feed forward» (algo así com o «alimentado hacia
delante»), ya que el flujo de los datos siempre es de izquierda a derecha y no se
form an ciclos entre las conexiones sinápticas.
Capa de Capa Capa de

Entrada O culta Salida
Entrada 1
Entrada 2
Salida
Entrada 3 O
Entrada n
Pero una red neuronal puede ser tan com pleja com o se desee, co n tantas capas
ocultas com o el program ador considere o p o rtu n o y, además, con conexiones que
pueden ir desde delante hacia atrás para simular una especie de m em oria. E n este
sentido, se han llegado a construir redes neuronales con 300.000 neuronas, que es
el m ism o núm ero de neuronas que contiene el sistema nervioso de una lom briz de
tierra.
E n una red neuronal el aprendizaje se complica, y p o r ello los ingenieros han
ideado un gran núm ero de m étodos de aprendizaje. U n o de los más simples es el
m étodo de la retropropagación, o en inglés back-propagation, que además da nom bre
a las redes neuronales que hacen uso de él. Este m éto d o consiste en m inim izar el
error de salida de la red neuronal a base de ajustar de derecha a izquierda los pesos
de entrada de las conexiones sinápticas de las neuronas siguiendo el m étodo del des
censo de gradiente. Es decir, que prim ero se les dan valores aleatorios a los pesos de
todas las conexiones de la red y a continuación se introduce una m uestra con el
valor conocido que se debe predecir; p o r ello se dice que es una m uestra «de entre-
LA TR A M PA D EL SO BR EEN TREN A M IEN TO
Un sistema de predicción basado en el aprendizaje artificial deduce sus predicciones de la
generalización que es capaz de hacer a partir de casos pasados. Por tanto, cuando el sistema
no es capaz de generalizar, éste pierde su utilidad.
Cuando el proceso de entrenamiento se repite demasiadas veces llega un punto en el que
el ajuste es tan exacto y está tan adaptado a las muestras de entrenamiento que el sistema,
como las ha memorizado, ya no basa sus predicciones en una generalización sino en la me
morización. Cuando esto sucede, el sistema ya sóio es capaz de realizar predicciones correctas
en el caso de que se le introduzcan muestras del conjunto de entrenamiento, y siempre que
se le Introduzca una muestra distinta para
que realice una predicción, ésta será inco
rrecta. Entonces se dice que el sistema está
«sobreentrenado».
De alguna manera, es lo mismo que le ocurri
ría a un niño que, en vez de aprender a multi

plicar, memorizase solamente las tablas. Si se
le preguntara por una de las operaciones que
ha memorizado, contestaría correctamente
sin dudarlo, pero no sucedería lo mismo si se
le preguntase por una nueva multiplicación fafa/as de mult¡pljcar son un buen
que no forma parte de las tablas. ejemplo de aprendizaje po r memorización.

namiento». C om o es de esperar, el resultado que retornan las neuronas de salida es
un valor aleatorio. A partir de aquí, com enzando p o r las neuronas más cercanas a la
salida y term inando p o r las de la entrada, se em piezan a ajustar los valores de los
pesos de las conexiones con el objetivo de que el valor de la neurona de salida se
acerque al valor real conocido.
Este procedim iento se repite centenares o miles de veces con todas las muestras
de entrenam iento. C uando se ha com pletado el proceso con todas ellas, se dice que
ha pasado una época. A continuación, se puede repetir el proceso otra época entera
con las mismas muestras. U n proceso de aprendizaje norm al consta de unas pocas
decenas de épocas. Obsérvese que este proceso es similar al proceso psicológico de
aprendizaje, en el que se aprende p o r repetidas observaciones de los mismos datos.
La arquitectura de las redes neuronales y los m étodos de aprendizaje fueron
sofisticándose a lo largo de los años, y poco a poco fueron surgiendo u n gran n ú
m ero de tipos de redes neuronales diferentes para aplicaciones m uy diversas de la
vida real. U nas de las más usadas en la actualidad son las de H op ñ eld , que im ple-
m entan u n tipo de dispositivo de m em oria llamado «m em oria asociativa».
Esquema de una red neuronal de Hopfleld.
E n una m em oria asociativa, la inform ación está ordenada según el co ntenido y,

po r tanto, para acceder a ella hay que indicar a qué contenido querem os acceder, en
vez de dar una posición física-electrónica, com o se hace en un disco duro o en la
m em oria R A M de u n ordenador.
O tro tipo de redes neuronales m uy usadas en la actualidad son las redes o mapas
autoorganizativos o mapas de K o h o n e n .E n este caso, la red neuronal incorpora una
innovación: el aprendizaje no es supervisado, sino que la propia red va autoapren-
diendo de sus errores a m edida que va trabajando.
Y el cerebro funciona
Existe una disciplina de la física, la cinem ática inversa, que se encarga de calcular los
m ovim ientos necesarios que se deben desencadenar para trasladar un objeto desde
un p u n to del espacio A hasta otro p u n to B. Estos cálculos se com plican de form a
exponencial, en cuanto al núm ero de operaciones matriciales que se deben resolver,
a m edida que se introducen grados de libertad en el sistema.
Por ejem plo, dado un brazo robotizado con cuatro ángulos de torsión y una
extensión retráctil co m o el que aparece en la figura siguiente, si se quisieran resol
ver p o r la vía clásica las ecuaciones matriciales de cinem ática inversa, u n superor-
denador podría tardar horas en realizar todos los cálculos necesarios para saber con
qué m agnitud y en qué sentido debem os desplazar cada grado de libertad para
llevar la herram ienta situada en el extrem o del brazo desde A (punto inicial) hasta
B (punto final).
•A
Por ello es im posible m antener sistemas robotizados que m odifiquen sus trayec
torias en tiem po real basándose en la resolución clásica de matrices. E n el caso de
aquellos robots que ejercen sistem áticam ente las mismas tareas repetitivas (piénsese,
p o r ejem plo, en los robots de una cadena de m ontaje de una fabrica de autom óvi
les) se pueden calcular y program ar a priori todos los m ovim ientos, paso a paso, que
deben ejecutar los m otores de cada ángulo de torsión o brazo retráctil del robot. Sin
embargo, si se desea im plem entar u n brazo robotizado capaz de actuar autónom a
m ente y con capacidad para coordinar sus acciones en función de una situación
concreta (piénsese ahora en los robots ubicados en astronaves, en los empleados en
cirugía o, sim plem ente, en los prim eros robots experim entales de uso dom éstico),
se necesitan sistemas más innovadores que perm itan a los elem entos de proceso del
robot calcular de m anera rápida cóm o se tiene que m over para cum plir con su co
m etido.
Para ello, uno de los sistemas de control m o to r más eficientes que existen en la
actualidad son las redes neuronales de retropropagación. E n el caso del robot, la red
neuronal entrenada para su control tendrá tantas salidas com o grados de libertad
disponga el robot, y cada una de ellas indicará la m agnitud y el sentido con el que
debe desplazarse cada m o to r para ir desde el p u n to inicial hasta el final.
Sin embargo, el gran inconveniente de esta aproxim ación es que la red neuronal
debe pasar p o r u n largo proceso de aprendizaje, innecesario en una aproxim ación
clásica. E n cierto m odo, se podría ver com o el proceso de aprendizaje de u n ser
hum ano, que de pequeño aprende a cam inar a base de prueba y error, pero que, una
vez que ha aprendido a andar, no hace falta que esté solventando a cada paso las
complejas ecuaciones físicas que resuelven la cinem ática de sus piernas para despla
zarse y no perder el equilibrio.
Por ello, el entrenam iento habitual que se usa en estos casos es el de m ostrar a la
red neuronal de retropropagación decenas de miles de veces, una y otra vez, cente
nares de miles de trayectorias posibles y enseñarle cóm o se m ueven en cada caso los
distintos m otores para pasar del p u n to inicial al final.
U na vez que la red está adecuadam ente entrenada, se dice que ha aprendido el
m apa sensoriom otor. Esto perm ite que el centro de procesado de un ro bot pueda
resolver con precisión m ilim étrica la cinem ática inversa del ro b o t en escasos m ili-
segundos.
Y el cerebro se com plica

Los buenos resultados obtenidos p o r las redes neuronales provocaron que, ya en el
siglo X X I, éstas se estandarizaran com o la herram ienta m odelo que había que usar
ante m uchos problemas. Sin em bargo, tenían aún grandes puntos débiles.
El prim ero de ellos era el sobreentrenam iento; es bastante fácil caer en él duran
te el entrenam iento de una red neuronal. El segundo era el gran núm ero de pará
m etros que deben fijarse «a mano» y de m anera arbitraria antes de pasar a la etapa
de aprendizaje de la red neuronal, y el problem a de ajustar todos esos im portantes
factores «a mano» radica en que no existe n ingún m anual ni ninguna m etodología
para hacerlo, con lo cual se deben invertir grandes recursos hum anos y técnicos (la
mayoría de las veces m ediante el antiguo y detestable m étodo de prueba y error)
hasta ajustar todas estas características. U n tercer problem a, ya más filosófico que
práctico, es la incom prensión del razonam iento de una red neuronal una vez está
entrenada. A este hecho no se le dio im portancia hasta que las redes neuronales
em pezaron a introducirse plenam ente en la resolución de problemas reales. Si, p or
ejemplo, se usa una red neuronal para controlar el sistema de frenado ABS de un
coche, es lógico que los ingenieros quieran asegurarse de entender, hasta el últim o
detalle, cuál es el razonam iento de la red neuronal, para así p o d er asegurar que los
frenos no van a fallar ante ninguna de las miles de situaciones diferentes de frenado
en que se pueden ver implicados.
= o
>
La red neuronal realiza predicciones, pero no se sabe qué razonamiento
sigue para obtenerlas. Hay quien la compara con una bola de cristal.
Por estos im portantes motivos, diversos teóricos de la com putación trabajaron

intensam ente desde finales de los años noventa para diseñar nuevos m étodos com -
putacionales que solventaran o m itigaran estos efectos. La solución final llegó a
principios del siglo XX I de la m ano de V ladim irVapnik y de su equipo, de la fam o
sa empresa de telecom unicaciones y equipos electrónicos A T& T Bell Labs. Vapnik
ideó las máquinas de soporte vectorial (SupportV ector M achine, SVM p or sus siglas
en inglés), que se basan principalm ente en introducir nuevas dim ensiones artificia
les a u n problem a no-separable linealm ente para que, gracias a las nuevas dim ensio
nes artificiales introducidas, ahora sí lo sea.
Las SVM logran superar la mayoría de los inconvenientes que aparecían en las
redes neuronales (sobre todo sobreentrenam iento, fijación de parám etros iniciales e
incom prensibilidad de su razonam iento), p o r lo que en la actualidad las han susti
tuido en prácticam ente todos los ámbitos de la com putación. Sin em bargo, todavía
se utilizan en algunas aplicaciones industriales, com o en el cam po de la robótica,
debido a la simplicidad de su im plem entación en hardware.
¿Son necesarios los exám enes?

¿Se puede aplicar el aprendizaje artificial al aprendizaje natural? C o m o se ha ido
viendo, el aprendizaje artificial se puede aplicar a todos los ámbitos de la ciencia y
de la tecnología, pero ¿es posible ir más allá y aplicarlo a las ciencias sociales, y en
particular a la educación? ¿C óm o determ ina u n profesor el nivel de conocim iento
alcanzado p o r sus alumnos? ¿Se p ueden autom atizar algunos de los criterios subje
tivos que profesores y maestros aplican a m enudo para evaluar a sus alumnos? In
cluso, ¿se puede predecir el rendim iento de u n alum no sin ten er que examinarlo?
Todo ello se puede realizar m ediante una técnica tan sencilla com o los árboles de
decisión.
¿Desaparecerá esta imagen de las aulas del futuro? Seguro que m uchos estudiantes
estañan felices de que asi fuera...
Los árboles de decisión son una herram ienta m uy simple, pero tam bién m uy
efectiva, para el reconocim iento de patrones. U n árbol de decisión trata de buscar
cuáles son las variables más decisivas o discrim inantes que decantan una muestra
hacia una clase u otra. Veamos u n ejem plo: estamos ante u n problem a de predicción
de notas de los alum nos de un determ inado instituto y tenem os los siguientes datos
de entrenam iento:
Nota del curso A sistencia Ejercicios O bjetivo: ¿A probado

a n te rio r a clase entregados o suspenso?
Mayor que la media 100% 45% Suspenso
Mayor que la media 100% 100% Aprobado
Mayor que la media 90% 100% Aprobado
Menor que la media 85% 30% Suspenso
Menor que la media 100% 80% Aprobado
EL Á R B O L DE LA INFO RM ACIÓ N
El árbol es un tipo de estructura organizativa de la información muy utilizada en ingeniería,
ya que permite relacionar los datos de una manera jerarquizada. El árbol, como estructura
de datos, utiliza una nomenclatura propia, que es Interesante conocer:
N ivel 1
N ivel 2
N ivel 3
Cada uno de los datos de un árbol se denomina «nodo», y estos nodos, que representan una
unidad de información, se dividen en los distintos niveles y se relacionan entre ellos mediante
ramas. Un nodo relacionado con otro de distinto nivel será su padre si su nivel es superior, o su
hijo, en caso contrario. Finalmente, los nodos que no tienen hijos son denominados «hojas».
U n árbol de decisión que m odela b ien estos datos puede ser el siguiente:
Suspenso A probado
E n este caso, la asistencia a clase no es una variable discrim inante, ya que no

form a parte de los nodos del árbol. Existen distintas m etodologías para determ inar
si la variable de un m odelo es discrim inante. U n a de las más utilizadas es la que se
basa en la entropía de Shannon. Según este m étodo, en cada nivel del árbol se ana
liza cuál es la variable que genera una m en o r entropía, y ésta es la que se selecciona
para discrim inar en ese nivel del árbol. Vamos a verlo con más detalle.
La entropía de Shannon, S, viene definida p o r la siguiente fórm ula:
S = - ¿ » . -ln(H.).
Veámosla en acción usando el ejem plo de los exámenes. E n el p rim er nivel del
árbol deberem os analizar la entropía generada p o r cada variable. La prim era de ellas
es la variable «nota del curso anterior». Si separamos las muestras p o r esta variable
nos quedan dos subconjuntos de muestras, u n o con
N o ta del curso anterior m e n o r que la m edia

= -0 ,7 5 ■ln(0,75) —0,25 • ln(0,25) = 0,56,
ya que de entre los alum nos que el año pasado tuvieron una nota m en o r que la
m uestra hay un 75% de suspensos y un 25% de aprobados, y otro con
N o ta del curso anterior m ayor que la m edia

-0,33 • ln(0,33) - 0,67 • ln(0,67) = 0,64,
ya que u n tercio de los alum nos que el año pasado tuvieron una n o ta m ayor que la
m edia han suspendido y dos tercios han aprobado.
Esta operación se repite para cada variable. Y la siguiente es la «asistencia a clase»,
en la que, para simplificar, discernirem os entre mayor que el 95% y m en o r que el
95%. E n este caso,
SA. . . lqw = —0,67 • ln(0,6)
Asistencia a clase m ayor que el \ *
—0,4
/ >
• ln(0,4)
\ /
= 0,67;
. . - a clase
S Asistencia , m en o r que el10W
95%
= - 0 ,57- ln ( 0' ,57 ) -70 ,57- ln ( 0 N,5 ) / = 0,69.
Finalm ente, analizarem os la variable «ejercicios entregados», en la que, de n u e

vo para simplificar, dividirem os en m ayor que el 60% y m e n o r que el 60%. Así:
v. .. entregados
S Ejercicios „ . m ayor q ue 6U% = - 0 ,77 5 - ln(0,7
\ *
5/ ) - 0 ,2 5 - ln(0
'
,25)' = 0,56
y
S Ejercicios
p- j = —1 ■ln(l) = 0.' '
entregados m e n o r que 60%
Por tanto, la variable que m ejo r discrim ina es esta últim a, puesto que las entro
pías de los subconjuntos que genera son de 0,56 y 0.
E n este caso, las muestras de entrenam iento que caen en el lado de «menos del
60% de los ejercicios entregados» son todo suspensos, p o r tanto, ya no nos tenem os
que preocupar de esta ram a del árbol. Sin em bargo, la otra ram a contiene tanto
suspensos com o aprobados; p o r consiguiente, debem os proseguir el análisis de m a
nera recursiva, eso sí, sin ten er en cuenta las muestras que ya han sido discriminadas.
A hora sólo nos quedan dos posibles variables de decisión: «nota del curso ante
rior» y «asistencia a clase». Las entropías de Shannon de los grupos generados m e
diante la prim era variable discrim inante son las siguientes:
SM , .. = —07,5 -ln (0
N o ta del curso a n te n o r m e n o r q ue la m edia
,5 ) —0,5
\ 7 / 7
-ln (0
\
,5 )' = 0,69;
7 7
SMt ,, , . , .. = - l - l n ('l )' = 0,7

N o ta del curso a n tenor m ayor que la m edia
m ientras que si se analiza el co m portam iento en «asistencia a clase», tendrem os:
^ A s i,te n c ia a clase m ayor que el 95% = ~ 0 , 3 3 ■l n ( 0 , 3 3 ) - 0 , 6 7 • ln ( 0 ,6 7 ) = 0 ,6 4 ;
S Asistencia
,. .
a clase m ayor que eJ VDyo
= —l- ln (l)
' '
= 0.
Por tanto, se escoge la variable discrim inante de «asistencia a clase», ya que pre
senta unas entropías m enores.
El m étodo de construcción de los árboles de decisión y, p o r tanto, el m étodo
que hace que los árboles aprendan, es sencillo y elegante, pero tiene dos grandes
inconvenientes. El prim ero es que en problemas con u n gran núm ero de variables
de decisión resulta m uy lento, y el segundo, y más grave, es que puede caer fácil
m ente en óptim os locales, es decir, com o nunca se analiza el árbol en su globalidad,
sino nivel a nivel, es posible que una determ inada variable de decisión m inim ice la
entropía en u n determ inado nivel y se escoja, pero en cam bio si se hubiera escogi
do otra, el árbol clasificaría m ejor a escala global.
U n «truco» que se utiliza habitualm ente para m ejorar los índices de acierto de
los árboles de decisión es usar «bosques», es decir, entrenar diversos árboles, cada
u no con u n m étodo diferente, y o b ten er la predicción final del consenso de la pre
dicción de cada uno de los diversos árboles que co m p o n en el bosque.
Siguiendo esta filosofía, la m etodología más frecuente de entrenar u n bosque es
construir árboles de decisión m ediante la selección aleatoria de variables de deci
sión; es decir, si querem os entrenar unos 100 árboles que com pondrán nuestro
bosque, para cada árbol se seleccionan unas 5 variables de decisión aleatorias, y se
entrena el árbol sólo con aquellas 5 variables. Esta aproxim ación se conoce con el
p oético nom bre de «random forest» («bosque aleatorizado»).
C apítulo 4
Planificación y razonamiento
automático
Los sucesos siguientes podrían o c u rrir un día cualquiera:
14:32 h: U n cam ión con exceso de velocidad vuelca en una carretera secundaria.
El conductor recibe u n fuerte golpe en la cabeza.
14:53 h: A cuden al lugar del accidente una ambulancia y los bom beros, y en pocos
m inutos consiguen evacuar al conductor, inconsciente y con una grave
fractura craneal.
15:09 h: La ambulancia llega al hospital, donde el servicio de urgencias decreta la
m uerte cerebral del conductor.
15:28 h: Se identifica al sujeto y se avisa a su familia.
16:31 h: U na vez en el hospital, u n equipo de psicólogos se p o n e en contacto con
la familia del fallecido para darle soporte em ocional y obten er su consen
tim iento para la donación de los órganos no afectados p or el traumatismo.
16:36 h: D espués de u n breve debate, la familia acepta donar los riñones del fam i
liar fallecido (en adelante, el donante).
16:48 h: U n equipo quirúrgico em pieza los trabajos de extracción de los riñones y
la exploración m édica de éstos. E n paralelo, los responsables adm inistrati
vos del hospital trabajan en los trámites burocráticos para o b ten er la auto
rización legal.
17:24 h: U na vez concluida la extracción, se introducen en un sistema inform ático
los datos biológicos del donante y las características de los órganos.
Así com ienza u n trasplante de órganos.
C óm o se gestiona u n trasplante
17:24 h: D e m anera inm ediata, el sistema inform ático determ ina quiénes serán los
dos receptores de los riñones, les avisa y asigna y planifica los recursos
logísticos necesarios para el transporte. E n u n caso hay que preparar una
ambulancia para llevar u n o de los riñones al hospital de una ciudad vecina
(a 30 km de distancia), y en el otro es una avioneta de transporte m édico
la que llevará el riñ ó n a una ciudad que está a 450 km de distancia y p er
tenece a otro sistema autonóm ico de salud. El transporte del segundo
órgano desde el hospital del donante hasta el aeropuerto más cercano se
realiza m ediante un helicóptero, que el m ism o sistema inform ático asigna
de m anera autom ática. E n paralelo, este sistema está realizando tam bién
gran parte de los trám ites legales que requieren los dos sistemas sanitarios,
el del donante y el del receptor de la región vecina.
18:10 h: Em pieza el p rim er trasplante en el hospital de la ciudad vecina.
19:03 h: C om ienza el segundo trasplante en la ciudad situada a 450 km .
21:00 h: A m bos receptores están recibiendo el tratam iento postoperatorio e in m u -
nosupresor adecuado, y los dos evolucionan favorablemente.
¿Por qué el sistema español de trasplante de órganos está considerado com o

u n o de los m ejores del m undo? ¿Q ué tien e este sistema qu e n o tien en los de otros
países con una posición tecnológica y científica más avanzada que la española,
que hace que incluso la C o m isió n E uropea esté estudiando la extensión de este
m odelo a todos los países de la U n ió n ? C o m o el lecto r tal vez ya habrá intuido,
el sistema de trasplantes español está basado en u n p o te n te sistema de inteligencia
artificial distribuido p o r toda la red hospitalaria del país, que no sólo contem pla
y tiene en cuenta las necesidades y características de cada recep to r y todos los
detalles logísticos, sino tam bién la com pleja y fragm entada norm ativa de trasplan
tes del país.
D icho sistema in teligente está basado en u n sistema m ultiagente, lo que signi
fica que está constru id o a p artir de m uchos sistemas inform áticos, relativam ente
sencillos pero m uy especializados en su función, los cuales conform an una p o ten
te inteligencia colectiva que lo convierte en el m ejo r m odelo m undial de tras
plantes. U n sistema de coordinación de trasplantes n o rm alm en te tiene una es
tru ctu ra ció n m ultinivel, p o r ejem plo, a escala nacional, zonal, regional y hospita
laria, y además, en el ám bito hospitalario, los datos de los receptores se p u ed en
m an ten er distribuidos p o r la red de hospitales o agrupados en u n data warehouse
(«almacén de datos»). P o r to d o ello, existe una gran cantidad de agentes intelig en
tes que gestionan la in fo rm ació n de los receptores y que son consultados c o n ti
nuam ente p o r otros agentes inteligentes que se activan cada vez que hay u n d o -
/
EL PIGEON RANKING
La celebérrima empresa Google presume de una gran reputación en el mundo de la com
putación y de la inteligencia artificial. De hecho, su santo grial es el algoritmo que usa para
confeccionar los rankings de las búsquedas que los internautas de todo el mundo realizan
millones de veces por segundo. Tanto interés despierta ese algoritmo y tantas presiones recibía
Google para publicarlo que la mañana del 1 de abril de 2002 la empresa decidió poner un link
desde su página principal donde afirmaba que explicaba su algoritmo de ranking. El algoritmo
en cuestión se denominaba pigeon ranking («ranking de palomas»), y su extraño nombre no
era en absoluto un capricho. Contaba el artículo que Google disponía de unas instalaciones
llenas de PC (siglas de pigeon clusteren Inglés, es decir, «agrupamiento de palomas») y que
cada paloma disponía de una pantalla y un teclado. La descripción del algoritmo decía que
cada vez que un usuario realiza una búsqueda en Google, cada una de las webs que coincide
con dicha búsqueda es mostrada a una de las palomas, que acto seguido empieza a picotear
en su teclado. A continuación, las webs son ordenadas según el número de picotazos que ha
dado su paloma correspondiente.
En el mismo artículo, Google explicaba cómo manipulaban las palomas, cómo vivían y
cómo eran reclutadas. También se decía que habían probado con otro tipo de aves, como
las gallinas o distintas especies de aves de presa, pero que las palomas se habían revelado
como las más inteligentes y adecuadas para la tarea. El artículo incluso se atrevía a afirmar
que, si bien era cierto que ninguna paloma había llegado aún a ser miembro del Tribunal
Constitucional, en cambio sí que se había probado su eficacia como controladores aéreos
y árbitros de fútbol.
Muchos ingenieros y competidores no daban crédito a lo que estaban leyendo, hasta que la
gente empezó a caer en la cuenta de que el día 1 de abril en Estados Unidos y en muchos
otros países es el Aprils Fools, algo parecido al Día de los Santos Inocentes en algunos países
de habla hispana, en que la gente se suele gastar inocentadas durante toda la jornada.
nante. O tros agentes del sistema se encargan de aspectos diversos, com o la planifi
cación y la asignación de recursos logísticos para el transporte crítico de los órga
nos o la gestión de los trám ites administrativos que requieren los diversos sistemas
regionales de salud.
Ejemplo simplificado de una red de agentes encargada

de la coordinación de trasplantes de órganos.
Trabajar con una arquitectura m ultiagente inteligente com o ésta reporta muchas
ventajas, com o el hecho de que el sistema es redundante a fallos, puesto que si un
agente o conjunto de agentes falla, se puede autorregular y asignar otros agentes
para la realización de las tareas que deben desarrollarse. O tra gran ventaja, y que se
aprecia de form a m uy clara en el caso de los trasplantes, es que a base de im plem en-
tar agentes relativamente sencillos pero m uy especializados, se puede construir un
sistema inteligente capaz de resolver en pocos segundos diversas tareas complejas,
interdisciplinares y críticas a la vez.
P R O G R A M A CIÓ N O R IEN TA D A A A G EN TES
La programación de computadoras es un campo que evoluciona rápidamente. En la actualidad

existen cinco grandes familias de lenguajes de programación, y aquella que está orientada a
objetos es la más usada entre los programadores actuales. Se trata de un tipo de programa
ción en la que todo está representado mediante unidades de información llamadas «objetos».
Éstos cuentan con una serie de atributos donde se guarda la información sobre sí mismos
y son capaces de realizar algunas operaciones sobre dicha información. En la orientación a
objetos se requiere la intervención de coordinadores que posean la inteligencia y que vayan
solicitando a los objetos que realicen una u otra tarea, pero siempre asumiendo que el objeto
es básicamente un elemento poco inteligente que espera que le ordenen qué tiene que hacer.
Sin embargo, últimamente está emergiendo con fuerza una evolución de estas programa
ciones: la orientada a agentes. En ella, los objetos «tontos» pasan a ser agentes con mucha
más inteligencia y autonomía, de modo que la labor del coordinador ya no es tan crítica.
Planificar, ésa es la palabra

Planificar una serie de recursos, más o m enos num erosos, para que una determ ina
da tarea se lleve a cabo con éxito puede ser una actividad extrem adam ente com ple
ja, hasta para u n experim entado hum ano. Además, la planificación aparece en todos
los ám bitos de la vida real, desde tareas poco críticas, com o la planificación de pro
fesores, asignaturas, grupos de alum nos, aulas, laboratorios o dispositivos audiovisua
les de los que se disponga en un instituto de secundaria, hasta la crítica planificación
de los recursos en la extinción de u n incendio forestal o en una em ergencia ante
cualquier otra catástrofe natural.
Por otra parte, el razonam iento autom ático es una actividad extrem adam ente
sencilla para un hum ano, pero realm ente com pleja para una m áquina. D e hecho,
«razonar» es lo que en gran m edida caracteriza a u n ser hum ano y las claves de su
razonam iento aún no están claram ente desveladas p o r los neurobiólogos y expertos
en la m ateria. C o n el fin de im itar ese razonam iento, los ingenieros han inventado
algunas técnicas m uy interesantes, aplicables, p o r ejemplo, a los incendios forestales.
H oy en día, son ya varias las adm inistraciones que basan sus protocolos de ex
tinción de incendios forestales en sistemas planificadores basados en inteligencia
artificial. H abitualm ente, cuando se declara un incendio forestal de tam año m edio,
u n técnico de extinción tarda entre una hora y una hora y m edia en diseñar un plan
de extinción; dicho plan detalla el proceso que deben seguir los m edios disponibles
en ese m om en to en función de una serie de características del terreno, m eteoroló
gicas, etc. Sin embargo, uno de los problemas a los que se enfrentan norm alm ente
estos técnicos es que las condiciones son cambiantes y, además, p ueden verse altera
das con una frecuencia mayor de lo que se tarda en rehacer el plan de extinción. Por
ello, muchas administraciones están tratando de im plantar sistemas autom atizados
que puedan construir estos planes de extinción en cuestión de segundos. D e esta
manera, el sistema recoge parám etros com o la orografía del terreno, las circunstan
cias m eteorológicas, los accesos disponibles a la zona afectada p o r el incendio, la
disponibilidad de m edios aéreos o terrestres, o la coordinación y com unicación con
diferentes unidades y centros de control, y a p artir de ahí diseña u n plan que a con
tinuación revisa el experto hum ano.
Un incendio forestal exige la coordinación de numerosos

recursos humanos y materiales.
Podría suceder que, p o r ejemplo, en un m o m en to dado una unidad terrestre

quedara libre y al sistema se le plantearan dos opciones: desplazarla a una zona d o n
de el incendio es m uy activo o enviarla a que apague las llamas a otra zona más
cercana y m enos peligrosa. ¿C óm o puede decidir el sistema cuál de las dos opciones
es la mejor? Lógicam ente, el objetivo es apagar el incendio y, p o r tanto, parece más
plausible que la unidad se dirija a la zona donde el fuego es más virulento; pero, p o r
otro lado, puede tardar horas en llegar allí, m ientras que a pocos m inutos tiene una
zona donde las llamas son m enos peligrosas y se podrían apagar con cierta facilidad,
de m odo que se atajaría el incendio en aquel lugar. La pregunta es: ¿cóm o se cuan-
tifica de una m anera clara y objetiva, tal y com o requeriría u n sistema de planifica
ción no inteligente clásico, el beneficio de apagar el fuego en una zona atendiendo
a la distancia que se ha de recorrer y al tiem po transcurrido? Si esta unidad terrestre
se multiplica por las decenas de ellas que intervienen en la extinción de un incen
dio, se le sum an las unidades aéreas y se añaden nuevas variables com o la intensidad
del viento y su previsión, lluvias, zonas habitadas, zonas de alto valor ecológico, etc.,
podem os em pezar a com prender hasta qué p u n to se requiere disponer de un siste
ma inteligente que sea capaz de tom ar decisiones teniendo en cuenta todos los
detalles y obedeciendo a parám etros difusos.
LA LÓ G ÍC A DIFUSA
La lógica difusa es un tipo de lógica matemática que trata de aproximar los métodos y ope
raciones lógicas al proceder humano y natural. Normalmente, en un entorno real las cosas
nunca son blancas o negras; en cambio, en las lógicas clásicas, como puede ser la lógica
booleana, los valores sólo pueden ser ciertos o falsos, con lo que se nos obliga a posidonarnos
siempre en los extremos.
Por ejemplo, si yo pregunto si el portero de un equipo de la primera división de Kazajistán
es bueno o malo, la respuestan será «depende», ya que si se compara con la élite del fútbol
mundial, lo más seguro es que no sea lo bastante bueno, pero, en cambio, si se compara con
el portero del equipo de fútbol de mi barrio, probablemente sea un portero excelente. Por
eso, ¡as variables de la lógica difusa no contienen valores de «verdadero» o «falso», sino un
valor real, normalmente entre 0 y 1, simbolizando que si el valor es «1» es «verdadero» y si es
«0» es «falso». Siguiendo con el ejemplo, si cualificamos el 0 como una nulidad absoluta a la
hora de parar cualquier tipo de chut y el 1 como la excelencia del mejor portero del mundo,
seguramente el portero kazajo se encontrará en un respetable 0,73.
Para abordar este tipo de problemas, lo habitual es usar técnicas de búsqueda

clásicas dentro de la inteligencia artificial, com o p ueden ser el back-tracking («vuelta
atrás») o el branch-and-bound («ramificación y poda»). Ambas técnicas tienen u n fun
cionam iento análogo: básicamente, desplegar u n árbol de com binaciones y reco
rrerlo hasta encontrar la m ejor alternativa. E n un problem a de planificación, «des
plegar u n árbol de combinaciones» no significa más que generar el árbol de todas
las planificaciones posibles (recuérdense los conceptos explicados en el p rim er ca
pítulo sobre cóm o un algoritm o inteligente puede resolver el problem a del ajedrez)
e ir «podando» de m anera inteligente aquellas ramas del árbol que nos lleven a pla
nificaciones no posibles, que violen alguna restricción o que se prevea que no
conducirán a buen puerto.
La gran diferencia entre el algoritm o de back-tracking y el de branch-and-bound es
que la prim era técnica recorre el árbol de planificaciones en profundidad, m ientras
que la segunda lo recorre en anchura, y esta diferencia es fundam ental, ya que según
com o esté planteada la representación del problem a, u na poda u otra pueden tener
eficiencias bastante distintas.
Ir podando el árbol a m edida que se va reco rrien d o se hace com pletam ente
necesario, ya que, com o en casi cualquier otro problem a com binatorio, si no se
hiciera así, el núm ero de planificaciones y, p o r tanto, de ramas del árbol se haría tan
enorm e que al final sería im posible recorrerlo en u n tiem po razonable. Para acelerar
la poda, estas técnicas basadas en el recorrido de árboles suelen usar unas herra
mientas llamadas «heurísticas», que básicamente son la im plem entación de ciertas
nociones intuitivas que un experto en la m ateria p uede ten er para saber cuándo una
determ inada ram a no va a llevar a u n plan viable y podarla lo antes posible. Por
EL T E O R E M A D EL NO-FREE LUNCH
El teorema conocido como del no-free lunch («almuerzo no gratuito») afirma que no existe ningún
algoritmo capaz de resolver todos los posibles problemas de la mejor manera posible. El problema
se plantea a partir de una metáfora sobre el coste de los platos en distintos restaurantes, y de
ahí su curioso nombre. Planteémonos la existencia de un determinado número de restaurantes
(cada uno de los cuales representa un algoritmo de predicción determinado), con un menú que
asocia cada plato (cada plato es un problema de predicción determinado) con un precio (que
representa la calidad de la solución que ofrece ese algoritmo aplicado a ese problema). En este
caso, tendríamos que una persona a quien le gusta comer de todo y además es algo tacaña puede
investigar qué restaurante, en un momento dado, ofrece el plato que más le apetece a un mejor
precio. En cambio, una persona vegetariana que acompañe a esa persona omnívora seguramente
se encontrará con que el plato vegetariano es mucho más caro. La persona omnívora, si quiere un
bistec, puede escoger el restaurante que lo sirva a mejor precio. Pero ¿qué pasa con la persona
vegetariana que la acompaña? Resulta que el único plato vegetariano del restaurante está por
supuesto, el hecho de podar antes o después una ram a inviable puede significar
m uchos m inutos u horas de cálculo desperdiciadas, ya que el núm ero de opciones
que se deberán analizar crece de m anera exponencial a m edida que se va subiendo
de nivel en una rama.
O o o
o ©I OI o
Ejemplo sencillo de árbol de planificación aplicado al ju eg o del tres en raya.
las nubes, pero no tiene más remedio que elegirlo. El sufrido compañero vegetariano representa
muy apropiadamente el caso en el que, dado un problema concreto, ei estar obligado a utilizar un
algoritmo de resolución determinado hace que los resultados sean, seguramente, mucho peores.
Las reflexiones introducidas por el teorema del no-free lunch afectan a la planificación, ya que a
pesar de los enormes esfuerzos que existen en la comunidad investigadora para diseñar un «su-
peralgoritmo» o una «supertécnica» capaz de realizar en todo momento la mejor planificación
posible, siempre acaba apareciendo un determinado conjunto de datos o un contexto para los
cuales otro algoritmo o técnica resultan mejores.
Además, un corolario de este problema apunta a que si se invierten muchos esfuerzos en ajustar
el rendimiento de un algoritmo para que muestre un comportamiento excelente ante unos datos,
dicho ajuste está estropeando el comportamiento del algoritmo ante otro conjunto de datos
diferente, con lo cual se llega a la conclusión básica de que, o se es bueno en unas pocas cosas y
malo en muchas, o mediocre en todas.

D etección de conflictos
Isla de Chipre, M editerráneo oriental, enero de 1997. Los gobiernos de C hipre y
de Grecia anuncian la instalación de dos baterías de misiles tierra-aire S-300 de
procedencia rusa, lo cual provoca u n notable refuerzo de las fuerzas armadas chi
priotas y griegas en el contexto del Espacio de D efensa Integrado.
La agencia de defensa rusa confirm a públicam ente que son sistemas puram ente
defensivos, lo cual no afectará al precario balance de p o d er m ilitar en la isla entre las
fuerzas turcas y las griegas.
Misiles S-300 mostrados en un desfile militar ruso (fuente: Archlinux).
Turquía, enero de 1997. D e m anera inm ediata, el gobierno turco declara que
esto es una grave amenaza para la soberanía de su país y em pieza a aplicar costosí
simas contram edidas para esta amenaza. Además, declara que si los misiles llegan a
tocar suelo chipriota los atacará e, incluso, empezará una guerra en la isla.
A nte estas amenazas, el gobierno chipriota po n e en m áxim a alerta a su ejército,
y esta situación se prolonga hasta ju n io del m ism o año.
Prim avera de 1997. A su vez, el gobierno griego cree que la instalación de los
misiles S-300 no es suficiente para contener la amenaza turca, ya que las baterías
están expuestas a un golpe turco y no sobrevivirían en caso de ataque. P or tanto,
Grecia considera que cualquier intento de desestabilizar la región vendrá del lado
turco, ya que los misiles S-300 son puram ente defensivos.
D urante este periodo, además, el ejército griego se moviliza para dar soporte al
ejército chipriota en caso de ataque turco. Y R usia se m antiene neutral pero advier
te que la venta de los dos sistemas S-300 se ejecutará sin ninguna interferencia ajena.
Turquía inicia unas intensas acciones diplomáticas entre sus aliados estratégicos
de la O T A N , pero éstas no fructifican, p o r lo que, seguidam ente, decide entablar
relaciones con Israel para recibir entrenam iento con el m anejo de sistemas S-300.
Septiem bre de 1997. La flota naval turca em pieza a rastrear el M editerráneo

oriental en busca de buques, en especial navios rusos, con el fin de interceptar el
envío de los misiles. Por ese motivo, R usia y Grecia advierten a Turquía de que
entrarán en guerra si C hipre es atacado o bloqueado m arítim am ente.
D iciem bre de 1997. R usia moviliza grandes fuerzas navales en la zona, incluyen
do portaaviones, subm arinos, etc. Se supone que el objetivo de esta flota es trans
portar los sistemas S-300 y destruir la flota turca ante cualquier in ten to de intercep
tar el envío.
E nero de 1998. A nte las presiones internacionales de Estados U nidos y del R e i
no U nido, y frente a la amenaza de guerra turca, Grecia decide finalm ente no ins
talar los misiles en C hipre y, a cambio, los coloca en la isla griega de Creta. E n
C hipre se acaban instalando otras baterías y arm am ento m enos potente, que Grecia
cede al gobierno chipriota a cam bio de los S-300.
A raíz de este conflicto, que p udo haber tenido un trágico desenlace con graves
consecuencias internacionales, los gobiernos turco y chipriota sufrieron una gran
desestabilización. Sin embargo, no o cu rrió lo m ism o en el caso del gobierno griego.
Pero ¿qué pinta en todo esto la inteligencia artificial? ¿C óm o puede prevenir,
predecir o incluso advertir de los m ovim ientos tácticos más sensatos para evitar si
tuaciones de riesgo bélico com o la que se ha descrito? Pues bien, u n grupo de in
vestigadores de la U niversidad de C hipre publicaron en el año 2005 u n com plejo
sistema inteligente basado en mapas cognitivos difusos entrenados p o r algoritm os
evolutivos capaces de predecir y simular con gran precisión situaciones de inestabi
lidad política. D icho sistema, si se adapta al conflicto chipriota, recoge 16 variables
que van desde la «inestabilidad/intensidad en Chipre» hasta las «influencias in tern a
cionales», pasando lógicam ente p or variables com o el «apoyo político griego» o «el
refuerzo del ejército turco».
U n m apa cognitivo difuso no es más que un a red neuronal en la que cada neu
rona contem pla la intensidad de una variable a lo largo del tiem po. Por ejemplo, en
u n determ inado m om ento, el apoyo político griego puede ser bastante grande y la
neurona que recoge esta variable puede contener un valor del 92%, m ientras que la
que contem pla la variable del refuerzo del ejército turco puede ser baja en u n m o
m ento determ inado y estar fijada, p o r ejemplo, en un 23%.
Por otro lado, cada neurona está conectada con sus vecinas m ediante una arista
que pondera la relación causa-efecto entre las dos neuronas conectadas. Por ejem
plo, la «inestabilidad política de Chipre» afecta en 0,32 al «refuerzo del ejército
turco», de tal m anera que si la inestabilidad política en un determ inado m om ento es
del 50%, esto provocaría u n increm ento directo del refuerzo del ejército del 16%,
es decir, 0,32 • 50%. Además, hay relaciones causales negativas com o, p o r ejemplo,
que la variable «solución al problem a C hipriota» afecta en u n —0,21 a la variable
«inestabilidad política de Chipre».
Las complejas relaciones causales entre las neuronas (en total, en dicho mapa
cognitivo existen 45 conexiones) son fijadas p o r un algoritm o evolutivo en el que
cada uno de los individuos de la población representa una m atriz de pesos que
ponderan las 45 conexiones entre las variables conceptuales del mapa, y la bondad
de cada m atriz se m ide en función de cóm o es capaz de describir situaciones de
escalada de tensión vividas en el pasado.
D e esta manera, cuando los investigadores tuvieron entrenado el sistema con la
m atriz de pesos adecuada, pudieron hacer simulaciones del tipo «que pasaría si...»,
con el fin de buscar la m ejor solución al problem a chipriota. Finalm ente, en un
artículo publicado p o r los mismos autores se analizaban tres escenarios para ver qué
predicciones realizaba el sistema. E n u n o de los casos le planteaban qué pasaría si el
ejército turco abandonaba para siempre la isla, y la predicción fue toda una sucesión
de situaciones de inestabilidad creciente que acababan desem bocando en un esce
nario de caos y anarquismo.
LA IN TELIG EN CIA AR TIFICIA L Y LAS G U ERRA S
A lo largo de la historia de la humanidad, las guerras siempre
han sido un factor clave para el avance tecnológico, desde el
desarrollo de la ingeniería por parte de Arquímedes durante
las guerras púnicas, hasta el desarrollo de la energía nuclear
en la Guerra Fría. En este sentido, la inteligencia artificial
también se originó en circunstancias bélicas. Los propios fun
damentos de la Inteligencia artificial y de la computación se
desarrollaron al calor de la Segunda Guerra Mundial, dada la
necesidad de descifrar con rapidez los códigos secretos nazis.
Y durante la Guerra Fría los grandes avances en este cam
po vinieron por la necesidad de traducir grandes volúmenes
de textos técnicos y científicos del ruso al inglés. Así, para

poder realizar estas traducciones de manera automática, se
propició el desarrollo del procesamiento del lenguaje natural.
Sin embargo, en el año 1966 se publicó el informe ALPAC
(Automatic Language Processing Advisory Committee), en el
que un comité gubernamental desaconsejó rotundamente Máquina Enigma, usada

durante la Segunda Guerra
continuar la inversión estatal en el procesamiento del len Mundial para el cifrado y
guaje natural, dados los pobres resultados obtenidos en diez descifrado de mensajes.
años intensivos de investigaciones.
Aunque tal vez entraría más en la categoría de «rumor» por su dudosa credibilidad, se cuenta
que en la Guerra del Golfo Pérsico el ejército estadounidense bombardeó sistemáticamente
todos aquellos objetivos que, según un sistema inteligente, se predecía que escondían aero
naves. Parece ser que las decisiones se tomaban de manera automática mediante unas herra
mientas que se detallarán más adelante, conocidas como «redes neuronales de Kohonen».
C apítulo 5
Análisis de datos
Parece ser que una im portante empresa de distribución am ericana, Oseo, encargó a
su departam ento de inform ática hace unos años que diseñara un sistema capaz de
analizar los ingentes volúm enes de datos que creaba diariam ente, con el fin de sacar
algunas conclusiones o analizar tendencias de com portam iento del mercado.
U na vez construido el sistema, una de las prim eras y más sorprendentes tenden
cias que descubrieron es que entre las 17:00 h y las 19:00 h las ventas com binadas
de pañales y de cerveza se increm entaban de m anera notable, o, en otras palabras,
que de m anera significativa m uchos clientes que adquirían pañales en esa franja
horaria tam bién incluían cerveza en su m ism a cesta de la compra. Esta tendencia,
en prim era instancia desconcertante, se explica cuando se tiene en cuenta que los
clientes con niños pequeños no pueden salir de casa p o r las tardes para ver los par
tidos de béisbol, baloncesto o fútbol, ya que tienen que cuidar a sus vástagos, de ahí
que adquieran la cerveza para consum irla m ientras disfrutan del partido.
Pero ¿cóm o se aprovechó O seo de este descubrim iento? Pues bien, cuando se
detectó dicha tendencia rápidam ente se acercaron las estanterías de pañales y las de
cerveza, y se dispararon las ventas com binadas de ambos productos. C un d ió el
ejem plo y hoy en día todas las cadenas de distribución que se precien usan herra
m ientas de m inería de datos del tipo data warehouse para analizar las tendencias y
lanzar las ofertas de sus productos.
Toda esta jerga de «minería de datos» y «data warehouse» se estudiará a continua
ción, pero digamos que el análisis de datos es la especialidad estadística capaz de
generar inform ación a partir de datos recogidos sistem áticamente. N o obstante,
debido a la com plejidad creciente de los datos que nos proporciona el entorno, cada
vez es más com plicado ejercer este análisis, hasta el p u n to de que hoy en día se
considera una disciplina a caballo entre la estadística y la inteligencia artificial.
Se denom ina «minería de datos» a la especialidad que extrae conocim iento de la
inform ación generada a p artir de los datos. A unque el análisis de datos nació en el
siglo x v i i i a la vez que surgían los prim eros estados m odernos capaces de recabar
inform ación de m anera sistemática de sus sociedades y econom ías, la m inería de
datos, en cambio, no surgió hasta finales del siglo X X , cuando la potencia com puta-
cional y las nuevas herram ientas de la inteligencia artificial pudieron ser aplicadas a
cantidades ingentes de datos para generar inform ación y, a partir de ésta, extraer
conocim iento.
La m inería de datos
U n proceso típico de m inería de datos da com o resultado u n m odelo m atem ático
que ayuda a explicar la inform ación y las tendencias observadas a partir de los datos,
pero que tam bién puede predecir la aparición de nuevas tendencias o incluso clasi
ficar o segm entar los datos a partir de patrones de co m portam iento de identifica
ción no trivial.
En la minería de datos se Introducen datos, se procesan para

generar Información y de aquí se extrae conocimiento.
Las prim eras herram ientas de análisis de datos y, p o r tanto, las más fundam entales,
provienen de los conceptos propuestos en el siglo x vm p o r el reverendo Thom as
Bayes sobre la probabilidad condicionada. D e hecho, el problem a que dificulta en
gran m edida los proyectos de análisis de datos reside en el origen m ism o de los da
tos. Por ejemplo, im aginem os que querem os analizar datos provenientes de pacien
tes que sufren cáncer y para ello cogem os la inform ación del archivo de u n hospital
especializado en oncología. Lo norm al es que tengam os disponible m ucha más in
form ación de pacientes enferm os que de pacientes sanos, ya que precisam ente los
datos los estamos obteniendo de un lugar al que acuden personas enfermas de cán
cer y no las que no lo tienen. Esta desviación inicial es lo que Bayes planteó m edian
te la introducción del concepto de probabilidad condicionada, ya expuesto en un
capítulo anterior del presente libro. Los estudios sobre probabilidad condicionada de
Bayes generaron u n conjunto de herram ientas que tienen en cuenta esa desviación
inicial para p o d er compensarla y sacar conclusiones no sesgadas. E n general, un
proceso de m inería de datos está com puesto p o r los siguientes pasos:
1. Selección del conjunto de datos. E n este paso se seleccionan las variables que
querem os segmentar, clasificar o predecir (también llamadas «variables objeti
vo») y las variables independientes, que son aquellos datos a p artir de los
cuales se construirán los m odelos. A demás, a m en u d o es im posible trabajar
con todos los datos disponibles; p o r eso tam bién en este paso deben seleccio
narse las muestras con las que se trabajará a continuación.
2. Análisis de las propiedades de los datos. E n este estadio se realiza un p rim er
estudio simple de los datos con el objetivo de identificar valores atípicos o
marginales que se salen del rango de valores razonables.Tam bién en este paso
se desestiman aquellas variables que no aportan inform ación significativa para
resolver el problem a en cuestión.
3 .Transform ación de los datos de entrada. E n esta etapa los datos se suelen n o r
malizar, ya que trabajar con datos no norm alizados suele provocar errores
im portantes en las etapas posteriores del m odelado. Por ejemplo, si dos de las
variables de u n problem a son la estatura y el peso de las personas de un deter
m inado país, la prim era seguram ente estará m edida en m ilím etros, m ientras
que la segunda lo estará en kilogram os. Si a continuación se usara una red
neuronal para el m odelado de estos datos, las diferencias tan significativas en
las m agnitudes de los valores de entrada (una persona suele m edir miles de
m ilím etros, pero acostum bra a pesar decenas de kilogram os) provocarían un
mal funcionam iento de las herram ientas de m odelado. Por ello, los datos se
suelen norm alizar entre 0 y 1.
4. M odelado. Esta es la fase central de la m inería de datos. D e hecho, las técnicas
de m inería de datos se clasifican en función de la técnica o m etodología usa
da en este paso. Por ello, bajo esta denom inación se suelen englobar u n gran
núm ero de técnicas y m etodologías norm alm ente provenientes del soft cotnpu-
ting (técnicas inform áticas dedicadas a solucionar problemas que m anejan da
tos incom pleto o inexactos) encaminadas siempre a la extracción de «infor
m ación no trivial» o conocim iento, com o las redes neuronales, SVM , etc.
5. E xtracción del conocim iento. A m enudo la herram ienta usada en la etapa
anterior no extrae el conocim iento de m odo inm ediato; p o r ello en esta eta
pa se aplican diversas herram ientas para, p o r ejemplo, a p artir de una red
neuronal correctam ente entrenada, extraer el nuevo conocim iento generado.
6. Interpretación y evaluación de los datos. A pesar del uso intensivo de herra
m ientas com puterizadas en la m inería de datos, esta área de la ingeniería toda-
¿ES EL PAPA UN AUEN1
En 1996, Hans-Peter Beck-Bomholdt y Hans-Hermann Dubben se preguntaban en la pres
tigiosa revista Nature si el Papa era un ser humano. Su razonamiento consistía en que, si
escogemos uno de entre todos los seres humanos, la probabilidad de que éste sea el Papa es
de 1 entre 6.000 millones. Y siguiendo la analogía del razonamiento silogístico, el Papa tiene
1 entre 6.000 millones de posibilidades de ser un ser humano.
La contestación a esta falacia la dieron Sean R. Eddy y David J.C. MacKay en ia misma revista
mediante el uso de la probabilidad bayesiana. La contestación constataba que la probabili
dad de que un individuo sea el Papa sabiendo que es un ser humano no tiene por qué ser la
misma que la probabilidad de que un individuo sea humano sabiendo que es el Papa. Usando
notación matemática:
P(humano I papa) * P(papa I humano).
Si queremos conocer el valor de P(humano I papa), debemos aplicar el teorema de Bayes, y
entonces obtenemos la siguiente expresión:
Pihumano I papa) = ---------------P(papa\ humano) ■P(humano)______________

P[papa I humano) ■P(humano)+ P(papa I alien) ■P(alien)
Si asumimos que la probabilidad de que un individuo (del planeta Tierra, se entiende)
sea un alienígena es negligible (P(alien) =* 0), !a de que ese individuo sea humano tiende
a 1 (P(humano) = 1), y la de que un alien sea escogido como Santo Padre es más bien baja
(P(papa I alien)<0,001); entonces, con toda probabilidad, el Papa es un ser humano (P(hu-
mano I papa - 1).
vía dista en gran m edida de ser un proceso industrial com pletam ente autom a-
tizable. D e hecho, siempre se dice que aún se trata de u n proceso m uy artesa-
nal y dependiente de la experiencia del ingeniero que lo ejecuta. Por este
motivo, una vez finalizado el proceso de extracción de conocim iento, siempre
se debe validar que las conclusiones obtenidas son correctas y que no nos es
tán conduciendo o bien a un conocim iento trivial (por ejemplo, que todos los
seres hum anos m iden entre 1,4 m y 2,4 m) o bien a un conocim iento falaz.
Además, en u n caso real de m inería de datos, se ejecutan diversas metodologías
sobre los mismos datos. E n esta etapa es donde se com paran los resultados ob
tenidos p o r las diversas alternativas de análisis y extracción de conocim iento.
La m aldición de la dim ensionalidad

Es bien sabido que la intuición poco reflexionada no es buena amiga de la estadís
tica y de la probabilidad. U n o siempre tiende a pensar que ante u n problem a de
análisis de datos, cuantos más datos (que no más muestras) de entrada se tengan, más
inform ación y, consecuentem ente, más conocim iento se podrá extraer. Sin em bar
go, nada más lejos de la realidad.Tanto es así que esta falacia, al ser una tram pa co
m ú n en la que los «mineros» principiantes suelen caer, incluso ha sido bautizada p or
los expertos com o «la m aldición de la dimensionalidad», tam bién conocida com o
«el efecto de Hughes».
El problem a surge al increm entarse exponencialm ente el volum en de u n espacio
m atem ático al añadirse dimensiones adicionales. Por ejemplo, 100 puntos (102) son
suficientes para muestrear u n intervalo de una unidad siempre que los puntos no
disten más de 0,01 entre sí. Sin embargo, en un cubo de lado la unidad, ya harían
falta 1.000.000 puntos, o 106, y en el hipercubo de dim ensión 10 y lado la unidad,
1020. Por tanto, al ir añadiendo nuevas dimensiones, para poder m antener una equi
valencia entre la proporción de muestras recogidas y el núm ero de dim ensiones (o
en otras palabras, la densidad del espacio m atem ático en el que vamos a trabajar), las
muestras que se tienen que analizar deben ir creciendo exponencialm ente. Ponga
mos u n ejem plo práctico. Si se quiere hacer u n ejercicio de búsqueda de patrones de
voto al parlam ento de un país y se dispone de m uchos datos sobre los votantes y
sobre sus preferencias de voto, puede que algunos de esos datos no sean relevantes en
la decisión del voto, como, p o r ejemplo, su estatura. E n este caso, es m ejor eliminar la
variable «estatura» con el fin de que las muestras recogidas de los votantes tengan una
mayor densidad dentro del volum en m atem ático en el que nos movemos.
Precisam ente debido a la m aldición de la dim ensionalidad ha surgido una rama
de la estadística denom inada «selección de variables» (tam bién conocida p or su
nom bre en inglés, feature selection), que usa y com bina diversas herram ientas m ate
máticas con el objetivo de elim inar el m áxim o núm ero de datos que no aportan
ninguna inform ación nueva a un determ inado problem a. Esto puede significar des
de la supresión de inform ación redundante o correlacionada hasta la elim inación de
inform ación aleatoria y variables constantes. Por variable constante se entiende un
valor que prácticam ente no varía para el conjunto de las muestras. U n ejem plo sería
la variable «nacionalidad» en ei análisis de las tendencias de voto en la población de
un m ism o país. Lógicam ente, esta variable será igual para todos o casi todos los
votantes de ese país y, p o r tanto, no aporta ningún valor.
La técnica de selección de variables más utilizada es el análisis de com ponentes
principales (ACP), que busca la proyección según la cual los datos presentan una
m ayor variabilidad. E n el caso de la siguiente figura, las dos flechas dibujadas repre
sentan las dos com ponentes principales de m áxim a variabilidad de la nube de
muestras, especialm ente la flecha más larga. Por tanto, si quisiéramos reducir la di
m ensionalidad de los datos, podríam os sustituir las dos variables representadas en los
ejes de ordenadas y abscisas p o r una nueva variable, que sería la proyección de las
muestras sobre la com ponente especificada p o r la flecha más larga.
10
-5
En esta gráfica las flechas señalan las direcciones en las que los datos
muestran una mayor variabilidad (fuente: BenFrantzDale).
¿ Y ÉSE Q UIÉN ES? EL RECO N O C IM IEN TO DE CARAS
Un gran número de cámaras fotográficas actuales detectan las caras dentro de la imagen
en el momento del encuadre. Hoy día existen muchos tipos de dispositivos y programas que
utilizan algoritmos de detección de caras para su funcionamiento. Un ejemplo de ello son las
cámaras fotográficas digitales que incluyen una función que permite detectar el número de
caras en una fotografía y calibran automáticamente los parámetros de la cámara para intentar
que todos los rostros queden bien enfocados. La red social Facebook también incorpora una
función de detección de caras capaz de sugerir la presencia de determinadas personas de

interés en las fotos que sube un usuario. ¿Cómo se logra todo ello?
La mayoría de métodos de detección de caras centran su funcionamiento en el análisis de
componentes principales; se basan en el entrenamiento del sistema con conjuntos de imáge
nes de distintas caras, de modo que el sistema extrae los componentes principales, tanto de
la cara de una misma persona como del conjunto de todas las caras. En realidad, el sistema lo
que hace es memorizar los rasgos más característicos de la cara de cada persona para poder
reconocerla en el futuro. De este modo, dada una nueva imagen, y aplicando de nuevo un
estudio de componentes principales, el sistema compara la información extraída de esa ima
gen con los componentes de su conjunto de entrenamiento. Basándose en el porcentaje de
coincidencia, es capaz de detectar si aquello que se está analizando es una cara o un zapato,
e incluso reconocer a qué persona concreta pertenece la cara en cuestión.
El A C P busca la transform ación lineal que genera u n nuevo sistema de coorde

nadas para el conjunto inicial de muestras, en el cual la prim era com ponente p rin
cipal captura la variabilidad mayor, la segunda representa la segunda m ayor variabi
lidad, y así hasta tantas com ponentes com o se desee. U n a de las ventajas del uso del
A C P es que en uno de los pasos interm edios en la búsqueda de las com ponentes de
m áxim o crecim iento de la variabilidad se puede obten er la variabilidad explicada
p o r cada nueva com p o n en te principal. P or ejem plo, la prim era com ponente p rin
cipal puede explicar el 75% de la variabilidad; la segunda, el 10%; la tercera, el 1%,
etc. Y de esta m anera se puede reducir la dim ensionalidad asegurando que las nue
vas dim ensiones que sustituyen las características originales explican un m ínim o de
variabilidad de los datos (norm alm ente se aconseja que la variabilidad explicada p o r
las com ponentes seleccionadas sum e en to rn o al 80%).
A pesar de las bondades del A C P y de su relativa sencillez de ejecución (hoy en
día todos los paquetes estadísticos ya im plem entan el A C P de serie), esta técnica
tiene com o contrapartida que im plica cálculos que van creciendo en com plejidad a
m edida que aum enta el núm ero de dim ensiones del m odelo, de m odo que el coste
com putacional p uede llegar a ser inabordable. E n estos casos se suele recu rrir a otros
dos m étodos de selección de variables: el greedy fotward sekction (literalmente, «selec
ción voraz hacia delante») y el greedy backward elimination («eliminación voraz hacia
atrás»). A m bos presentan dos grandes desventajas: el gran coste com putacional que
im plican y la poca seguridad que aportan de haber escogido las variables más ade
cuadas. Sin em bargo, su fácil im plem entación, la sencillez del concepto en el que se
basan y el hecho de que el coste com putacional no sea tan alto cuando se dispone
de u n gran núm ero de dim ensiones com o con el ACP, han popularizado su uso
entre la com unidad de «mineros».
A unque, com o bien indica su nom bre, u n o va «hacia delante» y el otro, «hacia
atrás», tanto la selección voraz hacia delante com o la elim inación voraz hacia atrás
A LG O R ITM O S V O R A C ES
Los algoritmos voraces son un tipo de algoritmos que siguen una filosofía muy concreta. La
idea se basa en que para decidir el siguiente paso (ya sea dentro de un problema de planifica
ción, de búsqueda o de aprendizaje) siempre se escoge la opción que maximiza, a corto plazo,
un determinado gradiente, sea cual sea el problema que se ha de resolver. La bondad de
los algoritmos voraces es que son capaces de maximizar muy rápidamente una determinada
función matemática. Pero, en contrapartida, en funciones complejas y multimodales (es decir,
con varios máximos) suelen acabar estancándose en un máximo local, ya que no poseen la
capacidad de tener una visión global del problema. Esto acaba siendo una mala estrategia,
ya que la optimización se suele quedar en un subóptimo.

usan la misma filosofía. Pero la m ejor m anera de explicar ambos m étodos es a través
de u n ejem plo práctico. Im aginem os que querem os seleccionar las variables que
m ejor explican las tendencias de voto al parlam ento de un país. E ntre las cinco
variables conocidas de la m uestra recogida tenem os: p o d er adquisitivo, ciudad de
origen, form ación académica, sexo y estatura del votante. Y la herram ienta que
usaremos para el análisis de las tendencias es una red neuronal. Para empezar, utili
zando el m étodo de selección voraz hacia delante, se escoge la prim era de las varia
bles del problem a y, sólo con esa variable, se m odelan los datos m ediante la red
neuronal. U na vez construido el m odelo, se evalúa su tasa de predicción y se guarda
la inform ación. El proceso se repite exactam ente igual con la segunda variable, y
luego con las tres variables restantes. C uando ya se ha hecho todo el análisis, se es
coge la variable cuyo m odelo asociado presentaba m ejores resultados y se repite el
proceso de m odelado m ediante la red neuronal y la evaluación del m odelo, pero
esta vez con dos variables. S uponiendo que la variable que hubiera dado mejores
resultados hubiera sido la form ación académica, se probarían todos los conjuntos de
dos variables en los que la prim era fuera form ación académica. Así, tendríam os el
m odelo «form ación académ ica y ciudad de origen», el m odelo «form ación acadé
mica y sexo» y el m odelo «formación académica y estatura». D e nuevo, una vez
analizadas las cuatro com binaciones, se selecciona la m ejor, p o r ejem plo, «formación
académ ica y p o d er adquisitivo», y se vuelve a repetir el proceso con tres variables,
donde ahora las dos prim eras están fijadas. El proceso continúa hasta que, al añadir
una nueva variable, la bondad del m odelo no m ejora con respecto a la bondad del
m odelo con una variable m enos.
La elim inación voraz hacia atrás funciona ju sto al revés, es decir, partiendo del
m odelo que incorpora todas las variables, va elim inando, una a una, aquellas que no
em peoran la bondad del m odelo.
C o m o se puede apreciar, a pesar de la sencillez del m étodo, no deja de ser una
estrategia «poco inteligente» porque no asegura que se encuentre la m ejor com bi
nación de variables, a la vez que supone u n alto coste com putacional al ten er que
m odelar los datos en cada paso de selección o elim inación de variables.
El hecho de que los m étodos de selección de variables existentes tengan im p o r
tantes contrapartidas provoca que constantem ente se presenten nuevos m étodos en
los foros especializados. Estos nuevos m étodos suelen seguir la filosofía del ACP, es
decir, buscan nuevas variables que sustituyen a las originales y aportan una m ayor
«densidad» o «riqueza» en la inform ación. Este tipo de variables son conocidas
com o «variables latentes». E n general, son m uy utilizadas p o r u n gran núm ero de
disciplinas, aunque, probablem ente, donde m ejor se aplican es en las ciencias socia
les. D escriptores com o la calidad de vida de una sociedad, la confianza del m ercado
o la capacidad espacial de una persona son variables latentes que no se p u ed en ob
servar directam ente, sino que se m iden e infieren a partir de la m edida de un cú
mulo de otras variables más tangibles. Además, estas variables latentes tienen la
ventaja de que aúnan distintas variables en una sola, de m odo que reducen la di
m ensionalidad del m odelo y lo hacen más manejable.
Visualización de datos
La visualización de datos es la ram a de la ingeniería que estudia de qué form a los
datos num éricos, p o r lo general m ultidim ensionales, se p ueden representar gráfica
m ente para ser visualizados p o r u n ser hum ano. Por eso, al igual que el análisis de
datos, la visualización de los mismos se popularizó cuando los incipientes estados
m odernos pudieron generarlos de m anera sistemática sobre la evolución de sus
econom ías, sociedades y sistemas productivos. D e hecho, esta rama de la ingeniería
es vecina, o incluso está superpuesta, a la del análisis de datos, ya que muchas de las
herram ientas, metodologías y conceptos usados para facilitar su visualización surgen
de su análisis, y viceversa.
Probablem ente, la prim era visualización de datos estadísticos de la que se tiene
registro es la realizada p o r M ichael van Langren en 1644, en la que se m uestran las
12 estimaciones, realizadas p or 12 científicos distintos, de la lo ngitud entre Toledo
y R om a. La palabra «ROM A» señala la propia estim ación de Langren, y la pequeña
flecha borrosa que aparece más o m enos en la parte inferior central de la línea es la
longitud correcta estimada con m étodos m odernos.
O - a
Q . .. ,1 5 i
w | £ a j¡
^ G r a d o s d e laL o n g i t u d , |- | | ¡ | i l 'i | | | f
f r - T T T T . . . ^ . . , . !. A
Ya en el siglo xviii, Joseph Priestley generó el siguiente gráfico para representar

en qué m om en to vivieron algunos de los hom bres más sobresalientes de la A nti
güedad:
En ese m ism o siglo, gracias a las reflexiones filosóficas de Im m anuel K ant en las
que se afirmaba que es la representación la que hace al objeto posible y no al revés,
se foijó la conciencia de que no se puede discutir sobre el conocim iento o la reali
dad sin tener en cuenta que es la m ente hum ana la que construye esa realidad o
conocim iento. Esto colocó la ciencia de la representación y la visualización de datos
en el lugar de m áxim a im portancia que merecía.
Más tarde, durante la R evolución Industrial, em pezaron a aparecer ya otros m é
todos de representación de datos más sofisticados, com o los introducidos p o r W i-
lliam Playfair para representar la p roducción industrial y económ ica m ediante la
evolución de los precios del trigo y de los salarios a través de los distintos gobiernos
y a lo largo de más de 250 años:
A partir de aquí, y ya de la m ano de las ciencias de la com putación, los profesio

nales en la visualización de datos em pezaron a trabajar en entender cóm o tiene que
ser una buena representación de los datos para que u n analista la pueda interpretar
rápida y fácilmente. U n o de los aspectos más im portantes que deben tenerse en
cuenta (más que el propio com ponente técnico de los datos, el m odelo de repre
sentación y el «m otor gráfico» usado para visualizarlos) es la lim itación perceptiva
del analista, el consum idor final de los datos. C uando éste intenta entender una
representación visual de los datos ejecuta unos determ inados procesos cognitivos
que construyen su m odelo m ental de los datos. Pero estos procesos cognitivos tie
nen fuertes lim itaciones perceptivas, com o, p o r ejem plo, que la mayoría de m ortales
somos incapaces de en ten d er m entalm ente más de cuatro o cinco dim ensiones, y
estas lim itaciones deben tenerse en cuenta para facilitar la construcción de los m o
delos. Por todo ello, una buena visualización de los datos tiene que m ostrar infor
m ación de m anera jerárquica a diferentes niveles de detalle, ser coherente y evitar al
m áxim o cualquier posible distorsión en las representaciones. Además, debe m ini
mizarse el im pacto de los datos que no aportan inform ación o que p u ed en co n d u
cir a conclusiones erróneas, y añadir otros estadísticos que aporten inform ación
sobre la significancia estadística de cada parte de la inform ación.
Para conseguir todo esto se recurre a estrategias similares a las que se han visto
en el capítulo dedicado al análisis de datos. La prim era es la de reducir dim ensiones,
lo que se consigue m ediante m étodos ya vistos an teriorm ente, com o la proyección
de los m odelos en variables latentes. La segunda es la de reducir el núm ero de m ues
tras del m odelo m ediante su clasificación en grupos significativos, proceso que se
denom ina clustering (cluster puede traducirse p o r «racimo»).
U n análisis de clustering consiste en dividir un conjunto de observaciones en sub-
conjuntos (también llamados clusters), de tal m anera que todas las observaciones que
están ubicadas en el m ism o cluster com parten ciertas propiedades, que no tienen p or
qué ser obvias. M ediante la «clusterización» de los datos se puede facilitar enorm e
m ente tanto su representación gráfica com o su entendim iento p o r parte del visuali-
zador hum ano, debido a la simplificación que el clustering introduce en la represen
tación. Existen m uchos algoritmos de clustering, cada uno con distintas propiedades
m atemáticas que los hacen más o m enos aptos para u n determ inado tipo de datos.
R eco n o cim ien to de patrones

N o podríam os term in ar u n capítulo sobre análisis de datos sin hablar del reconoci
m iento de patrones (patterns en inglés), ya que u n o de los grandes objetivos del
análisis de datos es precisam ente p o d er reconocer e inform ar sobre patrones presen
tes con el fin de predecir tendencias futuras. Para el reconocim iento de patrones se
p ueden usar todas las herram ientas com entadas hasta el m om ento: redes neuronales,
máquinas de soporte vectorial, análisis de com ponentes principales, etc., y, com o se
verá, es una rama del análisis de datos fuertem ente ligada al aprendizaje artificial.
El objetivo de un sistema clasificador, al igual que una red neuronal o una SVM,
es, dada una muestra, p o d er predecir su clase, o en una palabra, clasificarla. Por ello,
inicialm ente, se le debe proporcionar al sistema clasificador u n conjunto de m ues
tras de clase conocida con el fin de que el sistema pueda aprender. U n a vez que el
sistema ya está entrenado, se le p ueden pasar las nuevas muestras para que las clasi
fique. Al igual que los m étodos anteriores, el conju n to de muestras iniciales de
clase conocida suele dividirse en dos subconjuntos, el de entrenam iento y el de test,
que sirven para com probar, a posteriori, que el sistema no está sobreentrenado.
Los sistemas clasificadores pueden ser de dos tipos: de M ichigan (llamados así
porque fueron precisam ente investigadores de esta universidad quienes defendieron
este modelo) o de Pittsburg (por el m ism o m otivo). U n sistema clasificador de M i
chigan no es más que u n algoritm o evolutivo en el que los individuos que van evo
lucionando son reglas, y cada regla está form ada p o r un conjunto de condiciones y
un objetivo.Y la idea es que si una m uestra coincide con las condiciones impuestas
po r una regla, la clase de esta m uestra será la indicada p o r el objetivo de la regla.
E n cambio, en los sistemas clasificadores de Pittsburg cada individuo es un co n
ju n to de reglas y la bondad del individuo se evalúa a p artir de la tasa de error m edia
de cada una de esas reglas contenidas. Am bos sistemas, bastante com plem entarios
entre sí, tienen sus ventajas e inconvenientes. E n los últim os treinta años, investiga
dores de todas las escuelas han ido p roponiendo mejoras y variantes a ambos esque
mas para ir puliendo sus ineficiencias.
U n ejem plo práctico: análisis de ventas

O tra de las grandes aplicaciones de la inteligencia artificial aplicada a los negocios es
el datawarehousing. U n data warehouse (literalmente, «almacén de datos») es una herra
m ienta empresarial m uy extendida entre los negocios que cuentan con una gran base
de clientes y, por tanto, una gran base de muestras desde donde inferir tendencias,
modas o patrones de com portam iento. Es el lugar donde se ju n tan los datos de toda
la empresa, ya sean de ventas, de producción, de las campañas de marketing, de fuentes
externas, etc. E n la actualidad se pueden encontrar ejemplos de usos de data warehouses
en negocios tan dispares com o la banca, los hospitales, los distribuidores de alimentos,
los productores de derivados del petróleo, las organizaciones gubernam entales, etc.
C rear y estructurar u n data warehouse es una tarea com pleja que puede llevar
meses o años a ingenieros especializados. Sin em bargo, u na vez que estos almacenes
de datos están construidos, estructurados y se ha asegurado su consistencia, las tec
nologías de datawarehousing utilizan un concepto llamado «cubos OLAP» (aunque
en realidad son hipercubos), que procede al estudio y al análisis de los datos. U n
cubo O LA P (que responde al acrónim o de los térm inos anglosajones O nL ine
Analytical Processing, o «procesamiento analítico en línea») es una estructuración
m ultidim ensional de los datos que perm ite realizar consultas cruzadas de m anera
m uy rápida entre datos de distinta naturaleza. Podría verse com o la extensión en más
dim ensiones de una hoja de cálculo. Por ejem plo, si construim os una tabla en una
hoja de cálculo donde representam os qué productos lácteos hem os vendido en
distintos países en el año anterior, expresado en miles de unidades, p odem os o b te
ner una tabla com o la que sigue:
España Italia Francia A le m a n ia
Yogur natural 4.540 5.312 5.429 10.234
Yogur de limón 8.988 14.543 11.234 26.342
Yogur de fresa 12.349 16.234 15.345 23.387
Yogur liquido 1.676 2.221 3.234 1.476
Natillas 4.678 6.934 4.343 1.893
Arroz con leche 5.122 7.300 8.345 345
Cuajada 567 145 0 0
A continuación, nos interesaría p o d er desglosar estos datos en meses, co n lo cual

deberíam os añadir una tercera dim ensión a la tabla, en la que para cada región y
cada tipo de producto tengam os una división en los doce meses del año.
Producto
R e g ió n
D e esta m anera, una vez que se ha estructurado el cubo, se p ueden llevar a cabo
com plejos análisis de datos teniendo en cuenta esa estructuración precalculada. D e
hecho, el principal coste com putacional de un data warehouse no es el propio análi
sis de los datos (en el que se suelen aplicar muchas de las herram ientas com entadas
a lo largo del capítulo) sino la construcción de m uchísim os hipercubos con todas
las dim ensiones que puedan soportar los datos de la organización, teniendo en
cuenta las m últiples com binaciones posibles. Por ello, la generación de los cubos
O LA P es un proceso que las organizaciones suelen realizar p o r las noches, y que
consultan y analizan el día posterior.
C o n todo ello, los analistas de una organización encargada de la fabricación de
productos lácteos podrían in troducir en el sistema las condiciones atmosféricas de
cada u n o de los días del año en cada una de las regiones donde opera. C o n esta
nueva dim ensión se pueden realizar estudios de tendencia del consum o de los dife
rentes productos en función de la tem peratura am biental de cada día del año en
cada región.
A continuación, con este co nocim iento y sabiendo las predicciones m eteoroló
gicas de otro año, los analistas pueden predecir el núm ero de unidades que se deben
producir en cada región para m inim izar el alm acenam iento innecesario de p roduc
tos lácteos, que tiene u n alto coste debido a la cadena de frío que se debe m antener
a lo largo de la vida del producto.
Para com plicar u n po co más el concep to de las dim ensiones de u n cubo
OLAP, a m enudo, dentro de una m ism a dim ensión se in tro d u cen jerarquías. D e
este m odo, co ntinuando co n el caso anterior, en la dim ensión tem poral se pu ed e
in tro d u cir una nueva jerarq u ía in ferio r al mes, que p uede ser el día, y una supe
rior, com o, p o r ejem plo, el trim estre, p o rq u e seguram ente no se consum en el
m ism o n úm ero de unidades lácteas en invierno que en verano, ni a p rin cip io que
a final de mes. O tra dim ensión que se podría jerarq u izar es la región, y se podría
in tro d u cir una jerarquía su p erio r que abarcara, p o r ejem plo, el sur de Europa, la
E uropa central, etc., o bien una inferior, com o p u ed e ser Lom bardía, B retaña, A n
dalucía, etc.
Por supuesto, una vez construidos los cubos OLAP, aparte del obvio análisis de
datos, del que ya hem os hablado, se p ueden realizar otras múltiples operaciones de
visualización de los mismos. Por ejem plo, se podrían visualizar «rebanadas» bidí—
mensionales del cubo, visualizar «cubitos», es decir, pequeñas porciones m ultidi-
m ensionales del cubo, sum ar o restar inform ación a través de las jerarquías, o inclu
so rotar el cubo para poder observar los datos desde otro p u n to de vista.
M ICRO SO FT RESEARCH
En la actualidad, el mayor centro privado y no académico del mundo que investiga sobre
inteligencia artificial es el Microsoft Research. Allí se encuentran prestigiosos científicos de
renombre internacional que investigan temas tan importantes para esta disciplina como el
aprendizaje artificial o nuevas interacciones hombre-máquina. Microsoft Research dispone de

delegaciones por prácticamente por todo el mundo, como, por ejemplo, en Alemania, Estados
Unidos, Reino Unido, China, India o Egipto.
Un área en la que este centro es líder de investigación mundial es, más concretamente, en el
uso de redes bayesianas y de otras herramientas probabilísticas para temas tan importantes
como la detección de correos no deseados (el conocido como spam) o la adaptación inteli
gente de las interfaces de los sistemas operativos a los patrones de comportamiento de los
usuarios, de tal manera que las interfaces de usuario del futuro puedan adaptase inteligen
temente a la manera de trabajar de cada persona.

C apítulo 6
Vida artificial
Vida e inteligencia son dos conceptos igualm ente difíciles de definir, no sólo en el
ám bito de la biología sino tam bién desde el p u n to de vista filosófico. Probablem en
te, buscar formalismos para definir la vida es tan com plejo com o la búsqueda de
definiciones formales para la inteligencia. Acuérdese el lector de todas las disquisi
ciones filosófico-m atem áticas del p rim er capítulo para delim itar el concepto de
inteligencia: el test de Turing, la habitación C hina, las discusiones sobre la creativi
dad, etc. Sin embargo, uno de los autores más reputados y activos en este campo,
Jo h n H . H olland (n. 1929), que tam bién fue el artífice de los algoritm os evolutivos,
ha profundizado a lo largo de los años en la cuestión, llegando a conclusiones que
nos ayudarán a com prender dicho concepto.
La vida artificial está estrecham ente unida a otro im portante concepto dentro de
la inteligencia artificial, el soft computing (literalmente, com putación blanda, aunque
siempre se utiliza el térm ino en inglés). El soft computing es un conju n to de h erra
m ientas, p o r lo general inspiradas en procesos presentes en la naturaleza, que resuel
ven problemas de gran com plejidad, ya que la inform ación que m anejan es aproxi
mada, incierta e incom pleta. Algunas de las herram ientas que hem os visto a lo largo
de este libro, com o los algoritm os evolutivos, las redes neuronales, la lógica difusa,
etc., form an parte de él.
El soft computing se convirtió en una ram a form al de la inform ática en la década
de 1990, y en la actualidad se usa en la resolución de problemas para los cuales los
expertos se han resignado a no encontrar la m ejor solución, que en algunos casos
podría suponer años de cálculos o ten er en cuenta inform ación im posible de reco
pilar, en favor de la posibilidad de encontrar una buena solución de m anera rápida.
Todas las áreas de la ciencia y la ingeniería m odernas, desde la biología hasta las
ciencias políticas, usan hoy día el soft computing para solucionar problemas.
Introducción a la vida artificial

U n o de los conceptos más im portantes que deben existir en un sistema donde haya
«vida» es que se den ciertas condiciones de em ergencia para que sistemas autoorga-
nizados y m ucho más com plejos que las partes puedan em erger del m edio. U n b uen
ejem plo de ello son las colonias de horm igas, donde del co m portam iento relativa
m ente simple de unos sencillos elem entos, las horm igas, em erge u n sistema com
pletam ente autoorganizado, la colonia, que, p o r supuesto, es m ucho más com plejo
que la suma de las partes.
O tra de las características de la vida consiste en que la entidad supuestam ente
«viva» tam bién debe ser capaz de sobrevivir a las condiciones del m edio y, en el
m ejor de los casos, p o d er llegar a reproducirse. Asimismo, para p o d er decir que algo
está vivo tiene que apreciarse u n determ inado dinam ism o no aleatorio e in depen
diente del posible cam bio de leyes que gobiernan el m edio. Además, u n sistema
vivo debe presentar un com portam iento em ergente y recurrente, sin entrar, claro
está, en la regularidad. Es decir, si hay u n proceso que ha em ergido, presenta un
com portam iento apreciable, pero es un com portam ieilto cíclico o de bucle, la en
tidad que lo manifiesta no podría considerarse com o «viva».
Pato de Jacques Vaucason (1709-1782),

probablemente el prim er ingeniero interesado en la vida artificial.
C o m o el lector puede apreciar, no es fácil definir con cierta precisión m atem á

tica la vida, al igual que pasaba con la inteligencia, y de aquí que no haya aún un
criterio sencillo para determ inar si una entidad artificial o natural puede ser consi
derada viva. Este debate, com o se com entaba anteriorm ente, va más allá de las m a
temáticas y la com putación. D e hecho, en biología aún no hay pleno consenso
entre los científicos sobre algunas cuestiones relativas a la vida, com o, p o r ejemplo,
VIRUS Y P R IO N E S
Los virus son sistemas biológicos que por sí solos no son capaces de reproducirse; por ello, la
gran mayoría de biólogos opinan que no son seres vivos, aunque no hay consenso sobre ello.
Los virus pueden ser de muchos tipos diferentes, pero todos tienen en común la presencia de
material genético, que inyectan en un huésped tras introducirse en él, consiguiendo que éste
replique copias del virus, incluyendo, por supuesto, dicho material genético. Estas copias se
van esparciendo por el organismo para infectar otras células huésped.
Por su parte, un prión es una entidad aún más simple, sin material genético, pero que tiene
la propiedad de propagarse entre los organismos. Los mecanismos de trasmisión de los
priones aún no han sido clarificados por la comunidad científica, pero en estos momentos
son unas entidades de alto interés científico, ya que son los responsables de graves enferme
dades, como, por ejemplo, la encefalopatía espongiforme bovina, conocida como «mal de
las vacas locas». Los priones son proteínas naturales que tienen un plegamiento anómalo.
Cuando una de esas proteínas entra en contacto con otra en el organismo, provoca un mal
plegamiento de la nueva proteína contactada, que deja de ser funcional, y a la vez es capaz
de propagar esta «Infección» de malos plegamientos a otras proteínas. ¿Es un prión una
entidad viva? Según los biólogos, no.
Cabeza con
material genético
Collar
Cola
Placa basal
Esquema básico de un virus.

si un virus es una entidad viva o no lo es. D e hecho, si consideram os estas defini
ciones, ¿es un virus inform ático una entidad viva? Si analizamos la situación, los
virus inform áticos presentan u n co m portam iento dinám ico, apreciable, no regular
ni cíclico. Sin em bargo, ¿podem os afirm ar que u n virus inform ático ha surgido de
form a natural? Probablem ente no, ya que en últim a instancia ha sido u n malvado
program ador inform ático el que lo ha creado, a diferencia de u n virus natural que
sí que habrá em ergido naturalm ente.
CO M PU TA CIÓ N V IV A
El presente capítulo muestra sistemas artificiales que imitan el comportamiento de seres vivos,
pero también trata justo lo contrario, es decir, sistemas de computación construidos a partir
de entidades vivas. La unidad de proceso de un computador moderno está constituida por
centenares de millones de transistores, que son las unidades que, mediante impulsos eléc
tricos, ejecutan todas las operaciones. Los transistores son objetos sin vida creados a partir
de elementos inorgánicos, como el silicio. Pero ¿es posible sustituir los transistores, simples
unidades metálicas, por sistemas vivos creados a partir de células? En los últimos tiempos,
investigadores especializados en biología y física están logrando precisamente eso, que sean
células vivas las que computen dichas operaciones matemáticas, como lo hacen los transis
tores. Por tanto, en el futuro se podrán implementar sistemas de vida artificial soportados en
una base de computación biológica. ¿Serán los ordenadores del futuro seres vivos a los que
debamos alimentar con comida en vez de electricidad?
Sistemas adaptables com plejos

Para simplificar la definición del concepto de vida algunos expertos han ideado
otro concepto más general, el de «sistema adaptable complejo». U n sistema adapta
ble com plejo es un agente o conjunto de ellos que trabajan de m anera coordinada
y que son lo bastante inteligentes com o para p o d er adaptarse al m edio según el
com portam iento que otros sistemas vayan desarrollando. D e hecho, en la definición
de sistema adaptable com plejo encajan sistemas vivos que van mas allá de lo que a
uno le puede venir a la cabeza cuando piensa en u n «ser vivo», com o, p o r ejemplo,
el sistema inm une que hay dentro de un ser hum ano, una corporación m ercantil o
un ecosistema entero. El caso de la corporación es bastante curioso, ya que segura
m ente nadie hubiera dicho que un a entidad legal com o puede ser una empresa
tenga «vida». Pero si se piensa detenidam ente, una corporación es una entidad que
nace, crece, puede reproducirse y puede m orir. E n la mayoría de países europeos
una corporación tiene casi los mismos derechos y obligaciones que una persona,
hasta el pu n to de que ambos com parten definición: unas son personas físicas (los
seres hum anos), y las otras, personas jurídicas (las corporaciones).
S IM C IT Y Y LOS SISTEM AS A D A PTA B LES CO M PLEJO S
Las ciudades son buenos ejemplos de sistemas adaptables complejos, ya que presentan e
implementan con creces las propiedades que los definen. De hecho, el juego de ordenador
SimCity, mediante el cual se pueden construir y simular ciudades, es un magnífico entorno
de pruebas para familiarizarse con un sistema adaptable complejo, ya que el mismo juego
«rellena» la ciudad con ciudadanos, genera actividad social y mercantil dentro de ella y nos
plantea complejas situaciones que hay que resolver, como colapsos de las vías de comunica
ciones o desastres naturales.
Otro juego de ordenador con el cual podemos familiarizarnos con los sistemas adaptables
complejos es Civilization, en el cual el objetivo es construir una civilización competitiva en
tera, con sus ciudades, redes de comunicaciones, tratados comerciales, sistemas defensivos,
políticas sociales y científicas, etc.
Imagen de una du dad construida con el ju eg o SimCity.

Existe cierto consenso en considerar que son siete características las que definen
u n sistema adaptable com plejo: cuatro propiedades y tres mecanism os. A dicional
m ente, la com binación de estas características básicas da lugar a otras propiedades y
m ecanism os com puestos. La definición de un sistema adaptable com plejo es algo
más general que el propio sentido biológico de «vida», ya que nunca diríamos que
una entidad financiera o una ciudad es u n «ser vivo». P or eso, el térm in o difuso y
difícil de definir de «vida artificial», más allá de las noticias sensacionalistas y los
foros no especializados, no suele utilizarse.
Primera propiedad: la agregación
La agregación es la suma del com portam iento de entidades simples, de m odo que
de ella em erge u n com portam iento agregado bastante más com plejo que la suma
individual de las partes (piénsese en el ejem plo del h orm iguero y las horm igas que
lo com ponen, donde la adaptabilidad del h o rm iguero entero a los cambios del m e
dio es m ucho m ayor que la adaptabilidad individual de las horm igas). C ada una de
estas partes sencillas se denom ina agente.
Además, esta propiedad es recursiva, y u n agente que ha em ergido com o la
agregación de otros agentes más simples puede volver a agregarse con otros, tanto
de su propia especie com o de otras, para form ar otro agente agregado de segundo
nivel. Por ejem plo, la agregación del com portam iento y productividad de todas las
empresas de u n país, más el co m portam iento del consum o familiar, más el de las
administraciones públicas, form a el producto in terio r b ru to de u n país.
Se debe puntualizar que un elem ento no tratado en la agregación pero impres
cindible para que puedan em erger com portam ientos adaptables al m edio es la com u
nicación entre los elem entos de una categoría (primera acepción de agregación) o
entre las distintas partes que form an la entidad de grado superior (segunda acepción).
Primer mecanismo: el etiquetado
El etiquetado es u n m ecanism o que facilita de m anera activa la agregación de agen

tes. El etiquetado de agentes es un concepto tan sencillo com o la fijación de marcas
o signos, y no sólo facilitan su identificación, sino que ayudan a rom per las simetrías
que a m enudo se form an en la agregación de sistemas complejos. P or ejemplo, si
una bola blanca de billar em pieza a rotar en una dirección y en su superficie no hay
im preso ningún signo, el espectador difícilm ente podrá determ inar que la bola está
rotando, y m ucho m enos la velocidad de rotación. Si, en cambio, se im prim e algún
signo en el algún lugar de su superficie, excepto en los dos puntos p o r donde el eje
de rotación intersecta la superficie de la bola, el espectador podrá discernir el sen
tido y la m agnitud de la rotación.
Existe una gran variedad de signos de los que hacen uso los agentes agregados,
desde los estandartes en form a de águila que los legionarios rom anos em pleaban
para m arcar cada una de las legiones hasta las complejas etiquetas con las que los
m odernos dispositivos de telecom unicaciones m arcan las tramas de los mensajes
trasmitidos, en los que no sólo se señala el orden de cada tram a para reconstruir el
mensaje cuando todas ellas llegan al receptor, sino que tam bién p u ed en incluir so
fisticados m ecanism os para identificar posibles errores que hayan podido afectar al
mensaje o a la m ism a etiqueta durante el proceso de transmisión. Por supuesto, no
todas las etiquetas tienen que ser visibles; p o r ejem plo, los mamíferos de los distintos
sexos de algunas especies se etiquetan en la época de celo usando unas sustancias
químicas llamadas feromonas.
Las etiquetas facilitan a los agentes la interacción selectiva, m ediante la cual éstos
p ueden discernir entre diversas instancias de una misma clase de agentes o las diver
sas partes agregadas de u n agente. Esto, p o r supuesto, da pie a la im plem entación de
filtros, especiación o esquemas cooperativos. T am bién los agentes p u ed en m ante
nerse agregados, aunque las diversas partes agregadas que conform an el agente de
nivel superior vayan cam biando, pero el etiquetado se m antenga. E n definitiva, el
etiquetado es u n m ecanism o-herram ienta que facilita la organización y la com uni
cación entre agentes.
Segunda propiedad: la no-linealidad
Es poco conocido que la mayor parte de las herram ientas que las m atemáticas nos
proporcionan son herram ientas lineales: desde la aritm ética hasta la topología alge
braica, pasando p o r el cálculo diferencial, todo se basa en asunciones de linealidad.
U na función es lineal si el valor dé ésta, para cualquier valor asignado a sus argu
m entos, es sim plem ente la sum a ponderada de la suma de estos valores. Por ejemplo,
la función 4x + 2 y —z es lineal; en cambio, 4 senx—2y"'r no es lineal.
El uso de instrum entos lineales es tan im portante en las matemáticas y la inge
niería que, de hecho, en la actualidad gran parte de la actividad profesional de un
ingeniero o de u n científico se basa en buscar funciones lineales que aproxim en con
la m ayor precisión posible los fenóm enos naturales. Sin embargo, desafortunada
m ente, ninguna de estas herram ientas funciona bien en los sistemas adaptables com
plejos. D e hecho, uno de los conceptos que m ejor definen estos sistemas es que su
com portam iento global es bastante más com plejo que la suma individual de las
partes, y he aquí que aparece, p o r definición, la no-linealidad.
U n b uen ejem plo que ilustra b ien la no-linealidad de la naturaleza y de los
sistemas adaptables com plejos son las dinám icas p ro d u cto r-co n su m id o r y, concre
tam ente, el caso particular de presa-depredador. Im agínese u n m o n te donde hay D
depredadores (por ejem plo, zorros) y P presas (por ejem plo, conejos). Si la proba
bilidad de que u n zorro cace u n conejo es c, entonces cada día hay c - P - D conejos
cazados.Por ejem plo,si c = 0,5, D = 3 y P = 10, entonces hayc ■P D = 0 ,5 -3 • 10 = 15
capturas. Sin em bargo, si el nú m ero de zorros y conejos se cuadriplica, el núm ero
de capturas no lo hace: c • P ■D = 0 ,5 • 12 ■40 = 2 4 0 y, com o se ve, la actividad de
predadora no puede obtenerse sim plem ente añadiendo los nuevos depredadores a
las presas.
ECU A C IO N ES DE LO TK A -V O LTER R A
Las ecuaciones del ejemplo de los zorros y los conejos se pueden complicar bastante más. De
hecho, un investigador llamado Alfred J. Lotka describió qué pasaría con esas ecuaciones si em
pezamos a tener en cuenta las variaciones de los depredadores y las presas a lo largo del tiempo.
Supongamos que D(f) y P(t) es el número de depredadores y presas que hay, respectivamente, en
el instante de tiempo t. Además, podemos decir que en cada instante de tiempo pueden nacer
n depredadores y morir m de éstos. Por tanto, la fórmula de la evolución de los depredadores a
lo largo del tiempo es D (t + ’\)= D (t)+ n D {t)-m D (f), y lo mismo pasaría para las presas, es decir,
P (t+ ])= P (f) + n 'P (f)-m 'P (t). Hay que tener en cuenta que, en el caso de los depredadores, un
mayor número de presas supone más nacimientos; ello se expresa, por ejemplo, a través de la
constante r, que describe la eficiencia de transformar la comida en descendencia. El número de
encuentros presa-depredador, como vimos antes, es cPD; por consiguiente, la nueva ecuación
de los depredadores quedaría:
D ( f +1)=D (f)+nD (f) - mD (f)+ r [cP (f) D (f)].
Sin embargo, con las presas pasa justamente lo contrario, ya que cada vez que hay un encuentro
entre presa y depredador, el número de las primeras decrece; por tanto, su ecuación quedaría:
P (t+ '\)= P (t)+ n 'P (t)-m 'P (t)-r[cP {t)D (t)].

Incluso en una situación relativamente simple, una no-linealidad puede afectar
enorm em ente a u n sistema agregado. Por eso se dice siempre que el com porta
m iento agregado de u n sistema adaptable com plejo es más com plicado que el com
portam iento individual de las partes que lo form an.
Tercera propiedad: la formación de flujos
Los flujos aparecen en todos los niveles dentro de los sistemas adaptables complejos,
donde siempre tiene que haber nodos, transportadores y el recurso transportado.
Sólo p o r po n er dos ejemplos de sistemas adaptables com plejos donde hay flujos
podem os hablar del sistema nervioso central de u n ser vivo, donde los nodos son las
neuronas, los transportadores son las conexiones sinápticas entre ellas y el recurso
transportado son los impulsos eléctricos; un segundo ejem plo serían los flujos den
tro de u n ecosistema, donde los nodos son las especies, el transportador, la cadena
Si ahora tomamos estas dos ecuaciones, fijamos las constantes y las vamos resolviendo instante a
instante, veremos que D(t) y P(t) van oscilando a lo largo del tiempo, y ¡as presas y depredadores
van pasando por ciclos continuos de abundancia-hambruna.
Gráfico que representa la evolución de las poblaciones de conejos y zorros

a lo largo del tiempo según las ecuaciones de Lotka-Volterra.
trófica y el recurso transportado es la energía representada a través de elem entos
bioquím icos (proteínas consumidas, azúcares, etc.).
E n general, los nodos son procesadores del recurso, y las conexiones definen las
interacciones entre ellos. Sin embargo, en un sistema adaptable com plejo se debe
tener presente que la red de interacciones puede ser cam biante, y los nodos y co
nexiones p ueden ir apareciendo y desapareciendo. Justam ente esto es lo que hace
que u n sistema adaptable com plejo sea una entidad adaptable al m edio y que pueda,
de m anera autónom a, ir m odificando su co m portam iento según las necesidades,
adecuadas o no, del m om ento.
El etiquetado es u n o de los m ecanism os de los sistemas adaptables com plejos de
mayor im portancia para la definición de flujos; de hecho, las etiquetas p u ed en fijar
cuáles son las conexiones críticas para el transporte de recursos.
Los flujos presentan dos propiedades que son interesantes para el funcionam ien
to de los sistemas adaptables complejos. La prim era de ellas es el efecto m ultiplica
dor que introducen en el sistema; p o r ejem plo, en u n sistema adaptable complejo,
com o la econom ía de un país, el efecto del transporte de dinero de un n o d o a otro
(com o el que hay entre bancos) va ejerciendo de m ultiplicador de riqueza. La se
gunda propiedad interesante es la capacidad de creación de ciclos, con el fin de que
puedan darse casos de reciclaje. Por ejem plo, obsérvese en el siguiente esquem a
cóm o aum enta de m anera no-lineal la producción industrial en un sistema adapta
ble com plejo que sería una cadena de producción de coches, con y sin reciclaje.
M ineral de hierro
(10 unidades)
Fabricación de
autom óviles
(5 unidades)
P ro d u cto r de acero
(10 unidades)
Fabricación de
electrodom ésticos
(5 unidades)
En un prim er escenario, el p roductor de acero transforma, con una eficiencia del

100% (o sea x 1), el m ineral de hierro en acero. A continuación, el 50% (o sea X 0,5)
de la producción de acero se emplea en la fabricación de automóviles, y el otro 50%,
en la de electrodomésticos. Si, para simplificar, suponem os que p o r cada unidad de
acero se genera un auto o un electrodom éstico, tendrem os que al final del flujo se
habrán producido 5 unidades de coches y 5 de electrodomésticos.
Veamos ahora un escenario con el reciclaje com o agente m ultiplicador:
M ineral de hierro x0,75

(10 unidades)
Fabricación de
autom óviles
P roductor de acero (8 unidades)
(16 unidades)
Fabricación de
electrodom ésticos
(8 unidades)
E n este segundo escenario se reciclan el 75% de los coches; p o r tanto, el p roduc

to r de acero ahora es capaz de producir más acero, que al final se convierte en más
unidades de autom óviles producidas. Si el sistema se inicia con 5 unidades de co
ches reciclados, se irá increm entando la productividad ciclo a ciclo, hasta que el
sistema se estabilice en 8 unidades de coches producidas y, p o r tanto, 6 unidades
recicladas. Lo que significa que la p roducción de acero aum enta a l ó unidades, es
decir, 10 que provienen de las 10 unidades de m ineral y 6 que son producto de los
coches reciclados.
Cuarta propiedad: la diversidad
La diversidad es otra de las características que definen los sistemas adaptables co m

plejos. E n cualquier sistema adaptable com plejo existe una gran diversidad de agen
tes que, tras su coordinación, form an los patrones de com portam iento del sistema.
A m odo de ejem plo, podem os decir que en u n bosque tropical es posible cam inar
durante m edio kilóm etro sin llegar a toparse dos veces con la misma especie de
árbol. Pero no sólo en la selva tropical existe una diversidad tan grande: fijém onos
ahora en el sistema adaptable com plejo que podría suponer una ciudad com o
R om a, con m illones de personas diferentes, cada una con su oficio y sus particula
ridades, y miles de com ercios y empresas, cada uno, en su m ayor parte, com pleta
m ente distinto del otro, y a su vez, cada u n o de estos negocios vuelve a ser u n sis
tem a adaptable complejo.
Esta diversidad no es accidental ni aleatoria. Cada agente dentro de u n sistema
ocupa su nicho de actuación, que básicam ente viene definido p o r las conexiones
que se han establecido con los agentes vecinos. Si se elimina un agente de un siste
m a adaptable com plejo, el sistema se adapta para que autom áticam ente otros agen
tes ocupen el «agujero» dejado p o r aquél. C uando el sistema ya ha dejado de adap
tarse y llega a una situación estable, se dice que ha convergido.
La diversidad tam bién aparece cuando u n agente o conjunto de ellos se expan
den hacia nuevos nichos de actuación, dando la o p ortunidad para la creación de
nuevas funcionalidades que p u ed en ser explotadas p o r el sistema adaptable com ple
jo. U n buen ejem plo de ello lo constituye el proceso de m im etism o, según el cual,
y a m odo de ejem plo, una orquídea evoluciona para que sus flores im iten la form a
de un insecto con el fin de engañar a otros insectos, atraerlos y que éstos trasmitan
más eficientem ente el polen de una planta a otra.
Ophrys apifera u orquídea abeja es una planta que imita formas

de insectos en sus flores para atraerlos (fuente: Hans Hillewaert).
Pero la principal pregunta que suelen plantearse los investigadores es: ¿qué es lo
que perm ite e incluso m otiva a u n sistema adaptable com plejo crear tanta diversi
dad? Pues bien, norm alm ente, cuando se plantea el estudio profundo de u n o de
estos sistemas se puede trazar paso a paso qué adaptaciones ha ido sufriendo para
que em ergiera un agente u otro, y la necesidad de cada u n o de ellos se esclarece.
Por ejem plo, en un escenario donde el sistema adaptable com plejo se ha adaptado
para crear flujos cíclicos y, p o r tanto, para reciclar y ser más eficiente en lo global,
se abren nichos que dan pie a la aparición de nuevos agentes, com o los «agentes
recicladores». O tro escenario que da pie a la diversidad es una em presa en creci
m iento: es u n sistema que necesita la aparición de nuevas jerarquías, de m o d o que
requerirá la presencia de otro tipo de agentes que ejerzan la coordinación de cada
nivel jerárquico.
Segundo mecanismo: los m odelados internos
C ada sistema adaptable com plejo tiene cierta capacidad de crearse un m odelo in
tern o sobre el m edio que le rodea, que proporciona, ante todo, una visión sobre
futuros acontecim ientos y los cambios que se deben ejecutar para p o d er adaptarse
a ellos con éxito. Estos m odelos sobre el m edio son construidos a partir de los flujos
de inform ación que recibe el sistema y, a continuación, dichos flujos son transfor
m ados en cambios internos útiles que conform an los m odelos. U n a vez el m odelo
está construido, éste ayuda al sistema a p o d er anticipar las consecuencias que siguen
cuando u n determ inado p atró n aparece en el entorno. Pero u n sistema ¿cóm o p u e
de trasform ar la experiencia en modelos? ¿C óm o puede desarrollar un m odelo para
anticipar las consecuencias de eventos futuros?
C o m o siempre en la naturaleza, la presión evolutiva es la m ejor h erram ienta
para construir este tipo de m ecanism os. E l h echo de que una bacteria sepa que
siem pre debe seguir en la dirección m arcada p o r el m áxim o gradiente de alim ento
es u n «instinto» m arcado p o r un m odelo in tern o que le inform a que si sigue ese
p atrón de com portam ien to m axim iza las posibilidades de asegurarse la fuente de
alim ento. Si una bacteria no ha llegado a crearse el m odelo in tern o que le p ro p o r
ciona dicho instinto, tiene m enos posibilidades de reproducirse y, p o r tanto, de
dejar descendencia. Las bacterias que sí hayan codificado las estructuras y je ra r
quías entre sus agentes internos que le p ro p o rcio n en la capacidad de crear ese
m odelo in tern o tendrán más posibilidades de reproducirse y, p o r tanto, de expan
d ir esa propiedad al resto de la población.
Existen dos tipos diferentes de m odelos internos, los implícitos y los explícitos.
El ejem plo de la bacteria que sigue su instinto en busca de más alim ento es un
m odelo im plícito, ya que es un m odelo que no le perm ite «pensar» ni simular qué
pasaría si hiciera cualquier otra cosa. E n cambio, u n m odelo explícito, que aparece
en la naturaleza en entidades superiores, es una herram ienta que sí perm ite a su
poseedor tener una visión de varios escenarios hipotéticos, lo que le perm ite tom ar
la m ejor decisión después de analizar las diversas alternativas. U n ejem plo de m o
delado in tern o en un sistema adaptable com plejo inform atizado podría ser una
m áquina jugadora de ajedrez, capaz de analizar centenares de miles de m ovim ientos
en cada tu rn o antes de m over la pieza. Lógicam ente, cuando el m odelo es im plíci
to, se crea y se adapta al m edio a una escala evolutiva, m ientras que si es explícito, la
velocidad de adaptación es m ucho mayor.
Conjunto de bacterias de la especie Escherichia coli ampliado 10.000 veces.

Cada «bastoncito» corresponde a un individuo.
Tercer mecanismo: los bloques de construcción
U n m odelo interno de u n sistema adaptable com plejo está basado n orm alm ente en
u n conjunto de muestras limitadas de situaciones pasadas que, p o r una parte, son
similares, si bien cada una de ellas incorpora cierta novedad con respecto a la ante
rior. Pero ¿cómo puede un sistema adaptable com plejo crear m odelos internos en
base a experiencias pasadas limitadas y que éstos sean útiles para nuevas situaciones
futuras? La clave de esta paradoja reside en el uso de los denom inados bloques de
construcción. Se trata de los elem entos en los que todo sistema, en to rn o o escena
rio se puede descom poner. Por ejemplo, exam inem os el caso de una entidad finan
ciera que, p o r otra parte, responde perfectam ente a la definición de sistema adapta
ble complejo. Supongam os que la entidad está tratando de dilucidar si concede un
préstam o a un nuevo cliente o no, y su preocupación principal es saber, lógicam en
te, si el cliente en cuestión será capaz de devolverlo en el plazo acordado. El banco
no tiene ni idea de si el cliente podrá continuar pagando las cuotas del crédito den
tro de 15 años, ya que no puede adivinar el futuro. Supongam os, para m ayor difi
cultad, que además es u n cliente com pletam ente nuevo, sin historial crediticio y, p o r
tanto, sin ninguna referencia previa. Lo que haría el banco en este caso es descom
po n er el problem a y, analizando las características que definen el nuevo cliente,
com o nivel formativo, oficio, estado civil, etc., ver cóm o se han com portado clientes
que responden a su m ism o perfil. Para u n banco que está analizando u n nuevo
cliente, esas características son los bloques de construcción que definen el escenario
ante el que se encuentra este sistema adaptable complejo.
La capacidad de com binar bloques de construcción para conform ar los m odelos
internos im plícitos se realiza a escala evolutiva, m ientras que el aprendizaje en m o
delos internos explícitos es una capacidad que suele ejecutarse a escalas m ucho más
reducidas, aunque en la naturaleza sólo se da en animales superiores.
Los autóm atas celulares

El ejem plo más clásico de vida artificial (o, m ejor dicho, sistema adaptable com ple
jo) en el cam po de la inform ática es el de los autóm atas celulares. Se trata de u n
concepto bastante simple que ayuda a explorar la com plejidad de sistemas superio
res, fruto de la investigación de dos de los m atem áticos dedicados al m u ndo de la
com putación más reputados, Stanislaw U lam (1909-1984) y Jo h n von N eu m an n
(1903-1957), a los que además unía una gran amistad.
El matemático estadounidense de origen polaco Stanislaw Ulam.

Los autómatas, en general, son form ulism os m atem áticos que, ante una d eterm i
nada entrada, ejecutan una serie de instrucciones programadas previam ente. Por
decirlo en otras palabras, u n autóm ata es una generalización de un algoritm o o un
program a inform ático. Por eso, en inform ática todo son autóm atas, desde un m icro-
chip program ado para realizar unas determ inadas acciones hasta un sistema opera
tivo. U n ejem plo de autóm ata que ya se vio en el p rim er capítulo es la m áquina de
Turing.
N orm alm ente, los autómatas teóricos, com o la m áquina de Turing, son instru
m entos que recogen sus entradas e im p rim en sus salidas en cintas unidimensionales.
D e este m odo, el autóm ata va viajando p o r encim a de la cinta, a izquierda o dere
cha, leyendo los símbolos que hay escritos en ella, tal com o se m uestra en la figura
siguiente; a partir de ellos y su program ación, realiza una acción u otra, com o podría
ser im prim ir u n determ inado sím bolo en una parte de la cinta.
Dos de los com ponentes fundamentales de una máquina de Turing:

la cinta de papel y la cabeza lectora con capacidad de escritura
(fuente: Complexity, de Melanie Mitchell).
Sin embargo, los autóm atas celulares son una clase particular de autóm atas que
no viajan p o r encim a de cintas bidim ensionales, sino que en ellos el m edio de en
trada/salida es un casillero plano, com o u n tablero similar al de ajedrez, y en cada
una de las casillas hay un autóm ata celular que no se desplaza. E n los autómatas
celulares las entradas de inform ación son las casillas adyacentes a aquella en la que
está situado el autóm ata, y la salida de inform ación se realiza en la propia casilla
donde está ubicado.
C ada autóm ata dispuesto en cada una de las casillas del tablero tiene program a
das una serie de instrucciones. P or ejem plo, si el núm ero de casillas negras que ro
dean la casilla en la que está situado el autóm ata celular es par, pinta la casilla de
salida de negro y, si no, la pinta de blanco. E n este caso, y ubicando un autóm ata
celular en cada una de las casillas del tablero, éste puede ir adoptando diversas for
mas o dibujos, cambiantes en función de lo que los diferentes autóm atas celulares
estén pintando en ese m om en to en las casillas.
E ntre las infinitas configuraciones que puede presentar u n autóm ata celular, hay
u n conjunto de ellas que dan pie a la em ergencia de eventos perpetuos, com o es el
caso del autom atism o de C onw ay o ju eg o de la vida. D e hecho, en In tern et el lec
to r puede encontrar u n gran núm ero de configuraciones que dan lugar a la em er
gencia de graciosos dibujos que se crean, se autodestruyen y se vuelven a crear, y
todo ello program ado con norm as realm ente simples, similares a las del autom atis
m o de Conway.
Dibujo de una máquina de Turing a vapor pintada p o r los estudiantes

de la Universidad de Washington en una de las salas
de la universidad.
EL A U TO M A TISM O DE CO N W A Y O EL JU EG O DE LA V ID A
El juego de la vida, ideado por John Horton Conway (n. 1937), es una programación de autómatas
celulares que, a pesar de su simplicidad, da lugar a la aparición de un fascinante comportamiento

emergente. Las reglas son simplemente dos, y se deben tener en cuenta las ocho casillas que rodean
a cada una de las demás, más el propio estado de la casilla en la que se ubica el autómata celular:
Regla 1. Si el color de la casilla es «blanco» y exactamente tres casillas vecinas tienen color «ne
gro», entonces el color de la casilla cambia a «negro»; si no, continúa «blanco».
Regla 2. Si el color de la casilla es «negro» y dos o tres vecinos también tienen el color «negro»,
entonces la casilla continúa de color «negro»; si no, cambia a «blanco».
Si el lector tiene conocimientos básicos de programación de ordenadores, se recomienda que
implemente estas sencillas normas para ver el comportamiento en vivo. En caso contrario, a
continuación se muestras algunos ejemplos de comportamiento:
I
js -I I
I i
V - #
Es justamente el ejemplo emergente que surge al programar las reglas del juego de la vida lo que
se conoce como «glider», que sería la siguiente sucesión cíclica:
Sistemas inm unes artificiales

Im itar el com portam iento inteligente y sabio de la naturaleza siempre ha sido una
gran fuente de inspiración para los ingenieros especializados en inteligencia artifi
cial. La naturaleza inspiró en su m o m en to la idea de las redes neuronales y los algo
ritm os evolutivos ya explicados anteriorm ente, de gran im portancia en la historia
de la inteligencia artificial. D e la misma fuente de inspiración han surgido otras
técnicas, com o los sistemas inm unes artificiales, que tratan de im itar el com porta
m iento del sistema inm u n e animal, o la inteligencia de enjam bre, que in tenta im itar
el com portam iento individual y simple de cada u n o de los m iem bros de una colo-
Como puede apreciarse en la figura de la izquierda, la forma
en f+ 4 es idéntica a la de t, pero toda ella se ha desplazado
é ü Í eé un cuadro hacia abajo y otro hacia la derecha. Por tanto, si
repetimos las operaciones hasta f+ 9 , veremos que el «glider»
f+i-
■ (que viene a ser el nombre que recibe el dibujo) se vuelve a
desplazar por el tablero en la dirección diagonal que se muestra
en la figura inferior:
f+2-
■
t+3
Versión más sofisticada del «glider».
I
f+4 Si la imagen estuviera animada, veríamos cómo
los dibujos situados bajo la flecha se desplazan
en la dirección a la que ésta apunta.
nia (por ejem plo, u n enjam bre de abejas) para, de m anera agregada, simular ciertos
patrones de com portam iento aparentem ente inteligentes.
El sistema inm une de un anim al es, en cierto m odo, u n sistema de optim ización
y reconocim iento de patrones m uy eficiente, ya que, dado un nuevo problem a que
hay que resolver (un antígeno que se ha introducido en el cuerpo), rápidam ente
diseña, m ediante un ordenado proceso de prueba y error, la solución a dicho p ro
blem a, o dicho en térm inos biológicos, el anticuerpo que reconoce al antígeno en
cuestión.
El funcionam iento del sistema inm une es bastante similar al de u n proceso evo
lutivo, con la gran salvedad de que en este caso no se cruzan las diferentes propues-
tas de soluciones para tratar de identificar una solución prom edio que com bine las
bondades de los progenitores. E l procedim iento puede resumirse de la siguiente
manera:
1. Se genera una gran variedad de anticuerpos de m anera aleatoria.

2. Se evalúa la bondad de cada u n o de esos anticuerpos, es decir, se analiza si
puede reconocer al antígeno que está atacando el cuerpo.
3. A partir de ellos se crea una segunda generación de anticuerpos según la si
guiente estrategia:
a) Se replican los anticuerpos en múltiples copias. Cada anticuerpo es
m ultirreplicado proporcionalm ente a su bondad, es decir, un anticuer
po m uy eficaz será replicado muchas veces para la nueva generación,
mientras que u n o malo, o bien no es replicado o bien es replicado m uy
pocas veces.
b) Se introd u cen variaciones en las copias de los anticuerpos (o m utacio
nes si usamos la term inología de los algoritm os evolutivos), de m anera
inversam ente proporcional a su eficacia, es decir, las copias de los anti
cuerpos buenos prácticam ente no serán modificadas en la nueva p o
blación (pero algo sí), m ientras que las réplicas de los malos anticuer
pos sufrirán grandes variaciones.
4. Los nuevos anticuerpos diseñados en los pasos anteriores son de nuevo eva
luados ante el antígeno, y el proceso se repite para crear una nueva generación
de anticuerpos.
5. C uando el sistema biológico considera que ya tiene un buen anticuerpo efi
ciente para reco n o cer el antígeno, el proceso se detiene.
Im itar el proceso que sigue el sistema inm une para diseñar anticuerpos se puede
adaptar fácilmente a la resolución de problemas reales. D e hecho, el único paso crí
tico es cóm o representar las posibles soluciones a u n problem a para que éstas puedan
ser replicadas y variadas. Lo que se recom ienda en este caso es seguir la m etodología
usada en los algoritmos evolutivos, es decir, codificar la solución m ediante crom oso
mas com puestos a partir de genes. A unque estemos m ezclando term inología de dos
técnicas aparentem ente m uy diferentes, el invento funciona y cada vez se usan más
sistemas inm unes artificiales para resolver problemas reales de ingeniería, no sólo por
su eficacia en la optim ización, sino tam bién porque se adaptan m uy bien a la arqui
tectura de los m odernos esquemas de supercom putación y com putación distribuida
basados en grid-computing (del inglés, «com putación en malla») y cloud-computing
(«com putación en la nube»). E n estos casos, la potencia de cálculo está distribuida en
una «nube» abstracta y difusa de ordenadores que individualm ente son m uy potentes,
aunque no existe necesariam ente una buena com unicación entre ellos. Por eso, el
control central de un sistema inm une puede m andar evaluar los anticuerpos a la
nube, y cuando se term ina la evaluación, el sistema central diseña la siguiente gene
ración. E n este escenario, es en la evaluación individual de los anticuerpos donde
existe la mayor parte del coste com putacional, y p o r eso se m andan evaluar a la nube
de cálculo, m ientras que la creación de las nuevas generaciones se puede realizar de
m anera secuencial con poco coste en el sistema central.
Inteligencia de enjam bre

La inteligencia de enjam bre (en inglés swartn intelligence) vuelve a estar inspirada en
la naturaleza. El térm ino fue introducido p o r G erardo Beni y Jin g W an g a finales de
la década de 1980. La inteligencia de enjam bre está basada en simular el com porta
m iento individual de entidades simples de m anera que, al agregar el co m portam ien
to de m uchas entidades iguales, em eija u n co m portam iento global que pueda tener
cierta inteligencia. Por ello, el principal reto en la im plem entación de u n sistema de
inteligencia de enjam bre es definir cóm o interacciona cada entidad con su entidad
vecina y con el m edio. A p artir de esta política, si está b ien definida, al agregar la
actividad de todas las entidades de la colonia o del enjam bre deberá em erger un
com portam iento inteligente global.
Veamos u n caso práctico inspirado en el co m p o rtam ien to de una bandada de
pájaros que surca los cielos. Im aginem os que se desea encontrar el ó ptim o de una
función m atem ática com pleja con centenares de dim ensiones, con diversos m áxi
m os y m ínim os locales, etc. A hora, para em pezar (diremos que t = 0) situam os cien
«pájaros» de m anera aleatoria, pero agrupada, en una zona de la función. C ada uno
de ellos, de m anera individual, cada vez que avanzamos en la línea del tiem po
(f' = t+ 1) sólo debe ten e r en cuenta dos cosas: a) la dirección (^4) en la que está
situado el «centro de masas» de la bandada, es decir, la dirección p rom edio en la
que se encuentra el resto de sus com pañeros, para no separarse en exceso de ellos,
y b) la dirección (B ) hacia la que se dirige el m áxim o gradiente de la función que
hay que optim izar; es decir, com o querem os encontrar el m áxim o de la función,
hace falta saber hacia qué dirección crece más rápidam ente la función. A p artir de
las dos direcciones calculadas, A y B, se calcula una tercera, C = A + B, y cada «pá
jaro» debe desplazarse ligeram ente en esa dirección C. C o m o todos los «pájaros»
están reproduciendo estas reglas de desplazam iento, la bandada va navegando p o r
la función, sin separarse excesivam ente y buscando el m áxim o global. La ventaja de
utilizar u n g rupo de «pájaros» y no u n o solo es que, al usar varios p u ntos de explo
ración (cada uno de los «pájaros»), la superficie de m uestreo de la función es m ayor
y se reduce la posibilidad de caer en m áxim os locales, lejos del m áxim o global.
E n la figura anterior, los puntos negros representan los diversos «pájaros» de la

bandada, y el punto blanco, el centro de masas de la misma. La flecha muestra la di
rección global que seguirá la bandada en búsqueda del m áxim o global.
La inteligencia de enjambre se inspira en el modo de desplazarse de algunos pájaros,

com o los estorninos, que se agrupan en enormes bandadas que dibujan
unas formas muy curiosas en el cielo.
Sin embargo, a pesar de la innovación que supone la inteligencia de enjam bre,
el uso de estos m étodos en la resolución de problemas reales es aún incipiente. E n
la actualidad existen dos ám bitos altam ente relacionados donde estas técnicas están
siendo exploradas de form a intensiva para el control y la navegación autom ática de
vehículos: el sector aeroespacial y el sector militar.
Aplicaciones de la vida artificial

La vida artificial es un cam po relativam ente nuevo en el ám bito de la inteligencia
artificial. Es p o r esto que aún son incipientes las aplicaciones que se le están dando.
Sin embargo, en el futuro, complejas tareas de control, supervisión y planificación
serán llevadas a cabo p o r sistemas «vivos», com o ya está pasando en el caso de las
inversiones especulativas bursátiles.
Teoría de juegos
La teoría de juegos es una ram a de las m atem áticas que se dedica a estudiar las
interacciones entre estructuras de incentivos y cóm o llevar a cabo procesos de
decisión. El objetivo final es identificar las estrategias óptim as y predecir el com
p o rtam iento de los individuos involucrados en una de esas estructuras ante una
situación concreta. Los m atem áticos Jo h n von N eu m an n y O skar M o rgenstern
fundaron las bases de esta disciplina durante la G uerra Fría co n el fin de identificar
las estrategias militares óptim as, aunque rápidam ente fue expandiendo su aplica
ción a la econom ía, la política, la ética, la filosofía, la biología y, p o r supuesto, la
teoría de la com putación.
La teoría de juegos es de m ucha utilidad en el estudio de los sistemas adaptables
com plejos, ya que a m enudo los agentes que co m ponen dichos sistemas deben
com petir o cooperar entre ellos para conseguir el bien global del sistema. A m e
nudo, en u n esquem a cooperativo el esfuerzo individual de un agente es m ayor
que el beneficio global repartido de m anera proporcional entre todos los agentes
que com ponen el sistema. Sin em bargo, este esfuerzo puede ser im prescindible
para alcanzar el bien global, cuyo beneficio, en valor absoluto, p uede multiplicar
p o r varios órdenes de m agnitud el esfuerzo individual. Así pues, para incentivar el
com portam iento adecuado de los agentes que co m p o n en el sistema y p o d er prede
cir la viabilidad de u n sistema adaptable com plejo a través del co m portam iento de
aquéllos, deben usarse análisis de teoría de juegos.
El famoso robot de Honda bautizado como ASIM O. Es capaz de realizar actividades
tan humanas com o bajar escaleras o jugar a fútbol.
D e nuevo el data m ining

La vida artificial es un concepto evocador y u n tanto m isterioso para los profanos.
Sin embargo, los conceptos vistos hasta el m o m en to que encajan dentro de la defi
nición de vida artificial, com o los autóm atas celulares, son usados en ingeniería para
tareas bastante prosaicas. U n a de esas aplicaciones es el análisis inteligente de datos,
o data mining, que ya hem os visto con anterioridad. E n un problem a de análisis de
datos hace falta procesar grandes cantidades de datos para extraer conclusiones a
partir de ellos, pero los volúm enes de inform ación que deben procesarse no rm al
m ente tienen unas dim ensiones tan grandes que son casi imposibles de m anejar p o r
expertos hum anos. Por eso suelen utilizarse herram ientas informatizadas inteligen
tes con el fin de desarrollar análisis de tendencias entre los datos.
A pesar de que el análisis de datos se puede llevar a cabo con una gran variedad
de herram ientas, los autóm atas celulares aportan algo distinto y ese algo es la capa
cidad de interrelacionar los datos espacialmente. Por ejem plo, im aginem os que es
tamos analizando los datos de las ventas de paraguas en u n país concreto. Los datos
de las ventas, desglosados p o r clientes, p u ed en ser procesados sin ten er en cuenta la
distribución espacial de las ventas, o com o m ucho, introduciendo la distribución
espacial com o una variable categórica, es decir, el cliente A com pró 20 unidades y
A es de la ciudad X , m ientras que B com pró 240 unidades y es de la ciudad Y, y C
com pró 4.530 unidades y es de Z . E n u n sistema que no pueda ten er en cuenta la
distribución espacial, las ciudades X ,Y y Z no son más que categorías, y difícilm en
te se puede ten er en cuenta que X está a 150 k m al sur de Y, y que Y está a 400 km
al sur de Z. Si se tuviera en cuenta ese dato, se vería que en ese determ inado país, la
región del n o rte es la más lluviosa, y p o r eso, a m edida que se viaja hacia el sur,
dism inuyen drásticam ente las ventas de paraguas.
A hora bien, si estos datos geográficos los representam os encim a de u n tablero
(com o lo hacen los autóm atas celulares), de m anera que la d istribución espacial
tenga una cierta relación co n la d istribución geográfica real de la p ro cedencia de
los datos, el análisis que se puede desarrollar de esta in fo rm ac ió n sí que tendrá en
cuenta la distribución espacial de m anera más in telig en te que una simple catego-
rización.
Por ese m otivo, una vez que los datos están distribuidos en u n casillero, se p u e
de usar una m etodología de tipo algoritm o evolutivo para que encuentre, p or
evolución, las reglas que el autóm ata celular debe im plem entar para ejecutar el
análisis de datos. Si volvemos al ejem plo de la venta de paraguas e introducim os
com o dato asociado a las ventas la pluviom etría de cada u n o de los p u ntos de ven
ta, podem os hacer que un algoritm o nos evolucione u n conju n to de reglas cuya
salida sea pintar la casilla de u n color u otro en función de las ventas de paraguas
de cada uno de los puntos de venta, descontando el efecto pluviom étrico. D e este
m odo, si pintáram os el m apa de ventas sin ten er en cu enta la pluviom etría, tendría
mos un m apa com o el siguiente:
■ > 400
H > 200 y < 400
H > 100 y < 200
> 0
Sin embargo, al elim inar el efecto introducido p or la pluviom etría de los lugares,
podría adoptar el siguiente aspecto:
M elevado
0 m edio-alto
m edio-bajo
bajo
Todo ello puede indicarle a u n experto que en la zona centro-sur del m apa es
donde se venden más paraguas, y esto m uestra la tendencia de que en aquella parte
del país hay u n m ayor po d er adquisitivo, ya que, dadas las características de la región,
la población es capaz de gastar su dinero en un producto que no le es del todo n e
cesario. Lo que el distribuidor de paraguas haría a continuación sería aum entar el
precio de los paraguas en la zona centro-sur del país, ya que, aunque se venden
m enos unidades, la gente los com pra p o r lujo más que p o r necesidad y, p o r tanto, es
m enos sensible al precio.
P rogram ación de robots

O tro aspecto m uy im portante para el que es útil la vida artificial y, en general, los
sistemas adaptables complejos, es para la program ación del com portam iento de un
robot. Cada vez más están llegando al gran consum o robots domésticos capaces de
realizar tareas sencillas de limpieza, com o puede ser aspirar o fregar el suelo, o de
tectar la presencia de intrusos. Estos robots suelen tener una cierta movilidad, ya que
se desplazan dentro de los hogares m ediante ruedas, pero deben ser guiados p o r u n
sistema inteligente para saber hacia qué dirección deben ir y qué acción deben
llevar a cabo en cada ubicación. E n el caso más simple, el de los robots-aspiradora,
vamos a ver cóm o éstos ya cum plen con las definiciones de los sistemas adaptables
complejos:
El robot aspiradora es uno de los robots
dom ésticos más conocidos.
■— A gregación. Por supuesto, estos robots son sistemas agregados, ya que tienen
m otores, detectores de presencia, la propia aspiradora, la unidad de procesa
m iento que determ ina la dirección hacia la que dirigirse, etc.
— E tiquetado. Estos robots p ueden etiquetar e interaccionar con un m edio
etiquetado. Por ejem plo, si detectan que una zona del espacio acumula más
suciedad de lo norm al, la etiquetan com o tal y en ella focalizan u n m ayor
esfuerzo.También el usuario puede etiquetar una zona p o r la que el ro bot no
debe pasar y éste p uede detectarla y evitarla.
— N o-linealidad. D e nuevo el com portam iento de estos robots es claram ente
no-lineal, ya que la suma de las partes es capaz de realizar tareas de u n valor
superior que la suma individual de las partes. U n m otor, unas ruedas, una
aspiradora, etc., de m anera independiente, no p ueden m antener lim pio de
polvo u n hogar sin intervención hum ana, m ientras que sí tienen esa capaci
dad cuando están todos coordinados dentro del sistema adaptable com plejo
que supone u n o de estos robots.
— Flujos. El m ism o ro bot es un com plejo sistema de gestión de flujos de infor
m ación, de m odo que ésta fluye entre el m edio y las diferentes partes del
robot. Éste cuenta con u n determ inado núm ero de sensores que le sum inis
tran datos sobre el m edio, com o, p o r ejem plo, d ónde se encuentran las pare
des o si está entrando en una zona particularm ente polvorienta. Esta infor
m ación circula hasta la unidad central de procesam iento y allí se analiza y se
envían otras señales a los diferentes m otores del robot, que ejecutan órdenes
que m odifican el m edio original desde donde fluyeron las señales iniciales.
E n el caso de encontrar suciedad, se ordenará aum entar la potencia de aspi
rado, y si se encuentra con u n obstáculo se puede ordenar dar m edia vuelta.
— Diversidad. Tam bién reflejan diversidad en su m o do de com portarse, de
m odo que si encuentran u n obstáculo buscan la form a de sortearlo. La diver
sidad radica en que no sortean los obstáculos siempre del m ism o m odo, sino
que van alternando m odos de sorteo con el fin de m inim izar las posibilida
des de quedar atrapado infinitam ente en u n m ism o lugar.
— M odelos internos. D isponen de unos m odelos internos im plícitos, de m odo
que al inicio de su funcionam iento van siguiendo una ruta arbitraria, pero a
m edida que van conociendo más superficie explorada, van concentrando su
acción en aquellas zonas donde se acum ula más polvo.
— B loques de construcción. Finalm ente, estos robots usan bloques de cons
trucción en sus m odelos internos. P or ejem plo, si encu en tran una pared,
tratan de sortear el obstáculo, hasta que se dan cuenta de que es una pared
y que ese obstáculo es insorteable; entonces to m an otra estrategia. Lógica
m ente, los robots aspiradora no están entrenados para adoptar ese co m p o r
tam iento en todos los tipos de paredes o elem entos parecidos a una pared,
sino que se usa el bloque de construcción «pared», y cuando éste aparece, se
ejecuta la estrategia.
E pílogo
Predecir es difícil, especialmente cuando se trata delfuturo.
Niels B o h r
Llegados a este punto, el lector ya debería ten er una ligera idea de qué hay de rea
lidad y qué hay de invención en todos los cuentos, novelas y películas de ciencia
ficción que, demasiado a m enudo, nos m uestran máquinas pensantes casi humanas.
H oy en día la inteligencia artificial no es más que un conjunto de herram ientas
avanzadas que perm iten solucionar com plejos problemas de m anera rápida, aproxi
m ada y basándose en la experiencia adquirida, tal y com o lo haría u n ser hum ano.
A veces, podem os disfrutar de cierta creatividad o innovación en estos algoritmos
que la ciencia y la tecnología m oderna han puesto a nuestro alcance, pero desgra
ciadam ente aún estamos lejos de encontrarnos con m áquinas, incluso en los ámbitos
de la investigación más puntera, que puedan ser confundidas co n un ser hu m a
no. A un así, diariam ente y de m anera inconsciente vamos interactuando con verda
deras herram ientas, sistemas y aparatos que im plem entan algoritm os inteligentes,
com o pueden ser los sistemas de conducción de m uchos trenes europeos, la depu
ración de aguas residuales de la mayoría de las grandes ciudades o la planificación
logística del m ovim iento de miles de m illones de toneladas de mercancías que a
diario recorren nuestro planeta.
D e hecho, poco a poco, la inteligencia artificial va penetrando en nuestras vidas
y, tarde o tem prano, llegará el día en que podrem os interactuar con máquinas con
el m ism o nivel de creatividad, percepción e inteligencia em ocional que u n ser h u
m ano; entonces, esta vez sí, sabremos que no estamos solos.
A n ex o
Conversación con Eliza

E n el capítulo 1 ya tuvim os una pequeña conversación con Eliza, el «psicólogo
autom ático» desarrollado p o r Joseph W eizenbaum . E n este anexo m e he esforzado
en ten er otra conversación real u n poco más larga para que el lector p ueda observar
su com portam iento en u n e n to rn o un po co más extenso. Por supuesto, los motivos
que se le dan a Eliza son com pletam ente falsos y sirven sólo para ilustrar su co m
portam iento:
Eliza: H ola. ¿C óm o estás? C u éntam e tu problema.

I. Belda: Estoy estresado.
Eliza: ¿Desde cuándo estás estresado?
I. Belda: D esde que m i editor m e dijo que tenía que escribir más rápido este
libro.
Eliza: ¿Y p o r qué te dijo tu editor que escribieras rápido este libro?
I. Belda: Porque quiere que lo entregue antes de enero.
Eliza: ¿Y es ésa una razón real?
I. Belda: C reo que él tam bién está presionado.
Eliza: ¿Puedes explicárm elo mejor?
I. Belda: M e dijo que necesitaban bastantes títulos para publicarlos inm ediata
mente.
Eliza: ¿Y eso explica el hecho de que quiera que escribas ese libro rápido?
I. Belda: ¿Tú qué crees?
Eliza: ¿Por qué m e lo preguntas?
I. Belda: Porque es obvio.
Eliza: ¿Y qué otras razones te vienen a la cabeza?
I. Belda: C reo que otros escritores se están dem orando.
Eliza: ¿Y dices que otros escritores se están dem orando p o r alguna razón?
I. Belda: Porque él m e lo dijo.
Eliza: ¿Te parece que esto explica alguna otra cosa?
I. Belda: N o, sim plem ente que él tam bién está bajo presión.
Eliza: Estás siendo u n poco negativo.
I. Belda: ¿Por qué lo dices?
Eliza: ¿Este tem a te interesa?
I. Belda: Sí, m e interesaría saber p o r qué crees que soy un poco negativo.
Eliza: Ya veo.
E n este punto el autor se cansó de continuar dando coba a Eliza y dejó la con
versación, pero el lector ya habrá observado que su com portam iento es en realidad
m uy simple. Lo prim ero que Eliza intenta hacer ante cualquier afirm ación es pre
guntar p o r las razones, luego p o r las razones de las razones, y así sucesivamente.
C uando se llega a un callejón sin salida, intenta salirse p o r la tangente con frases
com o «Estás siendo u n poco negativo» o «Ya veo».
G losario
A lg o ritm o evolutivo. M étodo de cisivas o discrim inantes que decantan

búsqueda y optimización basado en la una m uestra hacia una clase u otra. Se
evolución natural. E n u n algoritmo trata de una herram ienta m uy simple,
evolutivo se proponen distintas solucio pero tam bién m uy efectiva, para el re
nes posibles a un problema, éstas se eva conocim iento de patrones.
lúan y las mejores com piten entre sí para
acabar obteniendo la solución óptima. A u tó m ata. M áquina, que no necesa
riam ente tiene que ten er una represen
A lg o ritm o genético. Clase particu tación física, que puede ser program a
lar de algoritm o evolutivo. E n general, da para que responda de determ inadas
en los algoritm os genéticos las solu maneras a las entradas que recibe.
ciones a un determ inado problem a se
codifican m ediante una secuencia de A u tó m ata celu lar. Caso particular
bits. Las secuencias (llamadas genes) de autóm ata program able y el ejem plo
que representan las mejores soluciones más simple de vida artificial. U n autó
(o individuos) son cruzadas entre sí y mata celular tiene u n co m portam ien
mutadas, simulando al m áxim o el pro to espacial, es decir, recibe las entradas
ceso evolutivo biológico. El algoritm o de su área adyacente y, en función de
genético fue uno de los prim eros es la situación de su entorno, adopta un
quemas evolutivos que popularizaron co m portam iento u otro.
estas técnicas inteligentes.
Clustering. C onsiste en agrupar m ues
A n á lisis de co m p o n entes p r in c i tras estadísticas atendiendo a criterios
pales. N o rm alm ente abreviada p o r sus varios. El reto de las herram ientas de
siglas en inglés, PC A , es una popular clustering es detectar los criterios de
herram ienta estadística usada para de agrupación de m anera inteligente. T ie
term inar las com ponentes, o variables, ne múltiples aplicaciones en todas las
que mayor variabilidad in troducen en disciplinas científicas.
los datos estudiados.
C o m p u ta c ió n evolutiva. Disciplina
A rb o l de d ecisió n . H erram ienta in que estudia los algoritm os evolutivos,
form ática usada para clasificar muestras su configuración óptim a y su aplica
estadísticas. La clasificación se basa en ción a la resolución de problemas. Véa
el análisis de las com ponentes más de se algoritm o evolutivo.
C o m p u ta d o r u niversal. H erram ien gencia» m uy simple. Al agregar dece
ta que puede com putar cualquier al nas o centenares de dichos autómatas,
goritm o. U n com putador universal es la inteligencia global aum enta de m a
una entelequia m atem ática usada para nera no lineal hasta alcanzar una inteli
com probar que un nuevo lenguaje de gencia de g rupo significativa.
program ación o un nuevo dispositivo
electrónico puede im plem entar todas L ó g ic a bo olean a. Es una lógica m a
las funciones para las que será usado. tem ática basada en el álgebra de Boole,
donde las variables sólo p u ed en adop
D iv ersid a d . C oncepto estudiado en la tar los valores de «verdadero» o «falso».
com putación evolutiva para determ inar Toda la electrónica digital m o d ern a se
la variancia genética de la población fundam enta en la lógica booleana, con
(conjunto de soluciones propuestas) de excepción de los últim os avances en la
u n algoritm o evolutivo y cóm o evolu com putación cuántica.
cionan éstas a lo largo del tiempo. El
estudio de la diversidad genética en una M áq u in a de soporte v ecto ria l. Po
evolución es crucial para determ inar la tente y popular herram ienta m atem á
configuración óptim a del algoritm o y tica introducida p o r el científico Vla-
que no conduzca a subóptim os locales. dim irV apnik a principios del siglo x x t
capaz de clasificar muestras estadísticas
E n tro p ía de Sh an n o n . C oncepto m ediante la introducción de nuevas di
m atem ático m uy usado en telecom uni m ensiones «artificiales» en las variables
caciones para determ inar el «desorden» de u n problem a. El nom bre de la h e
o la entropía de una señal. Básicam ente rram ienta proviene del hecho de que,
es una m edición sobre el núm ero de para clasificar los datos estadísticos, se
símbolos distintos y su frecuencia de determ inan los vectores o muestras es
aparición en una señal o en una fuente tadísticas de clasificación conocida que
de datos. La entropía de Shannon tam d eterm inan los soportes del hiperplano
bién es usada en criptografía y en la que m ejor separan las muestras de dis
com presión de datos. tinta clase.
In telig en cia de en jam b re. Sistema M áq u in a de T u rin g . Caso particular

com plejo de vida artificial usado en la de autóm ata program able que recibe
resolución de determ inados problemas. su entrada desde una cinta infinita y
La inteligencia de enjam bre trata de tiene la capacidad de desplazarse y es
program ar autómatas con una «inteli crib ir sobre dicha cinta. Se supone que
una m áquina de T uring es u n c o m p u R e d n euro nal. H erram ienta m atem á
tador universal, aunque esto aún no ha tica consistente en una red de neuro
p odido ser dem ostrado m atem ática nas artificiales capaces de ser entrenadas
m ente. La m áquina de T uring es una para resolver problemas de clasificación.
entelequia m atem ática m uy usada en Las redes neuronales im itan el com
la teoría de la com putación, ya que se p ortam iento del sistema nervioso ani
utiliza para verificar que u n nuevo len mal, tam bién com puesto p o r neuronas
guaje de program ación p u ed e co m p u entrenadas m ediante un proceso de
tar cualquier algoritm o, im plem entan- aprendizaje.
do con dicho lenguaje una m áquina
de Turing. Sistem a experto . A ntiguo m é to
do inteligente consistente en crear
M in e ría de datos. R am a del análisis programas inform áticos expertos en
de datos que es capaz de extraer nuevo un a d eterm inada disciplina técnica o
conocim iento e inferir reglas no evi científica. El razonam iento de estos
dentes a partir de un gran volum en de program as estaba com pletam ente cir
muestras. La m inería de datos es capaz cunscrito al cono cim ien to in tro d u ci
de establecer relaciones entre datos do en el m o m en to de la program ación
que se presentan en un volum en exce y difícilm ente podían llegar a aprender
sivo para que la m ente hum ana pueda a partir de nuevas experiencias; ése es
procesarlos y extraer hipótesis conclu el m otivo p o r el que dejaron de ser
yentes. usados.
R e d bayesiana. H erram ienta m ate So b reen tren am ien to. T iene lugar
m ática basada en la concatenación de cuando u n algoritm o de clasificación
probabilidades de determ inados even ha sido entrenado de m anera que no
tos siguiendo la probabilidad condicio es capaz de generalizar, sino solam ente
nada descrita en el siglo xvm p o r el de m em orizar. C uando esto ocurre el
reverendo T hom as Bayes. La idea sub algoritm o no puede clasificar correc
yacente a una red bayesiana es que hay tam ente nuevas muestras, ya que tan
cadenas de eventos que suelen suce- sólo puede hacerlo con aquellas que ha
derse, y que éstas pued en com partir m em orizado durante el entrenam iento.
probabilidades con otras cadenas de El sobreentrenam iento suele suceder
eventos; p o r este m otivo se llaman re cuando se som ete a estos algoritm os
des, ya que son cadenas de probabilida a procesos de aprendizaje demasiado
des entrecruzadas. largos.
V a ria b le laten te. Variable estadística condensar varias variables simples en
que describe a la vez varias co n d icio una. E xisten m étodos autom áticos de
nes de una m uestra. A lgunos ejem plos creación de variables latentes, com o el
de variables latentes m uy usados son análisis de com p on en tes variables, que
variables com o la «riqueza» de una no sólo las crean sino que, además, es
sociedad o el bienestar de una pobla cogen aquellas sobre las que existe la
ción. Estas variables in tro d u cen una m ayor variabilidad posible entre los
m ayor densidad de info rm ació n al datos.
B ibliografía
C a s ti,J .L ., E l quinteto de Cambridge, M a d rid ,T a u ru s, 1998.

G o l d b e r g , D.E., G enetic A lgorithm s in Search, O ptim ization, and M achine Lear-
ning, B oston, Addison-W esley, 1989.
— : The Design o f Innovation. Lessons from and fo r Competent Genetic Algorithms,
N orw ell, K luw er Academ ic Publishers, 2002.
H o l l a n d , J.H ., Adaptation in Natural and Artificial Systems, C am bridge/L ondres,
M IT Press/B radford Books, 1992.
— : Emergence. From Chaos to Order, C am bridge, Perseus B ooks, 1998.
— Hi dden Order. H ow Adaptation Builds Com plexity, R eading, Perseus Books,
1995.
M c E l r e a t h , R ., R o b e r t , B., Mathematical Models o f Social E volution.A G uidefor the
Perplexed, Chicago, T h e U niversity o f C hicago Press, 2007.
ín d ic e analítico
agregación 116, 137 diversidad 41, 44, 121-123, 137, 144

ajedrez 16, 17, 20, 28, 35, 124 docking 51
álgebra booleana 30-31
algoritmos ecuaciones de Lotka-V olterra 118—
evolutivos 10, 39, 43, 46-49, 92, 119
143 efecto de H ughes 99
genéticos 42, 45-47, 143 Eliza 32-33, 141-142
análisis de com ponentes principales entropía de Shannon 77, 144
66, 100, 101, 107, 143 etiquetado 116-117, 120, 137
árbol de decisión 75, 77, 143
asunción de m undo cerrado 34 feature selection 100
autóm ata 126, 143, 144 feed fo m a rd 69
celular 125-128, 134, 135, 143 flash crash 55-56
autom atism o de C onw ay 127, 128 flujos 1 1 9 -1 2 1 ,1 2 3 ,1 3 7
back-propagation 70 glider 128-129

back-tracking 87, 88 go 20-21
B eni, G erardo 131 greedy backward elimination 102
bloques de construcción 124-128, greedy Jorward selection 102
138
Boole, G eorge 29, 30-31, 144 habitación china 1 6 -1 8 ,1 1 1
branch-and-bound 87-88 heurística 10-11, 27-30, 88
high frequency traders 56
cinem ática inversa 72-73 H o llan d ,Jo h n 39, 111
clustering 106, 143
com putación evolutiva 38-39, 50, instancia 117
143, 144 inteligencia de enjam bre 128, 131—
com putador universal 15, 144, 145 133, 144
C onw ay,John 127-129
C W A 34-35 ju eg o de la vida 127-129
D e M organ, A ugustus 29 Kant, Im m anuel 105

Deep Blue 16-17 Kasparov, G ary 16-17
Logic Theorist 26-27 de H opfield 71
lógica booleana 31-32, 87, 144 neuronal 9, 65, 69-74, 92, 97,
103, 145
maldición de la dim ensionalidad 99- R eiter, R ay m o n d 34
104 restricciones 18, 25, 41
mam ografía 56-60 retropropagación 70, 73
mapa robótica 64, 75
autoorganizativo 72 R osenblatt, Frank 65
cognitivo difuso 92
de K ohonen 72 S-300, crisis de los misiles 90-91
máquinas de soporte vectorial 74, Searle,John 16
107 selección de variables 100, 102, 103
m arketing on-line 61-64 Sim ón, H eb ert 26, 28
M cC orduck, Pamela 26 sistema
M cC ulloch,W arren 65 adaptable com plejo 114—116, 120-
M icrosoft R esearch 6 2 ,1 1 0 125, 133, 137
m inería de datos 95-99, 145 clasificador de M ichigan 107
m odelos internos 123-125, 138 clasificador de Pittsburg 107
M orgenstern, O ksar 133 de m antenim iento de la verdad
véase T M S
neurona artificial 65-66 experto 18, 23, 145
N ew el,A lan 26, 28 sistemas
no-free lunch, teorem a de 88-89 inm unes artificiales 128-131
no-linealidad 117-1 1 9 ,1 3 7 simbólicos 26-28
no-separabilidad lineal 68-69 sobreentrenam iento 70, 73, 74, 145
swarm intelligence véase inteligencia de
perceptrón 65-69 enjam bre
pigeon ranking 83
Pitts,W alter 65 teoría de juegos 133-134
Playfair,W illiam 105 T hreshold Logic U n it 65
Priestley,Joseph 104 T M S 35
trasplantes de órganos 81-84
random forest 79 T uring, Alan 13, 15, 30
razonam iento basado en casos 57 m áquina de 15, 126-127, 144-
red 145
bayesiana 62, 145 test de 13-19, 111
U lam , Stanislaw 125 visualización de datos 104-106
Von N e u m a n n ,Jo h n 125, 133
Van Langren, M ichael 104
V apnik,Vladim ir 74, 144 W ang,Jing 131
variable latente 1 0 3 -1 0 4 ,1 0 6 ,1 4 6 W eizenbaum ,Joseph 32, 141
V aucason,Jacques 112
Mentes, máquinas
y matemáticas
La inteligencia artificial y sus retos
A m enudo vem os en la televisión películas futuristas

donde las m áquinas son autónom as y ca p a ce s de tom ar
decisio nes por ellas m ism as. ¿Q ué hay de real y de ficción
en todo e llo ? ¿H asta qué punto está avanzada hoy en día
la inteligencia artificial? Este libro propone un viaje
fascinante por el futuro de la inteligencia y el rol que
las m atem áticas juegan en esta apasionante aventura.

Belda Ignasi - Mentes Maquinas Y Matematicas

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Belda Ignasi - Mentes Maquinas Y Matematicas

Cargado por

Copyright:

Formatos disponibles

Mentes, máquinas

B i vhmhA o es m A tem ático

Reservados todos los derechos. N inguna parte de esta

Impreso y encuadernado en Rodesa.Villatuerta (Navarra)

Impreso en España - Printed in Spain

C a p ítu lo 1. ¿Q ué es la in telig en cia artificial? .................................................. 13

C a p ítu lo 3. A pren d izaje a r tif ic ia l.......................................................................... 55

C a p ítu lo 4. P lanificación y ra z o n a m ie n to a u to m á tic o .................................... 81

C ap itu lo 5. Análisis de d atos ...................................................................................... 95

C'.apitulo 6 .V ida artificial ........................................................................................ 111

E pílogo .............................................................................................................................. 139

A nexo. C o n v ersació n c o n E l i z a ............................................................................... 141

G losario ............................................................................................................................ 143

B ibliografía ...................................................................................................................... 147

In d ice analítico .............................................................................................................. 149

N o tengo miedo a los ordenadores.

D esde hace varias décadas la inteligencia artificial ha despertado la pasión de m uchos

Graves disturbios en las principales

C o m o h a b r á a d iv in a d o el le c to r , esta n o tic ia es t o ta lm e n te fic tic ia y q u e d a to d a v ía

Al matemático y filósofo inglés Alan Turing

no sólo se lo considera uno de los padres

de la inteligencia artificial, sino también

de la informática moderna, por todos los

avances teóricos fundamentales que apor­

tó a esta ciencia en sus 42 años de vida.

Durante la Segunda Guerra Mundial tra­

criptoanálisis, y fue uno de lo principales

artífices de la ruptura de los códigos de

la máquina Enigma, gracias a lo cual los

aliados pudieron anticipar los movimientos

del ejército nazi.

Su principal aportación teórica a la cien­

cia de la computación fue la hoy conocida

como «máquina de Turing», un modelo

teórico de computador universal. Un computador universal es aquel capaz de procesar cual­

informático, y la cinta representaría el sistema de entrada/salida del programa y un registro

lenguaje es Turing-compatible, es decir, es equivalente a una máquina de Turing.

homosexualidad. En el transcurso de su juicio decidió no defenderse al considerar que no

¿SE PU ED E FINGIR LA IN TELIG EN CIA ? A JED REZ, KA SPA R O V

El ajedrez es un clásico problema combinatorio en el que, desde los principios de la informáti­

fingir la inteligencia mediante un diccionario de jugadas-movimientos, a diferencia de lo que

sucedía en la habitación china.

El go es un buen ejemplo de problema combinatorio donde un humano medianamente entrenado

del tablero de juego.

mundiales de ajedrez, es difícil que un programa de go pueda ganar a un jugador aficionado.

que analizar; segundo, porque un movimiento de go puede afectar en centenares de turnos

Arriba, tablero y fichas de go ; estas últimas

Éste es uno de los m uchos sistemas informáticos utilizados para

. PAM commoiTMl tin to * »

La clasificación automática del correo electrónico, con el fin de separar el spam

teligencia artificial según cómo se enfoque su resolución. Un buen ejemplo es el famoso

la repetición de una ciudad se puede ver como una condición violable.

Ejemplo de grafo de ciudades conectadas entre sí a la

El razonam iento autom ático

Herbert Simón (izquierda) y Alien Newell jugando al ajedrez en 1958.

Logic T h eo rist usaba lo que se conoce co m o «sistemas simbólicos», unos siste­

Sócrates es un hom bre.

Si lo formalizamos m atem áticam ente, estas sentencias quedarían de la siguiente

Y querem os saber si A —* E es verdadero o falso m ediante «fuerza» bruta, es

si un argumento es válido o no. La lógica es ampliamente utilizada en filosofía, matemáticas

En los últimos cincuenta años, la lógica matemática ha experimentado grandes avances y

última se la denominó «lógica de primer orden». Formalmente, la lógica de primer orden

Por complicada que parezca una expresión escrita en la pizarra,

Si decimos que Alan Turing es uno

avances teóricos fundamentales que apor

Durante la Segunda Guerra Mundial tra

Su principal aportación teórica a la cien

teórico de computador universal. Un computador universal es aquel capaz de procesar cual

El ajedrez es un clásico problema combinatorio en el que, desde los principios de la informáti

Logic T h eo rist usaba lo que se conoce co m o «sistemas simbólicos», unos siste

de los padres de la informática mo

este matemático y filósofo británi

mediante procedimientos matemáti

simplificar problemas lógicos que ad

miten dos estados, verdadero o fal

orgánico y el inorgánico. Otra de sus aportaciones a la ciencia fue la elaboración de la pri

anticuerpos, puede transmitir estos an

ante un caso de transmisión de caracte

ciertas propiedades indispensables para otras espe

vez fue la ausencia de presión evolutiva la que con

existentes sobre genómica. Estas le

leyes de Mendel, describían la trans

padres a hijos basándose en un es