Documentos de Académico
Documentos de Profesional
Documentos de Cultura
y matemáticas
La inteligencia artificial y sus retos
Ignasi Belda
Realización: E D IT E C
Diseño cubierta: Llorenf M artí
Fotografías: iStockphoto, Corbis, Getty Images
ISBN: 978-84-473-7436-6
D epósito legal: N A -2692-2011
Prefacio ............................................................................................................................... 7
P reám b u lo .......................................................................................................................... 9
C a p ítu lo 2. B ú sq u ed a ............................................................................................... 37
D arw in ya lo d i j o .......................................................................................................... 38
La inicialización ............................................................................................................ 41
La e v alu a ció n ................................................................................................................. 41
La selección .................................................................................................................... 43
La re p ro d u c c ió n ............................................................................................................ 46
El reem p lazam ien to ...................................................................................................... 49
U n ejem plo práctico: evolucionando hacia u n bu en fármaco .......................... 50
P lo n a , M ilá n , O p o r -
to , M u n ic h y m uchas
otras ciudades europeas se
h an visto gravem ente afecta
ropea, revisada hace 39 años
y ratificada p o r el Pueblo,
otorga u n gran p o d e r ejecu
tivo, legislativo y judicial al
do así u n a gran red n e u ro
nal. Esta red neu ro n al es
cam biante, es decir, dado un
nuevo suceso, el valor de la
das p o r las m anifestaciones y G O C , cuya capacidad de variable q u e co rresponde a
revueltas populares en p ro com putación, m em o ria y ra dicho suceso cam bia, y a
testa p o r las últim as m edidas pidez de análisis supera de co n tin u ació n , co m o si de
aprobadas p o r el G ran O r largo la habilidad de cual u n a reacción en cadena se
d en ad o r C en tral (G O C ). q uier equipo hum ano. tratara, lo hacen las neuronas
La nueva legislación ten d rá A u n q u e diversos Analistas conectadas a ella.
u n im p acto d irecto en la A utom áticos (AA) de los P or explicarlo gráficam ente,
gran clase m edia europea, ya principales Sistemas Inde es com o si tiráram os una
qu e el p aq u ete de m edidas pendientes de Análisis A u to piedra sobre una piscina. El
aprobado reduce en u n 10% m ático (SIAA) han co rro b o lugar d o n d e la piedra ha im
el n ú m ero de días de vaca rado la efectividad del pa pactado co n la superficie del
ciones, pasando de 200 días quete de m edidas del G O C , agua sufre u n cam bio en las
anuales a 180, reduce la te m los representantes del P ueblo tensiones superficiales, que
p eratu ra de los habitáculos afirm an que es u n ataque son transm itidas casi instan
en 1 °C, pasando de 25 °C a frontal a las libertades ciuda táneam ente a las otras m o
24 ° C ,y se dejará de subven danas en respuesta a la firm e léculas de agua q u e hay en
cio n ar el q u in to ro b o t asis negativa hum ana a aprobar la superficie de la piscina,
ten te p o r ciudadano, im pli una D eclaración Universal creando así las conocidas o n
cando u n a red u cció n del de D erechos de los R o b o ts y das que se van desplazando
20% en el presupuesto asis M áquinas A utónom as. p o r toda la piscina hasta esta
ten cia! bilizarse.
E ste paq u ete de m edidas su E n las e n tra ñ a s del G ra n C u a n d o se c o n stru y ó el
p o n e u n ah o rro de 8.000 b i O rd e n a d o r C e n tra l G O C , se in tro d u je r o n en
llones de euros q u e serán E l G O C está guiado p o r u n el m apa cognitivo cu atrillo
destinados al au m en to de la «mapa» cognitivo co n trillo— nes de datos recogidos a lo
productividad m inera en las nes de variables, cada u n a de largo de la histo ria de la h u
colonias de M arte y Venus, se ellas contenida en lo que m anidad. S eguidam ente, el
gún declaraciones del G O C , q ue se co n o ce co m o «neu m apa cognitivo a u to c o n s-
que desde hace 34 años go ronas», las cuales, en el m o tru y ó sus co n ex io n es n e u
b iern a co n m an o férrea el m e n to de la construcción, ronales en base a la e x p e
Sistem a E uropeo. C o m o es fu ero n interconectadas con rien cia pasada.
segundos de iniciarse el pro
Árbol combinatorio de medidas políticas ceso. C o m o es obviam ente
im posible com putar u n árbol
infinito, el G O C usa diversas
herram ientas para «podar»
aquellas ramas del árbol por
las que va viendo que no es
viable conseguir el objetivo
deseado. P or ejem plo, si se
quiere reducir el déficit fiscal
y n o se m odifica n in g ú n im
puesto ni se anim a al creci
m ien to de la econom ía m e
diante una expansión fiscal,
ya puede predecir que esta
vía conduce a u n cam ino sin
salida. P or tanto, todas aque
llas ramas del árbol que re
presenten este tipo de solu
ciones ya se p u ed en descartar.
Estas herram ientas para la
«solución de problemas», co
nocidas com o heurísticas, se
construyeron de form a auto
U n a vez co n stru id a la red de G O C d etecta q u e debe so m ática a p artir de datos his
co n ex io n es neuronales, el lucionar u n problem a o al tóricos. C o n posterioridad,
G O C la usa n o sólo para te guna carencia, despliega u n u n equipo de investigadores
n e r co n tro lad o el Sistem a árbol de com binaciones que en ciencias sociales de toda
E u ro p eo sino tam b ién para reflejan todas las m edidas E uropa hizo una revisión
to m ar decisiones de actua políticas, sociales, e co n ó m i p o rm en o rizad a de ellas. Para
ción, y esto lo hace a través cas e incluso m ilitares que se sorpresa de los escépticos, las
de u n sistema de razona p o d rían adoptar. C o m o la variaciones introducidas p o r
m ien to autom ático. Este sis política es tan y tan co m p le los expertos en las prim eras
tem a es capaz de lanzar h i ja, este árbol, a los pocos m i- versiones de las heurísticas
pótesis y p red ecir sus efec lisegundos ya co n tien e m i sólo son u n 0,003% c o n res
tos. S iguiendo co n el símil llones de ram ificaciones, y si pecto al total. La revisión ex
an terio r, se lanza la piedra a no se hiciera nada más, a los p erta tardó 5 años en co m
la piscina, p ero n o en la pis pocos segundos tendría más pletarse, m ientras q u e la
cina real, sino en un a copia ram ificaciones que átom os ded u cció n autom ática sólo
de la piscina o riginal, y se hay en el U niverso. había tardado 3 días.
observa có m o cam bia la su Supongam os que el objetivo Este sistema de deducción
p erficie del agua. Si el efecto es reducir el déficit fiscal en autom ático de heurísticas está
es positivo, se ejecuta dicho u n 1,5%. C o n la velocidad de basado en algoritm os evolu
cam bio. cálculo de los supercom puta- tivos, es decir, en «sistemas
Sim plificando m u ch o , el sis dores cuánticos actuales, un inteligentes» que pro p o n en
tem a de razo n am ien to au to árbol com binatorio com o soluciones aleatorias (en este
m ático del G O C es u n algo éste se convierte en práctica caso, cada solución es una
ritm o de búsqueda. Si el m en te infinito a los pocos heurística propuesta), y se va
refinando a lo largo del tiem palabras, las heurísticas que m edidas propuestas p o r el
po, tratando de sim ular un más respaldo tienen p o r parte H ércules v3 .4 llevan a n ues
proceso de evolución natural, de los datos históricos, más tra sociedad a b u en térm in o ,
co m pletam ente basado en las probabilidades tienen de pro tal y co m o ha venido suce
leyes de la evolución dictadas pagarse en este proceso de dien d o en los últim os 34
p o r D arw in. Es decir, las so evolución virtual y de dejar años, y ver si al final to d o
luciones m ejo r adaptadas al descendencia. ello red u n d a en u n au m en to
m edio son las q u e más des A h o ra tan sólo queda espe sustancial de nuestra calidad
cendientes dejan, o en otras rar para c o m p ro b ar q u e las de vida.
¿Qué es la inteligencia
artificial?
A m enudo vemos en la televisión películas de ciencia ficción en las que las m áqui
nas son autónom as y capaces de tom ar decisiones p o r ellas mismas. ¿Q ué hay de real
y de ficción en todo ello? ¿Hasta qué pu n to está avanzada hoy en día la inteligencia
artificial? ¿Llegará pronto el m o m en to en que podam os desarrollar sistemas com o
los que aparecen en 2 0 0 1 : Una odisea en el espacio o, más recientem ente, en la versión
cinem atográfica de Yo, robot?
Antes de empezar, sin embargo, debem os dar una definición precisa del concep
to que nos ocupa. C o n «artificial» seguram ente todos estaríamos de acuerdo: «no
natural», es decir, «hecha, creada p o r la voluntad humana». A hora bien, ¿qué es la
«inteligencia»? Según la mayoría de diccionarios, la palabra «inteligencia» tiene n u
merosas acepciones, entre ellas las de «capacidad de en ten d er o com prender», «ca
pacidad de resolver problemas» o «habilidad, destreza y experiencia». E n realidad, el
hecho de que existan definiciones tan diferentes para este térm ino po ne de m ani
fiesto la com plejidad que hay detrás de tal concepto.
Los psicólogos y filósofos han tratado de delimitar, definir y m edir la inteligencia
a lo largo de los siglos. Sin embargo, estas métricas son todavía más confusas cuando
se aplican a una entidad no hum ana. Por ejemplo, ¿diríamos que es inteligente un
program a de ordenador que puede sincronizar y coordinar un com plejo sistema
m o to r de vuelo, que dispone de un sistema autónom o para decidir la ruta aérea en
función de las necesidades del m o m en to y que posee una fiabilidad del 100%? P ro
bablem ente sí. E n cambio, ¿diríamos lo m ism o de u n m osquito? Este insecto es capaz
de coordinar un com plejo sistema m o to r de vuelo, tom a decisiones autónom as de
rutas aéreas y cuenta con una fiabilidad en sus operaciones aéreas del 100%.
El test de Turing
La prim era solución práctica a la pregunta de si una determ inada entidad no hu m a
na es inteligente o no llegó en el año 1950 de la m ano del m atem ático Alan Turing,
c o n s id e ra d o u n o d e lo s p a d re s d e la in te lig e n c ia a rtific ia l. É l es el a u to r d e l te s t d e
T u rin g , q u e d e t e r m i n a la e x is te n c ia d e in te lig e n c ia e n u n a m á q u in a b a s á n d o s e e n
u n a id e a m u y sim p le : si u n a m á q u in a se c o m p o r ta e n to d o s lo s a sp e c to s c o m o u n
e n te in te lig e n te , e n to n c e s d e b e d e se r in te lig e n te .
E l te s t c o n s iste e n s itu a r u n e v a lu a d o r h u m a n o y la m á q u in a s u je ta a e v a lu a c ió n
e n d o s salas d ife re n te s se p ara d as p o r u n ta b iq u e q u e im p id e q u e se v e a n . A c o n ti
n u a c ió n , m e d ia n te u n te c la d o y u n a p a n ta lla , el e v a lu a d o r h a c e u n a s e rie d e p r e g u n
tas a la e n tid a d q u e está s ie n d o e v a lu a d a y ésta le re s p o n d e . Si e l e v a lu a d o r c o n s id e
ra q u e q u i e n está r e s p o n d ie n d o es u n se r h u m a n o , se d e d u c e q u e la m á q u in a ev a
lu a d a es in te lig e n te y q u e , p o r ta n to , tie n e in te lig e n c ia a rtific ia l.
X re a liz a las p re g u n ta s
A p r o b a d a si X n o d e te c ta b a
q u i é n le re s p o n d ía
La persona que realiza las preguntas a la máquina (X) se las hace a un sistema
con el que no tiene contacto visual. De esta manera, sólo a través del
análisis de las respuestas puede evaluar si es o no un humano.
C o m o n o p o d ía se r d e o tr o m o d o , e l te s t d e T u r in g r e c ib ió u n a lu v ió n d e c r íti
cas p o r p a r te d e a lg u n o s te ó r ic o s . ¿Se p u e d e d e c ir q u e u n a m á q u in a es in te lig e n te
s im p le m e n te p o r r e s p o n d e r a las p r e g u n ta s b a s á n d o s e e n u n d ic c io n a r io e n o r m e d e
p r e g u n ta s -re s p u e s ta s ? ¿ O c o n s iste la in te lig e n c ia e n a lg o m á s q u e c ie r to c o m p o r t a
m i e n t o a p a re n te , c o m o , p o r e je m p lo , la e x is te n c ia d e c o n s c ie n c ia ?
A LA N TURING (1912-1954)
quier dato de entrada y resolver su salida en un tiempo finito. La máquina de Turing consta
de una cinta infinita con símbolos escritos sobre ella, un cabezal que puede desplazarse a
izquierda o derecha sobre la cinta, leer los símbolos, borrarlos y escribir otros nuevos, y unas
reglas que determinan el comportamiento del cabezal para cada posible símbolo que se
detecte sobre dicha cinta. En la informática práctica estas reglas simbolizarían un programa
Hoy en día, cuando se diseña un nuevo lenguaje de programación, como podría ser el C,
el Pascal, el Java, etc., lo primero que se debe demostrar de manera formal es que el nuevo
Por desgracia, Turing acabó su vida siendo perseguido por la justicia británica debido a su
tenía de qué disculparse, por lo que fue considerado culpable, pero en la sentencia, Turing
escogió la castración química antes que ir a prisión. Esto le provocó importantes alteraciones
físicas que condujeron a su suicidio. En 2009 el primer ministro británico Gordon Brown pidió
disculpas oficiales por el trato que recibió Turing durante sus últimos años de vida.
L a p r i n c ip a l c r ític a al te s t d e T u r i n g la e s c e n ific ó el filó s o fo J o h n S e a rle m e
d ia n te e l e x p e r i m e n t o d e la h a b it a c ió n c h in a . I m a g in e m o s q u e u n a s p e r s o n a s
c u a le s q u ie ra q u e n o s a b e n n i u n a p a la b r a d e c h i n o s o n in tr o d u c id a s e n u n a h a b i
t a c i ó n c e r r a d a e n u n c e n t r o c o m e r c ia l d e S h a n g a i. A c o n t in u a c i ó n se in v ita a las
p e r s o n a s q u e p a s a n p o r allí a q u e f o r m u l e n p r e g u n ta s a lo s in d iv id u o s q u e e s tá n
d e n t r o d e la h a b ita c ió n ; p a ra e llo d e b e n in tr o d u c ir la s p o r e s c r ito a tra v é s d e u n a
a b e r tu r a . P o r o tr o la d o , d e n tr o d e la h a b i t a c ió n h a y u n m a n u a l e n e l q u e e s tá n
c la r a m e n te r e p re s e n ta d o s to d o s lo s c a r a c te re s c h in o s q u e c o n f o r m a n las re sp u e s ta s
ca, se han intentado aplicar, sin éxito, técnicas inteligentes para vencer a jugadores humanos.
Pero ¿por qué no se puede fingir la inteligencia en juegos como el ajedrez? Imaginemos que
introducimos en un ordenador las reglas del juego y éste construye el conjunto de todas las
jugadas posibles. Seguidamente podríamos anotar, jugada a jugada, cuál es el mejor movimiento
que conviene realizar ante cada una de ellas. Sin embargo, si calculamos el número de jugadas
posibles, éste es del orden de 10123. ¡Este número es mayor que el del total de electrones del
universo! Por tanto, ¡sólo para almacenar los resultados deberíamos contar con una memoria
mayor que la masa total del universo! Así pues, en el caso del ajedrez es totalmente imposible
Deep Blue y a Garry Kasparov. Deep Blue era un superordenador programado para jugar al
ajedrez que venció por primera vez, en 1996, a un campeón del mundo humano. Sin embargo,
del total de seis partidas que disputaron, el resultado final fue de 4-2 a favor del jugador ruso.
En esa época, Deep Blue podía analizar 100 millones de movimientos por segundo. La polémica
llegó cuando el campeón se enfrentó a una segunda versión, Deeper Blue, que podía analizar
ya 200 millones de movimientos por segundo. En esa ocasión la máquina venció, pero Kasparov
denunció que en un momento de la partida la máquina había sido ayudada por un operador
humano. La situación fue la siguiente: él planteó una jugada donde, sacrificando un peón, podía
armar un contraataque en jugadas subsiguientes. Esta trampa era imposible de detectar por el
ordenador, ya que su capacidad de análisis era de un número limitado de jugadas futuras, en las
que todavía no se desarrollaba el contraataque del jugador. Sin embargo, la máquina no cayó
a cada una de las posibles preguntas que se podrían form ular. P or p o n e r u n ejem
plo: u n chico joven escribe en chino en un a hoja de papel «¿Hace calor ahí d en
tro?» y la pasa p o r la rendija. A cto seguido, las personas que se encuentran en el
in te rio r de la habitación m iran los caracteres chinos, los buscan en el m anual y
seleccionan una posible respuesta a esa pregunta. A contin u ació n la transcriben,
trazo a trazo, en una nueva hoja que pasan p o r la rendija de salida hacia el chico
que hizo la pregunta. E n la hoja de respuesta pone, en chino: «No, de h ech o hace
un frío que pela». Lógicam ente, tanto ese jo v en chino co m o los demás evaluadores
en la trampa, lo cual levantó las sospechas del campeón ruso. Kasparov pidió posteriormente
los registros por escrito de los procesos de la máquina, a lo cual IBM accedió, aunque al final
nunca los presentó.
Deep Blue, el supercom putador de IBM que venció al campeón del mundo de ajedrez.
están recibiendo respuestas coherentes en su idiom a, p o r lo que pensarán que las
personas que hay d entro de la habitación saben hablar chino perfectam ente. Sin
em bargo, los individuos de la habitación han basado sus respuestas en u n m anual
de correspondencias y no han enten d id o ni una sola palabra de n inguna de las
conversaciones.
Pero ¿podemos sospechar que una m áquina que supera el test de T uring puede
estar engañándonos de una m anera similar a com o lo hace la habitación china? La
respuesta es que no. La habitación china es u n escenario engañoso porque en reali
dad, si bien es cierto que las personas que había dentro de ella no sabían chino,
quien realm ente contestaba a las preguntas era un conjunto de entidades form ado
p o r las personas y el manual. A unque no se puede decir que el m anual «supiera»
chino, en todo caso sí fue confeccionado p o r alguien que, efectivam ente, conocía
dicho idiom a, ya que, si no, no habría sido capaz de escribir el conjunto de pregun
tas y respuestas.
D e m anera práctica, hoy en día se considera que una nueva tecnología es in te
ligente si es capaz de resolver u n problem a de una m anera creativa, algo que desde
siem pre se ha considerado potestad exclusiva del cerebro hum ano. U n ejem plo
representativo de tecnología que parece in teligente pero que no se la considera
com o tal es la de los prim eros sistemas expertos que aparecieron en la década de
1960. U n «sistema experto» es u n program a inform ático que se ha im plem entado
con unas determ inadas reglas, más o m enos complejas, y que p uede actuar de
m anera autónom a en el control de ciertos sistemas. U n ejem plo de ello podría ser
u n program a de o rd en ad o r co n un a e n o rm e lista de síntom as m édicos program a
dos de m anera que, dado u n nuevo paciente y sus síntom as, p uede d eterm in ar el
tratam iento que dicho paciente necesita. Sin em bargo, si el sistema no es capaz de
crear una nueva regla deducida de las anteriores n i inventar u n nuevo tratam iento
cuando la situación lo requiera, se considera que no es creativo y, p o r ende, no es
inteligente.
Así pues, para considerar que u n program a inform ático es inteligente se deben
cum plir unas condiciones un tanto subjetivas, com o, p o r ejem plo, que tenga capa
cidad de aprender en materias complejas, de optim izar funciones matem áticas con
m uchos parám etros (dimensiones) y en un intervalo (dom inio) enorm e, o de plani
ficar una gran cantidad de recursos con restricciones.
Al igual que sucede con el resto de las áreas de la ciencia y de la tecnología, la
inteligencia artificial se ha especializado y dividido en cinco grandes ramas, que son
las siguientes:
1. La búsqueda.
2. E l aprendizaje.
3. La planificación
4. El razonam iento autom ático.
5. El procesam iento del lenguaje natural.
Sin em bargo, las tecnologías y los algoritm os usados en las distintas especialida
des muchas veces son los mismos. A continuación repasaremos estas ramas y dare
m os algunos ejem plos prácticos.
La búsqueda
La búsqueda hace referencia al proceso de buscar la solución óptim a a u n determ i
nado problem a. C uando dicho problem a es definible m ediante una función m ate
mática estaríamos hablando de optim ización de funciones, es decir, de la búsqueda
de los parám etros de entrada que m axim izan la salida de la función. A m enudo hay
problemas que im plican la optim ización de varias funciones a la vez, y estas funcio
nes son, además, difíciles de definir y de delimitar. Para u n sistema autom ático, la
optim ización de funciones es u n problem a com plejo, en especial si no se dispone
de una fórm ula analítica de la función y sólo se puede inferir la «forma» de la fun
ción a partir de unas pocas muestras. Además, a m enudo sucede que la función en
cuestión tiene centenares de parám etros distintos que ajustar, o que para la o b ten
ción de cada una de las muestras se necesitan varias horas de cálculo, o incluso que
las muestras contienen ruido, es decir, que el valor de la función en u n determ inado
pu n to del espacio no es exacto.
Para abordar estos escenarios com plejos se utiliza la inteligencia artificial. N ó te
se que el ser h um ano puede resolver en instantes complejas funciones matemáticas
m ultidim ensionales de m anera instintiva. U n caso ejem plar son las funciones de
similitud. Imagínese que usted conoce a más de 500 personas, pero si observara la
fotografía de u n determ inado individuo, rápidam ente podría decir si esa fotografía
corresponde a alguno de sus conocidos y a cuál de ellos. Esta, en apariencia, sencilla
operación se resuelve m entalm ente m ediante la optim ización de una función que
m ide las diferencias entre los rostros que usted tiene m em orizados y el rostro foto
grafiado que está observando. E n u n rostro hay miles de características o dim ensio
nes observables, com o, p o r ejem plo, el color de los ojos, la relación de tam año entre
la boca y la nariz, la existencia de pecas, etc. N uestro cerebro es capaz de detectar
EL G O , UNO DE LOS G RA N D ES RETOS PENDIENTES
DE LA IN TELIG EN CIA ARTIFICIA L
puede detectar de un vistazo ia estrategia más inteligente para cada escenario, pero que, en cam
bio, resulta extremadamente complejo para un ordenador. Hasta el momento, ningún programa
de ordenador ha sido capaz de vencer a ningún jugador profesional sin desventajas iniciales.
Este juego de estrategia de origen chino tiene unas reglas extremadamente sencillas que dan
lugar a escenarios de gran complejidad estratégica. Se trata de un tablero con una cuadrícula de
1 9 x 1 9 líneas donde dos jugadores van ubicando, en turnos alternativos, fichas blancas y negras
en las intersecciones libres. Si una ficha o grupo de fichas queda completamente rodeado por
las fichas del color contrario, el grupo queda capturado y estas fichas se retiran del tablero. Se
puede pasar el turno si se cree conveniente, pero si los dos jugadores pasan consecutivamente la
partida se acaba y gana aquel jugador que en ese momento esté dominando una mayor porción
Sin embargo, mientras que existen programas informáticos capaces de vencer a los campeones
Esto sucede principalmente por tres razones: primero, por las dimensiones del tablero de go,
que es más de cinco veces mayor que el de ajedrez, lo cual implica un mayor número de jugadas
posteriores, de modo que es casi imposible para un ordenador hacer predicciones a tan largo
plazo, y, finalmente, porque en ajedrez las piezas se capturan de una en una y todas tienen un
determinado valor, por lo que se puede evaluar con bastante precisión qué beneficios dará una
jugada, mientras que en el go, en cambio, el beneficio que se obtenga de una captura depende
por completo de las piezas que se capturen, lo cual viene dado por la situación de las piezas en
aquel momento.
todas esas características y compararlas con las de los rostros de todas las personas
que conocem os; puede m edir las distancias correspondientes al rostro de la fotogra
fía y compararlas con las de todos los demás, y así encontrar el rostro en el que la
distancia es m ínim a. Además, es capaz de decidir si esa distancia es lo suficiente
m ente reducida com o para deducir que la persona fotografiada y la recordada son
o no la misma. El cerebro hum ano realiza todas estas operaciones en m enos de un
segundo. Sin embargo, para un ordenador el reconocim iento de rostros es una ope-
H l
» * •
♦ •
fe
ración extrem adam ente com pleja y, probablem ente, un m o d ern o com putador tar
daría m inutos en o btener la solución;
Pero ¿por qué llamamos «búsqueda» a esta ram a de la inteligencia artificial si
hem os estado hablando de optim ización num érica? La búsqueda incluye la solu
ción a otro tipo de problemas, p o r ejem plo, los llamados «problemas com binato
rios». U n problem a com binatorio es aquel cuya solución está form ada p o r distintos
elem entos que pueden com binarse entre sí y dar lugar a u n espacio com binatorio.
La solución viene determ inada p o r el conjunto de elem entos óptim o. U n buen
ejem plo com binatorio sería una partida de ajedrez, en la que la solución óptim a
term ina siendo una sucesión de m ovim ientos de las piezas que llevan a ganar la
partida. O tro ejem plo clásico es el conocido com o problem a de la m ochila, en el
que existen diversos objetos que podem os m eter en una m ochila antes de una ex
cursión. E n este caso la solución es la com binación de objetos que m inim iza el peso
de la m ochila pero maxim iza el valor de los objetos contenidos en ella. D e nuevo,
a m enudo sucede que un problem a com binatorio relativam ente sencillo para un
hum ano es extrem adam ente com plejo de resolver para una com putadora.
El aprendizaje
La siguiente ram a de la inteligencia artificial es el aprendizaje. ¿Es inteligente un
sistema que puede aprender de experiencias pasadas? R ecu p erem o s el ejem plo del
sistema de diagnóstico m édico autom ático, al que se le ha in troducido u n co n ju n
to de síntom as asociados a una patología. A este proceso de in troducción de infor
m ación asociada entre sí se le llama entrenam iento. Así pues, una vez entrenado el
sistema, cuando se le da u n nuevo síntom a es capaz de rebuscar en su m em oria
para ver si éste apareció en el pasado y, de ser así, responder con la patología que
tenía asociada. E n este caso, se dice que el sistema aprende a base de m em orización
y que, p o r tanto, no es inteligente. La ram a del aprendizaje se basa en entrenar
sistemas para que después sean capaces de generalizar, es decir, de deducir unas
reglas que luego puedan aplicarse a nuevos problem as que no han aparecido an te
riorm ente.
El aprendizaje autom ático ha sido una de las áreas más prolíficas de la inteligen
cia artificial. N um erosas universidades, centros de investigación y empresas aportan
a diario avances en este campo. Probablem ente esto se debe, p o r u n lado, a la gran
necesidad de sistemas expertos que existe en determ inadas áreas del conocim iento
y en la industria, y, p o r otro, a la com plejidad de la program ación de los sistemas
expertos útiles. A u n sistema experto inteligente se lo entrena con una serie de
casos asociados a sus soluciones para que sea capaz de deducir las reglas y norm as
que los asocian. D espués, dado u n nuevo caso, el sistema puede determ inar la nueva
solución. Así, para que u n sistema experto se considere inteligente y sea útil, es
fundam ental el hecho de que pueda aprender y generalizar de m anera autom ática,
es decir, que no se le tengan que in troducir las reglas m anualm ente, y que, una vez
entrenado, pueda com portarse com o u n experto en la m ateria para la que ha sido
entrenado.
Más adelante desarrollaremos con detalle el tem a de las aplicaciones de los siste
mas expertos, aunque cabe citar algunos ejem plos ilustrativos de sistemas expertos
actuales, com o, p o r ejemplo, los de predicción de m orosidad en hipotecas bancarias,
de detección precoz de tum ores malignos o de clasificación autom ática de correo
electrónico no deseado (spam).
EL PR O B LEM A D EL VIA JA N TE
A menudo, un determinado problema puede ser clasificado en una u otra rama de la in
problema del viajante (también conocido como TSP por sus iniciales del inglés: Travelling
Salesman Problem), el cual se puede resolver siguiendo una estrategia de búsqueda o bien
de planificación.
El enunciado dice así: dados un conjunto de ciudades, las rutas que las interconectan y la
distancia que las separa, planifíquese la ruta que debería realizar un representante comercial
que tiene que visitar clientes en cada una de las ciudades. Se pide que el viajante no repita
ciudad y que, además, el número final de kilómetros recorridos sea el mínimo. Como el lector
puede intuir, en algún caso es posible que, en función del aspecto de las rutas entre las ciu
dades, sea estrictamente necesario repetir una ciudad para poder visitarlas todas; por tanto,
A: Sócrates
B: hom bre (s)
A -» B
C: mortal(es)
B -* C
Si A —» B y B —*> C, entonces A —1►C, es decir, Sócrates es m ortal.
E n este caso, una regla de derivación conocida com o «silogismo hipotético» nos
perm ite concluir que A —» C si es cierto que A —» B y B —*» C.
Sin embargo, la derivación autom ática y sistemática de teorem as a p artir de los
axiomas y las reglas de derivación p uede conducirnos a u n núm ero de com binacio
nes que, de nuevo, nos acerca peligrosam ente al núm ero de átom os del universo. Por
ello, Logic T h eo rist se valía de consideraciones heurísticas, es decir, de un instru
m ento vagam ente predictivo que ayuda a seleccionar las m ejores derivaciones de
entre todas las posibles, para identificar la secuencia correcta de derivaciones que se
deben realizar sobre los axiomas hasta llegar a la dem ostración de los teoremas.
A continuación m ostram os u n ejem plo práctico. Q uerem os saber si Sócrates es
m ortal o no lo es y conocem os los siguientes axiomas iniciales:
A: Sócrates
B: hincha del O lym piacos
C: griego
D: hom bre
E: m ortal
A -* C
C -+ D
A -» D
C -* B
D -» E
A —» C —» D —» E
A -> C -* B
A -* D -» E
Es decir, hem os realizado siete operaciones lógicas partiendo sólo de ciño axio
mas y usando únicam ente una regla de derivación: el silogismo hipotético. C om o
el lector podrá imaginarse, en escenarios mas complejos, con más axiomas y más
reglas de derivación en uso, el núm ero de com binaciones posible puede ser tan
elevado que se tardarían años en o b ten er dem ostraciones concluyentes. Para atajar
este problem a, tal y com o propusieron Sim ón y N ewell, una consideración heurís
tica (o com o dicen los especialistas, «una heurística») nos habría avisado en el ejem
plo anterior de que no vamos p o r el b u en cam ino si para dem ostrar que alguien es
m ortal tenem os que em pezar a hablar de fútbol (A —> C —* B),
E n la actualidad, más allá de los sistemas autom áticos de dem ostración de teore
mas matem áticos, tanto los sistemas simbólicos com o las heurísticas son amplia
m ente utilizadas en la resolución de problemas prácticos.
Para ilustrar otro caso del uso de heurísticas volveremos al cam po del ajedrez. E n
u n turno de ajedrez existen de m edia 37 posibles m ovim ientos. Por ello, si u n pro
grama de ordenador pretendiera analizar una jugada con 8 turnos de profundidad
tendría que analizar el equivalente a 378 escenarios posibles, es decir 3.512.479.453.921
jugadas, o, en otras palabras, más de 3,5 billones de jugadas. Si el ordenador invirtie-
LÓ G IC A M A TEM Á TIC A
La lógica matemática es una parte de las matemáticas que se encarga de estudiar la forma
del razonamiento, es decir, es una disciplina que, por medio de reglas y técnicas, determina
y, por supuesto, computación como instrumento para validar o derivar nuevo conocimiento.
Fueron George Boole, con su álgebra denominada luego «booleana», y Augustus De Morgan,
con sus leyes lógicas, quienes desarrollaron las bases lógicas aristotélicas y, mediante una
nueva notación más abstracta, desarrollaron este instrumento útil para investigar sobre los
fundamentos de la matemática.
ha dado lugar a la llamada «lógica moderna». Para distinguirla de la lógica clásica, a esta
implica sólo expresiones finitas y fórmulas bien definidas, sin lugar para dominios infinitos
ni para la incertidumbre.
G EO R G E BO O LE (1815-1864) Y SU LÓ G IC A
que necesita dos parámetros para obtener el resultado. Éste es verdadero si alguno de los dos
fundam entales en la mayoría de sistemas inteligentes que condicionan en gran m e
dida la calidad de los mismos.
E n los últim os años, la ram a del razonam iento autom ático ha ido avanzando
progresivam ente hasta llegar a p o d er razonar en sistemas incom pletos, inciertos y
n o -m o nótonos, es decir, en entornos en los que falta inform ación (incom pletitud),
puede haber afirm aciones iniciales contradictorias (incertidum bre) o, al introducir
nuevos conocim ientos al sistema, el conocim iento global sobre el en to rn o no tiene
p o r qué aum entar (no-m onotonía).
U na herram ienta de en o rm e potencia para trabajar en estos entornos es la lógi
ca difusa, esto es, un tipo de lógica m atem ática en la que las afirm aciones no tienen
p o r qué ser todas ciertas o falsas. M ientras que en la lógica booleana «clásica» dada
parámetros es verdadero. Por ejemplo: «¿Es verdadero que lo que usted está haciendo ahora es
leer "o " conducir?». La respuesta es «Sí, es verdadero», dado que lo que usted está haciendo
ahora es leer este libro. Si ahora usted estuviera conduciendo y no leyendo, la respuesta a la
pregunta también seria afirmativa. Incluso sería igualmente verdadera si estuviera cometiendo la
grave imprudencia de conducir y leer este libro al mismo tiempo. Finalmente, el tercer operador
mulamos la pregunta anterior y decimos «¿Es verdadero que lo que usted está haciendo ahora
es leer "y" conducir?», sólo podríamos contestar «Sí, es verdadero» si estuviéramos cometiendo
tamaño disparate.
A partir de estos tres operadores, se pueden construir otros operadores más sofisticados, como
la o-exclusiva ( a ), que sólo sería cierta, en el segundo ejemplo, si estamos leyendo o condu
ciendo, pero no si hacemos las dos cosas a la vez. El operador a no es un operador básico
del álgebra booleana dado que se puede reescribir mediante los otros tres operadores básicos:
A a B = (A a -y B) v (->A a B).
se les da el significado de dejar pasar la corriente eléctrica (1) o no dejarla pasar (0). Las opera
de estos dispositivos electrónicos lo que ha permitido que la informática haya avanzado tanto en
los últimos 40 años. El microprocesador del ordenador de su casa, que es el cerebro central del
N o-casado Juan
N o-casado María
Casado David
Y si ahora le preguntam os al sistema si Jorge está casado, tam bién nos responde
rá que no. C o n lo cual finalm ente tendríam os que, p o r no disponer de inform ación
sobre el estado civil de Jorge, el sistema llega a la conclusión in co n g ru en te de que
no está casado ni soltero. Podem os ver claram ente que el C W A n o funciona bien
en casos de incertidum bre o incom pletitud del conocim iento y, p o r ello, hoy en día
sólo se usa en la resolución de problemas m uy particulares.
Por últim o, no podem os term in ar con la gestión de bases de conocim iento sin
hablar de los sistemas de m antenim iento de la verdad (TMS, Truth Maintenance
Systems). Los TM S son los elem entos que vigilan y controlan que-la base de co n o
cim iento sea consistente con ella misma, y resultan especialm ente útiles cuando se
usan m étodos de razonam iento n o -m o n ó to n o s, es decir, aquellos en los que la base
de conocim iento va aum entando o dism inuyendo a m edida que se razona. Los
T M S pueden ser de dos tipos: de «búsqueda vertical» o de «búsqueda horizontal».
Los prim eros recorren la base de conocim iento yendo de lo general a lo particular
en busca de contradicciones y, en caso de que detecten una, deshacen el cam ino
recorrido para solventarla. P or el contrario, los de búsqueda h o rizontal plantean
diferentes escenarios o hipótesis paralelas, de m anera que el universo de contextos
se va podando a m edida que se detectan contradicciones. Es decir, dado u n con tex
to posible (piénsese en una determ inada situación de las piezas del ajedrez), identi
fica los diferentes escenarios en los que puede evolucionar la situación actual (en el
caso del ajedrez, serían los posibles m ovim ientos), y elimina aquellos que resultan
contradictorios (en ajedrez u n escenario contradictorio sería una jugada m uy des
favorable para la m áquina, dado que el objetivo de ésta es ganar la partida y sería una
contradicción plantear una jugada desfavorable para ella).
C ap ítu lo 2
Búsqueda
¿C óm o se diseña un nuevo farmaco? Hasta hace m uy poco las empresas farm acéuti
cas aún lo hacían com pletam ente a mano, es decir, sin ninguna otra ayuda tecnológi
ca más que un lápiz y u n papel. D iseñaban y optimizaban la estructura quím ica del
fármaco y, m ediante el uso de laboratorios especializados, sintetizaban y probaban
cada versión m ejorada para com probar si su efectividad aum entaba o no. Este proce
so com pletam ente manual de prueba y error es lo que, en parte, provoca que el coste
de diseñar un nuevo m edicam ento ronde los 1.000 millones de dólares de media.
C uando se diseña u n nuevo fármaco, p o r lo general se está diseñando una m o
lécula que pueda interaccionar co n una proteína y, eventualm ente, inhibir su com
portam iento. Las proteínas actúan en los seres vivos desencadenando lo que se co
noce com o «cascadas metabólicas», que son una sucesión de reacciones bioquím icas
mediadas p o r las mismas proteínas. P or tanto, si una m olécula inhibe el com porta
m iento de una de las proteínas involucradas en la ruta m etabólica de interés, esta
molécula interrum pirá dicha ruta y podría ser u n bu en farmaco.
( P r o te ín a a ) ------------------ ► ^ ^ d i a n a ) ^ --------------------* ( P r o te ín a c )
Para conseguir inhibir una de estas proteínas se debe conseguir que el fárm aco
se una a ella de una m anera determ inada. P or tanto, gran parte del esfuerzo de di-
seño cuando se desarrolla u n nuevo fárm aco es que esta m olécula se una al centro
activo de la proteína de interés, tam bién conocida com o diana terapéutica.
Para saber si una m olécula se une eficientem ente a una proteína se debe m edir
la energía de la interacción. La energía de la interacción entre una m olécula candi-
data a convertirse en fárm aco y su proteína diana es aquella energía que debe apli
carse al sistema para que éste se m antenga unido. P or ejem plo, si quisiéramos unir
u n im án de nevera a la pu erta de dicho electrodom éstico,.no sería necesario aplicar
ninguna fuerza de form a continua, ya que el im án tiende a unirse al m etal de la
puerta debido a sus propiedades magnéticas. Incluso en el caso de que el im án sea
realm ente potente, sólo con acercarlo a la p u erta ya notam os cóm o es atraído con
cierta fuerza hacia ella. E n este caso, estaríamos hablando de que la energía que debe
aplicarse para m antener unidos im án y puerta es negativa, ya que, de hecho, ambos
objetos se atraen.
C o m o se podrá suponer, un fárm aco que no se sienta atraído p o r su proteína
diana no tiene valor com o tal, ya que se limitará a flotar p o r el riego sanguíneo o
los tejidos, ignorando y siendo ignorado p o r la proteína que debería ser inhibida.
Así pues, cuando se busca un buen candidato a fármaco se pretende encontrar un
com puesto cuya energía de interacción sea lo más negativa posible, ya que esto es
una muestra de hasta qué p u n to se verán atraídos fármaco y proteína. Por tanto, el
principal objetivo que se debe optim izar en un proceso de diseño de un nuevo
fárm aco es la m inim ización de esa energía de unión.
Este tipo de problemas cuya solución consiste en la determ inación de unos pa
rám etros óptim os (ya sea determ inar qué pieza del tablero de ajedrez se debe m over
en cada tu rn o con el fin de ganar la partida, o bien las dim ensiones y posiciones que
debe ten er cada una de las vigas que conform an u n p u en te para m inim izar su cos
te y m axim izar su resistencia) se agrupan bajo la categoría de «problemas de bús
queda». La búsqueda es una de las grandes áreas de la inteligencia artificial. E n un
ejercicio de búsqueda, a m enudo se deben encontrar los parám etros que m aximizan
una función m atem ática y, en este caso particular esa búsqueda tam bién es conoci
da com o «optimización».
D arw in ya lo dijo
U na de las técnicas más utilizadas para resolver problemas de búsqueda es la co m
putación evolutiva. D el m ism o m odo que la naturaleza ha sabido hacer evolucionar
a sus seres vivos para optim izar su supervivencia en sus respectivos m edios naturales,
la com putación evolutiva utiliza mecanismos similares para optim izar funciones de
diversa com plejidad.
La com putación evolutiva fue inicialm ente propuesta p o r el investigador Jo h n
H olland en 1975 en su libro A daptation in N atural and Artificial Systems (Adaptación
en sistemas naturales y artificiales), aunque la ciencia occidental descubrió más tarde
que los ingenieros alem anes ya usaban estas estrategias para optim izar las toberas
de los prim eros m otores a reacción de los aviones en la Segunda G uerra M undial.
La com putación evolutiva abarca una gran colección de técnicas o algoritm os
evolutivos com pletam ente inspirados en las leyes de la evolución natural propues
tas p o r D arw in, según las cuales los individuos m ejor preparados son los que m e
jores índices de supervivencia presentan y, p o r tanto, los que más descendientes
tienen.
E n esta m etáfora inspirada en las leyes de la evolución natural se cuenta con
poblaciones de individuos en las que cada u n o de ellos representa una posible solu
ción a u n problema.Y, ya sea una buena o una mala solución, lo que tratan de hacer
los algoritm os evolutivos después de evaluar la bondad de cada u n o de los indivi
duos es seleccionar los m ejores para, a partir de ellos, dar lugar a una segunda gene
ración. Siguiendo u n proceso iterativo, los individuos de las sucesivas generaciones
son evaluados, seleccionados y cruzados de m anera que se obtienen poblaciones o
generaciones nuevas cada vez. Este proceso se term ina según criterios de parada que
p ueden variar dependiendo del problem a. Así pues, u n algoritm o evolutivo se basa
en cinco grandes etapas: inicialización, evaluación, selección, reproducción y reem
plazam iento, tal com o se muestra en el siguiente esquema:
Las diferencias entre u n algoritm o evolutivo y otro vienen determ inadas p o r las
diversas maneras en que se im plem enta cada una de estas grandes etapas.
DARW IN Y LA M A R C K : DOS VISIO NES DISTINTAS SOBRE
LA EVO LU CIÓ N
los seres vivos según su complejidad o la determinación de una división clara entre el mundo
zoológica) en 1809, cincuenta años antes de que se diera a conocer la teoría de la evolución
de Darwin.
La teoría lamarckiana, al contrario que la darwinlsta, se basa en la «herencia de los carac
teres adquiridos», esto es, en la capacidad de los individuos de trasladar a su descendencia
las adaptaciones al medio que ellos hayan realizado en vida. Un buen ejemplo en el que se
distinguen perfectamente los dos puntos de vista con respecto a la evolución es el largo cuello
de las jirafas. Según Lamarck, la jirafa que estiró más el cuello y logró desarrollar mejor los
músculos para llegar a las hojas más altas pasó esta característica a su descendencia, que a su
vez siguió desarrollando tales músculos y pasándoselos a su descendencia hasta que el cuello
alcanzó el tamaño actual. Según la teoría darwinista, en cambio, fue la jirafa que nació con
un cuello más largo o con unos músculos más potentes la que logró pasar dicha característica
a su descendencia, independientemente
al medio.
La inicializ ación
La inicialización de la población es una etapa bastante independiente del algoritm o
evolutivo que se use; de hecho, depende más de las características del problem a en
cuestión. H ay problemas en los que existen restricciones que deben tenerse en
cuenta; otros en los que no se conoce absolutam ente nada sobre cóm o tiene que ser
una buena solución y, p o r tanto, el problem a se inicia de m anera com pletam ente
aleatoria, y otros en los que se prefiere que la inicialización sea aleatoria, pero pos
tulando que los individuos generados en esta p rim era generación tengan una cierta
diversidad garantizada, para así estar seguros de que no se deja ningún espacio por
explorar.
La decisión de cóm o debe representarse el conocim iento dentro de u n indivi
duo es especialm ente im portante en esta etapa, ya que determ inará en gran m edida
el resto del algoritm o evolutivo. U n a de las representaciones más com unes se reali
za m ediante cromosomas, un nuevo concepto inspirado en la naturaleza: un crom o
som a es una secuencia de genes, y cada gen es u n núm ero que representa parte de
una solución.
Pongam os com o ejem plo u n algoritm o que busca m axim izar la capacidad de
una caja de cartón m inim izando la cantidad de cartón usado para fabricarla. Si se
utiliza u n algoritm o evolutivo, los crom osom as que representarían la solución ten
drían tres genes: longitud, am plitud y altura. Por tanto, en la etapa de inicialización
se crearía una población de cajas aleatorias representadas p o r ternas de núm eros
dentro de los rangos perm itidos, y el algoritm o iría evolucionado las poblaciones de
cajas hasta encontrar la caja óptim a según los criterios establecidos.
La evaluación
D espués de la inicialización viene la etapa de evaluación, que suele decirse que es
la más im portante del proceso, ya que define el problem a que debe resolverse. El
p rim er paso de la evaluación es reconstruir la solución, es decir, para cada individuo
se tom a la inform ación de su crom osom a (genotipo) para simular la solución repre
sentada (fenotipo). Este proceso puede albergar distintos grados de com plejidad,
desde el simple cálculo del volum en de una caja conociendo sus dim ensiones, com o
ocurría en el problem a de la caja de cartón, hasta cálculos extrem adam ente costosos
y complejos, com o la sim ulación de la resistencia de u n puen te en su proceso de
diseño.
U na vez que se tiene el fenotipo reconstruido, se procede a evaluar la b ondad de
esta solución y se le asigna u n valor de bondad a cada individuo, valor que en pos
teriores etapas evolutivas será usado para discernir entre las buenas y las malas so
luciones. D e nuevo, el propio proceso de evaluación de fenotipos puede ser com
plejo, costoso e incluso ruidoso; es decir, en la resolución de algunos problemas
complejos, un m ism o fenotipo evaluado diversas veces no tiene p o r qué dar siempre
el m ism o grado de bondad. El ruido, al cual tam bién podríam os llamar «error», es
una constante en problemas en los que la evaluación de la b ondad pasa p o r realizar
simulaciones num éricas. P or ejem plo, en la sim ulación de la resistencia a la fatiga de
una pieza de un m o to r de com bustión, resolver las ecuaciones matemáticas que
determ inan dicha fatiga sería tan costoso que lo m ejor es pasar p o r u n proceso si
m ulador, el cual, probablem ente, nos llevará a resultados algo diferentes en cada
sim ulación independiente de la misma pieza.
E n unos resultados presentados p o r la empresa H onda en el año 2004 en los que
se habían usado algoritm os genéticos para diseñar piezas de m otores de com bustión,
el proceso de evaluación no sólo era ruidoso y un tanto inexacto, sino tam bién
lento, ya que se tardaba ocho horas en o b ten er el resultado de la bondad calculada
de cada individuo de la población.
Cuando los exploradores llegaron por primera vez a las Islas Mauricio, en el siglo x v ii, se encontra
ron con un inesperado regalo de los cielos: un pájaro rechoncho, de carne suculenta, con unas alas
demasiado pequeñas para permitirle alzar el vuelo y unas patas demasiado cortas para poder huir,
al que los hombres llamaron «dodo». Lo cazaron sin piedad y las mascotas de los hombres (perros
y gatos), así como otras nuevas especies introducidas en las islas, como las ratas, destruyeron sus
nidos para comerse sus huevos. El pobre dodo se extinguió en poco menos de un siglo y actual
mente sólo nos quedan dibujos y grabados de cómo debió de ser esta simpática e inofensiva ave.
El dodo no había experimentado nunca la «necesidad» de evolucionar, nunca había estado someti
do a una presión evolutiva, y cuando ésta apareció ya no tuvo tiempo de hacerle frente. La presión
evolutiva es el motor de la evolución. Sin una cierta presión evolutiva los seres vivos no tienen ra
zones suficientes para adaptarse al medio, de modo que no tienen la necesidad de desarrollar una
se han ido documentando especies que estaban claramente en esta situación, es decir, especies
La selección
La siguiente etapa de u n algoritm o evolutivo, una vez que se han evaluado los in d i
viduos de la presente generación, es la selección. La idea últim a de la selección es
escoger los m ejores individuos que se reproducirán para generar la descendencia
que form ará la siguiente generación. Este proceso de selección de los m ejores indi
viduos es tam bién la base de la evolución natural y se denom ina «presión evolutiva».
La presión evolutiva es m ayor en función de cuán reducido es el porcentaje de in
dividuos que pasan a la siguiente generación. Sin embargo, si se aplica una estrategia
tan sencilla com o coger directam ente los m ejores individuos, se puede dem ostrar
que la presión evolutiva aplicada es demasiado elevada y, ante presiones evolutivas
excesivas, los algoritm os evolutivos no suelen funcionar bien, ya que suelen caer en
m áxim os locales.
La principal utilidad de u n algoritm o evolutivo es p o d er encontrar soluciones
buenas en grandes espacios de búsqueda, o, dicho en térm inos m atem áticos, en co n
trar los óptim os de funciones, n o rm alm ente con m uchas dim ensiones y m u ltim o-
dales, es decir, funciones con diversos máxim os locales o globales. Si la presión
aplicada a la optim ización evolutiva es excesiva, esto es, si se trata de encontrar la
Individuo 8
8%
Individuo 7
10 %
Individuo 1
Individuo 6 30%
8%
Individuo 5
3 %
Individuo
3%
Individuo 2
15 %
Individuo 3
23 %
E n el ejem plo de la figura hay ocho individuos y cada u n o tiene una bondad
proporcional al total indicado en cada porción. C o m o se puede intuir, cada vez que
se hace girar la ruleta, la probabilidad de que un individuo determ inado sea selec
cionado es proporcional a esta bondad con respecto al total pero, además, la estrate
gia de la ruleta no excluye la selección de individuos co n m en o r bondad, sino que
sim plem ente hay m enos probabilidad de que esto ocurra. Si se hace rodar la ruleta
diez veces, seguro que se selecciona en diversas ocasiones a individuos buenos, pero
tam bién es probable que alguna de las veces se seleccione u n individuo poco co m
petitivo. Esta posibilidad de seleccionar individuos poco com petitivos es lo que dota
a los algoritm os genéticos de tanta potencia, ya que les perm ite seguir distintas pis
tas al m ism o tiem po, de m odo que p ueden descubrir otros espacios, p o r lo que son
capaces de identificar u n gran núm ero de distintos m áxim os y encontrar, a largo
plazo, u n buen m áxim o local o, en el m ejor de los casos, el m áxim o global.
O tro sistema de selección adecuado para la resolución de problemas complejos
es la selección basada en el rango. El sistema vuelve a ser bastante sencillo: se trata
de seleccionar n copias del m ejor individuo, n — 1, del segundo individuo, y así has
ta que se llega a n = 0. C o n este sistema se elim ina la posibilidad de que u n superin-
dividuo eclipse las posibilidades de selección de cualquier otro individuo. Se co n o
ce com o «superindividuo» a aquel individuo que, aun estando lejos de un óptim o,
es m ucho m ejor que sus com pañeros de generación y, p o r tanto, la población se
estanca alrededor de él y el algoritm o n o es capaz de m ejorar sus cualidades.
Sin em bargo, es el tercer m étodo, el del torneo, el que finalm ente ha conseguido
el m onopolio entre las políticas de selección usadas en la resolución de problemas
reales p o r sus buenas propiedades matemáticas y p o r la alta versatilidad que ofrece
en la m odulación de la presión evolutiva. El to rn eo funciona del m ism o m o d o que
los em parejam ientos en una com petición deportiva. Se seleccionan em parejam ien
tos aleatorios de individuos, de dos en dos, y se considera que el m ejor es aquel que
gana el to rn eo y queda seleccionado. P or tanto, en este caso deben realizarse tantos
em parejam ientos com o individuos se necesite seleccionar. Pero ¿por qué se dice
que el m étodo del torn eo es tan versátil en la m odulación de la presión evolutiva?
Bien, ¿qué pasaría si en vez de organizar torneos de dos individuos se hicieran de n
individuos? ¿Y si en vez de haber u n solo ganador p o r to rn eo hubiera m? E n este
caso se dice que se están organizando torneos de n:m y, cuanto m ayor sea n, m ayor
presión evolutiva se ejerce, y cuanto m ayor sea m, m en o r es la presión evolutiva.
Para entender m ejor el esquem a del torneo, piénsese en las liguillas iniciales de
la U EFA C ham pions League. E n ese caso, los torneos son 4:2, es decir, se seleccio
nan aleatoriam ente cuatro equipos de fútbol y sólo los dos m ejores son selecciona
dos para pasar a la siguiente fase de la com petición. E n realidad, en el caso de la
C ham pions League no se p uede hablar de u n to rn eo estrictam ente aleatorio, ya que
rigen algunas norm as en la selección de estos cuatro equipos iniciales, com o que no
coincidan dos del m ism o país en las prim eras fases. D e la m ism a m anera, en los al
goritm os evolutivos podem os tam bién p o n er nuestras norm as, lo que derivará en
u n tipo de evolución o en otra.
U na norm a bastante usada es la de que sólo com pitan en u n m ism o to rn eo los
individuos más parecidos entre sí. D e esta manera, el algoritm o es capaz de optim i
zar funciones con m uchos óptim os.
La reproducción
U na que vez se han seleccionado los individuos que van a ten er descendencia,
llega la etapa de la reproducción. Existen varios tipos de sistemas de reproducción
y, a unque ésta no es necesariam ente la parte más im p o rtan te de un algoritm o evo
lutivo, en realidad éste se define p o r su sistema de reproducción; es decir, un algo
ritm o evolutivo concreto recibe su n om bre en función del tipo de reproducción
que utiliza. Por ejem plo, los algoritm os genéticos, de los que hablarem os a co n ti
nuación, son los algoritm os evolutivos que tienen u n sistema de reproducción de
cruce con m utación.
Los algoritm os genéticos son los algoritm os evolutivos más usados gracias al
buen com prom iso que consiguen entre dificultad de program ación y buenos resul
tados obtenidos con ellos. La reproducción p o r cruce y m utación está basada fuer
tem ente en los conceptos de la genética. E n un algoritm o genético cada u n o de los
individuos está representado m ediante u n crom osom a, y cada crom osom a es una
secuencia de genes. C uando se cruzan los crom osomas de los progenitores, prim ero
se crea u n pu n to de corte aleatorio que los divide en dos mitades. A continuación,
estas cuatro mitades (dos p o r cada progenitor) se cruzan entre sí para generar dos
descendientes: el p rim er descendiente contiene la prim era parte del crom osom a del
prim er progenitor (llamémosle padre) más la segunda parte del crom osom a del se
gundo progenitor (madre), y el segundo descendiente consta de un crom osom a
form ado p o r la prim era parte del crom osom a de la madre, hasta el pu n to de corte,
y p o r la segunda parte del crom osom a del padre.
P unto de corte
Padre D escendiente 1
M adre D escendiente 2
Para concluir con los algoritm os genéticos, una vez que los descendientes han
sido creados, se pasa p o r u n proceso de m utación en el que, m ediante una proba
bilidad m uy baja (típicam ente alrededor del 5%), se cam bian de m o d o aleatorio
valores de los genes que co m p o n en los nuevos crom osom as. Tanto en la práctica
com o en la teoría se puede dem ostrar que, sin la m utación, los algoritm os genéti
cos no son buenos m otores de optim ización, ya que se suelen estancar en subóp-
tim os o m áxim os locales. La m utación perm ite a los algoritm os genéticos ir dando
pequeños saltos aleatorios dentro del espacio de búsqueda. Si los resultados de es
tos saltos aleatorios no son prom etedores, se perderán en el proceso evolutivo, pero
si son positivos, serán adoptados p o r los buenos individuos de las generaciones
venideras.
G R EG O R M EN D EL Y LA G EN ÉTIC A
nes recesivos.
Mendel inició sus experimentos rea
con otra que las generaba de color verde. Entonces observó que las plantas resultantes de
dicho cruce producían sólo semillas amarillas. Sin embargo, más tarde observó que, aunque
al cruzar estas plantas entre sí la generación resultante producía en su mayoría semillas ama
rillas, sorprendentemente, algunas plantas volvían a generar semillas verdes. La relación entre
plantas de semillas amarillas y verdes era de 3:1. Después de realizar experimentos similares
con otras características, finalmente Mendel llegó a la conclusión de que existían unos genes
que eran dominantes sobre otros, de modo que oscurecían la existencia del gen dominado y
no le permitían expresarse en el individuo. Esto explicaba que del cruce de individuos con el
mismo gen expresado pudieran darse descendientes en que el gen expresado fuera otro, ya
que, sin saberlo, ambos padres poseían dicho gen, aunque «oscurecido» por el dominante.
describen la base de la genética, el área de la ciencia que estudia los genes y la transmisión
medicina moderna.
El reem plazam iento
Por últim o, la etapa que cierra el ciclo del proceso evolutivo es la del reem plaza
m iento. E l objetivo de esta etapa es seleccionar qué individuos de la generación
an terio r serán reem plazados p o r los nuevos individuos generados en la rep ro d u c
ción. La estrategia más habitual es reem plazar todos los individuos de la an terio r
generación excepto el m ejor, al que se le da la o p o rtu n id ad de «vivir» durante
otra generación más. Este m étodo, co nocido co m o «elitismo», ha dem ostrado que,
aun siendo u n proceso m uy simple y no m uy natural, tiene una p o ten cia extraor
dinaria.
Sin em bargo, se han propuesto m uchas otras estrategias para reem plazar indivi
duos. N ótese que, de nuevo, al igual que en la etapa de selección, según com o se
seleccionen los individuos que van a ser reem plazados, se p uede m odular la p re
sión del proceso evolutivo: si siempre se seleccionan todos los individuos de la
población y se reem plazan p o r los nuevos individuos, no se aplica ning u n a presión
evolutiva, y al contrario, si sólo se seleccionan los malos individuos de la población
an terio r para ser reem plazados, la presión aum enta en o rm em en te.
A LG O RIT M O S EV O LU TIV O S LA M A R C K IA N O S
evolutivos y, de hecho, ambos métodos han demostrado ser altamente eficaces para resolver
problemas de optimización numérica. Los algoritmos evolutivos darwinianos son los habitua
les, los que se han ido describiendo a lo largo de este capítulo, mientras que los lamarckianos
incluyen un paso adicional entre la evaluación y la selección. Este paso consiste en una corta
de tener descendencia.
Esta etapa de optimización local normalmente se basa en pequeñas mutaciones que se aplican
a cada individuo. Luego se vuelve a evaluar la bondad del individuo para ver si la mutación
ha introducido una mejora. Si es así, ésta se acepta y se repite de nuevo el ciclo de mutación-
Los primeros algoritmos evolutivos lamarckianos fueron bautizados como «estrategias evo
lutivas» y, como ya se ha dicho, los alemanes los usaron durante la Segunda Guerra Mundial
como herramienta para optimizar las toberas de los motores de reacción de sus aviones.
Por otro lado, en esta etapa tam bién se p ueden aplicar de m odo eficiente políti
cas de especiación, es decir, m étodos que faciliten la identificación de varias solu
ciones para aquellos problemas que tengan diversos óptim os. El m étodo más usado
en este caso es el reem plazam iento m ediante niching. Esta estrategia consiste en se
leccionar, para cada nuevo individuo generado, los individuos de la población ante
rio r que más se asem ejen a él. E n la siguiente generación, sólo el m ejor individuo
del grupo de similares podrá perm anecer en ella.
Hasta el m om en to se han explicado algunos de los m étodos más habituales para
llevar a cabo cada una de las etapas evolutivas. Sin embargo, el lector debe saber que
existen u n sinfín de m étodos para realizar cada una de estas fases evolutivas.
E=9 E = —8
E=9
El siguiente paso evolutivo es la reproducción, donde, a partir de las moléculas
seleccionadas, se crean nuevas m oléculas que com binan las propiedades de las p ri
meras. Así pues, se cruzan las dos moléculas seleccionadas en el paso an terior para
generar dos nuevas moléculas, que serán u n cruce de sus progenitores:
E n la siguiente ilustración vemos cóm o las dos moléculas se parten en dos sec
ciones:
Y, p o r últim o, se originan dos nuevas moléculas u n iendo las partes de las ante
riores:
Finalm ente, en la etapa de reem plazam iento, se retiran los individuos de la p ri
m era generación y se reem plazan p o r los nuevos individuos creados. El m étodo de
reem plazam iento más usado, y tam bién el más simple, es el del elitismo, en el que
todas las m oléculas de una generación quedan reemplazadas, excepto la m ejor. E n
este caso, la nueva generación contiene las dos moléculas generadas a partir del
cruce, más la m ejo r m olécula de la generación anterior, que era la que tenía una
energía de interacción de —8.
Después del reem plazam iento, el ciclo evolutivo se cierra y se itera tantas veces
com o sea necesario. Es decir, ahora estas moléculas de segunda generación se eva
luarían, después se seleccionarían, etc., y se llegaría a una tercera generación.Y así
hasta que se repita u n núm ero de generaciones predefinidas o la población haya
convergido, es decir, que el 90% de los individuos sean la misma molécula.
N aturalm ente, la realidad es bastante más complicada; lo que hem os explicado
aquí es una burda simplificación, pero ¿a qué es bonito?
C apítulo 3
Aprendizaje artificial
Jueves 6 de mayo de 2010, 9:30 h de la mañana. A pertura de los m ercados de valo
res estadounidenses. E n principio, un día norm al de transacciones financieras: la
m añana va pasando sin anorm alidades aparentes. Pero p o r la tarde, a las 14:45 h, sin
ninguna causa clara, algunos de los valores más im portantes del m ercado empiezan
a desplomarse en cuestión de segundos. A un con la volatilidad característica de los
m ercados en aquel period o de inestabilidad financiera, esta caída fue bastante sor
prendente, ya que algunas de las compañías más grandes y sólidas estaban sufriendo
bajadas de más del 60%, y to d o el m ercado de valores norteam ericano y, p o r consi
guiente, el m undial, se estaba desm oronando en cuestión de m inutos. A quel día, el
Indice Industrial D o w Jones (uno de los índices de referencia bursátil más usados a
escala internacional) llegó a caer un 9,2%, el descenso en un solo día más im p o r
tante de toda la historia, aunque después llegó a estabilizarse en u n descenso de
«sólo» el 3,2%. E n pocos segundos desaparecieron del m ercado un trillón de dólares
de valor, en lo que hoy en día se conoce com o el «Flash Crash».
1. O bserva la mam ografía y detecta las características más relevantes con la fina
lidad de determ inar el nuevo problem a. E l conjunto de las características de
tectadas perm iten describir la situación.
2. Busca mamografías diagnosticadas previam ente, tanto p o r él com o en los li
bros de m edicina, que tengan características similares.
3. E m ite un diagnóstico teniendo en cuenta los diagnósticos del conjunto de
mamografías que había recopilado com o similares.
4. Finalm ente, si lo considera necesario, pide una segunda opin ió n a com pañeros
suyos con la finalidad de validar su diagnóstico.
5. A partir del diagnóstico realizado, tom a notas pertinentes para recordar el
nuevo caso resuelto, ya que éste le pu ed e ser útil en el futuro.
Este procedim iento coincide paso a paso con una de las técnicas de predicción
más utilizadas en inteligencia artificial llamada «razonam iento basado en casos», en
adelante C B R (Case-Based R easoning) conform e a sus siglas en inglés. C onsiste en
resolver nuevos problemas buscando analogías con problemas resueltos de m anera
satisfactoria en el pasado y, una vez seleccionada la solución más similar, adaptarla a
las características del nuevo problem a. P or ello, el C B R no es sólo una herram ienta
de análisis de datos, sino que con los datos analizados se pretende conseguir un
objetivo más general, que es la resolución inteligente de problemas.
El CBR, así como otras técnicas inteligentes, se puede usar para ayudar a diagnosticar la
cualquiera de estas técnicas son numéricos, se requiere un paso intermedio que haga una
el caso de los tumores de mama se suelen extraer diversas mediciones sobre unos elementos
frecuentes en las mamas denominados microcalcificadones, que son unas milimétricas aglo
para la detección de microcalcificadones malignas en las mamas son: el área de las mismas,
amplitud, la elongación (una relación entre la amplitud y la longitud) y la posición del centro
de gravedad de la microcalcificación.
Todos los puntos anteriores tienen el m ism o denom inador com ún: la experien
cia del sistema almacenada en la m em oria de casos. Lo deseable sería que esta m e
m oria de casos se caracterizara siempre p o r las propiedades de ser:
— Com pacta: no debe contener casos redundantes ni con ruido porque éstos
pueden distorsionar la realidad y confundir al sistema en el proceso de recu
peración de los casos más similares.
— Representativa: no es posible resolver aquello de lo que no se tiene constan
cia; así pues, es necesario disponer de casos representativos de todos los dife
rentes aspectos característicos del dom inio para no ten er una visión parcial
de la realidad.
— R educida: la velocidad con la que responde el sistema está relacionada con el
núm ero de elem entos de los que se dispone. El tam año de la m em oria tiene
que perm itir la respuesta del sistema en u n tiem po razonable.
Estas tres propiedades p ueden resumirse en la premisa siguiente: disponer de un
conjunto m ínim o de casos independientes capaces de representar com pletam ente
el dom inio.
O tro ejem plo: el m arketing online
La herram ienta típica utilizada para aproxim ar este tipo de problemas es lo que
se conoce com o «redes bayesianas» y, de hecho, el m ayor centro de investigación
m undial especializado en esta herram ienta es el M icrosoft R esearch Institute, d o n
de se estudia la aplicabilidad de esta técnica no sólo para el m arketing online sino
tam bién para otros aspectos, com o que la interfaz de usuario de W indow s se adapte
autom áticam ente a cada individuo según su m anera de trabajar o sus preferencias.
La idea que subyace detrás de una red bayesiana es que hay cadenas de eventos
que suelen sucederse y que p ueden com partir probabilidades con otras cadenas de
eventos; p o r eso se llaman «redes», p orque son cadenas de probabilidades entrecru-
zadas.Veamos u n ejem plo sobre la com pra de libros:
O TRO S USOS D EL M ARKETIN G A U T O M Á TIC O
suelen dar cupones de descuento para los productos que ya compramos habitualmente (supo
niendo, claro esté, que lo hagan bien), sino para productos que nosotros no solemos adquirir
pero que otros clientes con cestas de la compra similares a la nuestra sí que compran. Con
ello, nos dan a conocer ese producto, que posiblemente no conocíamos o no habíamos com
prado nunca, para que a partir de esta primera compra tal vez se convierta en un habitual de
nuestra cesta. Lo mismo sucede con otro tipo de empresas, como los servicios financieros o de
telecomunicaciones, de los que es bastante habitual recibir ofertas para productos que no co
nocíamos pero que ellos intuyen que, por nuestro perfil de consumidor, nos pueden interesar.
E n la red del ejem plo podem os ver que el 98% de los clientes que com praron
Yo, robot tam bién adquirieron La fundación. E n cambio, ninguno de los que com pra
ron D une adquirió tam bién Orgullo y prejuicio, p o r lo que no se establece ninguna
relación entre estos dos libros. P or eso, si el sistema detecta que u n cliente acaba de
adquirir Yo, robot y ahora está buscando inform ación sobre La fundación, en el apar
tado de recom endaciones ya estará apareciendo D une y Contacto, ya que u n p o rcen
taje m uy significativo de la gente que com pró los dos prim eros tam bién adquirió
estos otros. C o n todo ello, el sistema trata de aum entar sus ventas m ediante una
campaña de m arketing individualizada a cada cliente y autom atizada para anunciar
dos productos que quizás el cliente no sabía que existían, pero com o el sistema
tiene m ucha inform ación de otros com pradores previos, ha podido establecer esta
red de relaciones causales y la usa para hacer nuevas recom endaciones.
Además, el sistema tam bién sabe que publicitar Orgullo y prejuicio a u n cliente
que está com prando ciencia ficción, que es lo que sucedería si se hiciera una cam
paña de m arketing clásica, es perder el tiem po. E n una campaña tradicional de
m arketing se anunciaría la nueva edición de Orgullo y prejuicio dentro del program a
tem ático sobre libros y lectura que se em itiera en el canal cultural a las 23:00 h, p or
ejemplo. Sin em bargo, aunque se habría escogido el program a y la franja horaria
donde el telespectador tendría más probabilidad de estar interesado en el producto,
seguiría existiendo u n gran núm ero de telespectadores aficionados a los libros de
ciencia ficción en los que este anuncio no estaría surgiendo n ingún efecto, con la
pérdida m onetaria que esto supone para la empresa anunciante. Para un canal de
m arketing estático, com o la televisión, la radio o los carteles en las calles, es im p o
sible que el anunciante conozca el perfil individualizado de los clientes del m o m en
to y, aunque lo supiera, carece de las herram ientas necesarias para adaptar el anuncio
em itido a cada uno de ellos.
E ntrada( —> Xj
E ntrada, —* X2
que quiere decir, en lenguaje corriente, que si el estím ulo [la sum a de productos
(X - Peso.)] supera u n determ inado um bral, entonces, y sólo entonces, se dispara la
neurona.
C o m o puede verse, una neurona es u n elem ento extrem adam ente simple, pues
sólo im plem enta unas pocas operaciones aritm éticas y una com paración. Este h e
cho facilitó la im plem entación de las neuronas artificiales en microchips, de m ane
ra que se pudieron im plem entar redes neuronales completas en hardware a partir de
finales de los años noventa. Estos m icrochips se usan en la actualidad para construir
aparatos electrónicos de predicción, com o, p o r ejemplo, los instrum entos capaces de
detectar la causa del malestar de un bebé que llora.
El funcionam iento de una neurona artificial es parecido al de una neurona na
tural y, com o se ha podido observar, bastante sencillo. D e hecho, la dificultad de las
redes neuronales radica principalm ente en dos elem entos que deben ajustarse y de
los cuales dependerá que la red pueda realizar predicciones más o m enos correctas:
el peso de las diversas entradas y el um bral. El arduo proceso de ajustar estos valores
para que, dada una serie de entradas, la neurona produzca la salida deseada es lo que
se conoce com o «proceso de entrenam iento», o en térm inos psicológicos, «apren
dizaje». La innovación del aprendizaje neuronal fue introducida p o r Frank R o se n -
blatt a finales de la década de 1950, y el invento de una neurona que pudiera ajustar
los pesos y el um bral fue conocido com o «perceptrón».
E n térm inos biológicos, el com portam iento de una neurona natural es práctica
m ente el mismo: cada neurona tiene un conjunto de entradas p or las que percibe
señales eléctricas provenientes de otras neuronas, lo que se conoce com o «conexio
nes sinápticas», y a partir de ellas evalúa si esos estímulos superan u n um bral de
sensibilidad, siempre teniendo en cuenta que hay conexiones sinápticas que son más
im portantes que otras (los pesos de los que se hablaba antes). Si se supera este u m
bral de sensibilidad, se propaga una señal eléctrica a través del axón, o lo que sería
su equivalente en una neurona artificial, la salida.
M ediante esta relativa simplicidad, el perceptrón se planteó com o un a útil h e
rram ienta predictiva: dada una muestra, predice si es de una clase (0) o de otra (1).
U n ejem plo clásico es el problem a del género botánico Iris, en el que se tienen
muestras de tres especies: Iris setosa, Iris versicolor e Iris virginica. C ada m uestra recogi
da se define p o r cuatro parámetros: la lo ngitud de sus pétalos, la am plitud de los
mismos, la longitud de sus sépalos y la am plitud de éstos. El objetivo es que, dada
una nueva muestra, la herram ienta nos diga a qué especie pertenece. E n este caso,
usaremos tres perceptrones, cada u n o especializado en la detección de una sola de
las tres especies, de tal m anera que si la nueva m uestra es de la especie Iris setosa, sólo
uno de los perceptrones debería retornar l , y los otros dos, 0.
E n estos m om entos, es posible que el lector esté pensando que p or qué no se usan
herramientas de tipo estadístico para resolver el problem a del Iris. E n efecto, este p ro
blema es tan simple que tam bién se podría resolver m ediante herramientas estadísticas
clásicas, com o el análisis de com ponentes principales. Sin embargo, nótese que el
perceptrón y las herramientas estadísticas nos aportan dos maneras de razonar m uy
distintas, y que tal vez la más similar al razonam iento natural sea la del perceptrón.
E n el caso de utilizar herram ientas estadísticas, en el problem a del Iris hubiéra
mos obtenido reglas del tipo: «si los pétalos están entre tal y tal longitud, y su an
chura está entre ésta y esta otra, es probable que esta m uestra sea de la especie X».
M ientras que la m anera de razonar de un perceptrón es la siguiente: «si los pétalos
están entre tal y tal longitud, y su anchura está entre ésta y esta otra, es probable que
esta m uestra sea de la especie X , a no ser que tenga unos sépalos tan cortos que
entonces ya no m e im porta cóm o sean los pétalos p o rque p uedo decir que es de la
especie Y».
Es decir, m ediante el sistema de ponderar el valor de las entradas para la tom a de
decisiones hay alguna inform ación que puede pesar m ucho m enos que otra, pero
que, si se llega a u n valor extrem o, esta entrada antes poco im portante pasa a co n
vertirse en m uy relevante para la tom a de la decisión.
Si consideramos una situación en la que ias muestras puedan ser de dos categorías y cada
una de ellas esté descrita por dos descriptores (por tanto, dos entradas), podríamos dibujar
En él, los círculos blancos representan las muestras de la categoría A, y los negros, las de la
categoría B. Como puede apreciarse, es fácil trazar una línea que separe ambas categorías,
y eso es justamente lo que hace un perceptrón cuando se ajustan el umbral y los pesos de
cada entrada. Sin embargo, ¿qué pasa si analizamos el problema sintético de la X-OR? X-OR
es una operación lógica (corresponde al «o» exclusivo) que cumple con la siguiente relación:
Entrad as Salida
00 0
01 1
10 1
11 0
En este caso no es posible dibujar ninguna recta que separe los círculos blancos de los negros
y, por tanto, estamos ante un problema no-separable linealmente. Un perceptrón no podría ser
Entrada 1
Entrada 2
Salida
Entrada 3 O
Entrada n
Pero una red neuronal puede ser tan com pleja com o se desee, co n tantas capas
ocultas com o el program ador considere o p o rtu n o y, además, con conexiones que
pueden ir desde delante hacia atrás para simular una especie de m em oria. E n este
sentido, se han llegado a construir redes neuronales con 300.000 neuronas, que es
el m ism o núm ero de neuronas que contiene el sistema nervioso de una lom briz de
tierra.
E n una red neuronal el aprendizaje se complica, y p o r ello los ingenieros han
ideado un gran núm ero de m étodos de aprendizaje. U n o de los más simples es el
m étodo de la retropropagación, o en inglés back-propagation, que además da nom bre
a las redes neuronales que hacen uso de él. Este m éto d o consiste en m inim izar el
error de salida de la red neuronal a base de ajustar de derecha a izquierda los pesos
de entrada de las conexiones sinápticas de las neuronas siguiendo el m étodo del des
censo de gradiente. Es decir, que prim ero se les dan valores aleatorios a los pesos de
todas las conexiones de la red y a continuación se introduce una m uestra con el
valor conocido que se debe predecir; p o r ello se dice que es una m uestra «de entre-
generalización que es capaz de hacer a partir de casos pasados. Por tanto, cuando el sistema
el ajuste es tan exacto y está tan adaptado a las muestras de entrenamiento que el sistema,
como las ha memorizado, ya no basa sus predicciones en una generalización sino en la me
morización. Cuando esto sucede, el sistema ya sóio es capaz de realizar predicciones correctas
«sobreentrenado».
Y el cerebro funciona
Existe una disciplina de la física, la cinem ática inversa, que se encarga de calcular los
m ovim ientos necesarios que se deben desencadenar para trasladar un objeto desde
un p u n to del espacio A hasta otro p u n to B. Estos cálculos se com plican de form a
exponencial, en cuanto al núm ero de operaciones matriciales que se deben resolver,
a m edida que se introducen grados de libertad en el sistema.
Por ejem plo, dado un brazo robotizado con cuatro ángulos de torsión y una
extensión retráctil co m o el que aparece en la figura siguiente, si se quisieran resol
ver p o r la vía clásica las ecuaciones matriciales de cinem ática inversa, u n superor-
denador podría tardar horas en realizar todos los cálculos necesarios para saber con
qué m agnitud y en qué sentido debem os desplazar cada grado de libertad para
llevar la herram ienta situada en el extrem o del brazo desde A (punto inicial) hasta
B (punto final).
•A
Por ello es im posible m antener sistemas robotizados que m odifiquen sus trayec
torias en tiem po real basándose en la resolución clásica de matrices. E n el caso de
aquellos robots que ejercen sistem áticam ente las mismas tareas repetitivas (piénsese,
p o r ejem plo, en los robots de una cadena de m ontaje de una fabrica de autom óvi
les) se pueden calcular y program ar a priori todos los m ovim ientos, paso a paso, que
deben ejecutar los m otores de cada ángulo de torsión o brazo retráctil del robot. Sin
embargo, si se desea im plem entar u n brazo robotizado capaz de actuar autónom a
m ente y con capacidad para coordinar sus acciones en función de una situación
concreta (piénsese ahora en los robots ubicados en astronaves, en los empleados en
cirugía o, sim plem ente, en los prim eros robots experim entales de uso dom éstico),
se necesitan sistemas más innovadores que perm itan a los elem entos de proceso del
robot calcular de m anera rápida cóm o se tiene que m over para cum plir con su co
m etido.
Para ello, uno de los sistemas de control m o to r más eficientes que existen en la
actualidad son las redes neuronales de retropropagación. E n el caso del robot, la red
neuronal entrenada para su control tendrá tantas salidas com o grados de libertad
disponga el robot, y cada una de ellas indicará la m agnitud y el sentido con el que
debe desplazarse cada m o to r para ir desde el p u n to inicial hasta el final.
Sin embargo, el gran inconveniente de esta aproxim ación es que la red neuronal
debe pasar p o r u n largo proceso de aprendizaje, innecesario en una aproxim ación
clásica. E n cierto m odo, se podría ver com o el proceso de aprendizaje de u n ser
hum ano, que de pequeño aprende a cam inar a base de prueba y error, pero que, una
vez que ha aprendido a andar, no hace falta que esté solventando a cada paso las
complejas ecuaciones físicas que resuelven la cinem ática de sus piernas para despla
zarse y no perder el equilibrio.
Por ello, el entrenam iento habitual que se usa en estos casos es el de m ostrar a la
red neuronal de retropropagación decenas de miles de veces, una y otra vez, cente
nares de miles de trayectorias posibles y enseñarle cóm o se m ueven en cada caso los
distintos m otores para pasar del p u n to inicial al final.
U na vez que la red está adecuadam ente entrenada, se dice que ha aprendido el
m apa sensoriom otor. Esto perm ite que el centro de procesado de un ro bot pueda
resolver con precisión m ilim étrica la cinem ática inversa del ro b o t en escasos m ili-
segundos.
= o
>
La red neuronal realiza predicciones, pero no se sabe qué razonamiento
sigue para obtenerlas. Hay quien la compara con una bola de cristal.
¿Desaparecerá esta imagen de las aulas del futuro? Seguro que m uchos estudiantes
estañan felices de que asi fuera...
Los árboles de decisión son una herram ienta m uy simple, pero tam bién m uy
efectiva, para el reconocim iento de patrones. U n árbol de decisión trata de buscar
cuáles son las variables más decisivas o discrim inantes que decantan una muestra
hacia una clase u otra. Veamos u n ejem plo: estamos ante u n problem a de predicción
de notas de los alum nos de un determ inado instituto y tenem os los siguientes datos
de entrenam iento:
EL Á R B O L DE LA INFO RM ACIÓ N
ya que permite relacionar los datos de una manera jerarquizada. El árbol, como estructura
N ivel 1
N ivel 2
N ivel 3
Cada uno de los datos de un árbol se denomina «nodo», y estos nodos, que representan una
unidad de información, se dividen en los distintos niveles y se relacionan entre ellos mediante
ramas. Un nodo relacionado con otro de distinto nivel será su padre si su nivel es superior, o su
hijo, en caso contrario. Finalmente, los nodos que no tienen hijos son denominados «hojas».
U n árbol de decisión que m odela b ien estos datos puede ser el siguiente:
Suspenso A probado
S = - ¿ » . -ln(H.).
Veámosla en acción usando el ejem plo de los exámenes. E n el p rim er nivel del
árbol deberem os analizar la entropía generada p o r cada variable. La prim era de ellas
es la variable «nota del curso anterior». Si separamos las muestras p o r esta variable
nos quedan dos subconjuntos de muestras, u n o con
ya que de entre los alum nos que el año pasado tuvieron una nota m en o r que la
m uestra hay un 75% de suspensos y un 25% de aprobados, y otro con
ya que u n tercio de los alum nos que el año pasado tuvieron una n o ta m ayor que la
m edia han suspendido y dos tercios han aprobado.
Esta operación se repite para cada variable. Y la siguiente es la «asistencia a clase»,
en la que, para simplificar, discernirem os entre mayor que el 95% y m en o r que el
95%. E n este caso,
SA. . . lqw = —0,67 • ln(0,6)
Asistencia a clase m ayor que el \ *
—0,4
/ >
• ln(0,4)
\ /
= 0,67;
. . - a clase
S Asistencia , m en o r que el10W
95%
= - 0 ,57- ln ( 0' ,57 ) -70 ,57- ln ( 0 N,5 ) / = 0,69.
v. .. entregados
S Ejercicios „ . m ayor q ue 6U% = - 0 ,77 5 - ln(0,7
\ *
5/ ) - 0 ,2 5 - ln(0
'
,25)' = 0,56
y
S Ejercicios
p- j = —1 ■ln(l) = 0.' '
entregados m e n o r que 60%
Por tanto, la variable que m ejo r discrim ina es esta últim a, puesto que las entro
pías de los subconjuntos que genera son de 0,56 y 0.
E n este caso, las muestras de entrenam iento que caen en el lado de «menos del
60% de los ejercicios entregados» son todo suspensos, p o r tanto, ya no nos tenem os
que preocupar de esta ram a del árbol. Sin em bargo, la otra ram a contiene tanto
suspensos com o aprobados; p o r consiguiente, debem os proseguir el análisis de m a
nera recursiva, eso sí, sin ten er en cuenta las muestras que ya han sido discriminadas.
A hora sólo nos quedan dos posibles variables de decisión: «nota del curso ante
rior» y «asistencia a clase». Las entropías de Shannon de los grupos generados m e
diante la prim era variable discrim inante son las siguientes:
SM , .. = —07,5 -ln (0
N o ta del curso a n te n o r m e n o r q ue la m edia
,5 ) —0,5
\ 7 / 7
-ln (0
\
,5 )' = 0,69;
7 7
S Asistencia
,. .
a clase m ayor que eJ VDyo
= —l- ln (l)
' '
= 0.
Por tanto, se escoge la variable discrim inante de «asistencia a clase», ya que pre
senta unas entropías m enores.
El m étodo de construcción de los árboles de decisión y, p o r tanto, el m étodo
que hace que los árboles aprendan, es sencillo y elegante, pero tiene dos grandes
inconvenientes. El prim ero es que en problemas con u n gran núm ero de variables
de decisión resulta m uy lento, y el segundo, y más grave, es que puede caer fácil
m ente en óptim os locales, es decir, com o nunca se analiza el árbol en su globalidad,
sino nivel a nivel, es posible que una determ inada variable de decisión m inim ice la
entropía en u n determ inado nivel y se escoja, pero en cam bio si se hubiera escogi
do otra, el árbol clasificaría m ejor a escala global.
U n «truco» que se utiliza habitualm ente para m ejorar los índices de acierto de
los árboles de decisión es usar «bosques», es decir, entrenar diversos árboles, cada
u no con u n m étodo diferente, y o b ten er la predicción final del consenso de la pre
dicción de cada uno de los diversos árboles que co m p o n en el bosque.
Siguiendo esta filosofía, la m etodología más frecuente de entrenar u n bosque es
construir árboles de decisión m ediante la selección aleatoria de variables de deci
sión; es decir, si querem os entrenar unos 100 árboles que com pondrán nuestro
bosque, para cada árbol se seleccionan unas 5 variables de decisión aleatorias, y se
entrena el árbol sólo con aquellas 5 variables. Esta aproxim ación se conoce con el
p oético nom bre de «random forest» («bosque aleatorizado»).
C apítulo 4
Planificación y razonamiento
automático
Los sucesos siguientes podrían o c u rrir un día cualquiera:
14:32 h: U n cam ión con exceso de velocidad vuelca en una carretera secundaria.
El conductor recibe u n fuerte golpe en la cabeza.
14:53 h: A cuden al lugar del accidente una ambulancia y los bom beros, y en pocos
m inutos consiguen evacuar al conductor, inconsciente y con una grave
fractura craneal.
15:09 h: La ambulancia llega al hospital, donde el servicio de urgencias decreta la
m uerte cerebral del conductor.
15:28 h: Se identifica al sujeto y se avisa a su familia.
16:31 h: U na vez en el hospital, u n equipo de psicólogos se p o n e en contacto con
la familia del fallecido para darle soporte em ocional y obten er su consen
tim iento para la donación de los órganos no afectados p or el traumatismo.
16:36 h: D espués de u n breve debate, la familia acepta donar los riñones del fam i
liar fallecido (en adelante, el donante).
16:48 h: U n equipo quirúrgico em pieza los trabajos de extracción de los riñones y
la exploración m édica de éstos. E n paralelo, los responsables adm inistrati
vos del hospital trabajan en los trámites burocráticos para o b ten er la auto
rización legal.
17:24 h: U na vez concluida la extracción, se introducen en un sistema inform ático
los datos biológicos del donante y las características de los órganos.
C óm o se gestiona u n trasplante
17:24 h: D e m anera inm ediata, el sistema inform ático determ ina quiénes serán los
dos receptores de los riñones, les avisa y asigna y planifica los recursos
logísticos necesarios para el transporte. E n u n caso hay que preparar una
ambulancia para llevar u n o de los riñones al hospital de una ciudad vecina
(a 30 km de distancia), y en el otro es una avioneta de transporte m édico
la que llevará el riñ ó n a una ciudad que está a 450 km de distancia y p er
tenece a otro sistema autonóm ico de salud. El transporte del segundo
órgano desde el hospital del donante hasta el aeropuerto más cercano se
realiza m ediante un helicóptero, que el m ism o sistema inform ático asigna
de m anera autom ática. E n paralelo, este sistema está realizando tam bién
gran parte de los trám ites legales que requieren los dos sistemas sanitarios,
el del donante y el del receptor de la región vecina.
18:10 h: Em pieza el p rim er trasplante en el hospital de la ciudad vecina.
19:03 h: C om ienza el segundo trasplante en la ciudad situada a 450 km .
21:00 h: A m bos receptores están recibiendo el tratam iento postoperatorio e in m u -
nosupresor adecuado, y los dos evolucionan favorablemente.
putación y de la inteligencia artificial. De hecho, su santo grial es el algoritmo que usa para
confeccionar los rankings de las búsquedas que los internautas de todo el mundo realizan
millones de veces por segundo. Tanto interés despierta ese algoritmo y tantas presiones recibía
Google para publicarlo que la mañana del 1 de abril de 2002 la empresa decidió poner un link
desde su página principal donde afirmaba que explicaba su algoritmo de ranking. El algoritmo
era en absoluto un capricho. Contaba el artículo que Google disponía de unas instalaciones
llenas de PC (siglas de pigeon clusteren Inglés, es decir, «agrupamiento de palomas») y que
cada paloma disponía de una pantalla y un teclado. La descripción del algoritmo decía que
cada vez que un usuario realiza una búsqueda en Google, cada una de las webs que coincide
con dicha búsqueda es mostrada a una de las palomas, que acto seguido empieza a picotear
en su teclado. A continuación, las webs son ordenadas según el número de picotazos que ha
En el mismo artículo, Google explicaba cómo manipulaban las palomas, cómo vivían y
cómo eran reclutadas. También se decía que habían probado con otro tipo de aves, como
las gallinas o distintas especies de aves de presa, pero que las palomas se habían revelado
como las más inteligentes y adecuadas para la tarea. El artículo incluso se atrevía a afirmar
que, si bien era cierto que ninguna paloma había llegado aún a ser miembro del Tribunal
y árbitros de fútbol.
Muchos ingenieros y competidores no daban crédito a lo que estaban leyendo, hasta que la
gente empezó a caer en la cuenta de que el día 1 de abril en Estados Unidos y en muchos
otros países es el Aprils Fools, algo parecido al Día de los Santos Inocentes en algunos países
de habla hispana, en que la gente se suele gastar inocentadas durante toda la jornada.
nante. O tros agentes del sistema se encargan de aspectos diversos, com o la planifi
cación y la asignación de recursos logísticos para el transporte crítico de los órga
nos o la gestión de los trám ites administrativos que requieren los diversos sistemas
regionales de salud.
Trabajar con una arquitectura m ultiagente inteligente com o ésta reporta muchas
ventajas, com o el hecho de que el sistema es redundante a fallos, puesto que si un
agente o conjunto de agentes falla, se puede autorregular y asignar otros agentes
para la realización de las tareas que deben desarrollarse. O tra gran ventaja, y que se
aprecia de form a m uy clara en el caso de los trasplantes, es que a base de im plem en-
tar agentes relativamente sencillos pero m uy especializados, se puede construir un
sistema inteligente capaz de resolver en pocos segundos diversas tareas complejas,
interdisciplinares y críticas a la vez.
P R O G R A M A CIÓ N O R IEN TA D A A A G EN TES
objetos es la más usada entre los programadores actuales. Se trata de un tipo de programa
ción en la que todo está representado mediante unidades de información llamadas «objetos».
Éstos cuentan con una serie de atributos donde se guarda la información sobre sí mismos
solicitando a los objetos que realicen una u otra tarea, pero siempre asumiendo que el objeto
es básicamente un elemento poco inteligente que espera que le ordenen qué tiene que hacer.
Sin embargo, últimamente está emergiendo con fuerza una evolución de estas programa
ciones: la orientada a agentes. En ella, los objetos «tontos» pasan a ser agentes con mucha
más inteligencia y autonomía, de modo que la labor del coordinador ya no es tan crítica.
LA LÓ G ÍC A DIFUSA
La lógica difusa es un tipo de lógica matemática que trata de aproximar los métodos y ope
raciones lógicas al proceder humano y natural. Normalmente, en un entorno real las cosas
nunca son blancas o negras; en cambio, en las lógicas clásicas, como puede ser la lógica
booleana, los valores sólo pueden ser ciertos o falsos, con lo que se nos obliga a posidonarnos
siempre en los extremos.
es bueno o malo, la respuestan será «depende», ya que si se compara con la élite del fútbol
mundial, lo más seguro es que no sea lo bastante bueno, pero, en cambio, si se compara con
el portero del equipo de fútbol de mi barrio, probablemente sea un portero excelente. Por
eso, ¡as variables de la lógica difusa no contienen valores de «verdadero» o «falso», sino un
valor real, normalmente entre 0 y 1, simbolizando que si el valor es «1» es «verdadero» y si es
«0» es «falso». Siguiendo con el ejemplo, si cualificamos el 0 como una nulidad absoluta a la
hora de parar cualquier tipo de chut y el 1 como la excelencia del mejor portero del mundo,
EL T E O R E M A D EL NO-FREE LUNCH
El teorema conocido como del no-free lunch («almuerzo no gratuito») afirma que no existe ningún
algoritmo capaz de resolver todos los posibles problemas de la mejor manera posible. El problema
se plantea a partir de una metáfora sobre el coste de los platos en distintos restaurantes, y de
(cada uno de los cuales representa un algoritmo de predicción determinado), con un menú que
asocia cada plato (cada plato es un problema de predicción determinado) con un precio (que
representa la calidad de la solución que ofrece ese algoritmo aplicado a ese problema). En este
caso, tendríamos que una persona a quien le gusta comer de todo y además es algo tacaña puede
investigar qué restaurante, en un momento dado, ofrece el plato que más le apetece a un mejor
precio. En cambio, una persona vegetariana que acompañe a esa persona omnívora seguramente
se encontrará con que el plato vegetariano es mucho más caro. La persona omnívora, si quiere un
bistec, puede escoger el restaurante que lo sirva a mejor precio. Pero ¿qué pasa con la persona
vegetariana que la acompaña? Resulta que el único plato vegetariano del restaurante está por
supuesto, el hecho de podar antes o después una ram a inviable puede significar
m uchos m inutos u horas de cálculo desperdiciadas, ya que el núm ero de opciones
que se deberán analizar crece de m anera exponencial a m edida que se va subiendo
de nivel en una rama.
O o o
o ©I OI o
las nubes, pero no tiene más remedio que elegirlo. El sufrido compañero vegetariano representa
muy apropiadamente el caso en el que, dado un problema concreto, ei estar obligado a utilizar un
algoritmo de resolución determinado hace que los resultados sean, seguramente, mucho peores.
Las reflexiones introducidas por el teorema del no-free lunch afectan a la planificación, ya que a
pesar de los enormes esfuerzos que existen en la comunidad investigadora para diseñar un «su-
posible, siempre acaba apareciendo un determinado conjunto de datos o un contexto para los
Además, un corolario de este problema apunta a que si se invierten muchos esfuerzos en ajustar
el rendimiento de un algoritmo para que muestre un comportamiento excelente ante unos datos,
dicho ajuste está estropeando el comportamiento del algoritmo ante otro conjunto de datos
diferente, con lo cual se llega a la conclusión básica de que, o se es bueno en unas pocas cosas y
Turquía, enero de 1997. D e m anera inm ediata, el gobierno turco declara que
esto es una grave amenaza para la soberanía de su país y em pieza a aplicar costosí
simas contram edidas para esta amenaza. Además, declara que si los misiles llegan a
tocar suelo chipriota los atacará e, incluso, empezará una guerra en la isla.
A nte estas amenazas, el gobierno chipriota po n e en m áxim a alerta a su ejército,
y esta situación se prolonga hasta ju n io del m ism o año.
Prim avera de 1997. A su vez, el gobierno griego cree que la instalación de los
misiles S-300 no es suficiente para contener la amenaza turca, ya que las baterías
están expuestas a un golpe turco y no sobrevivirían en caso de ataque. P or tanto,
Grecia considera que cualquier intento de desestabilizar la región vendrá del lado
turco, ya que los misiles S-300 son puram ente defensivos.
D urante este periodo, además, el ejército griego se moviliza para dar soporte al
ejército chipriota en caso de ataque turco. Y R usia se m antiene neutral pero advier
te que la venta de los dos sistemas S-300 se ejecutará sin ninguna interferencia ajena.
Turquía inicia unas intensas acciones diplomáticas entre sus aliados estratégicos
de la O T A N , pero éstas no fructifican, p o r lo que, seguidam ente, decide entablar
relaciones con Israel para recibir entrenam iento con el m anejo de sistemas S-300.
Aunque tal vez entraría más en la categoría de «rumor» por su dudosa credibilidad, se cuenta
todos aquellos objetivos que, según un sistema inteligente, se predecía que escondían aero
naves. Parece ser que las decisiones se tomaban de manera automática mediante unas herra
mientas que se detallarán más adelante, conocidas como «redes neuronales de Kohonen».
C apítulo 5
Análisis de datos
Parece ser que una im portante empresa de distribución am ericana, Oseo, encargó a
su departam ento de inform ática hace unos años que diseñara un sistema capaz de
analizar los ingentes volúm enes de datos que creaba diariam ente, con el fin de sacar
algunas conclusiones o analizar tendencias de com portam iento del mercado.
U na vez construido el sistema, una de las prim eras y más sorprendentes tenden
cias que descubrieron es que entre las 17:00 h y las 19:00 h las ventas com binadas
de pañales y de cerveza se increm entaban de m anera notable, o, en otras palabras,
que de m anera significativa m uchos clientes que adquirían pañales en esa franja
horaria tam bién incluían cerveza en su m ism a cesta de la compra. Esta tendencia,
en prim era instancia desconcertante, se explica cuando se tiene en cuenta que los
clientes con niños pequeños no pueden salir de casa p o r las tardes para ver los par
tidos de béisbol, baloncesto o fútbol, ya que tienen que cuidar a sus vástagos, de ahí
que adquieran la cerveza para consum irla m ientras disfrutan del partido.
Pero ¿cóm o se aprovechó O seo de este descubrim iento? Pues bien, cuando se
detectó dicha tendencia rápidam ente se acercaron las estanterías de pañales y las de
cerveza, y se dispararon las ventas com binadas de ambos productos. C un d ió el
ejem plo y hoy en día todas las cadenas de distribución que se precien usan herra
m ientas de m inería de datos del tipo data warehouse para analizar las tendencias y
lanzar las ofertas de sus productos.
Toda esta jerga de «minería de datos» y «data warehouse» se estudiará a continua
ción, pero digamos que el análisis de datos es la especialidad estadística capaz de
generar inform ación a partir de datos recogidos sistem áticamente. N o obstante,
debido a la com plejidad creciente de los datos que nos proporciona el entorno, cada
vez es más com plicado ejercer este análisis, hasta el p u n to de que hoy en día se
considera una disciplina a caballo entre la estadística y la inteligencia artificial.
Se denom ina «minería de datos» a la especialidad que extrae conocim iento de la
inform ación generada a p artir de los datos. A unque el análisis de datos nació en el
siglo x v i i i a la vez que surgían los prim eros estados m odernos capaces de recabar
inform ación de m anera sistemática de sus sociedades y econom ías, la m inería de
datos, en cambio, no surgió hasta finales del siglo X X , cuando la potencia com puta-
cional y las nuevas herram ientas de la inteligencia artificial pudieron ser aplicadas a
cantidades ingentes de datos para generar inform ación y, a partir de ésta, extraer
conocim iento.
La m inería de datos
U n proceso típico de m inería de datos da com o resultado u n m odelo m atem ático
que ayuda a explicar la inform ación y las tendencias observadas a partir de los datos,
pero que tam bién puede predecir la aparición de nuevas tendencias o incluso clasi
ficar o segm entar los datos a partir de patrones de co m portam iento de identifica
ción no trivial.
Las prim eras herram ientas de análisis de datos y, p o r tanto, las más fundam entales,
provienen de los conceptos propuestos en el siglo x vm p o r el reverendo Thom as
Bayes sobre la probabilidad condicionada. D e hecho, el problem a que dificulta en
gran m edida los proyectos de análisis de datos reside en el origen m ism o de los da
tos. Por ejemplo, im aginem os que querem os analizar datos provenientes de pacien
tes que sufren cáncer y para ello cogem os la inform ación del archivo de u n hospital
especializado en oncología. Lo norm al es que tengam os disponible m ucha más in
form ación de pacientes enferm os que de pacientes sanos, ya que precisam ente los
datos los estamos obteniendo de un lugar al que acuden personas enfermas de cán
cer y no las que no lo tienen. Esta desviación inicial es lo que Bayes planteó m edian
te la introducción del concepto de probabilidad condicionada, ya expuesto en un
capítulo anterior del presente libro. Los estudios sobre probabilidad condicionada de
Bayes generaron u n conjunto de herram ientas que tienen en cuenta esa desviación
inicial para p o d er compensarla y sacar conclusiones no sesgadas. E n general, un
proceso de m inería de datos está com puesto p o r los siguientes pasos:
1. Selección del conjunto de datos. E n este paso se seleccionan las variables que
querem os segmentar, clasificar o predecir (también llamadas «variables objeti
vo») y las variables independientes, que son aquellos datos a p artir de los
cuales se construirán los m odelos. A demás, a m en u d o es im posible trabajar
con todos los datos disponibles; p o r eso tam bién en este paso deben seleccio
narse las muestras con las que se trabajará a continuación.
2. Análisis de las propiedades de los datos. E n este estadio se realiza un p rim er
estudio simple de los datos con el objetivo de identificar valores atípicos o
marginales que se salen del rango de valores razonables.Tam bién en este paso
se desestiman aquellas variables que no aportan inform ación significativa para
resolver el problem a en cuestión.
3 .Transform ación de los datos de entrada. E n esta etapa los datos se suelen n o r
malizar, ya que trabajar con datos no norm alizados suele provocar errores
im portantes en las etapas posteriores del m odelado. Por ejemplo, si dos de las
variables de u n problem a son la estatura y el peso de las personas de un deter
m inado país, la prim era seguram ente estará m edida en m ilím etros, m ientras
que la segunda lo estará en kilogram os. Si a continuación se usara una red
neuronal para el m odelado de estos datos, las diferencias tan significativas en
las m agnitudes de los valores de entrada (una persona suele m edir miles de
m ilím etros, pero acostum bra a pesar decenas de kilogram os) provocarían un
mal funcionam iento de las herram ientas de m odelado. Por ello, los datos se
suelen norm alizar entre 0 y 1.
4. M odelado. Esta es la fase central de la m inería de datos. D e hecho, las técnicas
de m inería de datos se clasifican en función de la técnica o m etodología usa
da en este paso. Por ello, bajo esta denom inación se suelen englobar u n gran
núm ero de técnicas y m etodologías norm alm ente provenientes del soft cotnpu-
ting (técnicas inform áticas dedicadas a solucionar problemas que m anejan da
tos incom pleto o inexactos) encaminadas siempre a la extracción de «infor
m ación no trivial» o conocim iento, com o las redes neuronales, SVM , etc.
5. E xtracción del conocim iento. A m enudo la herram ienta usada en la etapa
anterior no extrae el conocim iento de m odo inm ediato; p o r ello en esta eta
pa se aplican diversas herram ientas para, p o r ejemplo, a p artir de una red
neuronal correctam ente entrenada, extraer el nuevo conocim iento generado.
6. Interpretación y evaluación de los datos. A pesar del uso intensivo de herra
m ientas com puterizadas en la m inería de datos, esta área de la ingeniería toda-
tigiosa revista Nature si el Papa era un ser humano. Su razonamiento consistía en que, si
escogemos uno de entre todos los seres humanos, la probabilidad de que éste sea el Papa es
de 1 entre 6.000 millones. Y siguiendo la analogía del razonamiento silogístico, el Papa tiene
La contestación a esta falacia la dieron Sean R. Eddy y David J.C. MacKay en ia misma revista
dad de que un individuo sea el Papa sabiendo que es un ser humano no tiene por qué ser la
misma que la probabilidad de que un individuo sea humano sabiendo que es el Papa. Usando
notación matemática:
sea un alienígena es negligible (P(alien) =* 0), !a de que ese individuo sea humano tiende
a 1 (P(humano) = 1), y la de que un alien sea escogido como Santo Padre es más bien baja
(P(papa I alien)<0,001); entonces, con toda probabilidad, el Papa es un ser humano (P(hu-
mano I papa - 1).
vía dista en gran m edida de ser un proceso industrial com pletam ente autom a-
tizable. D e hecho, siempre se dice que aún se trata de u n proceso m uy artesa-
nal y dependiente de la experiencia del ingeniero que lo ejecuta. Por este
motivo, una vez finalizado el proceso de extracción de conocim iento, siempre
se debe validar que las conclusiones obtenidas son correctas y que no nos es
tán conduciendo o bien a un conocim iento trivial (por ejemplo, que todos los
seres hum anos m iden entre 1,4 m y 2,4 m) o bien a un conocim iento falaz.
Además, en u n caso real de m inería de datos, se ejecutan diversas metodologías
sobre los mismos datos. E n esta etapa es donde se com paran los resultados ob
tenidos p o r las diversas alternativas de análisis y extracción de conocim iento.
10
-5
En esta gráfica las flechas señalan las direcciones en las que los datos
muestran una mayor variabilidad (fuente: BenFrantzDale).
¿ Y ÉSE Q UIÉN ES? EL RECO N O C IM IEN TO DE CARAS
Un gran número de cámaras fotográficas actuales detectan las caras dentro de la imagen
en el momento del encuadre. Hoy día existen muchos tipos de dispositivos y programas que
utilizan algoritmos de detección de caras para su funcionamiento. Un ejemplo de ello son las
cámaras fotográficas digitales que incluyen una función que permite detectar el número de
caras en una fotografía y calibran automáticamente los parámetros de la cámara para intentar
que todos los rostros queden bien enfocados. La red social Facebook también incorpora una
nes de distintas caras, de modo que el sistema extrae los componentes principales, tanto de
la cara de una misma persona como del conjunto de todas las caras. En realidad, el sistema lo
que hace es memorizar los rasgos más característicos de la cara de cada persona para poder
reconocerla en el futuro. De este modo, dada una nueva imagen, y aplicando de nuevo un
estudio de componentes principales, el sistema compara la información extraída de esa ima
coincidencia, es capaz de detectar si aquello que se está analizando es una cara o un zapato,
A LG O R ITM O S V O R A C ES
Los algoritmos voraces son un tipo de algoritmos que siguen una filosofía muy concreta. La
idea se basa en que para decidir el siguiente paso (ya sea dentro de un problema de planifica
ción, de búsqueda o de aprendizaje) siempre se escoge la opción que maximiza, a corto plazo,
los algoritmos voraces es que son capaces de maximizar muy rápidamente una determinada
con varios máximos) suelen acabar estancándose en un máximo local, ya que no poseen la
capacidad de tener una visión global del problema. Esto acaba siendo una mala estrategia,
Visualización de datos
La visualización de datos es la ram a de la ingeniería que estudia de qué form a los
datos num éricos, p o r lo general m ultidim ensionales, se p ueden representar gráfica
m ente para ser visualizados p o r u n ser hum ano. Por eso, al igual que el análisis de
datos, la visualización de los mismos se popularizó cuando los incipientes estados
m odernos pudieron generarlos de m anera sistemática sobre la evolución de sus
econom ías, sociedades y sistemas productivos. D e hecho, esta rama de la ingeniería
es vecina, o incluso está superpuesta, a la del análisis de datos, ya que muchas de las
herram ientas, metodologías y conceptos usados para facilitar su visualización surgen
de su análisis, y viceversa.
Probablem ente, la prim era visualización de datos estadísticos de la que se tiene
registro es la realizada p o r M ichael van Langren en 1644, en la que se m uestran las
12 estimaciones, realizadas p or 12 científicos distintos, de la lo ngitud entre Toledo
y R om a. La palabra «ROM A» señala la propia estim ación de Langren, y la pequeña
flecha borrosa que aparece más o m enos en la parte inferior central de la línea es la
longitud correcta estimada con m étodos m odernos.
O - a
Q . .. ,1 5 i
w | £ a j¡
^ G r a d o s d e laL o n g i t u d , |- | | ¡ | i l 'i | | | f
f r - T T T T . . . ^ . . , . !. A
Producto
R e g ió n
D e esta m anera, una vez que se ha estructurado el cubo, se p ueden llevar a cabo
com plejos análisis de datos teniendo en cuenta esa estructuración precalculada. D e
hecho, el principal coste com putacional de un data warehouse no es el propio análi
sis de los datos (en el que se suelen aplicar muchas de las herram ientas com entadas
a lo largo del capítulo) sino la construcción de m uchísim os hipercubos con todas
las dim ensiones que puedan soportar los datos de la organización, teniendo en
cuenta las m últiples com binaciones posibles. Por ello, la generación de los cubos
O LA P es un proceso que las organizaciones suelen realizar p o r las noches, y que
consultan y analizan el día posterior.
C o n todo ello, los analistas de una organización encargada de la fabricación de
productos lácteos podrían in troducir en el sistema las condiciones atmosféricas de
cada u n o de los días del año en cada una de las regiones donde opera. C o n esta
nueva dim ensión se pueden realizar estudios de tendencia del consum o de los dife
rentes productos en función de la tem peratura am biental de cada día del año en
cada región.
A continuación, con este co nocim iento y sabiendo las predicciones m eteoroló
gicas de otro año, los analistas pueden predecir el núm ero de unidades que se deben
producir en cada región para m inim izar el alm acenam iento innecesario de p roduc
tos lácteos, que tiene u n alto coste debido a la cadena de frío que se debe m antener
a lo largo de la vida del producto.
Para com plicar u n po co más el concep to de las dim ensiones de u n cubo
OLAP, a m enudo, dentro de una m ism a dim ensión se in tro d u cen jerarquías. D e
este m odo, co ntinuando co n el caso anterior, en la dim ensión tem poral se pu ed e
in tro d u cir una nueva jerarq u ía in ferio r al mes, que p uede ser el día, y una supe
rior, com o, p o r ejem plo, el trim estre, p o rq u e seguram ente no se consum en el
m ism o n úm ero de unidades lácteas en invierno que en verano, ni a p rin cip io que
a final de mes. O tra dim ensión que se podría jerarq u izar es la región, y se podría
in tro d u cir una jerarquía su p erio r que abarcara, p o r ejem plo, el sur de Europa, la
E uropa central, etc., o bien una inferior, com o p u ed e ser Lom bardía, B retaña, A n
dalucía, etc.
Por supuesto, una vez construidos los cubos OLAP, aparte del obvio análisis de
datos, del que ya hem os hablado, se p ueden realizar otras múltiples operaciones de
visualización de los mismos. Por ejem plo, se podrían visualizar «rebanadas» bidí—
mensionales del cubo, visualizar «cubitos», es decir, pequeñas porciones m ultidi-
m ensionales del cubo, sum ar o restar inform ación a través de las jerarquías, o inclu
so rotar el cubo para poder observar los datos desde otro p u n to de vista.
M ICRO SO FT RESEARCH
En la actualidad, el mayor centro privado y no académico del mundo que investiga sobre
renombre internacional que investigan temas tan importantes para esta disciplina como el
Un área en la que este centro es líder de investigación mundial es, más concretamente, en el
uso de redes bayesianas y de otras herramientas probabilísticas para temas tan importantes
como la detección de correos no deseados (el conocido como spam) o la adaptación inteli
gente de las interfaces de los sistemas operativos a los patrones de comportamiento de los
usuarios, de tal manera que las interfaces de usuario del futuro puedan adaptase inteligen
Vida artificial
Vida e inteligencia son dos conceptos igualm ente difíciles de definir, no sólo en el
ám bito de la biología sino tam bién desde el p u n to de vista filosófico. Probablem en
te, buscar formalismos para definir la vida es tan com plejo com o la búsqueda de
definiciones formales para la inteligencia. Acuérdese el lector de todas las disquisi
ciones filosófico-m atem áticas del p rim er capítulo para delim itar el concepto de
inteligencia: el test de Turing, la habitación C hina, las discusiones sobre la creativi
dad, etc. Sin embargo, uno de los autores más reputados y activos en este campo,
Jo h n H . H olland (n. 1929), que tam bién fue el artífice de los algoritm os evolutivos,
ha profundizado a lo largo de los años en la cuestión, llegando a conclusiones que
nos ayudarán a com prender dicho concepto.
La vida artificial está estrecham ente unida a otro im portante concepto dentro de
la inteligencia artificial, el soft computing (literalmente, com putación blanda, aunque
siempre se utiliza el térm ino en inglés). El soft computing es un conju n to de h erra
m ientas, p o r lo general inspiradas en procesos presentes en la naturaleza, que resuel
ven problemas de gran com plejidad, ya que la inform ación que m anejan es aproxi
mada, incierta e incom pleta. Algunas de las herram ientas que hem os visto a lo largo
de este libro, com o los algoritm os evolutivos, las redes neuronales, la lógica difusa,
etc., form an parte de él.
El soft computing se convirtió en una ram a form al de la inform ática en la década
de 1990, y en la actualidad se usa en la resolución de problemas para los cuales los
expertos se han resignado a no encontrar la m ejor solución, que en algunos casos
podría suponer años de cálculos o ten er en cuenta inform ación im posible de reco
pilar, en favor de la posibilidad de encontrar una buena solución de m anera rápida.
Todas las áreas de la ciencia y la ingeniería m odernas, desde la biología hasta las
ciencias políticas, usan hoy día el soft computing para solucionar problemas.
Los virus son sistemas biológicos que por sí solos no son capaces de reproducirse; por ello, la
gran mayoría de biólogos opinan que no son seres vivos, aunque no hay consenso sobre ello.
Los virus pueden ser de muchos tipos diferentes, pero todos tienen en común la presencia de
material genético, que inyectan en un huésped tras introducirse en él, consiguiendo que éste
replique copias del virus, incluyendo, por supuesto, dicho material genético. Estas copias se
Por su parte, un prión es una entidad aún más simple, sin material genético, pero que tiene
priones aún no han sido clarificados por la comunidad científica, pero en estos momentos
son unas entidades de alto interés científico, ya que son los responsables de graves enferme
dades, como, por ejemplo, la encefalopatía espongiforme bovina, conocida como «mal de
las vacas locas». Los priones son proteínas naturales que tienen un plegamiento anómalo.
Cuando una de esas proteínas entra en contacto con otra en el organismo, provoca un mal
plegamiento de la nueva proteína contactada, que deja de ser funcional, y a la vez es capaz
de propagar esta «Infección» de malos plegamientos a otras proteínas. ¿Es un prión una
Cabeza con
material genético
Collar
Cola
Placa basal
CO M PU TA CIÓ N V IV A
El presente capítulo muestra sistemas artificiales que imitan el comportamiento de seres vivos,
pero también trata justo lo contrario, es decir, sistemas de computación construidos a partir
centenares de millones de transistores, que son las unidades que, mediante impulsos eléc
tricos, ejecutan todas las operaciones. Los transistores son objetos sin vida creados a partir
de elementos inorgánicos, como el silicio. Pero ¿es posible sustituir los transistores, simples
unidades metálicas, por sistemas vivos creados a partir de células? En los últimos tiempos,
investigadores especializados en biología y física están logrando precisamente eso, que sean
células vivas las que computen dichas operaciones matemáticas, como lo hacen los transis
tores. Por tanto, en el futuro se podrán implementar sistemas de vida artificial soportados en
una base de computación biológica. ¿Serán los ordenadores del futuro seres vivos a los que
Las ciudades son buenos ejemplos de sistemas adaptables complejos, ya que presentan e
implementan con creces las propiedades que los definen. De hecho, el juego de ordenador
de pruebas para familiarizarse con un sistema adaptable complejo, ya que el mismo juego
«rellena» la ciudad con ciudadanos, genera actividad social y mercantil dentro de ella y nos
plantea complejas situaciones que hay que resolver, como colapsos de las vías de comunica
Otro juego de ordenador con el cual podemos familiarizarnos con los sistemas adaptables
tera, con sus ciudades, redes de comunicaciones, tratados comerciales, sistemas defensivos,
La agregación es la suma del com portam iento de entidades simples, de m odo que
de ella em erge u n com portam iento agregado bastante más com plejo que la suma
individual de las partes (piénsese en el ejem plo del h orm iguero y las horm igas que
lo com ponen, donde la adaptabilidad del h o rm iguero entero a los cambios del m e
dio es m ucho m ayor que la adaptabilidad individual de las horm igas). C ada una de
estas partes sencillas se denom ina agente.
Además, esta propiedad es recursiva, y u n agente que ha em ergido com o la
agregación de otros agentes más simples puede volver a agregarse con otros, tanto
de su propia especie com o de otras, para form ar otro agente agregado de segundo
nivel. Por ejem plo, la agregación del com portam iento y productividad de todas las
empresas de u n país, más el co m portam iento del consum o familiar, más el de las
administraciones públicas, form a el producto in terio r b ru to de u n país.
Se debe puntualizar que un elem ento no tratado en la agregación pero impres
cindible para que puedan em erger com portam ientos adaptables al m edio es la com u
nicación entre los elem entos de una categoría (primera acepción de agregación) o
entre las distintas partes que form an la entidad de grado superior (segunda acepción).
Es poco conocido que la mayor parte de las herram ientas que las m atemáticas nos
proporcionan son herram ientas lineales: desde la aritm ética hasta la topología alge
braica, pasando p o r el cálculo diferencial, todo se basa en asunciones de linealidad.
U na función es lineal si el valor dé ésta, para cualquier valor asignado a sus argu
m entos, es sim plem ente la sum a ponderada de la suma de estos valores. Por ejemplo,
la función 4x + 2 y —z es lineal; en cambio, 4 senx—2y"'r no es lineal.
El uso de instrum entos lineales es tan im portante en las matemáticas y la inge
niería que, de hecho, en la actualidad gran parte de la actividad profesional de un
ingeniero o de u n científico se basa en buscar funciones lineales que aproxim en con
la m ayor precisión posible los fenóm enos naturales. Sin embargo, desafortunada
m ente, ninguna de estas herram ientas funciona bien en los sistemas adaptables com
plejos. D e hecho, uno de los conceptos que m ejor definen estos sistemas es que su
com portam iento global es bastante más com plejo que la suma individual de las
partes, y he aquí que aparece, p o r definición, la no-linealidad.
U n b uen ejem plo que ilustra b ien la no-linealidad de la naturaleza y de los
sistemas adaptables com plejos son las dinám icas p ro d u cto r-co n su m id o r y, concre
tam ente, el caso particular de presa-depredador. Im agínese u n m o n te donde hay D
depredadores (por ejem plo, zorros) y P presas (por ejem plo, conejos). Si la proba
bilidad de que u n zorro cace u n conejo es c, entonces cada día hay c - P - D conejos
cazados.Por ejem plo,si c = 0,5, D = 3 y P = 10, entonces hayc ■P D = 0 ,5 -3 • 10 = 15
capturas. Sin em bargo, si el nú m ero de zorros y conejos se cuadriplica, el núm ero
de capturas no lo hace: c • P ■D = 0 ,5 • 12 ■40 = 2 4 0 y, com o se ve, la actividad de
predadora no puede obtenerse sim plem ente añadiendo los nuevos depredadores a
las presas.
ECU A C IO N ES DE LO TK A -V O LTER R A
Las ecuaciones del ejemplo de los zorros y los conejos se pueden complicar bastante más. De
hecho, un investigador llamado Alfred J. Lotka describió qué pasaría con esas ecuaciones si em
pezamos a tener en cuenta las variaciones de los depredadores y las presas a lo largo del tiempo.
Supongamos que D(f) y P(t) es el número de depredadores y presas que hay, respectivamente, en
el instante de tiempo t. Además, podemos decir que en cada instante de tiempo pueden nacer
lo largo del tiempo es D (t + ’\)= D (t)+ n D {t)-m D (f), y lo mismo pasaría para las presas, es decir,
P (t+ ])= P (f) + n 'P (f)-m 'P (t). Hay que tener en cuenta que, en el caso de los depredadores, un
mayor número de presas supone más nacimientos; ello se expresa, por ejemplo, a través de la
encuentros presa-depredador, como vimos antes, es cPD; por consiguiente, la nueva ecuación
Sin embargo, con las presas pasa justamente lo contrario, ya que cada vez que hay un encuentro
entre presa y depredador, el número de las primeras decrece; por tanto, su ecuación quedaría:
Los flujos aparecen en todos los niveles dentro de los sistemas adaptables complejos,
donde siempre tiene que haber nodos, transportadores y el recurso transportado.
Sólo p o r po n er dos ejemplos de sistemas adaptables com plejos donde hay flujos
podem os hablar del sistema nervioso central de u n ser vivo, donde los nodos son las
neuronas, los transportadores son las conexiones sinápticas entre ellas y el recurso
transportado son los impulsos eléctricos; un segundo ejem plo serían los flujos den
tro de u n ecosistema, donde los nodos son las especies, el transportador, la cadena
Si ahora tomamos estas dos ecuaciones, fijamos las constantes y las vamos resolviendo instante a
instante, veremos que D(t) y P(t) van oscilando a lo largo del tiempo, y ¡as presas y depredadores
van pasando por ciclos continuos de abundancia-hambruna.
M ineral de hierro
(10 unidades)
Fabricación de
autom óviles
(5 unidades)
P ro d u cto r de acero
(10 unidades)
Fabricación de
electrodom ésticos
(5 unidades)
Fabricación de
autom óviles
P roductor de acero (8 unidades)
(16 unidades)
Fabricación de
electrodom ésticos
(8 unidades)
Pero la principal pregunta que suelen plantearse los investigadores es: ¿qué es lo
que perm ite e incluso m otiva a u n sistema adaptable com plejo crear tanta diversi
dad? Pues bien, norm alm ente, cuando se plantea el estudio profundo de u n o de
estos sistemas se puede trazar paso a paso qué adaptaciones ha ido sufriendo para
que em ergiera un agente u otro, y la necesidad de cada u n o de ellos se esclarece.
Por ejem plo, en un escenario donde el sistema adaptable com plejo se ha adaptado
para crear flujos cíclicos y, p o r tanto, para reciclar y ser más eficiente en lo global,
se abren nichos que dan pie a la aparición de nuevos agentes, com o los «agentes
recicladores». O tro escenario que da pie a la diversidad es una em presa en creci
m iento: es u n sistema que necesita la aparición de nuevas jerarquías, de m o d o que
requerirá la presencia de otro tipo de agentes que ejerzan la coordinación de cada
nivel jerárquico.
C ada sistema adaptable com plejo tiene cierta capacidad de crearse un m odelo in
tern o sobre el m edio que le rodea, que proporciona, ante todo, una visión sobre
futuros acontecim ientos y los cambios que se deben ejecutar para p o d er adaptarse
a ellos con éxito. Estos m odelos sobre el m edio son construidos a partir de los flujos
de inform ación que recibe el sistema y, a continuación, dichos flujos son transfor
m ados en cambios internos útiles que conform an los m odelos. U n a vez el m odelo
está construido, éste ayuda al sistema a p o d er anticipar las consecuencias que siguen
cuando u n determ inado p atró n aparece en el entorno. Pero u n sistema ¿cóm o p u e
de trasform ar la experiencia en modelos? ¿C óm o puede desarrollar un m odelo para
anticipar las consecuencias de eventos futuros?
C o m o siempre en la naturaleza, la presión evolutiva es la m ejor h erram ienta
para construir este tipo de m ecanism os. E l h echo de que una bacteria sepa que
siem pre debe seguir en la dirección m arcada p o r el m áxim o gradiente de alim ento
es u n «instinto» m arcado p o r un m odelo in tern o que le inform a que si sigue ese
p atrón de com portam ien to m axim iza las posibilidades de asegurarse la fuente de
alim ento. Si una bacteria no ha llegado a crearse el m odelo in tern o que le p ro p o r
ciona dicho instinto, tiene m enos posibilidades de reproducirse y, p o r tanto, de
dejar descendencia. Las bacterias que sí hayan codificado las estructuras y je ra r
quías entre sus agentes internos que le p ro p o rcio n en la capacidad de crear ese
m odelo in tern o tendrán más posibilidades de reproducirse y, p o r tanto, de expan
d ir esa propiedad al resto de la población.
Existen dos tipos diferentes de m odelos internos, los implícitos y los explícitos.
El ejem plo de la bacteria que sigue su instinto en busca de más alim ento es un
m odelo im plícito, ya que es un m odelo que no le perm ite «pensar» ni simular qué
pasaría si hiciera cualquier otra cosa. E n cambio, u n m odelo explícito, que aparece
en la naturaleza en entidades superiores, es una herram ienta que sí perm ite a su
poseedor tener una visión de varios escenarios hipotéticos, lo que le perm ite tom ar
la m ejor decisión después de analizar las diversas alternativas. U n ejem plo de m o
delado in tern o en un sistema adaptable com plejo inform atizado podría ser una
m áquina jugadora de ajedrez, capaz de analizar centenares de miles de m ovim ientos
en cada tu rn o antes de m over la pieza. Lógicam ente, cuando el m odelo es im plíci
to, se crea y se adapta al m edio a una escala evolutiva, m ientras que si es explícito, la
velocidad de adaptación es m ucho mayor.
U n m odelo interno de u n sistema adaptable com plejo está basado n orm alm ente en
u n conjunto de muestras limitadas de situaciones pasadas que, p o r una parte, son
similares, si bien cada una de ellas incorpora cierta novedad con respecto a la ante
rior. Pero ¿cómo puede un sistema adaptable com plejo crear m odelos internos en
base a experiencias pasadas limitadas y que éstos sean útiles para nuevas situaciones
futuras? La clave de esta paradoja reside en el uso de los denom inados bloques de
construcción. Se trata de los elem entos en los que todo sistema, en to rn o o escena
rio se puede descom poner. Por ejemplo, exam inem os el caso de una entidad finan
ciera que, p o r otra parte, responde perfectam ente a la definición de sistema adapta
ble complejo. Supongam os que la entidad está tratando de dilucidar si concede un
préstam o a un nuevo cliente o no, y su preocupación principal es saber, lógicam en
te, si el cliente en cuestión será capaz de devolverlo en el plazo acordado. El banco
no tiene ni idea de si el cliente podrá continuar pagando las cuotas del crédito den
tro de 15 años, ya que no puede adivinar el futuro. Supongam os, para m ayor difi
cultad, que además es u n cliente com pletam ente nuevo, sin historial crediticio y, p o r
tanto, sin ninguna referencia previa. Lo que haría el banco en este caso es descom
po n er el problem a y, analizando las características que definen el nuevo cliente,
com o nivel formativo, oficio, estado civil, etc., ver cóm o se han com portado clientes
que responden a su m ism o perfil. Para u n banco que está analizando u n nuevo
cliente, esas características son los bloques de construcción que definen el escenario
ante el que se encuentra este sistema adaptable complejo.
La capacidad de com binar bloques de construcción para conform ar los m odelos
internos im plícitos se realiza a escala evolutiva, m ientras que el aprendizaje en m o
delos internos explícitos es una capacidad que suele ejecutarse a escalas m ucho más
reducidas, aunque en la naturaleza sólo se da en animales superiores.
Sin embargo, los autóm atas celulares son una clase particular de autóm atas que
no viajan p o r encim a de cintas bidim ensionales, sino que en ellos el m edio de en
trada/salida es un casillero plano, com o u n tablero similar al de ajedrez, y en cada
una de las casillas hay un autóm ata celular que no se desplaza. E n los autómatas
celulares las entradas de inform ación son las casillas adyacentes a aquella en la que
está situado el autóm ata, y la salida de inform ación se realiza en la propia casilla
donde está ubicado.
C ada autóm ata dispuesto en cada una de las casillas del tablero tiene program a
das una serie de instrucciones. P or ejem plo, si el núm ero de casillas negras que ro
dean la casilla en la que está situado el autóm ata celular es par, pinta la casilla de
salida de negro y, si no, la pinta de blanco. E n este caso, y ubicando un autóm ata
celular en cada una de las casillas del tablero, éste puede ir adoptando diversas for
mas o dibujos, cambiantes en función de lo que los diferentes autóm atas celulares
estén pintando en ese m om en to en las casillas.
E ntre las infinitas configuraciones que puede presentar u n autóm ata celular, hay
u n conjunto de ellas que dan pie a la em ergencia de eventos perpetuos, com o es el
caso del autom atism o de C onw ay o ju eg o de la vida. D e hecho, en In tern et el lec
to r puede encontrar u n gran núm ero de configuraciones que dan lugar a la em er
gencia de graciosos dibujos que se crean, se autodestruyen y se vuelven a crear, y
todo ello program ado con norm as realm ente simples, similares a las del autom atis
m o de Conway.
El juego de la vida, ideado por John Horton Conway (n. 1937), es una programación de autómatas
a cada una de las demás, más el propio estado de la casilla en la que se ubica el autómata celular:
Regla 1. Si el color de la casilla es «blanco» y exactamente tres casillas vecinas tienen color «ne
Regla 2. Si el color de la casilla es «negro» y dos o tres vecinos también tienen el color «negro»,
entonces la casilla continúa de color «negro»; si no, cambia a «blanco».
implemente estas sencillas normas para ver el comportamiento en vivo. En caso contrario, a
I
js -I I
I i
V - #
Es justamente el ejemplo emergente que surge al programar las reglas del juego de la vida lo que
f+i-
■ (que viene a ser el nombre que recibe el dibujo) se vuelve a
en la figura inferior:
f+2-
■
t+3
I
f+4 Si la imagen estuviera animada, veríamos cómo
los dibujos situados bajo la flecha se desplazan
en la dirección a la que ésta apunta.
nia (por ejem plo, u n enjam bre de abejas) para, de m anera agregada, simular ciertos
patrones de com portam iento aparentem ente inteligentes.
El sistema inm une de un anim al es, en cierto m odo, u n sistema de optim ización
y reconocim iento de patrones m uy eficiente, ya que, dado un nuevo problem a que
hay que resolver (un antígeno que se ha introducido en el cuerpo), rápidam ente
diseña, m ediante un ordenado proceso de prueba y error, la solución a dicho p ro
blem a, o dicho en térm inos biológicos, el anticuerpo que reconoce al antígeno en
cuestión.
El funcionam iento del sistema inm une es bastante similar al de u n proceso evo
lutivo, con la gran salvedad de que en este caso no se cruzan las diferentes propues-
tas de soluciones para tratar de identificar una solución prom edio que com bine las
bondades de los progenitores. E l procedim iento puede resumirse de la siguiente
manera:
Im itar el proceso que sigue el sistema inm une para diseñar anticuerpos se puede
adaptar fácilmente a la resolución de problemas reales. D e hecho, el único paso crí
tico es cóm o representar las posibles soluciones a u n problem a para que éstas puedan
ser replicadas y variadas. Lo que se recom ienda en este caso es seguir la m etodología
usada en los algoritmos evolutivos, es decir, codificar la solución m ediante crom oso
mas com puestos a partir de genes. A unque estemos m ezclando term inología de dos
técnicas aparentem ente m uy diferentes, el invento funciona y cada vez se usan más
sistemas inm unes artificiales para resolver problemas reales de ingeniería, no sólo por
su eficacia en la optim ización, sino tam bién porque se adaptan m uy bien a la arqui
tectura de los m odernos esquemas de supercom putación y com putación distribuida
basados en grid-computing (del inglés, «com putación en malla») y cloud-computing
(«com putación en la nube»). E n estos casos, la potencia de cálculo está distribuida en
una «nube» abstracta y difusa de ordenadores que individualm ente son m uy potentes,
aunque no existe necesariam ente una buena com unicación entre ellos. Por eso, el
control central de un sistema inm une puede m andar evaluar los anticuerpos a la
nube, y cuando se term ina la evaluación, el sistema central diseña la siguiente gene
ración. E n este escenario, es en la evaluación individual de los anticuerpos donde
existe la mayor parte del coste com putacional, y p o r eso se m andan evaluar a la nube
de cálculo, m ientras que la creación de las nuevas generaciones se puede realizar de
m anera secuencial con poco coste en el sistema central.
Teoría de juegos
La teoría de juegos es una ram a de las m atem áticas que se dedica a estudiar las
interacciones entre estructuras de incentivos y cóm o llevar a cabo procesos de
decisión. El objetivo final es identificar las estrategias óptim as y predecir el com
p o rtam iento de los individuos involucrados en una de esas estructuras ante una
situación concreta. Los m atem áticos Jo h n von N eu m an n y O skar M o rgenstern
fundaron las bases de esta disciplina durante la G uerra Fría co n el fin de identificar
las estrategias militares óptim as, aunque rápidam ente fue expandiendo su aplica
ción a la econom ía, la política, la ética, la filosofía, la biología y, p o r supuesto, la
teoría de la com putación.
La teoría de juegos es de m ucha utilidad en el estudio de los sistemas adaptables
com plejos, ya que a m enudo los agentes que co m ponen dichos sistemas deben
com petir o cooperar entre ellos para conseguir el bien global del sistema. A m e
nudo, en u n esquem a cooperativo el esfuerzo individual de un agente es m ayor
que el beneficio global repartido de m anera proporcional entre todos los agentes
que com ponen el sistema. Sin em bargo, este esfuerzo puede ser im prescindible
para alcanzar el bien global, cuyo beneficio, en valor absoluto, p uede multiplicar
p o r varios órdenes de m agnitud el esfuerzo individual. Así pues, para incentivar el
com portam iento adecuado de los agentes que co m p o n en el sistema y p o d er prede
cir la viabilidad de u n sistema adaptable com plejo a través del co m portam iento de
aquéllos, deben usarse análisis de teoría de juegos.
El famoso robot de Honda bautizado como ASIM O. Es capaz de realizar actividades
tan humanas com o bajar escaleras o jugar a fútbol.
> 0
Sin embargo, al elim inar el efecto introducido p or la pluviom etría de los lugares,
podría adoptar el siguiente aspecto:
M elevado
0 m edio-alto
m edio-bajo
bajo
Todo ello puede indicarle a u n experto que en la zona centro-sur del m apa es
donde se venden más paraguas, y esto m uestra la tendencia de que en aquella parte
del país hay u n m ayor po d er adquisitivo, ya que, dadas las características de la región,
la población es capaz de gastar su dinero en un producto que no le es del todo n e
cesario. Lo que el distribuidor de paraguas haría a continuación sería aum entar el
precio de los paraguas en la zona centro-sur del país, ya que, aunque se venden
m enos unidades, la gente los com pra p o r lujo más que p o r necesidad y, p o r tanto, es
m enos sensible al precio.
■— A gregación. Por supuesto, estos robots son sistemas agregados, ya que tienen
m otores, detectores de presencia, la propia aspiradora, la unidad de procesa
m iento que determ ina la dirección hacia la que dirigirse, etc.
— E tiquetado. Estos robots p ueden etiquetar e interaccionar con un m edio
etiquetado. Por ejem plo, si detectan que una zona del espacio acumula más
suciedad de lo norm al, la etiquetan com o tal y en ella focalizan u n m ayor
esfuerzo.También el usuario puede etiquetar una zona p o r la que el ro bot no
debe pasar y éste p uede detectarla y evitarla.
— N o-linealidad. D e nuevo el com portam iento de estos robots es claram ente
no-lineal, ya que la suma de las partes es capaz de realizar tareas de u n valor
superior que la suma individual de las partes. U n m otor, unas ruedas, una
aspiradora, etc., de m anera independiente, no p ueden m antener lim pio de
polvo u n hogar sin intervención hum ana, m ientras que sí tienen esa capaci
dad cuando están todos coordinados dentro del sistema adaptable com plejo
que supone u n o de estos robots.
— Flujos. El m ism o ro bot es un com plejo sistema de gestión de flujos de infor
m ación, de m odo que ésta fluye entre el m edio y las diferentes partes del
robot. Éste cuenta con u n determ inado núm ero de sensores que le sum inis
tran datos sobre el m edio, com o, p o r ejem plo, d ónde se encuentran las pare
des o si está entrando en una zona particularm ente polvorienta. Esta infor
m ación circula hasta la unidad central de procesam iento y allí se analiza y se
envían otras señales a los diferentes m otores del robot, que ejecutan órdenes
que m odifican el m edio original desde donde fluyeron las señales iniciales.
E n el caso de encontrar suciedad, se ordenará aum entar la potencia de aspi
rado, y si se encuentra con u n obstáculo se puede ordenar dar m edia vuelta.
— Diversidad. Tam bién reflejan diversidad en su m o do de com portarse, de
m odo que si encuentran u n obstáculo buscan la form a de sortearlo. La diver
sidad radica en que no sortean los obstáculos siempre del m ism o m odo, sino
que van alternando m odos de sorteo con el fin de m inim izar las posibilida
des de quedar atrapado infinitam ente en u n m ism o lugar.
— M odelos internos. D isponen de unos m odelos internos im plícitos, de m odo
que al inicio de su funcionam iento van siguiendo una ruta arbitraria, pero a
m edida que van conociendo más superficie explorada, van concentrando su
acción en aquellas zonas donde se acum ula más polvo.
— B loques de construcción. Finalm ente, estos robots usan bloques de cons
trucción en sus m odelos internos. P or ejem plo, si encu en tran una pared,
tratan de sortear el obstáculo, hasta que se dan cuenta de que es una pared
y que ese obstáculo es insorteable; entonces to m an otra estrategia. Lógica
m ente, los robots aspiradora no están entrenados para adoptar ese co m p o r
tam iento en todos los tipos de paredes o elem entos parecidos a una pared,
sino que se usa el bloque de construcción «pared», y cuando éste aparece, se
ejecuta la estrategia.
E pílogo
Predecir es difícil, especialmente cuando se trata delfuturo.
Niels B o h r
Llegados a este punto, el lector ya debería ten er una ligera idea de qué hay de rea
lidad y qué hay de invención en todos los cuentos, novelas y películas de ciencia
ficción que, demasiado a m enudo, nos m uestran máquinas pensantes casi humanas.
H oy en día la inteligencia artificial no es más que un conjunto de herram ientas
avanzadas que perm iten solucionar com plejos problemas de m anera rápida, aproxi
m ada y basándose en la experiencia adquirida, tal y com o lo haría u n ser hum ano.
A veces, podem os disfrutar de cierta creatividad o innovación en estos algoritmos
que la ciencia y la tecnología m oderna han puesto a nuestro alcance, pero desgra
ciadam ente aún estamos lejos de encontrarnos con m áquinas, incluso en los ámbitos
de la investigación más puntera, que puedan ser confundidas co n un ser hu m a
no. A un así, diariam ente y de m anera inconsciente vamos interactuando con verda
deras herram ientas, sistemas y aparatos que im plem entan algoritm os inteligentes,
com o pueden ser los sistemas de conducción de m uchos trenes europeos, la depu
ración de aguas residuales de la mayoría de las grandes ciudades o la planificación
logística del m ovim iento de miles de m illones de toneladas de mercancías que a
diario recorren nuestro planeta.
D e hecho, poco a poco, la inteligencia artificial va penetrando en nuestras vidas
y, tarde o tem prano, llegará el día en que podrem os interactuar con máquinas con
el m ism o nivel de creatividad, percepción e inteligencia em ocional que u n ser h u
m ano; entonces, esta vez sí, sabremos que no estamos solos.
A n ex o
E n este punto el autor se cansó de continuar dando coba a Eliza y dejó la con
versación, pero el lector ya habrá observado que su com portam iento es en realidad
m uy simple. Lo prim ero que Eliza intenta hacer ante cualquier afirm ación es pre
guntar p o r las razones, luego p o r las razones de las razones, y así sucesivamente.
C uando se llega a un callejón sin salida, intenta salirse p o r la tangente con frases
com o «Estás siendo u n poco negativo» o «Ya veo».
G losario
R e d bayesiana. H erram ienta m ate So b reen tren am ien to. T iene lugar
m ática basada en la concatenación de cuando u n algoritm o de clasificación
probabilidades de determ inados even ha sido entrenado de m anera que no
tos siguiendo la probabilidad condicio es capaz de generalizar, sino solam ente
nada descrita en el siglo xvm p o r el de m em orizar. C uando esto ocurre el
reverendo T hom as Bayes. La idea sub algoritm o no puede clasificar correc
yacente a una red bayesiana es que hay tam ente nuevas muestras, ya que tan
cadenas de eventos que suelen suce- sólo puede hacerlo con aquellas que ha
derse, y que éstas pued en com partir m em orizado durante el entrenam iento.
probabilidades con otras cadenas de El sobreentrenam iento suele suceder
eventos; p o r este m otivo se llaman re cuando se som ete a estos algoritm os
des, ya que son cadenas de probabilida a procesos de aprendizaje demasiado
des entrecruzadas. largos.
V a ria b le laten te. Variable estadística condensar varias variables simples en
que describe a la vez varias co n d icio una. E xisten m étodos autom áticos de
nes de una m uestra. A lgunos ejem plos creación de variables latentes, com o el
de variables latentes m uy usados son análisis de com p on en tes variables, que
variables com o la «riqueza» de una no sólo las crean sino que, además, es
sociedad o el bienestar de una pobla cogen aquellas sobre las que existe la
ción. Estas variables in tro d u cen una m ayor variabilidad posible entre los
m ayor densidad de info rm ació n al datos.
B ibliografía