Está en la página 1de 25

Introduccin

El reconocimiento de voz es una herramienta esencial en cuanto a la accesibilidad de algunos


usuarios, se pueden dar rdenes y el sistema interpretara los comandos, de sta manera se facilita
por ejemplo : a las personas que no pueden escribir u alguna discapacidad, tiene la opcin de
interactuar con la mquina mediante comandos de voz. Tambin por comodidad se puede usar en
otras reas , cosas de la vida cotidiana como encender un foco , cerrar/abrir una llave, entre otras
cosas.
El reconocimiento del Habla permite a un ser humano comunicarse con un ordenador. A grandes
rasgos, consiste en que el ordenador captura la seal de voz que emite una persona a travs de un
micrfono, convirtindola en informacin digital. El motor de voz debe ser capaz de reconocer las
silabas de entre un conjunto de fonemas que ha recibido, y combinarlas para formar las palabras
que se haban dicho anteriormente por el usuario.
Durante las ltimas dcadas se ha estudiado la posibilidad de desarrollar interfaces hombrecomputador controlados por voz para sustituir en ciertas aplicaciones a las interfaces tradicionales
basadas en teclados o ratones. El Reconocimiento Automtico de Voz es un campo de
investigacin de creciente relevancia que da a da gana mas partidarios.
El reconocimiento es basado en la comparacin de patrones de referencia denominados modelos
con los vectores de caractersticas generados para la palabra a reconocer.

Objetivo
Por medio de sta prctica, el alumno implementar una de las tcnicas vistas hasta el momento
en clase, programando un sistema adaptativo relacionado con temas de sistemas inteligentes.

Desarrollo
Usando la librera de Cloud Garden TalkingJava SDK con la implementacin de Java Speech API
se ha conseguido realizar el reconocimiento de ciertas palabras mediante un diccionario que
cumple con JSGF, el cual es un conjunto de convenciones para la gramtica en el reconocimiento
de Voz.
Elegimos Reconocimiento de Voz debido al inters por ir avanzando con nuestro proyecto de
CLASE que va muy relacionado. Se desarroll un Sistema Inteligente basado en JAVA donde el
objetivo radica en ejecutar aplicaciones de Windows mediante la voz.
El inconveniente en sta prctica es que slo est soportada para el Sistema Operativo Windows.
Entre los problemas que se presentaron est que al utilizar el micrfono integrado con la webcam
de una laptop, con el ruido del entorno se tarda en reconocer y confunde ciertas palabras
similares.An as haciendo pruebas con un micrfono externo se logran reconocer correctamente
las palabras incluidas en el Archivo Programas.tx

1.3. ELEMENTOS DE UNA RNA


Todas las RNA tienen unos elementos en comn que son los siguientes:

Neuronas y los elementos que la forman: valor, seal de salida,


peso de la sinapsis (factor asignado a cada sinapsis), entrada total,
funcin de salida, funcin de activacin y reglas de aprendizaje
(permiten modificar los pesos de la sinapsis).

Capa o nivel: conjunto de neuronas cuya capa tiene su origen en


la misma fuente y cuyas salidas van al mismo destino.

Tipos de capas: entrada (reciben estmulos externos), ocultas


(representacin interna de la informacin) y salida.

Conexin entre neuronas: propagacin hacia delante (ninguna


salida de las neuronas es entrada del mismo nivel o niveles
superiores) y propagacin hacia detrs (la salida de las neuronas
pueden ser entradas del mismo nivel o niveles anteriores y tambin
de ellas mismas).

Dinmica: asincrnica (evalan su estado continuamente, segn


les llega informacin), sincrona (cambios a la vez en todas las
neuronas).

1.4. TIPOS DE RNA


Existen diversos tipos de redes neuronales. En este trabajo vamos
simplemente a nombrarlas para que pueda haber una visin de conjunto.

Redes neuronales supervisadas: pueden emplearse como


clasificadores de patrones, estimadores de funciones multivariadas
o memorias asociativas.

Redes autoorganizadas o no supervisadas: en su


entrenamiento no presentan las salidas objetivo que se desean
asociar a cada patrn de entrada, ser la red la que proporcione
cierto resultado. La principal aplicacin es la realizacin de
agrupamiento de patrones (clustering), visualizacin de datos y

representacin de densidades de probabilidad, es por tanto, la ms


utilizada en el campo de la documentacin.

Redes neuronales realimentadas: son ms complicadas que las


dos anteriores. En este caso la informacin se propaga tanto hacia
delante como hacia atrs, comportndose como un sistema
dinmico, de difcil anlisis y en el que deber garantizarse la
estabilidad de su respuesta.

1.5. CARACTERSTICAS DE LAS RNA


Sin embargo, todas ellas tienen unas caractersticas en comn. Son las
siguientes:
Clasificacin: puede identificar datos y clasificarlos en clases. A
diferencia de las tcnicas tradicionales puede generar para un
problema concreto estructuras especficas de identificacin de
caractersticas.
Asociacin: la red funciona como un proceso de recuperacin de
un dato a partir de una entrada relacionada con el dato
almacenado
Agrupamiento: cuando no se produce una clasificacin de los
datos de entrada, es la red la que genera esta clasificacin a
medida que se va produciendo la seal.
Generalizacin: las redes pueden detectar las relaciones
subyacentes entre diferentes elementos, y por tanto, pueden
extrapolar las relaciones numricas presentes en los datos
disponibles en situaciones similares.
Optimizacin: cuando es necesario elegir la opcin ptima
entre diferentes alternativas, las redes proporcionan un
procedimiento relativamente rpido para generar una solucin
subptima que es suficientemente satisfactoria.

Prediccin y control: la flexibilidad de las redes neuronales las


hace adecuadas para la prediccin ya que el sistema va
aprendiendo y puede seguir de manera verstil estos cambios.

1.6. VENTAJAS DE LAS RNA


A diferencia de la computacin tradicional, basada en algoritmos
predecibles, la computacin neuronal permite desarrollar sistemas que
resuelven problemas complejos cuya formalizacin matemtica es
sumamente difcil. Esto se logra gracias a las RNA.
Los principios de funcionamiento de las RNA a tener en cuenta son:

Aprendizaje adaptativo: las RNA pueden comportarse en funcin


de un entrenamiento con una serie de ejemplos ilustrativos. Una
RNA es adaptativa porque puede modificarse constantemente con
el fin de adaptase a nuevas condiciones de trabajo.

Autoorganizacin o generalizacin: una red puede responder a


datos o situaciones que no ha experimentado antes, pero que
pueden inferir en base a su entrenamiento (muy til sobre todo
cuando la informacin de entrada es poco clara o incompleta).

Tolerancia a fallos: las redes pueden reconocer patrones de


informacin con ruido, distorsin o incompletos (tolerancia a fallos
respecto de los datos); y por otra parte, pueden seguir trabajando
(con cierta degradacin) aunque se destruya parte de la red
(tolerancia a fallos respecto de la estructura). La explicacin de
este fenmeno se encuentra en que, mientras la computacin
tradicional almacena la informacin en espacios nicos, localizados
y direccionales, las redes neuronales o hacen de forma distribuida
y con un alto grado de redundancia.

Operacin en tiempo real: de todos los mtodos existentes, las


RNA son las ms indicadas para el reconocimiento de patrones en
tiempo real, debido a que trabajan en paralelo actualizando todas
las instancias simultneamente.

Fcil insercin en la tecnologa existente: es relativamente


sencillo obtener chips especializados para redes neuronales que
mejoran su capacidad en ciertas tareas. Ello facilita la integracin
modular en los sistemas existentes.

3.2. PROCESO DE RECONOCIMIENTO ADAPTATIVO DE PATRONES (


PRAP )
El modelo PRAP es un modelo de identificacin de patrones, basado en
redes neuronales, vlido para la creacin de ndices y aplicable a todo
tipo de datos multimedia.
Los sistemas basados en metodologa PRAP se caracterizan porque los
datos dirigen: la creacin de la red neuronal, la creacin de las variables,
la creacin de las "reglas expertas" y la creacin de los ndices.
Los nuevos algoritmos inteligentes utilizados son capaces de aprender y
decidir sus propias reglas en funcin de los datos simulando procesos
cognitivos.
La metodologa PRAP para la indexacin y recuperacin de textos
aportan cinco ventajas funcionales con respecto a los sistemas de
gestin documental "tradicionales":
Indexacin automtica de todo el contenido
Bsqueda difusa o borrosa
Precisin a travs de una indexacin integrada
Uso de menos recursos
Velocidad de recuperacin
Indexacin automtica. Es la propia red neuronal la que descubre los
patrones binarios del contenido del documento que es indexado. Cada
red neuronal se convierte en una memoria basada en el contenido, que
es optimizada para el documento en cuestin que gestione el sistema.

El sistema define unos patrones que van desde el fragmento de una


palabra a una frase completa, pudiendo recuperar mediante el lenguaje
natural la informacin.
Bsqueda difusa o borrosa. Se refiere a la capacidad de recuperar la
informacin por aproximacin, ya que la tecnologa PRAP trabaja con
patrones y no con palabras clave y un error de dos o tres letras en una
palabra o en una frase no es significativo como para cambiar el patrn
bsico que forman las letras de un texto. Es especialmente til cuando la
entrada de datos se realiza mediante OCR.
Uso de menos recursos. El hecho de que la indexacin sea automtica
permite mantener un elevado volumen de datos de entrada sin grandes
recursos ni esfuerzos en definir tablas de palabras clave o reglas
Precisin a travs de una indexacin integrada. El sistema permite al
usuario determinar el grado de exactitud con el que desea interrogar,
controlando as el nivel de precisin de la respuesta del sistema por lo
que se puede "navegar" por la informacin cuando no se busca una
respuesta "correcta".
Velocidad de recuperacin. El ndice es mantenido en un tamao
mnimo y puede ser cargado en la memoria del ordenador y operar a
gran velocidad por medio de operaciones booleanas.

3.3. UTILIZACIN DE REDES NEURONALES EN EL OCR


Para el ser humano es relativamente sencillo reconocer los patrones de
la escritura manuscrita siendo que esta tarea es sumamente difcil para la
computadora.
Un ejemplo tpico de red neuronal aplicada al reconocimiento de patrones
son los OCR o programas de reconocimiento ptico de caracteres
escritos. De acuerdo con Werbos (1998) el 50% de los sistemas de OCR
se basan en redes neuronales.
Un programa de OCR consiste en un software que trata de convertir la
imagen digitalizada de un documento manuscrito, fotocopiado, etc., en un
archivo de texto plausible de ser utilizado por algn procesador de texto.

Los programas de OCR diseados sobre bases algortmicas son los mas
populares hasta el momento, pero poseen un grado apreciable de
inexactitud cuando el texto presenta " ruido " , es decir cuando el original
contiene manchas ( como las producidas al fotocopiar una pagina ) o
smbolos mezclados con el texto ( un dibujo ).
Los programas de OCR basados en el reconocimiento de patrones
( como las redes neuronales ) son capaces de leer y reconocer textos
manuscritos o escritos a mquina, de imprenta o de impresora,
convirtindolos en texto ASCII, editable por el usuario con cualquier
programa de tratamiento de textos convencional.
Resulta muy til para documentos en otros idiomas que pueden ser
digitalizados usando el OCR para traducirlos despus con un software
apropiado, o para digitalizar formularios escritos, especialmente cuando
hay que hacerlo en grandes volmenes.
En documentacin manuscrita se requiere una separacin entre los
caracteres al igual que entre las palabras sucesivas. En la actualidad no
se dispone de instrumentos para la segmentacin. La separacin de
campos tienen que estar prevista en el formulario antes de iniciar el
proceso. Tambin la calidad de cumplimentacin de formularios incidir
en la calidad del reconocimiento.
Para la optimizacin de los resultados, el modulo OCR debe disponer de
un modulo de videocorreccin. Este modulo debe de estar situado entre
el primer modulo para la manipulacin fsica de los documentos y su
escaneo y un ltimo modulo de manipulacin sobre bases de datos.
El modulo OCR dispone de tres componentes funcionales.
Submodulo de localizacin de campos y extraccin de caracteres.
Permitir el tratar grandes volmenes de documentos.
Submodulo de reconocimiento de caracteres individuales. se
realiza mediante la tcnica neuronal de empleo de Perceptrones
Multicapa
Submodulo de validacin e interpretacin parcial. Ante una
informacin concreta se pueden cruzar datos almacenados
anteriormente. Para una optimizacin de las consultas se pueden
utilizar ndices.

Previo a la videocorreccin la biblioteca puede:


Seleccionar imgenes de los campos a tratar, dados como
coordenadas sobre la imagen del correspondiente documento, as
como el resultado del reconocimiento parcial de los mismos
Definir para las mismas y sobre cada documento un orden de
presentacin en videocorreccin
Incorporar mecanismos para la interpretacin de campos
pendientes de un documento en funcin del resultado de la
videocorreccin de otros anteriores.
Es frecuente que se queden caracteres sin identificar. La
productividad de OCR no esta tanto en no tener un solo error, si no
en su capacidad de procesar enormes cantidades de documentos
El ICR o Reconocimiento Inteligente de Caracteres, permite que un
scanner "lea" un documento y pase el contenido a una base de datos.
Con eso, se acaba la digitalizacin manual de los textos, mejorando en
tiempo de proceso y en porcentaje de errores. El sistema basado en
redes neuronales puede leer una declaracin de renta en tres segundos
que es todo un rcord comparado con el digitalizador ms rpido, que
tarda diez segundos por hoja.
No obstante, el ICR es an una forma cara de enfrentar el problema para
los usuarios "normales" en oficinas y casas.
Los software de ltima generacin tienen la capacidad de "aprender" a
medida que van siendo usados, para reconocer cada vez ms tipos
diferentes de letras. Entre stos, destacan los programas OmniPage de
Caere y Corel Trace! de Corel Corporation.
En Espaa, el Instituto de Ingeniera del Conocimiento de la Universidad
Autnoma de Madrid ha desarrollado varios productos -RAMA 32,
ICARO, RAISS-, para el reconocimiento ptico de caracteres en
formularios de empresa.

3.4. MINERIA DE DATOS


Se trata de metodologas para la seleccin y recuperacin de informacin
especializada, a partir de bases de datos no previamente estructuradas.
Estas debern permitir un tipo de estructuracin rpida que coloque
automticamente la informacin en bases de conocimiento
especializadas. De estas ltimas podr ser recuperada como
conocimiento adecuado a las relaciones de los usuarios: conceptos,
relaciones, clasificaciones, reglas de decisin, etc.
Se llama minera de datos (data mining) al estudio de la recuperacin de
la informacin en condiciones adversas ( mucho ruido, bsquedas
incompletas ), y con diversos tipos de datos ( nmeros, registros
estructurados, texto libre, etc ).
La Minera de Datos formalmente, es un conjunto de tcnicas de anlisis
automtico o semi-automtico que permiten el descubrimiento de
patrones, asociaciones, relaciones, cambios y anomalas entre los datos
que sean interesantes para el tomador decisiones.
Para obtener informacin provechosa que no est representada
explcitamente en los datos, la minera de datos debe ser conjuntada con
otras tcnicas de anlisis de datos que utilizan tecnologas actuales
como la inteligencia artificial, las redes neuronales y el reconocimiento de
patrones entre otras.
Uno de los campos en que se ha trabajado en este sentido es el del
aspecto semntico del lenguaje. En este sentido, los mapas
autoorganizativos pueden utilizarse en la solucin de ambigedades
contextuales actuando como clasificadores semnticos, para realizar una
correcta eleccin del significado, determinada fundamentalmente por el
contexto. Los mapas autoorganizativos son adecuados adems para la
clasificacin de la informacin sintctica, lo que puede ser utilizado en
minera de datos para brindar los siguientes beneficios:
1.- Proporcionar una imagen global de la estructura y los tipos de
contextos existentes en una base de datos lingstica o documental.
2.- Proporcionar un mtodo de seleccin de un grupo de trminos
lingsticos o documentos de inters.

3. Facilitar el trabajo de los clasificadores o indizadores humanos que


pueden buscar relaciones entre los documentos (o trminos) que se
proyecten en unidades del mapa. De esta forma puede obtenerse de
manera automtica tanto para diccionarios electrnicos como para bases
de datos documentales:
a) La determinacin de un conjunto reducido de trminos claves.
b) La representacin vectorial de los documentos en funcin de dichos
trminos claves.
c) La organizacin automtica global de los documentos o diccionarios
por temas.
d) Organizacin automtica de palabras en clases semnticas
4.- Aportar un mtodo para solucionar ambigedades a nivel contextual y
pragmtico, que permite el desarrollo de software capaz de extraer
automticamente patrones lxicos y textuales a partir de las
caractersticas lingsticas internas de los textos que componen los
crpora.
Otro de los objetivos de estudio en minera de datos ha sido la extraccin
de informacin relevante. En este sentido la empresa Integral Solutions
Ltd. desarrolla la aplicacin Clementine con el objetivo de extraer el valor
agregado de la informacin.
Este sistema permite acceder al contenido de diversas bases de datos,
permite la posibilidad de seleccionar registros para su manipulacin,
mediante las redes neuronales y la induccin de reglas es posible que el
sistema "aprenda" a tomar ciertas decisiones sin supervisin humana, y
la visualizacin de los datos puede realizarse de diferentes formas:
histogramas, nubes de puntos, redes de relaciones, etc. Todas ellas
interactivas.
El proceso de minera de datos pasa por los siguientes estadios:
PREPROCESADO DE LOS DATOS
El formato de los datos contenidos en la fuente de datos nunca es el
idneo, y la mayora de las veces no es posible ni siquiera utilizar ningn
algoritmo de minera sobre los datos "en bruto". Mediante el

preprocesado, se filtran los datos (de forma que se eliminan valores


incorrectos, no vlidos, desconocidos... segn las necesidades y el
algoritmo a usar), se obtienen muestras de los mismos o se reducen el
nmero de valores posibles
SELECCIN DE CARACTERISTICAS
La seleccin de caractersticas reduce el tamao de los datos eligiendo
las variables ms influyentes en el problema, sin apenas sacrificar la
calidad del modelo de conocimiento obtenido del proceso de minera.
Los mtodos para la seleccin de caractersticas son bsicamente dos:
Aquellos basados en la eleccin de los mejores atributos del problema,
Y aquellos que buscan variables independientes mediante tests de
sensibilidad, algoritmos de distancia o heursticos.
USO DE UN ALGORITMO DE EXTRACCION DE CONOCIMIENTO
Mediante una tcnica de minera de datos, se obtiene un modelo de
conocimiento, que representa patrones de comportamiento observados
en los valores de las variables del problema o relaciones de asociacin
entre dichas variables.
INTERPRETACIN Y EVALUACIN
Comprobando que las conclusiones que arroja son vlidas y
suficientemente satisfactorias. En el caso de haber obtenido varios
modelos mediante el uso de distintas tcnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema.

4. EXCALIBUR
El objetivo de Excalibur ha sido siempre el mismo: mejorar la forma en
que los usuarios recuperan la informacin almacenada en los
ordenadores. En lugar de pedir a los usuarios que se adapten a la
tecnologa, buscamos que sta se adapte a la forma de pensar y trabajar
de las personas. De acuerdo con este objetivo, se ha desarrollado una
tecnologa puntera mediante la cual los usuarios podrn recuperar la

informacin necesaria utilizando su propio lenguaje natural y su sentido


comn.
Excalibur proporciona potentes soluciones construidas sobre una
arquitectura abierta, flexible, adaptable, de fcil implantacin y preparada
para el futuro. RetrievalWare de Excalibur constituye la primera familia de
componentes de software con arquitectura cliente/servidor para la
recuperacin de la informacin dentro del amplio espectro de la
informacin digital, incluyendo texto imgenes documentales y datos
multimedia. Las aplicaciones llave en mano de RetrievalWare, los kits de
herramientas multicapa del APRP de Excalibur y las Redes Semnticas
pueden integrarse en los sistemas de informacin de grupos de trabajo,
empresas o redes, e Internet.
Las aplicaciones y componentes de RetrievalWare hacen que el manejo
de las herramientas sea fcil y de gran potencia. Los usuarios
encuentran con precisin los datos requeridos mientras navegan por
bases de datos cada vez ms voluminosas, bien en entornos de grupos
de trabajo o en Internet.
Ofrece una alternativa inteligente a los sistemas tradicionales: EL APRP,
el Procesamiento de Lenguaje natural y las Redes Semnticas
proporcionan niveles sin precedentes de precisin, flexibilidad y facilidad
de uso en la recuperacin de todo tipo de informacin. As el usuario no
tiene la necesidad de aprender lenguajes de interrogacin complejos sino
que accede a los documentos basndose en su significado y contenido.
Igualmente importante es la capacidad para mejorar la productividad y
reducir costes en la explotacin de los sistemas de gestin. Ello, porque
elimina los pre-procesamientos de datos y mejora el proceso de decisnejecucin mediante acceso rpido y preciso a la informacin ms
relevante. En programas de estas caractersticas, la dificultad casi
siempre reside en aprender a usarlos. Es muy comn que se necesiten
varias horas de entrenamiento para poder estudiar y comprender el
funcionamiento. Pero para que los usuarios se sientan ms identificados
con el programa, y que resulte ms cmodo tiene una interface similar a
un browser de Internet.
A la hora de estudiar el programa nosotros hemos centrado nuestra
investigacin en la opcin de bsqueda que nos ofrece, sin incidir en
como almacena la informacin, ni como organiza o clasifica esta. Vamos
a ver la bsqueda a travs de Intranet.

4.1. LA BSQUEDA EN EXCALIBUR.


La bsqueda de informacin en bases de datos cada vez ms
gigantescas lleva mucho tiempo. Adems, buscar relaciones entre
algunos de esos datos puede llegar a resultar complicado.
Excalibur es un sistema de bsqueda en bases de datos que realiza
minuciosas bsquedas y no deja nada al azar: es capaz de rastrear
informacin a travs de Intranets, archivos escaneados e incluso Internet.
Puede recuperar casi todos los formatos de archivos de texto, bases de
datos archivos PDF, sistemas de groupware, noticias online, fax, E-mails
e imgenes. Su capacidad de bsqueda va de la mano con la gran
velocidad con que devuelve los datos.
Es el nico sistema de texto que puede analizar trminos de consulta
como unidades de significado. Cuando entra en una consulta Retrieval
no slo busca conjuntos de palabras exactas, sino que relaciona
palabras o conceptos que pueden ser relevantes en su consulta (esto es
llamado "Word expansin). Lo que hace que esto sea posible es la red
semntica incorporada en el RetrievalWare, incluyendo
aproximadamente 285.000 significados y ms de 2,5 millones de
cadenas de expansin entre palabras, recopiladas de diccionarios
electrnicos publicados y otras fuentes lxicas.
La bsqueda semntica es una bsqueda textual basada en el uso de
diccionarios electrnicos, tesauros y otras fuentes semnticas, que
representan redes semnticas (actualmente en ingls, en francs alemn
y espaol) durante la indizacin y la bsqueda. La Red Semntica est
dispuesta en multicapas, por lo que tiene la utilidad de extender
automticamente el alcance de la bsqueda de informacin para incluir
virtualmente el vocabulario integro del idioma y/o vocabularios temticos
altamente especializados, de acuerdo al tipo de informacin o a las
necesidades de bsqueda.
Estos diccionarios pueden organizarse siguiendo diversas jerarquas de
especializacin, activadas por la aplicacin o por cada usuario, el cual
puede aadir sus propias definiciones o conceptos sin afectar a la
integridad de la base de conocimiento. Estas redes procesan el lenguaje
natural incorporando sintaxis, morfologa y el significado real de las
palabras tal y como estn definidas en los diccionarios y otras fuentes de

referencia vlidas. El resultado de la bsqueda es el texto ASCII del


documento en que los trminos pertenecientes se destacan en colores.
Tambin analiza trminos de consulta por patrones (en vez de utilizar la
expansin semntica), que admite errores en el deletreo en el cuerpo del
texto o en el texto de las consultas. Esto es Particularmente til en
aquellos entornos donde los documentos proceden de digitalizacin y
proceso OCR (Reconocimiento Optico de Caracteres). Trabaja con un
concepto llamado tecnologa Adaptive Pattern Recognition Processing
(APRP), y con un motor de bsqueda del tipo Fuzzy Searching
(bsqueda difusa)
El Proceso de Reconocimiento Adaptativo de Patrones (APRPTM) de
Excalibur aporta un nuevo enfoque al concepto de recuperacin de
informacin: diseado a partir de modelos de sistemas biolgicos, utiliza
redes neuronales para procesar informacin.
APRPTM acta como un sistema auto-organizador que aprende y
memoriza patrones binarios extrados de los datos para indexarlos
automticamente en la informacin digital. Se crea entonces una
memoria basada en patrones que se auto-optimiza a partir del contenido
origina de los datos.
Esta capacidad nica proporciona grandes ventajas a las aplicaciones:
En las aplicaciones de texto, tanto el auto-organizador APRPTM como
los ndices de patrones dirigidos directamente a los datos eliminan en
gran medida la labor de definir atributos manualmente, crear arboles de
descriptores, establecer regla expertas o clasificar y etiquetar informacin
en los campos de las bases de datos. esto evita la realizacin de
indexaciones categricas y proporciona la posibilidad de bsqueda por
aproximacin
La llamada "bsqueda difusa" es una funcin basada en la tolerancia a
los errores tanto de los datos de entrada como de los trminos de la
peticin. Es muy til y productiva, especialmente, cuando se digitalizan
gran cantidad de documentos y se utilizan procesos de OCR sobre las
imgenes digitalizadas.
Est pensado de la misma forma que el sistema nervisoso humano utiliza
la red neuronal para procesar informacin. En otros trminos: los datos
estn compuestos por determinados bits, el sistema crea una memoria
basada en estos patrones y, cuando hace una bsqueda, toma en

consideracin ese conjunto de bits que forman la palabra, frase o lo que


sea que se necesita encontrar. Entonces muestra no slo lo que est un
cien por cien en concordancia con ello, sino que tambin devuelve los
datos que estn cerca.
A partir de estas prestaciones, los usuarios no tienen la necesidad de
tener y mantener conocimientos complejos del modo de formular las
consultas para encontrar la informacin La misma informacin pude ser
llamada segn diferentes mtodos y formas de bsqueda.

4.2. CARACTERSTICAS DEL PROGRAMA


El interfaz de usuario del mdulo de consulta de INTRANET permite a los
usuarios del sistema corporativo "intranet" utilizar el sofisticado motor de
bsqueda RetrievalWare para acceder online a las libreras de texto. Con
l, se puede efectuar una bsqueda por Concepto, Patrn o Booleana en
las bases de datos ya existentes. Se puede guardar la bsqueda de
parmetros y resultados para una futura referencia e incluso editar y
realizar una consulta ms tarde, si as lo desea. Tambin, si el sistema lo
incluye, pude guardar la bsqueda de parmetros para utilizarla como
filtro para documentos entrantes en tiempo real.

El intefaz de bsqueda de Intranet le permite realizar lo siguiente:

Escoger las libreras a consultar

Escoger significados para sus trminos de consulta y establecer


los niveles de expansin semntica que determinarn aquellos
trminos relacionados que van a ser automticamente aadidos en
la consulta.

Bsqueda por similitud, bsqueda de rangos en campos


numricos y de fecha, y frases exactas.

Bsqueda utilizando operadores Booleanos

Establecer un mximo nmero de documentos a ser recogidos

Filtar su consulta a travs de los campos de datos asociados a los


documentos. As se limitar la bsqueda a ciertas categoras de
documentos, por ejemplo resmenes, propuestas, etc.

Utilizar un nico documento recogido para encontrar otros como l.

Refinar la bsqueda sobre un grupo original de documentos


devueltos

Ordenar las listas de documentos clasificndolos segn diferentes


criterios: por relevancia, por algn campo elegido,
cronolgicamente, etc.

Crear agentes de bsqueda en tiempo real que automticamente


recogen los documentos entrantes que respondan a la clave de
bsqueda definida.

Las opciones de consulta son parmetros que introduces, de


acuerdo con la consulta, define el alcance de la bsqueda.
Ajustando estas opciones es una manera de estrechas o expandir
una bsqueda.

El programa de bsqueda de Intranet RetrievalWare es un programa de


HTML que puede aplicarse en cualquier PC o puesto d e trabajo
utilizando un navegador. El interfaz de usuario del mdulo de consulta de
Intranet, sigue el estandar basado en el interfaz de convenciones para la
navegacin, incluyendo el uso de ventanas
Una vez en el navegador, nos conectamos a la direccin de
RetrievalWare:
http:// your hosts name or IP adress/rware/home.html
La ventana de bsqueda de Intranet abre la base de datos, desde la cual
puede seleccionar una librera (para realizar las consultas), acceder las
consultas almacenadas, o acceder a "archivo" para hojear o consultar.
Las libreras es el grupo bases de datos, grupos de documentos, etc.
indexadas de RetrievalWare disponibles para bsquedas. En el caso de
realizar una consulta, debe seleccionar una o muchas libreras.

Una vez seleccionada una librera o libreras accedemos a la bsqueda a


travs de la pestaa de "Buscar"

4.2.1. CMO FUNCIONA LA BSQUEDA DE RETIEVALWARE


Proporciona tres tipos primarios de bsqueda: Concepto, Patrn y
booleano. Puede incluso mezclar estos tipos en una nica bsqueda, si
lo desea. Tambin ofrece una bsqueda experta (no tratamos en este
trabajo)
Bsquedas predefinidas, puedes elegir un estilo de bsqueda genrico
(reducida, media, amplia): una vez seleccionado estableces que tipo de
bsqueda vas a realizar
En el modo de bsqueda por conceptos. Se utilizan diccionarios de
castellano y libros de referencias como conocimientos base, desde el
cual puede procesar sus consultas. Estas fuentes proporcionan
informacin sobre los significados de palabras, sintaxis, variaciones de
las palabras, y relaciones en ellas. Estas relaciones entre palabras hacen
posible la unin de las mismas en un campo semntico.
En la red, cada significado tiene una lista asociada de palabras,
indicando cmo cada palabra es unidad a cada significado. Palabras
individuales pueden ser unidas a mltiples significados, a diferentes
intensidades. Puede controlar cuantas y qu uniones estn cruzadas
cambiando la expansin del nivel o no utilizando expansin alguna.
La red semntica hace posible la bsqueda por conceptos o unidades de
significado, en vez de buscar solamente uniones exactas para sus
palabras de consulta. Por ejemplo, una bsqueda de "buscador de
trabajo" puede igualmente localizar los conceptos similares de
"solicitantes", "candidatos", contratos"

En el tipo de bsqueda por Patrn, puede buscar patrones que se


aproximen a su consulta; esto puede ser til en situaciones en las que
tenga datos procedentes de OCR sin verificar, o palabras con varios o
complicados deletreos.
El tipo Booleano es un camino rpido para buscar documentos con (o
sin) un trmino(os) especifico(os).

4.2.2. CONSULTA
El proceso de bsqueda es como una tubera, introduces palabras de
consulta y estas pasan por diversas fases de anlisis y de proceso. Este
proceso a la vez contrata y expande la lista original de palabras de
consulta, hasta que es creada una lista de bsqueda final.
Primeramente, las palabras estn sealadas (la sealizacin
descompone la cadena de caracteres en palabras, incluyendo formas
especiales como son fechas o nmeros de telfono) Retrievalware
entonces utiliza el diccionario de anlisis morfolgico (reduciendo
palabras a simples formas desglosando sufijos y deletreando plurales) y
procesando el idioma (traduciendo frases que tiene un significado distinto
cuando van juntas o separadas). Tambin quita ciertas palabras con una
pequea funcin (como "el" o "de") que proporcionan un pequeo valor
localizando la informacin que est buscando (lo que conocemos como
palabras vacas).

Cuando las palabras de consulta van bajando por la tubera, son


expandidas va al diccionario y a las uniones en la red semntica.
Cuando expande las palabras, encuentra otros trminos y conceptos
relacionados con las palabras de bsqueda y las aade a la lista de
trminos de bsqueda. La lista de palabras es clasificada, por lo que las
palabras exactas de la bsqueda son clasificas en el lugar ms alto,
despus ms inmediatos los trminos relacionados, y por ltimo los
trminos ms distantes. Esta clasificacin de la lista de palabras es
utilizada por el programa para buscar los ndices de los documentos en la
librera. Durante la bsqueda, el programa determina:

Cuntas palabras exactas de la bsqueda estn contenidas en un


documento.

Cuntos trminos relacionados hay.

Cules son las relaciones (sinnimo fuerte, antnimo, relacionado


a. Etc.)

La proximidad (distancia fsica entre cada uno) de palabras


relevantes en un documento.

Uilizando esta informacin, identifica y clasifica las "palabras hits"


en documentos. Basado en la fuerza y nmero de estos hits, los
documentos son encontrados y clasificados en orden a su probable
relevancia. Las palabras hits son sealadas en el texto as pues
puede encontrar rpidamente las partes ms relevantes.

Utilizando el tipo concepto


Introduces la consulta en castellano sencillo. Los trminos de la consulta
son expandidos a lo largo de la red semntica a otros trminos
relacionados, hacia arriba del nivel de expansin entra en la pestaa de
consulta (tambin escogiendo un estilo de bsqueda, o especficamente
estableciendo el nivel de expansin despus de haber escogido ms
opciones)
Los niveles de expansin de palabras determinara que conceptos
relacionados el sistema buscar. Cuanto ms alto establezca el nivel de
expansin, mayor ser el retorno, pero la consulta ser ms lenta
(porque muchas ms palabras pueden ser aadidas a la consulta).

Utilizando el tipo patrn


Como en las consultas por conceptos, las consultas por patrn son
introducidas en castellano sencillo, y puede ser formulado y realizado
muy rpidamente. Se suele utilizar una bsqueda Patrn si no est
seguro de cmo se deletrea algo, o si est buscando sobre OCR.

5. CONCLUSIONES
En primer lugar nos gustara sealar que hemos encontrado bastantes
dificultades para encontrar literatura especializada, no ya en lo que se
refiere a las redes neuronales, sino en como estas son aplicadas al
mundo de la documentacin.
Gran parte de la literatura consultada sobre RNA es demasiado tcnica,
dirigida a profesionales, lo que hace difcil su entendimiento a los
iniciados en la materia.
La mayora de las aplicaciones consultadas que utilizaban RNA no
presentan claramente la tipologa de RNA que utilizan ni tampoco los
mtodos seguidos en las aplicaciones. Parece que su funcionamiento
est reservado, de momento, a cada empresa.

A falta de conocer estudios comparativos sobre la fiabilidad y precisin


de estos mtodos frente a los tradicionales en lo que se refiere a la
recuperacin de la informacin, o sobre satisfaccin de usuarios, todo
parece indicar que la aplicacin de las RNA tienen un interesante futuro
en el mbito de la clasificacin y recuperacin de la informacin, sobre
todo en el campo concreto de los mapas autoorganizativos.
Son muchas las ventajas que estos nos ofrecen: La clasificacin
automtica, con el consiguiente ahorro de tiempo por parte de los
profesionales, la posibilidad de tratar grandes volmenes de informacin,
la posibilidad de obtener interfaces intuitivas y grficas, o la relacin que
se establece de vecindad entre documentos ya que al relacionarlos por
su contenido tienden a ocupar puntos cercanos en el mapa. Estas dos
ltimas son especialmente interesantes desde el punto de vista del
usuario cuando este no conoce el contenido de las bases de datos que
consulta.
El WEBSOM es de los mtodos vistos el que presenta mayores
posibilidades ya que permite trabajar a texto completo y ha sido utilizado
con xito en distintos tipos de colecciones, dominios y lenguas.
La calidad en la recuperacin documental de la red estar condicionada
por la calidad en el entrenamiento de la misma.
Los tiempos empleados en el entrenamiento de la red todava son largos,
y
Las redes neuronales permiten tambin, a travs de la tecnologa PRAP,
que el usuario no experto pueda recuperar informacin pertinente
utilizando el lenguaje natural, - incluso con errores ortogrficos - ya que
el sistema almacena patrones de fragmentos de palabras y frases
completas, adems de permitirle navegar por la informacin y determinar
el grado de exactitud con la que desea trabajar.
La aplicacin de las RNA aplicadas al reconocimiento ptico de
caracteres (OCR ) junto con el modelo PRAP va a permitir la rpida
digitalizacin de grandes volmenes de documentacin con el
consiguiente ahorro de tiempo y personal.
Aunque las investigaciones llevadas a cabo, en su mayora, se han
realizado sobre materias muy especficas, la aplicacin de las RNA

aplicadas a la gestin de la informacin estn experimentando un auge


considerable en la disciplina de la documentacin.
Las aplicaciones basadas en los mapas autoorganizativos, el
reconocimiento adaptativo de patrones o la minera de datos estn
aportando ya muchas ventajas, tanto a los profesionales de la
informacin por la automatizacin de muchas tareas como a sus usuarios
a los que ofrece nuevos mtodos de recuperacin documental.
Excalibur
El objetivo de Excalibur es mejorar la forma en que los usuarios
recuperan la informacin almacenada en los ordenadores . De acuerdo
con este objetivo, se ha desarrollado una tecnologa puntera mediante la
cual los usuarios podrn recuperar la informacin necesaria utilizando su
propio lenguaje. La dificultad reside en aprender a usarlo, es probable
utilizar varias horas y dias para poder estudiar y comprender el
funcionamiento. Es intuitivo y resutla comodo porque tiene un interface
similar a un browser de Internet.
Preferimos emplear el trmino "Librerias" en vez de la traduccin al
castellano "Bibliotecas" ya que esta traduccin literal no se ajusta al
concepto que utiliza Excalibur en las diferentes versines que se han
hecho, para distinto sistemas de informacin. Se ha conservado el
trmino Librerias para referirse al conjunto de documentos, bases de
datos, archivos, etc que posee el sistema de informacin.
En las primeras traducciones de este concepto se emple el trmino
"conversacional" ms que el significado real pero que no se ha
consolidado.
Las redes semnticas son una representacin esquemtica del
conocimiento, que imita el modo como se procesa el conocimiento en la
memoria humana. Se aplican al desarrollo de programas de inteligencia
artificial. Las redes semnticas incluyen conceptos y las relaciones entre
stos. Y segn los manuales de teoria y los apuntes y tcnicos sobre la
materia consultados no tiene nada que ver con las redes neuronales.
En parte de los artculos leido nos indicaban que Excalibur utiliza Redes
Neuronales, no hemos podido concretar donde funcionan. Tenemos claro
que si utiliza la red semntica, aunque en estos momentos el diccionario
que tinene (Espasa-Calpe 12 volumenes) no es el ms adecuado para

trabajar con Prensa Escrita pero perimite incorporar tesauros y lexicos


especificos.
RetrievalWare soporta estructuras de diccionarios multicapas y permite la
incorporacin de trminos de diccionarios temticos especializados que
se pueden utilizar por separado o unidos unos a otros. El concepto de
diccionario multicapa se refiere a la capacidad de definir dentro de un
mismo diccionario diferentes niveles de relacin semntica, como
sinnimos o antnimos. En cualquier momento se podr incorporar a la
red semntica de RetrievalWare un tesauro . Deja abierta la posibilidad
El manual tcnico de Excalibur versin castellana, consultado nos dice
que la busqueda por El Proceso de Reconocimiento Adaptativo de
Patrones (APRPTM ) de Excalibur aporta un nuevo enfoque al concepto
de recuperacin de informacin: diseado a partir de modelos de
sistemas biolgicos, utiliza redes neuronales para procesar informacin.
APRPTM acta como un sistema auto-organizador que aprende y
memoriza patrones binarios extrados de los datos para indexarlos
automticamente en la informacin digital. Se crea entonces una
memoria basada en patrones que se auto-optimiza a partir del contenido
origina de los datos.
Por ello pensamos que sea aqu donde Excalibur aplica las redes
neuronales, tipo Redes autoorganizativas o no supervisadas. Realizando
agrupamiento de patrones (clustering). Crea grupos de docuemtnos
entrono a estos patrones y representa la densidad de porbabilidad.
Siendo este tipo de red neuronal la ms utilizada en el campo de la
documentacin