Está en la página 1de 63

Universidad Andina Nestor Caceres

Velasquez
Facultad de Ingeniera de Sistemas
Carrera Academico Profesional de Ingeniera de Sistemas
TESIS:
Reconocimiento de Imagenes Bidimensionales Mediante la Implementacion de
Redes Neuronales de Retropropagacion
TESIS
PRESENTADO POR EL BACHILLER:
Omar Vidal Gil Caira
PARA OPTAR EL TITULO PROFESIONAL DE:
INGENIERO DE SISTEMAS
Juliaca - Per u
UNIVERSIDAD ANDINA N

ESTOR C

ACERES
VEL

ASQUEZ
FACULTAD DE INGENIER

IA DE SISTEMAS
CARRERA ACAD

EMICO PROFESIONAL DE
INGENIER

IA DE SISTEMAS

Reconocimiento de Imagenes Bidimensionales Mediante la


Implementacion de Redes Neuronales de Retropropagacion
TESIS PRESENTADO POR EL BACHILLER
Omar Vidal Gil Caira
PARA OPTAR EL TITULO PROFESIONAL DE:
INGENIERO DE SISTEMAS
APROBADO POR:
FECHA: Julio 2011
PRESIDENTE:
PRIMER MIEMBRO:
SEGUNDO MIEMBRO:
ii
Tabla de Contenido
Tabla de Contenido III
Lista de Tablas VI
Lista de Figuras VII
1. Generalidades 1
1.1. Titulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Descripcion del Problema . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3. Justicacion del problema . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4.2. Objetivos Especcos . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5.1. Hipotesis General . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5.2. Hipotesis Especco . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5.3. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5.4. Operacionalizacion de Variables . . . . . . . . . . . . . . . . . . 6
1.6. Planteamiento operacional . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6.1. Tecnicas e instrumentos de vericacion . . . . . . . . . . . . . . 6
1.6.2. Campo de Vericacion . . . . . . . . . . . . . . . . . . . . . . . 6
1.6.3. Ubicacion Espacial . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6.4. Ubicacion Temporal . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Marco Teorico 7
2.1. Hipermedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Reconocimiento de Patrones . . . . . . . . . . . . . . . . . . . . 7
2.1.2. Problemas en el Dise no de un Reconocedor de Patrones . . . . . 7
2.2. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1. Historia de la Neurocomputacion . . . . . . . . . . . . . . . . . 8
2.2.2. Origen de las Redes Neuronales . . . . . . . . . . . . . . . . . . 10
2.2.3. Modelos de Redes Neuronales . . . . . . . . . . . . . . . . . . . 12
iii
2.3. Reconocimiento de Imagenes . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Reconocimiento de Imagenes . . . . . . . . . . . . . . . . . . . . 15
3. Dise no y Desarrollo del Proceso de Investigacion 18
3.1. Metodologa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2. CONTENIDO ANAL

ITICO . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3. DIAGRAMA DE GANTT . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4. PRESUPUESTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.1. Presupuesto Basico . . . . . . . . . . . . . . . . . . . . . . . . . 22
4. El Perceptron Multicapa 23
3.1. Denicion y propiedades del perceptron multicapa . . . . . . . . . . . . 23
3.1.1. El perceptron multicapa . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2. Funciones de activacion . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3. El perceptron multicapa . . . . . . . . . . . . . . . . . . . . . . 24
3.1.4. Propiedades del perceptron multicapa . . . . . . . . . . . . . . . 24
3.1.5. El perceptron como clasicador . . . . . . . . . . . . . . . . . . 25
3.1.6. El perceptron como aproximador de funciones . . . . . . . . . . 25
3.1.7. Capacidad del perceptron multicapa . . . . . . . . . . . . . . . 25
3.2. El algoritmo de retropropagacion del error . . . . . . . . . . . . . . . . 27
3.2.1. Convergencia del Back-Prop . . . . . . . . . . . . . . . . . . . . 28
3.2.2. Perceptrones de 1 o dos capas ocultas . . . . . . . . . . . . . . . 29
3.2.3. Interpretacion probabilstica de las salidas de un perceptron mul-
ticapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3. Variantes y aspecto complementarios del algoritmo de retropropagacion
del error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1. Algoritmo de retropropagacion del error On-line. . . . . . . . . . 31
3.3.2. Algoritmo de retropropagacion del error incremental . . . . . . . 31
3.3.3. Sobre el factor de aprendizaje . . . . . . . . . . . . . . . . . . . 31
3.3.4. Algoritmo de retropropagacion del error con momentum . . . 31
3.3.5. Condiciones de convergencia . . . . . . . . . . . . . . . . . . . . 32
3.3.6. Representacion de valores . . . . . . . . . . . . . . . . . . . . . 32
3.3.7. Paralisis de la red . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4. Otros algoritmos de aprendizaje . . . . . . . . . . . . . . . . . . . . . . 33
3.4.1. Algoritmo de retropropagacion rapida (QuickProp) . . . . . . 33
3.4.2. Funciones de activacion en escalon . . . . . . . . . . . . . . . . 34
3.4.3. Extensiones cuadraticas . . . . . . . . . . . . . . . . . . . . . . 34
3.4.4. Generalizacion del perceptron multicapa: redes hacia-adelante . 34
3.5. Seleccion de la topologa de un perceptron mul-ticapa . . . . . . . . . . 36
3.5.1. Una primera taxonoma . . . . . . . . . . . . . . . . . . . . . . 36
3.5.2. Metodos de poda de conexiones basados en la sensibilidad . . . 37
3.5.3. Metodos de poda de conexiones basados en al sensibilidad . . . 37
iv
3.5.4. Metodos basados en el castigo . . . . . . . . . . . . . . . . . . . 40
3.5.5. Metodos para la poda de nodos . . . . . . . . . . . . . . . . . . 40
3.5.6. Algoritmo de B usqueda Incremental . . . . . . . . . . . . . . . . 41
3.5.7. Algoritmo Cascade Correlation . . . . . . . . . . . . . . . . . 41
3.5.8.

Arboles de decision . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.5.9.

Arboles de decision y el Perceptron multicapa . . . . . . . . . . 42
3.6. Funciones radiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.6.1. Funciones radiales basicas . . . . . . . . . . . . . . . . . . . . . 42
3.6.2. Redes de funciones radiales . . . . . . . . . . . . . . . . . . . . 42
3.6.3. Aprendizaje con redes de funciones radiales . . . . . . . . . . . 43
3.6.4. Aprendizaje de las funciones radiales . . . . . . . . . . . . . . . 43
3.7. Aspectos computacionales . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7.1. Sobre la intractabilidad del aprendizaje de modelos conexionistas 44
3.7.2. Sobre la existencia de mnimos locales . . . . . . . . . . . . . . 45
3.7.3. Sobre la talla del conjunto de aprendizaje . . . . . . . . . . . . 45
3.7.4. Clasicacion estatica de segmentos de voz . . . . . . . . . . . . 47
3.7.5. Reconocimiento de caracteres manuscritos . . . . . . . . . . . . 48
3.7.6. Control de calidad de la pintura de los coches . . . . . . . . . . 49
3.7.7. Tratamiento de secuencias . . . . . . . . . . . . . . . . . . . . . 49
3.7.8. Codicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5. Tema Otros Paradigmas Conexionistas 54
5.1. Mapas autoorganizativos . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.1. Algoritmo de Kohonen . . . . . . . . . . . . . . . . . . . . . . . 54
Bibliograa 55
v

Indice de cuadros
vi

Indice de guras
3.1. Esquema Perceptron Multicapa con una capa oculta. . . . . . . . . . . 23
3.2. Esquema Perceptron Multicapa con dos capas ocultas. . . . . . . . . . 24
3.3. Ejemplo de separabilidad no lineal. . . . . . . . . . . . . . . . . . . . . 25
3.4. Ejemplo de Clases Formadas de Regiones no Conectadas. . . . . . . . . 25
3.5. Ejemplo de clases formadas de regiones convexas. . . . . . . . . . . . . 26
3.6. Ejemplo de clases formadas de regiones no convexas. . . . . . . . . . . 27
3.7. Ejemplo de perceptron como clasicador (ejemplo LETTERS del SNNS). 28
3.8. Funcionamiento del Perceptron Multicapa. . . . . . . . . . . . . . . . . 29
3.9. Efecto del factor de aprendizaje. . . . . . . . . . . . . . . . . . . . . . . 32
3.10. Efecto de realizar distintas inicializaciones . . . . . . . . . . . . . . . . 33
3.11. Comparacion BackProp y PackProp con momentum . . . . . . . . . . . 34
3.12. Ejemplo red hacia-adelante. . . . . . . . . . . . . . . . . . . . . . . . . 38
3.13. El perceptron multicapa vs. la red de funciones radiales. . . . . . . . . 51
3.14. Ejemplo de clasicacion estatica de segmentos de voz. . . . . . . . . . . 52
3.15. Ejemplo de reconocimiento de caracteres manuscritos. . . . . . . . . . . 52
3.16. La red NET-TALK. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.17. La a red NET-TALK: Prediccion. . . . . . . . . . . . . . . . . . . . . 53
3.18. Ejemplo de codicacion. . . . . . . . . . . . . . . . . . . . . . . . . . . 53
vii
Captulo 1
Generalidades
1.1. Titulo
Reconocimiento de Imagenes Bidimensionales Mediante la Implementacion de Re-
des Neuronales de Retropropagacion
1.2. Descripcion del Problema
Conseguir dise nar y construir maquinas capaces de realizar procesos con cierta in-
teligencia ha sido uno de los principales objetivos y preocupaciones de los cientcos a
lo largo de la historia. Los intentos han transcurrido desde la obtencion de automatas,
hasta herramientas enormemente sosticadas, con resultados sorprendentes que pode-
mos encontrar dentro de la Inteligencia Articial. Existen numerosas formas de denir
lo que son las Redes Neuronales, desde las genericas hasta las que intentan explicar mas
detalladamente lo que signica red neuronal o computacion neuronal, algunos ejemplos
son los siguientes :
Una nueva forma de computacion inspirada en los modelos biologicos.
Un modelo matematico compuesto por un gran n umero de elementos procesadores
organizados en niveles.
1
2
Un sistema de computacion hecho por un gran n umero de elementos simples,
elementos de proceso muy interconectados, los cuales procesan informacion por
medio de su estado dinamico como respuesta a entradas externas.
Redes Neuronales Articiales son redes interconectadas masivamente en paralelo de
elementos simples(usualmente adaptativos) y con organizacion jerarquica, las cuales
intentan interactuar con los objetos del mundo real del mismo modo que lo hace el
sistema nervioso biologico. Dada su constitucion y sus fundamentos, presentan un gran
n umero de caractersticas semejantes a las del cerebro. Por ejemplo, son capaces de
aprender de la experiencia, de generalizar casos anteriores a nuevos casos, de abstraer
caractersticas esenciales a partir de entradas que presentan informacion irrelevante
etc. El paralelismo es una caracterstica innata de los sistemas de conexiones. Aunque
una computadora realiza calculos mucho mas rapido que un ser humano, no es capaz
de realizar operaciones que este realiza de forma simple (compresion de frases, analizar
una imagen, reconocer un rostro). La realizacion mas simple e inmediata consiste en
simular la red sobre una computadora convencional mediante un software especco.
Es un procedimiento poco costoso e insustituible por el momento para realizar el en-
trenamiento y evaluacion de las redes, pero su mayor desventaja radica en el hecho de
que se intenta simular redes con un alto grado de paralelismo sobre maquinas que eje-
cutan secuencialmente las operaciones. Hay muchas tareas que resultan especialmente
adecuadas para ser resueltas mediante computadores convencionales: Resolucion de
problemas matematicos y cientcos; creacion, manipulacion y mantenimiento de bases
de datos; comunicaciones electronicas; procesamiento de textos, gracas y autoedicion.
En contraposicion encontramos muchas aplicaciones que desearamos automatizar, que
se hacen difciles de tratar empleando sistemas de computadores secuenciales. Con-
sideremos el ejemplo de como es que nosotros podemos reconocer rapidamente una
3
imagen, mientras que el computador tiene que realizar comparaciones y procesos com-
plejos que le demandan un mayor tiempo. Esta pregunta resulta inquietante cuando se
tiene en cuenta que el tiempo de conmutacion de los componentes de un computador
electronico moderno es de mas de siete ordenes de magnitud mas rapido que el de
las celulas de que constan nuestros sistemas biologicos. Esto se da porque aunque el
tiempo de respuesta de una celula neuronal individual es tpicamente del orden de unas
pocas decenas de milisegundos, el paralelismo masivo y la interconectabilidad que se
observan en los sistemas biologicos complejos son las causas de la capacidad del cere-
bro para llevar a cabo complejos reconocimientos de tramas en unos pocos centenares
de milisegundos. Dado que los computadores convencionales son evidentemente poco
adecuados para este tipo de problemas, se va a tomar ciertas caractersticas del cerebro
humano como base para nuestros modelos de procesamiento. Esta tecnica ha recibido el
nombre de SNA(Sistemas Neuronales articiales) y en este trabajo se trata de explotar
las propiedades de las redes neuronales para poder asociar imagenes entre si y poder
reconocerlas lo cual nos ofrece una importante alternativa de estudio.
1.3. Justicacion del problema
Hay muchas tareas que resultan especialmente adecuadas para ser resueltas me-
diante tecnicas convencionales de computacion por ejemplo: Resolucion de proble-
mas matematicos, manipulacion de bases de datos, comunicaciones electronicas, y
procesamiento de textos. En contraposicion encontramos muchas aplicaciones que de-
searamos automatizar, que se hacen difciles de tratar empleando sistemas de proce-
samiento secuencial; como por ejemplo como es que nosotros podemos saber que una
rma pertenece a una determinada persona con el simple hecho de observarla?, ya que
el computador tiene que realizar comparaciones y procesos complejos que le demandan
4
un mayor tiempo y recursos computacionales. La eciencia del cerebro para recono-
cer imagenes como una rma se debe a su naturaleza y al alto grado de conectividad
existente entre las neuronas lo que permite resolver problemas muy complejos para el
computador en algunos milisegundos. Las Redes Neuronales Articiales (R.N.A.) es un
tema muy poco tratado en el medio, por tanto el desarrollo de una investigacion de este
tipo ofrece una oportunidad muy interesante de estudio, ya que la aplicabilidad de este
trabajo es bastante amplia ya sea en campo industrial en procesos de automatizacion
y manejo de robots as como en la administracion, o el reconocimiento de imagenes
mediante asociaciones. Aprovechando las ventajas de una R.N.A. como las siguientes:
Aprendizaje adaptativo, tolerancia a fallos y procesamiento en paralelo.
1.4. Objetivos
1.4.1. Objetivo General
Desarrollar un simulador de Redes Neuronales Articiales capaz de reconocer y
clasicar imagenes bidimensionales.
1.4.2. Objetivos Especcos
Precisar el nivel de efectividad de las Redes Neuronales de Retropropagacion en
el reconocimiento de imagenes.
Aplicar las Redes Neuronales Articiales de Retropropagacion en problemas reales.
Construir un Simulador de Redes Neuronales Articiales empleando las tecnicas
Orientadas a Objeto.
5
1.5. Hipotesis
1.5.1. Hipotesis General
Mediante la utilizacion de Redes Neuronales Articiales de Retropropagacion es
posible reconocer y clasicar imagenes bidimensionales en forma optima.
1.5.2. Hipotesis Especco
Mediante la utilizacion de Redes Neuronales Articiales de Retropropagacion es
posible reconocer y clasicar imagenes bidimensionales en forma optima.
Con el empleo de las tecnicas orientadas a Objeto se mejora la creacion de un
simulador de Redes Neuronales Articiales.
1.5.3. Variables
VARIABLE DEPENDIENTE
Reconocimiento de Imagenes.
VARIABLES INDEPENDIENTES
Redes Neuronales.
6
1.5.4. Operacionalizacion de Variables
Reconocimiento de Imagenes Indicadores
Reconociemto Malo
Reconocimiento Regular
Reconocimiento Bueno
Reconocimiento Muy Bueno
Redes Neuronales Indicadores
Entrenamiento
Validacion
Test
1.6. Planteamiento operacional
1.6.1. Tecnicas e instrumentos de vericacion
Para el estudio de la variable antes mencionada as como sus indicadores se utilizara:
La investigacion de tipo Cuasi Experimental.
1.6.2. Campo de Vericacion
1.6.3. Ubicacion Espacial
El estudio se realizara en la ciudad de Juliaca, del departamento de Puno.
1.6.4. Ubicacion Temporal
El estudio se realizara en el a no 2011.
Captulo 2
Marco Teorico
2.1. Hipermedia
2.1.1. Reconocimiento de Patrones
El proceso de reconocimiento de patrones tiene que ver con la actividad de clasicar
un objeto o hecho en alguna categora determinada, en base a particularidades del
objeto que son comunes a los miembros de una misma clase. Algunos ejemplos de
actividades comunes de reconocimiento de patrones realizados por humanos son: -
Escuchar una conversacion - Leer un libro - Reconocer un amigo entre la multitud
- Traducir de un lenguaje a otro.
Una denicion formal de Reconocimiento de Patrones es la siguiente: Es la cate-
gorizacioon de datos de entrada en clases identicadas, por medio de la extraccion
de caractersticas signicativas o atributos de los datos extra ydos de un medio am-
biente que contiene detalles irrelevantes. Matematicamente hablando, la clasicacion
consiste en la particion del espacio n-dimensional denido por las caractersticas de un
objeto, en varias regiones, donde cada region corresponde a una clase.
2.1.2. Problemas en el Dise no de un Reconocedor de Patrones
El dise no de un sistema reconocedor de patrones presenta 4 problemas fundamen-
tales:
7
8
1) La representacion de los datos de entrada. 2) La extraccion de caractersti-
cas. 3) La determinacion del proceso de decision optimo. 4) Problemas de estimacion
de parametros. Un sistema automatico de clasicacion esta formado de las siguientes
Partes :
Transductor - Toma informacion del objeto y la transforma a se nales analogicas,
que a su vez son convertidas a su forma digital.
Extractor de Caractersticas - Mide propiedades importantes que representan al
objeto. Su proposito es reducir la cantidad de datos obtenidos del transductor sin perder
informacion esencial. El resultado de tales medidas se llama vector de caractersticas.
Clasicador - Eval ua las propiedades dadas por el extractor de caractersticas y
toma una decision nal acerca de la clase del objeto.
Los metodos de clasicacion pueden ser de varios tipos. El metodo escogido depende
de las caractersticas de las clases. Se pueden identicar 3 tipos de metodologas:
Heursticas. Se basan en la intuicion y la experiencia humana. El dise no es tipo
ad-hoc.
Matematicas. Se dividen en 2 tipos:
Determinstica: No requieren de propiedades estadsticas, pero son limitadas.
Estadisticas: Emplean propiedades estadsticas de las clases.
Ling usticas o sintacticas: Se basan en elementos primitivos (subpatrones) y
relaciones entre ellos, deniendo gramaticas formales (variables, primitivas, reglas de
produccion, etc).
2.2. Redes Neuronales
2.2.1. Historia de la Neurocomputacion
Antecedentes y Evolucion Durante el periodo de 1967 a 1982. La b usqueda de la neu-
rocomputacion se lleva acabo fuera de Estados Unidos (la b usqueda en Japon, Europa,
9
y la Union Sovietica). Sin embargo, una gran empresa investiga una cadena neuronal
dentro de un proceso del principio adaptativo de procesos de imagenes, reconocimiento
de patrones y modelos biologicos. En los primeros a nos de 1980, muchas investigaciones
de la neurocomputacion empezaron a ser audaces propuestas para explorar el desarrollo
de neurocomputadoras y aplicaciones de redes neuronales.
En el primer lanzamiento de Defense Advanced Rechears Projects Agency (DARPA),
donde Ira Skurnick (un programador de la ocina de defensa) rechazo seguir el concepto
convencional e insistio a que escucharan sus argumentos a cerca de sus investigaciones
sobre la neurocomputacion que audazmente diversicaban lo tradicional. Skurnick em-
pezo sus investigaciones en 1983 dando el estatus DARPAS, como uno de los arbitros
mundiales de la moda tecnologa.
Pocos meses despues el programa maestro de otras organizaciones se consolido dan-
do con esto un gran salto. Skurnic estuvo en el lugar adecuado en el momento adecuado
para hacer una llave de decision que ayudara al lanzamiento del renacimiento de la
neurocomputacion. Otra fuerza en los a nos de 1983 a 1986 fue Jonh Hopel, un fsico
famoso con reputacion mundial quien comenzo una interesante investigacion en redes
neuronales en pocos anos. Hopel escribio dos grandes vol umenes de redes neuronales
en 1982 y 1984, que fueron ledas por mucha gente alrededor del mundo persuadiendo
a muchos fsicos y matematicos de todo el mundo a unirse a la nueva investigacion de
redes neuronales. En realidad alrededor de 1986, aproximadamente una tercera parte
de toda esta gente se haba vuelto seguidor de Hopel. El trabajo de hopel ha sido
descrito y su principal contribucion a esta ciencia es que la a revitalizado. En algunos
crculos de investigadores se ha desarrollado una confusion en torno a que Hopel
invento la neurocomputacion o es el que ha hecho los adelantos mas signicativos.
Esta creencia ha generado gran inconformidad por parte de muchos pioneros es-
pecialmente por aquellos que han estado trabajando muchos a nos en la obscuridad.
10
Para 1986, con la publicacion del libro PDP(que signica procesamiento paralelo
distribuido, vol umenes l y ll), editado por David Rumelhart el camino fue abierto.
En 1987, se realizo la primera conferencia abierta sobre redes neuronales del I.E.E.E.
(1700 participantes) fue hecha en San Diego (anteriormente ha habido conferencias
solo que son extremadamente limitadas por el numero de participantes), y la Sociedad
Internacional de Redes neuronales fue formada en 1988 es seguida por la computacion
neuronal en 1989 y el I.E.E.E. A principios de 1987, muchas universidades anuncia-
ron la formacion de institutos de investigacion y programas de educacion acerca de la
neurocomputacion. Alrededor de la neurocomputacion se hace una interesante historia
pero el camino a un se esta desarrollando. Como dijo Winston Churchill estamos al nal
del principio.
2.2.2. Origen de las Redes Neuronales
Las Redes Neuronales Articiales son el resultado de investigaciones academicas
que involucran utilizando formulas maten aticas para modelar operaciones del sistema
nervioso. Las tecnicas resultantes estan empezando a tener exito en aplicaciones en una
variedad de aplicaciones en los negocios cotidianos.
Las Redes Neuronales representan un provechoso acercamiento para usar las com-
putadoras en los lugares de trabajo. Una Red Neuronal es usada para aprender patrones
y relaciones de datos. Los datos pueden ser el resultado del esfuerzo de una investi-
gacion de mercado, el resultado de un proceso de produccion dando variacion a las
condiciones de operacion, o las decisiones de un prestamista dado un conjunto de apli-
caciones de prestamo, utilizando una Red Neuronal es una salida considerable parecida
a un enfoque tradicional.
Tradicionalmente un programador o un analista especican codigos de cada fac-
eta del problema en orden para la computadora pueda .entender la situacion. Redes
11
Neuronales no requieren el codigo explcito del problema. Por ejemplo, para generar
un modelo que lleve a cabo un pronostico de ventas, una Red Neuronal solo necesita
que le den los datos sin preparar relacionados con el problema. Los datos sin preparar
podran consistir en:
historias de ventas pasadas, precios, precios de la competencia y otras variables
economicas. La Red Neuronal escoge entre esta informacion y produce un acuerdo de
los factores que inuyen en las ventas. El modelo puede entonces ser llamado para
dar una prediccion de ventas futuras dado un pronostico de los factores claves. Estos
adelantos son debido a la creacion de reglas de aprendizaje de una Red Neuronal,
que son los algoritmos usados para aprender las relaciones de los datos. Las reglas de
aprendizaje habilitan a la red para ganar conocimiento desde datos disponibles y aplica
ese conocimiento para asistir al gerente para hacer decisiones claves.
Que es una neurona ?
La neurona es una celula del sistema nervioso. Existen muchos tipos de neuronas
Que es una Red Neuronal Articial ?
Una Red Neuronal Articial es un modelo de procesamiento de informacion que es
inspirado por el modo de un sistema nervioso biologico, tal como el cerebro procesa
informacion. El elemento clave de este paradigma es la estructura original del sistema
de procesamiento de informacion. Este se compone de un gran n umero de elementos
interconectados procesando (neuronas) trabajando en armona para resolver problemas
especcos.
Las Redes Neuronales Articiales, como la gente, aprenden con ejemplos. Una
Red Neuronal Articial es congurada para una aplicacion especca, tal como el re-
conocimiento de patrones o clasicacion de datos, a traves de un proceso de aprendizaje.
Aprender en sistemas biologicos implica ajustes para las conexiones sinopticas que ex-
isten entre las neuronas. Esto lo hace una Red Neuronal Articial Tambien. Las Redes
12
Neuronales Articiales se han aplicado a un gran n umero de problemas reales de com-
plejidad considerable. Su ventaja mas importante esta en resolver problemas que son
demasiado complejos para tecnologas convencionales, problemas que no tienen un algo-
ritmo de solucion o que su algoritmo de solucion es muy difcil de encontrar. En general,
a causa de su abstraccion del cerebro biologico, Las Redes Neuronales Articiales son
aptas para resolver problemas que la gente puede resolver, pero las computadoras no
pueden. Estos problemas incluyen reconocimiento de patrones y pronosticos (los cuales
requieren el reconocimiento de tendencias de datos).
2.2.3. Modelos de Redes Neuronales
Los modelos de redes neuronales tambien conocidos como modelos de procesamien-
to distribuido en paralelo o sistemas neuromorfologicos tienen su principio de fun-
cionamiento basado en la interconexion de alta densidad de elementos sencillos de
computo. La estructura de las redes neuronales ha sido desarrollada de acuerdo a nues-
tra comprension del sistema nervioso biologico. Estos modelos de redes han tenido
gran auge en areas como el reconocimiento de imagenes y sonido, ya que dichas redes
procesan simultaneamente varias hipotesis a traves de redes paralelas compuestas de
elementos de computo conectados a las variables ponderables.
Los elementos de computo o nodos utilizados en las redes neuronales son general-
mente no lineales y analogicos, ademas estan caracterizados por un umbral y oset
interno. Algunas de las no linealidades mas comunes son: los limitadores logicos del
umbral y las no linealidades sigmoidales. Los nodos mas complejos incluyen temporal
y otras operaciones matematicos mas complejas. Los modulos de redes neuronales son
especicados de acuerdo a la topologa de la red, las caractersticas de los nodos y las
reglas de entrenamiento o aprendizaje. Estas reglas indican un grupo inicial de valores
y como deben modicarse esos valores para obtener un mejor resultado. La mayora
13
de los algoritmos de las redes neuronales realizan lecturas de los valores a analizar a lo
largo del tiempo para obtener basados en resultados actuales, valores mas conables.
Esto con el proposito que el aprendizaje y la adaptacion sean lo mas optimo posible.
Para este n se utilizan clasicadores, los cuales tienen un grado de robustez de-
terminado por la capacidad de adaptabilidad de la red, mayor que los clasicadores
estadsticos. Mediante la utilizacion de las redes neuronales constituidas por una gran
cantidad de circuitos simples de procesamiento operando en paralelo se ha logrado
obtener la capacidad de procesamiento requerida hoy en da. Modelos de Redes Neu-
ronales Clasicadores tradicionales y de Red neuronal. Ambos tipos de clasicadores
determinan cual de las M clases es mas representativa de un patron de entrada descono-
cido conteniendo N elementos. El clasicador tradicional esta dividido en 2 etapas. La
primera etapa computa o registra los valores de cada clase dandoles un puntaje, y
la 2a etapa selecciona la clase que contenga el maximo puntaje. Las entradas de la
1ra etapa son smbolos que representan los valores de los N elementos de entrada,
estos son introducidos secuencialmente y decodicados para poder ser manipulados
adecuadamente. Un algoritmo computa el puntaje de cada una de la M clases, lo cual
servira para indicar que tan igual o diferente es este valor de entrada comparada con
el patron ejemplar para cada clase. Despues los resultados son codicados y pasados
secuencialmente de la 2a etapa del clasicador donde son decodicados y la clase con
mayor puntaje es seleccionada, por lo que despues de que la clasicacion ha sido com-
pletada solamente la salida correspondiente a la clase seleccionada estar a en alto y
las demas salidas en baja. Segundo, los clasicadores pueden ser utilizados como con-
tenedores direccionales o memorias asociativas. Y tercero, cuantica vectorialmente o
agrupa las N entradas en los M grupos. Las redes entrenadas sin supervision, como las
redes formadas mediante la estructura Kohonen, son utilizadas como cuanticadores
vectoriales o para formar grupos. La red neuronal Hamming es implementada como el
14
clasicador mas optimo para patrones binarios contaminados por ruido aleatorio.
Red Hopeld Este tipo de red se usa normalmente cuando se tienen entradas bi-
narias, y no son muy utilizadas cuando los valores de entrada son continuos, debido
al problema de representacion que se presenta cuando desea convertirse las cantidades
continuas en valores binarios. Este tipo de red tiene N nodos que contienen fuertes no
linealidades y entradas y salidas binarias alrededor de los valores +1 y -1. La salida de
cada nodo se retroalimenta a los demas nodos. Hopeld tambien demuestra que las
redes convergen cuando el grado similar de no linealidades para la no linealizacion de
sigmoid. Las ramas de Hopeld tienen 2 limitaciones mayores cuando se usa como un
contenido de memoria direccionable. Primero el n umero de los patrones que pueden ini-
cializar y precisamente vuelto a llamar es limitada severamente. La segunda limitacion
de la rama del hopeld es que un patron ejemplar sera inestable si los patrones de varios
bits son comunes a otro patron similar. La distancia hamming es el n umero de bits en
la entrada la cual no hace par el correspondiente ejemplo de bits. El MAXNET siempre
sera convergente y encuentra nodo con el valor maximo cuando e1/M. El n umero de
las conexiones en la red Hamming crece linealmente. La red Hamming no puede da nar
de espurios las salidas patrones cuando puede producir un resultado (no-par).
El algoritmo lder selecciona la primera entrada como el primer ejemplar para el
primer grupo. La siguiente entrada es compartida con el primer grupo ejemplar. Esta
sigue al lder y es agrupado con el primero, si la distancia del primero es menor que un
umbral. De otro modo este es el ejemplo para un nuevo grupo. El n umero de grupos
de esta forma crece con el tiempo y depende en ambos el umbral y la distancia metrica
usada para comparar entradas para los grupos ejemplares. Esta red diere de la red
Himming en que las conexiones de retroalimentacion estan provistas de los nodos de
salida a los nodos de entrada. El algoritmo Carponter/Grossberg puede funcionar bien
con un patron de entrada perfecto paro eso iguala una peque na cantidad de ruido que
15
puede causar problemas.
2.3. Reconocimiento de Imagenes
Como se menciono previamente, el reconocimiento de imagenes es una area dentro
del reconocimiento de patrones que ha sido investigada desde hace varios a nos. Desde
entonces se han propuesto varias tecnicas para resolver esta tarea, entre ellas podemos
mencionar las siguientes:
las tecnicas que utilizan igualamiento de plantillas, caractersticas geometricas, y los
metodos que utilizan redes neuronales, entre otros. Para la implementacion de este tipo
de sistemas, independientemente de la tecnica o metodologa que sea implementada, se
utilizan generalmente dos conjuntos de datos. El primer conjunto de datos es el que es
utilizado durante la etapa de aprendizaje, el cual es com unmente llamado conjunto de
entrenamiento.
Se debe de tratar que los patrones que integran este conjunto, sean lo mas diferente
posible entre s, y que ademas, representen al problema, para poder obtener un buen
porcentaje de generalizacion. El segundo conjunto de patrones, es el que se utiliza
durante la etapa de reconocimiento y es llamado conjunto de prueba. En la mayora
de estas tecnicas, el reconocimiento de imagenes involucra algunas de las siguientes
etapas: pre procesamiento de la imagen, extraccion de caractersticas, alguna forma de
entrenamiento, y por ultimo, la etapa de reconocimiento.
2.3.1. Reconocimiento de Imagenes
Dado que las imagenes de los rostros regularmente son tomadas en momentos difer-
entes, esto trae como consecuencia que las diferentes imagenes de una misma persona
tengan variaciones en cuanto a la iluminacion, la orientacion, y el tama no del rostro.
Por tal motivo, es necesario que la imagen sea pre procesada antes de que pueda ser
16
utilizada. Entre las tareas de pre procesamiento mas comunes podemos encontrar las
siguientes: extraer la imagen de una imagen mas grande que contenga informacion irrel-
evante para el reconocimiento; normalizacion en cuanto al tama no, es decir, que todas
las imagenes tengan un tama no similar, y la aplicacion de alg un metodo de ltrado
para mejorar la calidad de la imagen.
Extraccion de Caractersticas
La extraccion de caractersticas es una de las etapas de la cual depende en gran
medida el buen desempe no del sistema de reconocimiento de imagenes. El objetivo
principal de esta etapa es extraer la informacion mas discriminante, eliminando la
informacion que resulte irrelevante para el reconocimiento. En esta etapa podemos
encontrar desde las tecnicas que obtienen las caractersticas de manera manual, hasta
tecnicas mas sosticadas que extraen las caractersticas de forma automatica. En varias
tecnicas, las principales caractersticas que son extradas de los rostros son aquellas que
describen a cada uno de los componentes basicos del rostro tales como los ojos, la nariz,
la boca, la barba, las cejas, y por supuesto, la relacion que existe entre ellos, es decir,
la distancia entre cada uno de estos componentes.
Entrenamiento
El entrenamiento basicamente consiste en utilizar alguna forma de aprendizaje que
le permita al sistema aprender los rostros que constituyen el conjunto de entrenamien-
to. El tipo de entrenamiento que sea utilizado para el aprendizaje, dependera en gran
medida, de la metodologa que se este utilizando para el reconocimiento. Por ejemplo,
al utilizar una metodologa como la de redes neuronales, el entrenamiento consiste en
obtener los valores correspondientes a cada una de las conexiones (pesos) que consti-
tuyen a la red neuronal. Para este tipo de metodologas existen diferentes algoritmos
para realizar el entrenamiento, entre los cuales el algoritmo de retropropagacion es uno
de los mas populares.
17
Reconocimiento
La ultima etapa que com unmente es realizada en un sistema de reconocimiento de
rostros, es la etapa de reconocimiento. Esta etapa basicamente consiste en alimentar al
sistema con imagenes, esperando obtener como resultado, alguna forma de codicacion
que nos permita identicar de que imagen se trata.
Captulo 3
Dise no y Desarrollo del Proceso de
Investigacion
3.1. Metodologa
La investigacion sera longitudinal en el tiempo.
3.2. CONTENIDO ANAL

ITICO
ESQUEMA DE LA TESIS
CAPITULO I FUNDAMENTO TE

ORICO
1.1. Generalidades
1.2 Problematica
1.3 Justicacion del problema
1.4 Objetivos:
1.5 Hipotesis
CAPITULO II INTELIGENCIA ARTIFICIAL Y REDES NEURONALES
2.1.- Denicion de Inteligencia articial
2.2.- Caractersticas de la Inteligencia Articial
2.3.- Denicion de Biometra
2.4.- Redes Neuronales e Inteligencia articial
18
19
2.4.1.- Diferencia entre redes neuronales y la Inteligencia articial clasica
2.5.- Denicion de Red Neuronal
2.6.- Ventajas de las redes neuronales
2.6.1.- Aprendizaje adaptativo
2.6.2.- Autoorganizacion
2.6.3.- Tolerancia a fallos
2.6.4.- Operacion en tiempo real
2.6.5.- Facil insercion dentro de la tecnologa existente
2.7.- Aplicaciones de las redes neuronales
2.7.- Tipos de redes neuronales mas importantes
CAPITULO III FUNDAMENTOS Y CARACTERISTICAS DE LAS REDES NEU-
RONALES
3.1.- Modelo biologico
3.1.1.- Estructura de una neurona
3.1.2.- Neurosiolog elemental
3.1.3.- Relacion con las Redes neuronales
3.2.- Elementos de una red neuronal articial
3.2.1.- Unidades de proceso
3.2.2.- Esquemas de interconexion
3.2.3.- Funcioon de salida o de transferencia
3.2.4.- Conexiones entre neuronas
3.2.5.- Funcion o regla de activacion
3.2.6.- Regla de aprendizaje
3.3.- Estructura de una Red
3.3.1.- Niveles o capas de neuronas
3.3.2.- Formas de conexion entre neuronas
20
3.4.- Caractersticas de las redes neuronales
3.4.1.- Topologa de las redes
3.4.1.1.- Redes monocapa
3.4.1.2.- Redes multicapa
3.4.2.- Mecanismo de aprendizaje
3.4.2.1.- Redes con aprendizaje supervisado
3.4.2.2.- Redes con aprendizaje no supervisado
3.4.- Metodologa Orientada a Objetos RUP
CAPITULO IV DISE

NO DEL SIMULADOR DE REDES NEURONALES


4.1.- Modelado del sistema para la captura de rmas
4.2.- Analisis
4.3.- Dise no
4.3.1.- Implementacion de la Red Neuronal
4.3.2.- Entrenamiento
4.3.- Validacion
4.3.4.- Pruebas
4.4.- Resultados
CONSIDERACIONES FINALES
CONCLUSIONES
RECOMENDACIONES
BIBLIOGRAF

IA
ANEXOS.
3.3. DIAGRAMA DE GANTT
Para la elaboracion del trabajo de investigacion se tiene las siguientes considera-
ciones de tiempo mostrado en el cuadro siguiente se considera que la investigacion debe
21
empezar en el mes de abril del presente a no:
Actividades Mes 1 Mes 2 Mes 3
Recoleccion de Informacion XXXX
Eleccion de Modelo XX XXXX
Redaccion del Informe XXXX
Implementacion del Prototipo XXXX XXXX
Evaluacion del Prototipo XX XXXX
Evaluacion Final XXXX
Resultadps XXXX
22
3.4. PRESUPUESTO
3.4.1. Presupuesto Basico
Se tiene en cuanta los siguientes gastos, los cuales seran solventados por el investi-
gador, estos gastos nos serviran para as poder valorar el software que se desarrollara,
esto esta mostrado en el cuadro siguiente:
Actividades Costo 1
Recoleccion de Informacion 1500.00
Desarrollo del Software 3000.00
Redaccion del Informe 2000.00
Bibliograa 1500.00
Total 8000.00
Captulo 4
El Perceptron Multicapa
3.1. Denicion y propiedades del perceptron mult-
icapa
3.1.1. El perceptron multicapa
El perceptron multicapa con una capa oculta:
x
1
x
2
1,1 1,2 1,3 1,4 1,5
x
3
1,6
l = 1
l = 0
1
s
4
0
s
2
0
s
i
1
w
6,3
1
w
i,j
2,1 2,2 2,3
2
s
3
2
w
i,j
2
s
i
l = 2
2
w
3,6
Figura 3.1: Esquema Perceptron Multicapa con una capa oculta.
23
24
El perceptron multicapa con dos capas ocultas:
x
1
x
2
1,1 1,2 1,3 1,4 1,5
x
3
1,6
2,1 2,2 2,3 2,4
l = 1
l = 2
l = 0
1
s
4
0
s
2
2
s
i
1
s
i
0
s
i
1
w
6,3
2
w
4,6
2
w
i,j
1
w
i,j
2
s
2
3,1 3,2 3,3
3
s
3
3
w
3,4
3
w
i,j
3
s
i
l = 3
Figura 3.2: Esquema Perceptron Multicapa con dos capas ocultas.
3.1.2. Funciones de activacion
3.1.3. El perceptron multicapa
Componentes de un perceptron multicapa
Caracterizacion de un perceptron multicapa
3.1.4. Propiedades del perceptron multicapa
Clases formadas de regiones no conectadas.
Clases formadas de regiones convexas (una capa oculta).
Clases formadas de regiones no convexas (dos capas ocultas).
25
w +w x +w x = 0
A0 A1 1 A2 2
-1.5
1
1
1
1
x
1
x
2
w
B2
w
A2
w
A1
w
B1
w
A0
w
B0
A B
S
w +w x +w x = 0
B0 B1 1 B2 2
A = 1 B = 1
S = 1
A = 1

A = 0

A = 0
B = 1

B = 0

B = 0

S = 0

S = 0

S = 0

Figura 3.3: Ejemplo de separabilidad no lineal.
A = 1
B = 1

S = 0
A = 0
A = 0

A = 0
B = 0
B = 1
B = 0 S = 1
S = 0
S = 0
C = 0

C = 0

C = 1
C = 1
A
B
C
A = 1
B = 0
S = 1
C = 0
A = 1
B = 1 S = 1
C = 1 A = 0

B = 1
S = 0
C = 0
-0.5
1
1
1
1
x
1
x
2
w
B2
w
A2
w
A1
w
B1
w
A0
w
B0
A B
S
C
-1
w
C0
w
C2
w
C1
Figura 3.4: Ejemplo de Clases Formadas de Regiones no Conectadas.
3.1.5. El perceptron como clasicador
3.1.6. El perceptron como aproximador de funciones
3.1.7. Capacidad del perceptron multicapa
Fronteras de decisi

on
Toda frontera de decision construida mediante hiperplanos puede ser real-
izada mediante un perceptron multicapa de dos capas ocultas y funciones
de activacion en escalon.
26
-4.5
1
1
1
1
x
1
x
2
A B
S
C
1
D
E
1
1
A
B
C
D
E
S=1
S=0
Figura 3.5: Ejemplo de clases formadas de regiones convexas.
Un perceptron multicapa de una capa oculta y funciones de activacion en
escalon puede realizar fronteras de decision convexas.
Clasificadores: dada una muestra de entrenamiento con N ejemplares, existe
un perceptron multicapa que resuelva?
Si es linealmente separable: un perceptron sin capas ocultas.
Un perceptron multicapa de 1 capa oculta con N 1 nodos y funciones de
activacion en escalon puede clasicar correctamente la muestra.
Aproximaci

on de funciones.
Cualquier funcion puede ser aproximada todo lo que se quiera mediante
un perceptron multicapa de dos capas ocultas y funciones de activacion en
escalon y por tanto sigmoides.
Cualquier funcion puede ser aproximada todo lo que se quiera mediante
un perceptron multicapa de una capa oculta y funciones de activacion en
escalon y por tanto sigmoides si se dispone de un n umero grande de nodos
ocultos.
27
S
A
B C D
x
1
x
2
1
1
R1 R2
1
-2.5
-2.5
1 1
1
-1
-1
-1
1
1
1
1
-1.5
S=1
S=0
S=0
S=0
S=0
S=0
S=1
S=0 A
B
C
D
A=1
A=0
B=1
B=0
C=1
C=0
D=0
D=1
Figura 3.6: Ejemplo de clases formadas de regiones no convexas.
3.2. El algoritmo de retropropagacion del error
Derivacion del algoritmo de retropropagacion
Correccion de los pesos de la capa de salida
E
T
() = 1/2
N
2

k=1

t
k
s
2
k

2
= 1/2
N
2

k=1

t
k
f(e
2
k
)

2
= 1/2
N
2

k=1

t
k
f(
N
1

l=1

2
kl
s
1
l
)

2
E
T
()

2
ij
=
E
T
()
e
2
i

e
2
i

2
ij
=

e
2
i

2
ij
= s
1
j
E
T
()
e
2
i
=
E
T
()
s
2
i

s
2
i
e
2
i

s
2
i
e
2
i
= f

(e
2
i
)
E
T
()
s
2
i
= (1) (t
i
s
2
i
)

=
2
i

2
ij
= (t
i
s
2
i
) f

(e
2
i
) s
1
j
=
2
i
s
1
j
Correccion de los pesos de la capa oculta
E
T
() = 1/2
N
2

k=1

t
k
s
2
k

2
= 1/2
N
2

k=1

t
k
f(e
2
k
)

2
= 1/2
N
2

k=1

t
k
f

N
1

l=1

2
kl
s
1
l

2
=
1/2
N
2

k=1

t
k
f

N
1

l=1

2
kl
f

e
1
l

2
= 1/2
N
2

k=1

t
k
f

N
1

l=1

2
kl
f

N
0

m=1

1
lm
x
m

2
28
1.000
u11
0.000
u12
0.000
u13
0.000
u14
1.000
u15
1.000
u21
1.000
u22
0.000
u23
1.000
u24
1.000
u25
1.000
u31
0.000
u32
1.000
u33
0.000
u34
1.000
u35
1.000
u41
0.000
u42
0.000
u43
0.000
u44
1.000
u45
1.000
u51
0.000
u52
0.000
u53
0.000
u54
1.000
u55
1.000
u61
0.000
u62
0.000
u63
0.000
u64
1.000
u65
1.000
u71
0.000
u72
0.000
u73
0.000
u74
1.000
u75
1.000
h1
0.194
h2
1.000
h3
1.000
h4
0.001
h5
1.000
h6
0.949
h7
0.000
h8
1.000
h9
0.000
h10
0.010
A
0.001
B
0.000
C
0.022
D
0.002
E
0.001
F
0.001
G
0.008
H
0.000
I
0.000
J
0.016
K
0.014
L
0.922
M
0.053
N
0.000
O
0.000
P
0.000
Q
0.000
R
0.000
S
0.000
T
0.018
U
0.000
V
0.011
W
0.001
X
0.000
Y
0.000
Z
Figura 3.7: Ejemplo de perceptron como clasicador (ejemplo LETTERS del SNNS).
E
T
()

1
ij
=
E
T
()
e
1
i

e
1
i

1
ij
=

e
1
i

1
ij
= x
j
E
T
()
e
1
i
=
E
T
()
s
1
i

s
1
i
e
1
i

s
1
i
e
1
i
= f

(e
1
i
)
E
T
()
s
1
i
=

N
2
n=1
E
T
()
e
2
n

e
2
n
s
1
i
=

N
2
n=1
(1)(
2
n
)
2
ni

1
ij
= (

n

2
n

2
ni
) f

(e
1
i
) x
j
=
1
i
x
j
3.2.1. Convergencia del Back-Prop
Teorema general de convergencia: Sean
k
los valores propios de la matriz

2
E
T
()

j
para un dado. Si |1
k
| < 1 k, entonces cuando el n umero de iteraciones
tiende a , tiende a un mnimo local de E
T
(). Factor de aprendizaje:
< 2/
max
29
x
1
x
2
1,1 1,2 1,3 1,4 1,5
x
3
1,6
2,1 2,2 2,3 2,4
1
s
4
0
s
2
1
w
6,3
2
w
4,6
2
s
2
Figura 3.8: Funcionamiento del Perceptron Multicapa.
grande convergencia rapida y tendencia a oscilar.
peque na convergencia lenta.
3.2.2. Perceptrones de 1 o dos capas ocultas
A igualdad de n umero de pesos:
No existe diferencia estadstica en los resultados experimentales de clasicacion
tanto en la muestra de entrenamiento como en la de test en el mejor de los casos.
En promedio, las redes con una capa oculta clasican mejor que con dos capas
ocultas.
La redes con dos capas ocultas necesitan menos n umero de iteraciones para con-
verger que una red con una capa oculta.
30
x
1
x
2
1,1 1,2 1,3 1,4 1,5
x
3
1,6
2,1 2,2 2,3 2,4
1
s
i
2
s
i
t
i
2
w
i,j
1
w
i,j
2


i
3.2.3. Interpretacion probabilstica de las salidas de un per-
ceptron multicapa
M

t=1
p(x, t)

(t, j) s
2
j
(x)

2
= p(x)

(p(j|x) s
2
j
(x))
2
+ p(j|x) (1 p(j|x))

E
A
() =

dx p(x)
M

j=1

(p(j|x) s
2
j
(x))
2
+ p(j|x) (1 p(j|x))

(p(j|x) s
2
j
(x))
2
es el unico termino que depende de , por lo tanto E
A
()
alcanzara un mnimo absoluto cuando p(j|x) = s
2
j
(x)
Si se alcanza un mnimo absoluto del error cuadratico medio, las salidas de un
perceptron multicapa se corresponden con la probabilidad a posteriori subyacenter en
las muestras de entrenamiento.
31
x
1
x
2
1,1 1,2 1,3 1,4 1,5
x
3
1,6
2,1 2,2 2,3 2,4
1
s
i
2
s
i
t
i
2
w
i,j
1
w
i,j
1


i
3.3. Variantes y aspecto complementarios del algo-
ritmo de retropropagacion del error
3.3.1. Algoritmo de retropropagacion del error On-line.
3.3.2. Algoritmo de retropropagacion del error incremental
3.3.3. Sobre el factor de aprendizaje
3.3.4. Algoritmo de retropropagacion del error con momen-
tum

i
(k + 1) =
E
T
()

i
+
i
(k) 0 1
E
T
()

i
no cambia o lo hace lentamente:

i
(k + 1)

1
E
T
()

i
E
T
()

i
cambia de signo pero no de magnitud:

i
(k + 1)

1 +
E
T
()

i
32
Figura 3.9: Efecto del factor de aprendizaje.
Teorema: Los puntos estables del algoritmo de retropropagacion del error con mo-
mentum (
i
(k) =
i
(k + 1)) son mnimos locales de la funcion de error E
T
().
3.3.5. Condiciones de convergencia
Normalizacion
E
T
() =

n
i=1
||

t
i
s
2
(x
i
)||
2

n
i=1
||

t
i

t
M
||
2
con

t
M
=
1
n
n

i=1

t
i
Validacion
Un conjunto de entrenamiento: modicacion de los pesos.
Un conjunto de validacion: determinacion de la convergencia.
3.3.6. Representacion de valores
3.3.7. Paralisis de la red
f(x) =
1
1 + exp(x)
df(x)
dx
= f(x) (1 f(x))
Peque na contribucion cuando la entrada total es grande.
33
Figura 3.10: Efecto de realizar distintas inicializaciones
3.4. Otros algoritmos de aprendizaje
3.4.1. Algoritmo de retropropagacion rapida (QuickProp)
Asunciones
1: La curva de error puede ser aproximada mediante una parabola de igual
derivada. ( D
1
E)
2: Los cambios de pendiente ocasionados por un peso no afectan a los otros
pesos. (
E

2
E

2
)
Correcci

on de los pesos
(k) =
E

|
=(k)
E

|
=(k)

E

|
=(k1)
(k 1)
Problemas
1:
E

|
=(k)

E

|
=(k1)
2: (1) = 0?
34
Figura 3.11: Comparacion BackProp y PackProp con momentum
3:

|
=(k)

>

|
=(k1)

y signo(
E

|
=(k)
) = signo(
E

|
=(k1)
)
Soluciones
1: Factor de crecimiento maximo
si |(k)| > |(k 1)|
entonces (k) = (k 1)
2 y 3: Utilizar BackProp y QuickProp conjuntamente
si problema-2 o problema-3
entonces (k) =
QP
(k) +
BP
(k)
sino (k) =
QP
(k)
3.4.2. Funciones de activacion en escalon
3.4.3. Extensiones cuadraticas
3.4.4. Generalizacion del perceptron multicapa: redes hacia-
adelante
Salidas:
35
sobreentrenamiento
MSE
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
CICLOS
validacion
entrenamiento
BP
factor de aprendizaje = 0.2
generalizacion
0 250 500 750 1000 1250 1500 1750 2000
s
1
i
= f

j

11
ij
x
j

s
2
i
= f

j

22
ij
s
1
j
+

j

21
ij
x
j

Correccion de los pesos de la capa oculta a la de salida

22
ij
=
2
i
s
1
j

2
i
= (t
i
s
2
i
) f

(e
2
i
) 1 i N
2
, 1 j N
1
Correccion de los pesos de la capa de entrada a la de salida

21
ij
=
2
i
x
1
j

2
i
= (t
i
s
2
i
) f

(e
2
i
) 1 i N
2
, 1 j N
1
Correccion de los pesos de la capa de entrada a la oculta

11
ij
=
1
i
x
j

1
i
= (

n

2
n

22
ni
) f

(e
1
i
) 1 i N
1
, 1 j N
0
36
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
-10 -5 0 5 10
f(x)
df(x)
3.5. Seleccion de la topologa de un perceptron mul-
ticapa
3.5.1. Una primera taxonoma
M

etodos basados en la poda:


Poda de conexiones:
Metodos basados en la sensibilidad.
Metodos basados en el castigo.
Poda de nodos.
M

etodos incrementales.
B usqueda Incremental.
Correlacion en Cascada.
M

etodos por transformaci

on
37


Arboles de Decision.
3.5.2. Metodos de poda de conexiones basados en la sensibil-
idad
Sensibilidad: S

i
= E( :
i
= 0) E()
Calculos expl

citos de la sensibilidad de cada peso:


M

etodo 1:
Para todo
i
1.
i
:= 0
2. Calcular E( :
i
= 0) con la muestra de entrenamiento.
3. Si S

i
= E( :
i
= 0) E() es proxima a 0, jar
i
a 0.
Coste computacional O(||
2
n).
3.5.3. Metodos de poda de conexiones basados en al sensibil-
idad
Sensibilidad: S

i
= E( :
i
= 0) E()
38
x
1
x
2
1,2 1,3 1,4 1,5
x
3
1,6
2,1 2,2 2,3 2,4
11
w
6,3
1,1
22
w
4,6
21
w
1,1
Figura 3.12: Ejemplo red hacia-adelante.
Calculos expl

citos de la sensibilidad de cada peso:


M

etodo 2:
Repetir
1. Para todo
i
a)
i
:= 0
b) Calcular E( :
i
= 0) con la muestra de entrenamiento.
c) Calcular S

i
= E( :
i
= 0) E()
2. Si mn

i
S

i
es peque no, jar
i
a 0.
Hasta que mn

i
S

i
sea importante.
Coste computacional O(||
3
n).
39
Calculo de la sensibilidad: da no cerebral mnimo
E() =

k
E

k

k
+
1
2

l
D
kl

l
+ O(()
3
)
Donde D
kl
=

2
E

l
Si se aplica el metodo en la convergencia de BackProp:
E

k
= 0.
Si se desprecian los terminos de orden 3: ()
3
0.
Si
k
y
l
no estan correlados: D
kl
= 0 para k = l.
E()
1
2

k
D
kk

k
Si
i
=
i
, E
i
D
ii

2
i
2
S
i
Calcular S
i
. Eliminar el (los) peso(s) i de menor valor S
i
. El coste es O(||)
Calculo de la sensibilidad: ciruga cerebral optima
Si se aplica el metodo en la convergencia de BackProp:
E

k
= 0.
Si se desprecian los terminos de orden 3: ()
3
0.
E()
1
2

l
D
kl

l
Si
i
=
i
, y
j
: E vare lo menos posible: minimizacion con restricciones

j
=

i
[D
1
]
ii
[D
1
]
ji
con j = i
E
i
=
1
2

2
i
[D
1
]
ii
S
i
Calcular D
1
. Eliminar el (los) peso(s) i de menor valor S
i
. El coste es O(||
2
)
40
3.5.4. Metodos basados en el castigo
Se a nade un termino a la funcion de error a minimizar.

E() = E() +

2

2
i

E() = E() +

2
i

2
0
+
2
i
3.5.5. Metodos para la poda de nodos
Sensibilidad: S
i
= E( : j
ij
= 0) E()
s
k
i
= f

ij
s
k1
j

i
=

0 la unidad i no esta presente


1 la unidad i si esta presente
S
i
= E(
i
= 0) E(
i
= 1)
E

i
=1
41
E (1)
R1
E (2) < E (1)
R2 R1
E (3) < E (3)
R2 R3
1
2 3
E (4) > E (4)
R2 R3
4 5
3.5.6. Algoritmo de B usqueda Incremental
Algoritmo de B usqueda Incremental (1)
Algoritmo de B usqueda Incremental (2)
Algoritmo de B usqueda Incremental (3)
Algoritmo de B usqueda Incremental (4)
3.5.7. Algoritmo Cascade Correlation
Algoritmo Cascade Correlation (1)
Algoritmo Cascade Correlation (2)
Algoritmo Cascade Correlation (3)
Algoritmo Cascade Correlation
3.5.8.

Arboles de decision
H
i
: a
i,0
+
d

j=1
a
i,j
x
j
> 0?
42
E (6) < E (6)
R2 R1 E (7) > E (7)
R2 R3
6
7
8
E (7) > E (7)
R2 R1
9
10
3.5.9.

Arboles de decision y el Perceptron multicapa
3.6. Funciones radiales
3.6.1. Funciones radiales basicas
3.6.2. Redes de funciones radiales
M << n
s
2
i
(x) =

M
j=1

2
ij

j
(x) +
2
i0
con
j
(x) = exp

x
j

2
2
2
j

43
0
1
Maximizacion
Correlacion
Minimizacion
Error
1 i N
2
Caso particular de funciones discriminantes lineales generalizadas
s
2
i
(x) =
N
1

j=0

2
ij
f(
N
0

=0

1
jj
x
j
) con
j
(x) = f(
N
0

=0

1
jj
x
j
)
1 i N
2
Un perceptron multicapa!
3.6.3. Aprendizaje con redes de funciones radiales
3.6.4. Aprendizaje de las funciones radiales
Metodo de la mezcla de gaussianas
Dado A

= {x
1
, ..., x
n
}, estimar la densidad Pr(x) mediante una mezcla de gaus-
sianas
Pr(x)
M

j=1
c
j

1
(2
2
j
)
d/2
exp

x
j

2
2
2
j

44
2
M a x i m i z a c i o n
C o r r e l a c i o n
M i n i m i z a c i o n
E r r o r
El objetivo de maximizar

xA

Pr(x)
y quedarse con las medias y varianzas de las gaussianas.
Solucion: Metodo E-M.
3.7. Aspectos computacionales
3.7.1. Sobre la intractabilidad del aprendizaje de modelos conex-
ionistas
Para funciones de activacion en escalon:
Dada una red y un conjunto de muestras de aprendizaje, Existe una asignacion
de pesos a las conexiones para que la red produzca la salida deseada de cada
muestra de aprendizaje?
Este problema es NP-Completo, incluso si se restringe a que la red produzca
unas salidas deseadas solo 2 de cada 3 muestras.
Dada una red con 3 nodos, dos de ellos ocultos, el problema del aprendizaje es
NP-Completo.
Si las funciones de activacion son diferenciables, el problema es abierto.
45
3
M a x i m i z a c i o n
C o r r e l a c i o n
M i n i m i z a c i o n
E r r o r
3.7.2. Sobre la existencia de mnimos locales
Teorema: Dado un conjunto de entrenamiento de n muestras, de las cuales t
son diferentes entre si, la funcion error cuadratico medio no tiene mnimos locales
si la red es capaz de implementar las t muestras diferentes.
F
V,E,
(x) =

t para toda muestra de aprendizaje (x,

t)
Corolario: Un perceptron multicapa y t 1 nodos, no tiene mnimos locales si
se entrena con un conjunto de n muestras, t de las cuales son diferentes entre si.
3.7.3. Sobre la talla del conjunto de aprendizaje
Aprendizaje PAC
46
x
2
x
1
H =0
1
H =0
2
H =0
3
H =0
4
H > 0
1
H <0
1
H > 0
2
H > 0
4
H > 0
3
H <0
2
H <0
4
H <0
3
R1
R2 R1
R3
R4
C
1
C
2
C
1
C
2
C
3
H
1
H
2
H
3
H
4
R
1
C
1
R
2
C
2
R
5
C
2
R
3
C
1
R
4
C
3
SI
NO
SI SI
SI
NO
NO
NO
Dado un modelo, para conseguir que el error del modelo entrenado con una
muestra sea menor que un cierto con una probabilidad alta, se deben escoger
una muestra de entrenamiento de (
d

log
d

) muestras. Donde d es la dimension


VC (Vapnik-Chervonenkis) del modelo.
Esta cota es muy pesimista, en la practica se escogen (
d

) muestras.
En un perceptron multicapa de N de unidades, N
0
de entrada y W conexiones, su
dimension VC, d, verica que:
d 2W log
2
N para cualquier n umero de etapas y
47
H
1
H
2
H
3
H
4
R
1
C
1
R
2
C
2
R
5
C
2
R
3
C
1
R
4
C
3
C
1
C
2
C
3
1
1
1 1
1
R
1
R
2
R
3
R
4
R
5
H
1
H
2
H
3
H
4
1
1
1
-1
-1
1
1
-1
-1
1
1
-1
x
1
x
2
d W
N
0
N
0
+2
si solo tiene una capa oculta.
Si se utilizan mas de
W

log N muestras, la red entrenada puede clasicar correcta-


mente con una probabilidad alta una fraccion 1 del conjunto de entrenamiento.
En la practica se estima que el n umero de muestras de entrenamiento necesarias es de

3.7.4. Clasicacion estatica de segmentos de voz


D

gitos castellanos 1000 muestras de 10 locutores, 5 particiones: 800 de


entrenamiento, 8 locutores, 200 de test (1000 muestras de test efectivas). Un
perceptron de 1 capa oculta de 20 unidades.
Alineamiento entradas conexiones conex. total % aciertos
Segmentacion traza 10 11 2430 SI 99.8
Segmentacion traza 10 11 1100 NO 99.8
Lineal 10 11 2430 SI 98.6
48
1 1
S = exp(e )
j j
x
1
x
2
1,1 1,2 1,3 1,4 1,5
x
3
1,6
2,1 2,2 2,3 2,4
l = 1
l = 2
l = 0
1
S
4
0
S
2
2
S
i
1
S
i
0
S
i
2
w
1,1
2
w
i,j
2 2
S = f(e )
j j
2 2 1
e = w S
j j,i i
i

2
S
2
1 2
e = (x- ) )
j i i,j
i

>

1
>

2
>

3
>

4
>

5
>

6
E-letras castellanas 900 muestras de 10 locutores, 5 particiones: 720 de
entrenamiento, 8 locutores, 180 de test (900 muestras de test efectivas). Un per-
ceptron de 1 capa oculta de 20 unidades.
Alineamiento nodos entrada conexiones conex. total % aciertos
Lineal 20 11 4609 SI 83.4
Segmentacion traza 20 11 4609 SI 82.0
Segmentacion traza 10 11 1969 NO 76.6
3.7.5. Reconocimiento de caracteres manuscritos
D

gitos
500 muestras de 5 escritores, 5 particiones: 400 de entrenamiento, 100 de test.
Un perceptron de 1 capa oculta de 20 unidades.
1000 iteraciones
49
experimemto conexiones % aciertos
Dependiente del escritor 6630 85.6
Independiente del escritor 6630 72.6
3.7.6. Control de calidad de la pintura de los coches
imagen ja de 40075 pixels de 8 bits.
submuestreo a una imagen de 3030 pixels (900 unidades)
Una capa oculta de 50 unidades.
Una capa de salida que produca un valor entre 1 a 20.
45101 conexiones.
Aprendizaje: 6600 imagenes de cada una de las 18 supercies a estudiar (pre-
sentacion aleatoria).
Funcionamiento: se tomas 10 imagenes aleatorias y 10 secuencias y se promedian
los resultados.
3.7.7. Tratamiento de secuencias
Una secuencia de entrenamiento es
{$$$, a
1
), ($$a
1
, a
2
), ($a
1
a
2
, a
3
), (a
1
a
2
a
3
, a
4
)..., (a
n3
a
n2
a
n1
, a
n
)} o

0, x
1
), (

0x
1
, x
2
), (

0x
1
x
2
, x
3
), (x
1
x
2
x
3
, x
4
)..., (x
n3
x
n2
x
n1
, x
n
)

3.7.8. Codicacion
N
1
<< N
0
= N
2
.
El conjunto de entrenamiento son pares {(x
1
, x
1
), (x
2
, x
2
), ..., (x
n
, x
n
)}
50
Codicacion de imagenes de video
Problema: Codicar y reproducir con precision una imagen de video de 625 lineas
640 puntos a traves de un sistema de comunicaciones de un ancho de banda
medio o bajo.
Solucion con un perceptron multicapa: un perceptron de una capa oculta de talla
4 veces inferior a la de entrada y una de salida de identica talla a la de entrada:
compresion 4 a 1.
Problema con el perceptron multicapa:
Una imagen de 625640= 4 10
5
unidades.
Una capa oculta de 10
5
unidades.
8 10
10
conexiones.
Solucion por tratamiento de secuencias:
Una cuadro de 88 pixels= 64 unidades.
Una capa oculta de 16 unidades.
2048 conexiones.
Se necesitan menos muestras
Una imagen son 6250 cuadros de 88 pixels.
Problema de entrenamiento: se necesitan seleccionar cuadros aleatoriamente para
evitar la correlacion entre ellos.
51
Figura 3.13: El perceptron multicapa vs. la red de funciones radiales.
52
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 1000 2000 3000 4000 5000 6000 7000 8000
a
m
p
litu
d
e
[-2
^1
5
..2
^1
5
]
time (seg*HERTZ)
PARAMETRIZACION
Figura 3.14: Ejemplo de clasicacion estatica de segmentos de voz.
Figura 3.15: Ejemplo de reconocimiento de caracteres manuscritos.
53
contexto contexto
Figura 3.16: La red NET-TALK.
a
i-1
a
i
a
i+1
a
i+2
a
i+1
a
i+2
a
i+3
a
i+4
Figura 3.17: La a red NET-TALK: Prediccion.
x
1
x
2
x
3
x
4
x
5
x
1
x
2
x
3
x
4
x
5
Figura 3.18: Ejemplo de codicacion.
Captulo 5
Tema Otros Paradigmas
Conexionistas
5.1. Mapas autoorganizativos
x
1
x
2
x
3
x
4
x
5
x
6
x
7
w
1j
w
2j
w
3j
w
4j
w
5j
w
6j
w
7j
UNIDAD j
(t ,j)
0 (t ,j)
1
(t ,j)
2
5.1.1. Algoritmo de Kohonen
Learning Vector Quantization
54
Bibliograa
Bezdek, J.C. (1981): Pattern Recognition with Fuzzy Objective Function Algo-
rithms. Plenum Press, Nueva York.
Famili, A., Shen, W.-M., Weber, R., Simoudis, E. (1997): Data Preprocess-
ing and Intelligent Data Analysis. Intelligent Data Analysis Vol. 1, N
o
1, 3-23.
Fayyad, U. M. (1996): Data Mining and Knowledge Discovery: Making Sense
out of Data.

IEEE Expert, Intelligent Systems , Their Applications, Octubre 1996, 20-


25.
Frawley, W. J., Piatetsky-Shapiro, G. y Matheus, C. J. (1991): Knowledge
Discovery in Databases: An Overview. En: Piatetsky-Shapiro, G. y Frawley, W. J.
(eds.):Knowledge Discovery in Databases. AAAI Press/MIT Press, Menlo Park, 1-27.
Windham, M. P. (1981): C luster Validity for Fuzzy Clustering Algorithms.
Fuzzy Sets and Systems 5, 177-185.
Kohonen, T. (1995): Self-Organizing Maps. Springer-Verlag, Berlin
Heidelberg. P. Harmon, D. King: Sistemas Expertos, Aplicaciones de la in-
teligencia articial en la actividad empresarial, Daz de Santos, Madrid Espa na, 1988
E. Soares, Qualispesc : Sistema Inteligente para Auxlio na Avalia cao da Qual-
idade de Pescados, Universidade Federal de Santa Catarina, Florianopolis, 2000, pp.
42-44
Angstenberger, J., Weber, R. y Poloni, M. (1998): Data Warehouse Support
to Data Mining: A Database Marketing Perspective. Journal of Data Warehousing 3,
55
56
N
o
1, 2-11.
Holland, J.H., :.
A
daptation in Natural and Articial Systems, University of
Michigan Press, 1975, 211 p.
Goldberg, D.E., :Genetic Algorithms in Search, Optimization and Machine Learn-
ing, Addison- Wesley Publishing Company, 1989, 412 p.

También podría gustarte