Autor: Msc. Lemin Abanto Cerna Msc. Walter G. Alva Alva: Resumen

EVALUACIÓN DEL DESEMPEÑO DE LAS REDES NEURONALES, EN
COMPARACIÓN CON LOS MÉTODOS ESTADÍSTICOS TRADICIONALES DE

REGRESIÓN Y CLASIFICACIÓN.
Autor: MSc. LEMIN ABANTO CERNA
MSc. WALTER G. ALVA ALVA
Resumen
Este estudio tiene como objetivo comparar el rendimiento de los métodos

estadísticos de regresión y clasificación (análisis discriminante) con técnicas análogas
usando las redes neuronales. Como métodos estadísticos, se usó el análisis de
regresión para predecir el precio de venta de un conjunto de casas, en función de su
tamaño y su valoración; y el análisis discriminante para predecir si una empresa
quebrará o no, en base a un conjunto de ratios financieros. Los resultados de estos
modelos, se compararon con los correspondientes obtenidos usando las redes
neuronales; éstas, son técnicas emergentes implementadas como programas de
computadora, que emulan el comportamiento del cerebro humano. Para ello, se usó
dos conjuntos de datos; el primero relacionado al precio de venta de una muestra de
casas, así como de su tamaño y valoración correspondiente (Johnson, 1992; pp 299);
el segundo, usado en el problema de clasificación, corresponde a los ratios financieros
de 46 empresas y a su situación financiera (Bollella). La investigación comprobó que
en el problema de clasificación, las redes neuronales tuvieron un mejor desempeño
(su error cuadrático medio fue menor) que el análisis discriminante; mientras que en el
problema de regresión, el rendimiento fue muy similar con ambos métodos. Estos
resultados, muestran la importancia que están adquiriendo las redes neuronales en el
manejo de datos estadísticos, como una alternativa a los métodos tradicionales.
Palabras Clave: Redes Neuronales, Error Cuadrático Medio, Análisis de

Regresión, Análisis Discriminante.
1
INDICE
Resumen ...................................................................................................................... 1
INDICE ......................................................................................................................... 2
INDICE DE TABLAS ..................................................................................................... 3
INDICE DE FIGURAS ................................................................................................... 3
I. INTRODUCCION .................................................................................................. 4
1.1 Justificación .................................................................................................... 5
1.2 Limitaciones.................................................................................................... 6
1.3 Objetivos ........................................................................................................ 6
II. Marco Referencial Científico ................................................................................. 7
2.1 Antecedentes ..................................................................................................... 7
2.2 Análisis de regresión múltiple ............................................................................. 9
2.3 Análisis Discriminante (Clasificación) ............................................................... 10
2.4 Redes Neuronales ........................................................................................... 10
2.4.1 Elementos de una red neuronal .................................................................... 13
2.4.2 Forma de conexión (arquitectura) entre las capas ........................................ 15
2.4.3 Formas de aprendizaje ................................................................................. 17
2.4.4 Implementación de la red:............................................................................. 19
III. Metodología ..................................................................................................... 21
3.1 Tipo y diseño de investigación: ........................................................................ 21
3.2 Proceso de investigación ................................................................................. 21
IV. RESULTADOS ................................................................................................. 22
4.1 Análisis Discriminante (Clasificación) ............................................................... 22
4.1.1 Resultados en el SPSS ................................................................................ 22
4.1.2 Resultados de la red neuronal: ..................................................................... 23
4.2 Análisis de Regresión....................................................................................... 25
4.2.1 Resultados del modelo de regresión: ............................................................ 25
4.2.2 Resultados usando la red neuronal .............................................................. 27
V. Conclusiones ...................................................................................................... 29
VI. Discusión de resultados ................................................................................... 29
VII. Referencias Bibliográficas ................................................................................ 30
2
INDICE DE TABLAS
Tabla 01: Resultados de la clasificación ..................................................................... 22
Tabla 02: Clasificación de acuerdo a diferentes configuraciones de la red ................. 24
Tabla 03: Estimación de la regresión usando SPSS: .................................................. 25
INDICE DE FIGURAS
Figura 01: Neurona Biológica 10
Figura 02: Neurona artificial 12
Figura 03: Red multicapa 12
Figura 04: Función lineal identidad 14
Figura 05: Función Signo 14
Figura 06: Función sigmoidal logística 15
Figura 07: (a) Red con tres capas con conexión hacia delante. (b) Red con conexiones
laterales. (c) Red con conexiones hacia atrás o recurrentes 16
Figura 08: Errores de prueba y entrenamiento como una función de las épocas de
entrenamiento 20
Figura 09: Lectura de archivo y especificación de variables en Tiberius 23
Figura 10: Arquitectura de la red Neuronal 24
Figura 11: Relación entre los valores estimados y ajustados usando regresión lineal
simple 26
Figura 12: Entrenamiento de la red neuronal 27
Figura 13: Pronostico con la red neuronal 27
Figura 14: Relación entre los valores observados y estimados 28
3
I. INTRODUCCION
Durante los últimos años, hemos sido testigos de la aparición de nuevas técnicas
de análisis de datos, que surgen frente a la necesidad de manejar grandes volúmenes
de información; en estas circunstancias, los métodos estadísticos tradicionales tienen
serias dificultades para manejarlos, incluso, en algunos casos, no hay técnica
disponible. Frente a estas limitaciones, aparecen nuevos métodos para el manejo de
datos, inspirados en el comportamiento de las neuronas biológicas, como son las
redes neuronales. Las Redes Neuronales, tratar de emular el comportamiento de las
neuronas biológicas, para solucionar dichos problemas. Estas técnicas surgen gracias
al desarrollo de las computadoras y están inmersas dentro del campo de la Inteligencia
Artificial; esta nueva rama del conocimiento trata de crear cierta “inteligencia” a las
máquinas para que resuelvan problemas que en un principio se creía no tenían
solución.
Un sistema basado en redes neuronales, en sí no tiene verdadera Inteligencia

Artificial; si no que es un sistema basado en el conocimiento que, mediante la
presentación de ejemplos trata de aprender en forma similar a como lo hace el ser
humano, para luego operar en situaciones reales.
Esta nueva área de conocimiento está basada netamente en la computadora, y

actúa como una especie de caja negra; una red neuronal, una vez entrenada, recibe
información del medio externo y arroja resultados, sin que el usuario, tenga pleno
entendimiento de lo que pasa en su interior. A pesar de ello, su uso se va extendiendo
cada vez más en diferentes escenarios, tanto académicos, como empresariales o
institucionales (Martín del Brío y Sanz, 2002). En términos estadísticos, las redes
neuronales son estimadores no paramétricos o de modelos libres, que realizan
estimaciones sin la exigencia de los supuestos de los métodos tradicionales; por
ejemplo en el caso de la regresión, la estadística impone un conjunto de supuestos a
la línea de regresión. Por el contrario, las redes neuronales, no imponen esa serie de
requisitos, son los datos los que permiten que la red funcione.
En muchas ocasiones, ambas técnicas tratan de resolver problemas similares, de

modo que resulta lógico preguntarse, que metodología es más eficiente en la solución
de dichos problemas.
La presente investigación trata de responder a dichas preguntas, comparando la

eficiencia de las redes neuronales con los métodos estadísticos, en problemas de
regresión y clasificación (Análisis cluster).
4
En el Capítulo I, se describe la problemática relacionada con ambos métodos: los
métodos estadísticos de regresión y clasificación y las redes neuronales. En el
Capítulo II, se formula el Marco teórico que sustenta al trabajo de investigación. El
Capítulo III, hace referencia a la metodología utilizada en el trabajo, para cumplir con
los objetivos del trabajo. El Capítulo IV, muestra los resultados de la investigación,
incluyendo las estimaciones a través de los métodos estadísticos y las redes
neuronales. El Capítulo V, describe las conclusiones del trabajo de investigación y el
Capítulo VI la discusión de resultados.
1.1 Justificación
Los modelos de regresión y de clasificación son actividades que caracterizan tanto

a empresas como a instituciones; sus resultados muchas veces tienen implicancias
económicas muy grandes; por lo que su implementación es un tema crucial. Utilizando
estos métodos desde la perspectiva de la estadística, el investigador debe tener
mucha pericia para poder evaluar las bondades de dichos modelos, así como el
cumplimiento de sus supuestos; en sí mismo, el manejo de estos modelos se convierte
en un arte, se debe prever los escenarios de su aplicación, la calidad de los datos y el
alcance de sus resultados. Desde la perspectiva de las redes neuronales, una vez
construida la red, el investigador, no tiene mayormente ningún manejo de la red, sino
que por lo contrario, se convierte en un proceso automático. La evaluación y
comparación de cada enfoque, traerá como consecuencia más luces sobre las
bondades de cada método, lo que puede contribuir de manera significativa, a
incrementar el uso de una u otra metodología, y bajo qué condiciones.
La investigación así mismo pretende aperturar nuevas líneas de investigación, no

solo en los métodos estadísticos mencionados, sino que en muchos otros, como en el
análisis discriminante, escalas multidimensionales, regresión logística, etc.; es más,
nos dará una visión de las ventajas de cada metodología en la solución de problemas
reales.
5
1.2 Limitaciones
La mayor limitación de la investigación es la disponibilidad de bibliografía

estandarizada; aun no hay criterios que uniformicen la simbología de las redes
neuronales, en un cuerpo de conocimientos similar para todas las áreas del
conocimiento. Otra de las limitaciones es la disponibilidad de software de redes
neuronales licenciado; en la red, existen algunos programas de libre disponibilidad, sin
embargo tienen ciertas limitaciones, como es el manejo de una cantidad limitada de
datos.
1.3 Objetivos
Este trabajo tiene como objetivo comparar la eficiencia de dos técnicas

estadísticas: regresión múltiple y clasificación, con técnicas análogas implementadas
usando las redes neuronales.
6
II. Marco Referencial Científico
2.1 Antecedentes
El hombre desde tiempos remotos, ha soñado con crear máquinas con inteligencia
propia, aunque dichos esfuerzos recién dieron sus frutos en el año 1943, cuando
McCullock y Pitts (1943), propusieron un modelo de neurona de cerebro humano y
animal. Estas neuronas informáticas, proporcionaron una representación simbólica de
la actividad cerebral. Posteriormente en el año 1948, Nobert Wiener sintetizó estas y
otras ideas en un mismo campo que lo denominó Cibernética, a partir de cual nacería,
la Inteligencia Artificial.
Sin embargo, no fue sino hasta el congreso de Darthmouth en el año 1956, en el

cuál se dieron los lineamientos básicos de dicha rama del conocimiento, donde
oficialmente se dio el nacimiento de la Inteligencia Artificial y por ende el de las redes
neuronales.
En el caso de las redes neuronales, el trabajo que inició McCulloch y Pitts (1943),
marcaron el inicio en esta nueva disciplina, los cuales aportaron conocimientos sobre
la fisiología básica y funcionamiento de las redes neuronales cerebrales así como su
emulación mediante las neuronas artificiales.
Por otro lado, en el caso de los métodos de regresión y clasificación, su aparición

se remonta a la aparición de la estadística, y su uso, se ha visto favorecido con el
advenimiento de computadoras con grandes capacidades de almacenamiento y altas
velocidades de procesamiento de datos.
El análisis de regresión fue introducido por Francis Galton y confirmado por Karl
Pearson (como ce cita en Gujarati, 1997), a raíz de un estudio sobre la descripción de
los rasgos físicos de los descendientes, a partir de los rasgos de sus padres. Llegaron
a la conclusión de que la altura de los hijos tenía una tendencia a regresar a la
estatura promedio de los padres. Actualmente su uso está muy generalizado y busca
encontrar un modelo que permita pronosticar una variable (dependiente) a partir de
otro conjunto de variables (independientes) que se supone explican a la primera.
El análisis clusters, conocido también como análisis de conglomerados, taxonomía

numérica y actualmente como reconocimiento de patrones, es una técnica estadística
multivariante que tiene como objetivo, dividir un conjunto de objetos en grupos, de
manera que los elementos dentro de un mismo grupo sean lo más parecidos posible,
7
pero entre elementos de diferentes grupos existan diferencias marcadas. Las bases
matemáticas de esta técnica se remontan al libro “Principios of Numerical Taxonomy”,
escrito por Sokal y Sneath (1963) (citado en Cuadras, 1991), en el que exponen los
principios y procedimientos de la taxonomía numérica, inspirados en la clasificación de
las especies.
En cuanto a la comparación de los métodos estadísticos con las redes neuronales,

no existen ni en nuestro medio, ni en nuestro país, investigaciones que lo respalden. A
nivel mundial, Croall (1992), (citado por Martín del Brío y Sanz, 2002); realizó una
comparación de ambos métodos, llegando a la conclusión de que, no se puede
concluir que hay una supremacía de un método sobre otro. Por otro lado, Searle
(1994) (citado por Martín del Brío y Sanz, 2002) hizo una analogía de ambos métodos,
admitiendo que hay algunos modelos de redes neuronales que no tienen técnica
estadística equiparable. Flexer, 1995 (citado por Martín del Brío y Sanz, 2002) por su
parte, ha hecho un paralelismo de ambos métodos, resaltando que ni las redes son tan
excelentes como se ha tratado de demostrar, ni poseen tantos aspectos negativos,
como sugieren algunos estadísticos.
En el año 1998, aparece un estudio comparativo de las series de tiempo con las
redes neurales (Faraway), en el que se revelan muchos de los problemas de la
modelación con redes neuronales y refieren que éstas, no se pueden aplicar
ciegamente a los datos; por el contrario, consideran que el analista debe tener
habilidades en la modelación tradicional para seleccionar un buen modelo de red
neuronal.
A nivel de Latinoamérica, en una investigación realizada por Nojek, Britos, Rossi y

García Martínez (2003), se ha ce una comparación de las redes neuronales con
métodos estadísticos de pronósticos; concluyen que las redes neuronales tienen una
mejor performance que los métodos estadísticos en la predicción de las ventas de una
empresa; asimismo refieren que la utilización de los métodos estadísticos requieren
una mayor preparación y conocimientos, aunque en el caso de las redes, el usuario
necesita saber la topología de la red, así como el método de entrenamiento que se
debe usar.
En otro artículo publicado por Pantoja (s.f.), se compara los pronósticos del índice
general de la Bolsa de Valores de Colombia, a través de los modelos ARIMA y los
proporcionados por las redes neuronales; los autores refieren que las redes
neuronales pronostican mejor que los modelos ARIMA, en los casos de las variables
8
financieras, aunque no ocurre lo mismo con las series estacionarias en donde los
procesos GARCH, permiten capturar mejor la volatilidad de las series financieras.
Los estudios ponen en evidencia que aún no hay una concordancia sobre la
supremacía de un método sobre otro; la tendencia actual es a complementar ambos
métodos. Las redes neuronales aún necesitan de criterios estadísticos para una
elección adecuada de su estructura, así como para lograr un buen funcionamiento.
2.2 Análisis de regresión múltiple
Parte del supuesto de que una variable denominada variable dependiente está
influenciada por una o más variables independientes, a través de la siguiente relación
funcional:
Y   0   1 X 1   2 X 2     p X p   , matricialmente: 𝑌 = 𝑋𝛽 + 𝜇
Donde
 0 ,  1 ,  ,  p son los parámetros del modelo y  es el término de
error o residual.
Este modelo supone que se cumplen los siguientes supuestos:
a. Las variables independiente (X i) son fijas y que para cada valor de estas variables
se supone que existe una población de valores de y de los cuáles se elige
aleatoriamente uno.
b. La varianza de Y es la misma en cada valor del vector X (Homogeneidad de
varianzas). El cumplimiento de este supuesto es crucial para realizar pronósticos o
predicciones. El incumplimiento determina que exista Heterocedasticidad.
c. Los términos de error o residuales no deben estar correlacionados, es decir:
cov( u i ,  j )  0
.
d. Para propósitos de pronósticos e inferencias, además se debe cumplir que los
términos de error estén distribuidos normalmente con media cero y varianza  .

2
Uno de los métodos de estimación de este modelo es el de mínimos cuadrados, es

cual minimiza la suma de los cuadrados de los errores, para obtener el modelo
estimado:
𝑌̂ = 𝑋𝛽̂
9
2.3 Análisis Discriminante (Clasificación)
Esta técnica permite clasificar un conjunto de sujetos o elementos en dos o más

clases, utilizando para ello un conjunto de variables que caracterizan a dichos
elementos.
El procedimiento construye un conjunto de combinaciones lineales de las 𝑝

variables de entrada que discriminen mejor los 𝑔 grupos. La 𝑗 − é𝑠𝑖𝑚𝑎 función
discriminante toma la forma de:𝐷𝑗 = 𝑑𝑗1 𝑍1 + 𝑑𝑗2 𝑍2 + ⋯ + 𝑑𝑗𝑝 𝑍𝑝 , donde las Z’s son
variables estandarizadas a partir de las X’s. Las funciones discriminantes son
encontradas por la determinación de los valores propios de 𝑊 −1 𝐵, donde 𝑊 es la
suma de cuadrados dentro de los grupos y la matriz de productos cruzados y 𝐵 es la
suma de cuadrados de la muestra entre grupos y la matriz de producto-cruzado. Los
coeficientes de las funciones discriminantes son derivadas maximizando la separación
de los grupos.
2.4 Redes Neuronales
Las Redes Neuronales Artificiales son sistemas de procesamiento de la

información inspiradas en las redes neuronales biológicas (Figura 01).
Figura 01. Neurona Biológica
10
Las redes neuronales artificiales, constituyen un área de la IA y se crearon con la
finalidad de resolver problemas que en un principio se creía, sólo podrían ser
solucionados por el cerebro humano.
Las redes neuronales constituyen un enfoque totalmente diferente de analizar los
datos con respecto a las técnicas tradicionales. En lugar de utilizar modelos
preconcebidos, éstas utilizan el cerebro humano y su estructura, para desarrollar una
estrategia, que permita la solución de los problemas en forma similar a la que
resultaría de algún experto humano. Un elemento esencial de una red neuronal, es su
capacidad de aprendizaje a partir de los datos disponibles. Este aprendizaje está
inspirado en la forma de aprender que tiene lugar en las neuronas, el cual se va
perfeccionando en la medida que la red adquiere más entrenamiento, es decir tienen
la capacidad de aprender a realizar tareas a partir de una experiencia inicial.
Una red neural, relaciona un conjunto de variables de entrada o inputs
(independientes) {𝑥𝑖 }, 𝑖 = 1, … , 𝑘, a un conjunto de una o más variables objetivo u
outputs (dependientes) {𝑦𝑗 }, 𝑗 = 1, … , 𝑘. La diferencia entre una red neural y los otros
metodos de pronóstico, es que, ésta hace uso de una o más capas ocultas, en las
cuales las variables de entrada son transformadas por alguna función especial,
denominada función de salida o de transferencia. Mientras esta aproximación de capa
oculta, es una especie de caja negra, ella representa una forma muy eficiente para
modelar procesos estadísticos altamente no lineales.
La figura 02 muestra una unidad neuronal típica sugerida por McCulloch y Pitts
(1943). En ella se pueden distinguir las siguientes componentes: un conjunto de
conexiones de entrada, un conjunto de pesos, una función procesadora, un umbral de
activación y un valor de salida.
11
AXONES SINAPSIS
CUERPO
x1
W1 DENDRITAS
-1
x2
W2 AXON
Salida
xn Neurona
Wn
Entradas
Pesos
Figura 02: Neurona artificial
Un conjunto de neuronas forma una capa y varias capas conectadas entre sí

forman una red neuronal, como lo muestra la figura 03.
Figura 03 Red multicapa
12
2.4.1 Elementos de una red neuronal
Neuronas: Unidades procesadoras.
Es decir se trata de una unidad de proceso con n entradas, x1, x2 , , xn y una
unidad de salida:
n
y j  f (  wij x j )
j 0
Donde, f (x ) es la función neuronal (función de salida o función de transferencia) y
wij son los pesos que indican la aportación que tiene cada valor de entrada en la
suma (el peso wi 0  i indica el valor umbral de activación para la neurona, y x0  1 ,
es un valor auxiliar que permite introducir el valor umbral en el proceso)
Capas de una red
Una red se caracteriza porque tiene capas de entrada, capas ocultas y

capas de salida; cada una de ellas está constituida por un conjunto de nodos.
La capa de entrada tiene como objetivo distribuir la información contenida en
las variables de entrada hacia la capa oculta y está constituida por tantos
nodos como variables de entrada existan. La capa de salida por su parte se
encarga de proporcionar los resultados del entrenamiento de la red
Funciones de transferencia o de salida.
Las funciones de transferencia de un nodo, f (S ) , tienen el propósito de controlar la

potencia (fuerza) de la señal de salida del nodo. Las más usuales son:
Función lineal:
13
f ( x)  x; x  
Figura 04
Función signo de x:
 1, si x  0
sgn( x )  
 1, en otro caso
Figura 05
14
Función Sigmoidal:
1
𝑓(𝑥) =
1 + 𝑒 −𝑎𝑥
Figura 06
Función tangente hiperbólica:
𝑦 = tanh⁡(𝑥), cuyo gráfico es similar al anterior, pero definida en el intervalo [-1, 1]
2.4.2 Forma de conexión (arquitectura) entre las capas
Otra consideración del diseño de la red, está relacionada a la forma de

controlar sus conexiones. Esto permite que el flujo lógico sea introducido en
ella. La información puede ser canalizada y procesada en un área localizada de
la red. El paso a través de los nodos puede ser construido de manera que
reciban sólo una conexión de la capa precedente y pasar la información hacia
la próxima capa; así como también se pueden organizar en capas conectadas
por varios tipos de uniones, dependiendo de la manera como las salidas de las
neuronas están canalizadas para convertirse en entradas de otras neuronas
- Propagación hacia delante: Conectan neuronas de una capa con neuronas de la

capa siguiente, es decir ninguna salida de las neuronas es entrada de neuronas
del mismo nivel o de niveles precedentes.
- Propagación hacia atrás: Cuando las salidas pueden estar conectadas como
entradas de neuronas de niveles previos o del mismo nivel, incluyéndose ellas
mismas. En el caso particular que las conexiones sean hacia atrás, la arquitectura
es adecuada para tratar modelos dinámicos y temporales, como el que se
pretende implementar en el trabajo. En la figura 10, se ilustran este tipo de redes.
15
Figura 07 (a) Red con tres capas con conexión hacia delante. (b) Red con
conexiones laterales. (c) Red con conexiones hacia atrás o recurrentes.
16
2.4.3 Formas de aprendizaje
La característica principal de las redes es su capacidad de aprender a partir de los

datos. Dependiendo de este tipo de información, las formas de aprendizaje se pueden
clasificar en dos categorías, según lo señala Martín del Brio, B. & Sanz M. (2002):
- Aprendizaje no supervisado: en este caso, es la red, la que tiene que descubrir

por si misma los patrones, sin información externa. Dentro de los más importantes
en esta categoría, tenemos: al aprendizaje Hebbiano, que consiste en modificar
los pesos de acuerdo con algún criterio de correlación entre las actividades
neuronales; y el aprendizaje competitivo, donde neuronas diferentes se conectan
con pesos negativos (inhibitorios) que fuerzan una competición para ganar la
actividad neuronal.
- Aprendizaje supervisado: aquí se proporciona a la red, los patrones para el

aprendizaje junto con la salida deseada; si la respuesta de la red, no coincide con
la salida deseada, se procede a modificar los pesos de las conexiones, con el fin
de que la salida obtenida se aproxime a la deseada. Este proceso es controlado
por una especie de agente externo que determina la respuesta que debería
generar la red a partir de un patrón de entrada determinado y los pesos se
obtienen minimizando alguna función de error1, que mide la diferencia entre los
valores de salida deseados y los calculados por la red.
- Algoritmos de aprendizaje:
Dependiendo los tipos de aprendizaje, también hay dos categorías de algoritmos de

entrenamiento, los algoritmos supervisados y los no supervisados.
Los algoritmos de aprendizaje supervisado, se pueden clasificar de dos maneras:
El algoritmo de corrección del error, que altera los pesos de la neurona después
de la presentación de un patrón para corregir el error de salida.
Algoritmo basado en el gradiente: modifica los pesos de la neurona después de la

presentación de un patrón2 para minimizar el error cuadrático medio sobre todo los
1
𝐸(𝑊) = (1/𝑝)‖𝑌 − 𝑊𝑋‖2
2
Cada caso u observación asociado a las variables de entrada del modelo y a las variables de salida es
denominado patrón de entrenamiento.
17
patrones. Esto se logra modificando los pesos en dirección opuesta al gradiente de
la función de error.
Durante el proceso de aprendizaje, se debe distinguir dos fases: la fase de aprendizaje

o entrenamiento y la fase de operación o funcionamiento de la red, existiendo un
conjunto de datos de entrenamiento y un conjunto de datos validación o de prueba,
utilizados en la fase correspondiente (Bishop, 1995; Ripley, 1996). En la fase de
entrenamiento, el algoritmo mencionado actualiza los pesos de acuerdo a la siguiente
regla:
𝑃𝑒𝑠𝑜⁡𝑛𝑢𝑒𝑣𝑜 = 𝑃𝑒𝑠𝑜⁡𝐴𝑛𝑡𝑖𝑔𝑢𝑜 + 𝑐𝑎𝑚𝑏𝑖𝑜⁡𝑑𝑒⁡𝑃𝑒𝑠𝑜, que matemáticamente está dada por:
𝑊𝑖𝑗 (𝑡 + 1) = 𝑊𝑖𝑗 (𝑡) + 𝛼(−∇t)

En este caso,
𝑡: se refiere a la etapa de aprendizaje
𝑊𝑖𝑗 (𝑡 + 1): el peso nuevo
⁡𝛼: es la tasa de aprendizaje que varía entre 0 y 1. Hay que tener en cuenta que este
valor es fundamental en el proceso de entrenamiento de la red, ya que controla el
cambio de los pesos en cada iteración. Un valor pequeño hace disminuir la velocidad
de convergencia y la posibilidad de quedar atrapado en un mínimo local; en cambio un
ritmo de aprendizaje demasiado grande puede provocar inestabilidades en la función
de error y evitar que se produzca la convergencia debido a que se darán saltos en
torno al mínimo sin alcanzarlo. En general la tasa de aprendizaje suele estar
comprendida entre 0.05 y 0.5 (Rumelhart, Hinton y Williams, 1986).
∇t: es el gradiente de la función de error con respecto a los pesos 𝑊𝑖𝑗
Este algoritmo basado en la técnica del descenso por el gradiente, calcula las
derivadas de la superficie de error respecto a cada peso, ∂E(W)/ ∂Wij, con la finalidad
de encontrar el valor mínimo de la función de error, aunque nadie garantiza que se
llegue o que sea el camino más rápido hacia él. Frente a estas dificultades surgen
otros métodos, dentro de los cuáles se encuentra el algoritmo de Levenberg-
Marquardt. Este método, si bien acelera la convergencia, es mucho más complejo de
implementar. La actualización de pesos con este algoritmo se realiza con la siguiente
aproximación:
1
Wij (t + 1) ≈ Wij (t) − JT e
μ
18
Donde:
μ: es un parámetro establecido generalmente en un valor pequeño como 0.01

(Hagan, Demuth, Beale, 1996).
J3: es la matriz jacobiana.
e = E(W): es el vector de errores.
2.4.4 Implementación de la red:
Se debe tener en cuenta las siguientes consideraciones:
Determinar la arquitectura de la red: depende del tipo de problema a investigar.

Elección de los pesos iniciales: en forma aleatoria.
Pre procesamiento de los datos: cuando se utiliza funciones de transferencia
sigmoidales, los datos continuos se deben codificar al intervalo [0, 1] o [-1, 1].
Entrenamiento de la red: se utiliza una parte de los datos (75%) para entrenar la red y
calcular los pesos en la fase de aprendizaje.
Validación: después de calcular los pesos en la fase anterior, se debe comprobar la
calidad del modelo resultante a través de alguna medida de error. Generalmente se
usa el Error Cuadrático Medio, definido como:
r 2
ECM   b p  bˆ p / r
p 1
donde b̂ p es la salida de la red para el vector de entrada b p
Así mismo es importante realizar una validación cruzada para obtener una medida de
la calidad del modelo. En este sentido, los datos disponibles (patrones) se deben
disponer en dos partes: una parte destinada al entrenamiento de la red y la otra parte
a la comprobación. El entrenamiento es usualmente medido en épocas, el número de
presentaciones del conjunto de entrenamiento a la red.
Cuando el error de comprobación es mucho mayor que el error de entrenamiento,
entonces se produce un problema de sobreajuste durante el proceso de
entrenamiento. En realidad, ambos errores deberían ser similares, lo cual indica que
se han capturado las tendencias reales del modelo.
3
𝜕𝑒𝑖𝑗
𝐽={ }
𝜕𝑤𝑘𝑙
19
Típicamente cuando el número de épocas de entrenamiento se incrementa,
veremos los siguientes gráficos, independientemente del tipo de modelo de ANN.
Conjunto prueba
Conjunto Entrenamiento
Epocas de entrenamiento
Figura 08 Errores de prueba y entrenamiento como una función de las épocas de

entrenamiento
El error del conjunto de entrenamiento, mide cuán bien la ANN modela los datos.
Debido a que nunca entrenamos sobre el conjunto de datos de prueba y los términos
de error son no correlacionados, el error del conjunto de prueba es una medida de que
tan bien el modelo sigue el patrón F o generaliza los conjuntos de datos. En la sección
A del gráfico, el error del conjunto de prueba comienza a aprender el patrón de la serie
de tiempo, indicado por el error decreciente. En Z épocas, el error del conjunto de
prueba es mínimo-la red ANN ha encontrado la función F en su nivel óptimo. Más allá
de éste mínimo, en la sección B, el error del conjunto de entrenamiento continúa
decreciendo, mientras que error del conjunto de prueba se incrementa. Este hecho se
explica porque al inicio la red se adapta progresivamente al conjunto de aprendizaje,
adaptándose al problema y mejorando la representación, luego en un momento dado,
el sistema se ajusta demasiado a las particularidades de los patrones empleados en el
entrenamiento, captando incluso el “ruido” en ellos presente, de manera que el error
que comete ante patrones diferentes a los empleados en el entrenamiento comienza a
crecer, produciéndose el sobreaprendizaje o sobre ajuste (Libro de Bonifacio Martín).
20
III. Metodología
3.1 Tipo y diseño de investigación:
Teniendo en cuenta la naturaleza de la investigación, es aplicada porque busca la

solución práctica de un problema (Sánchez & Reyes, 1996). Esta investigación sigue
un diseño no experimental, comparativo (Hernández, Fernández & Baptista, 2010),
porque de acuerdo a los objetivos planteados, comparar la eficiencia de dos métodos
en problemas de regresión y clasificación.
3.2 Proceso de investigación
Para lograr los objetivos de la investigación, se utilizó dos conjuntos de datos. El

primero tiene que ver con un problema de clasificación, en donde el objetivo es
encontrar un modelo que permita predecir si una empresa quebrará o no en base a un
conjunto de ratios financieros, como el Flujo de caja / Deuda total, Ingreso neto / Activo
total, Activo corriente / Pasivo corriente, Activo corriente /Ventas netas (Bollella). El
segundo conjunto de datos, se utilizó para el análisis de regresión; en este caso el
objetivo es predecir el precio de venta de las casas, en función de su tamaño y su
valoración.
Para ejecutar la regresión y clasificación, se utilizó el programa estadístico SPSS

13.0, en el cuál se realizó la estimación del modelo, así como la aplicación de los
problemas de clasificación. La puesta en escena de las redes neuronales, se hizo en
el programa de distribución libre, Tiberius.
Para comparar el rendimiento de los modelos de regresión y de clasificación, se

utilizó el error cuadrático medio (ECM), que es una medida de los errores de
estimación y como tal, es mejor, aquél que muestre un ECM más pequeño. Este
indicador está definido como:
∑ e2i
ECM = √ ̂, son los errores de estimación.
, donde ei = Y − Y
n
Muestra: para el problema de clasificación, se tomó información de los Ratios

financieros de 46 empresas, y la situación de las mismas (quiebre o no quiebre de la
empresa) (Bollella). El problema de regresión, consiste en pronosticar el precio de
venta (Y en dólares) de las casas, en función del tamaño de la casa (X1: 100 pies 2) y
de la valoración asociada (X 2: $1000) (Johnson, 1992; pp 299)
21
IV. RESULTADOS
4.1 Análisis Discriminante (Clasificación)
El objetivo es predecir si una empresa quebrará (variable dependiente) en base a

los siguientes ratios financieros (Variables independientes):
Flujo de Caja / Deuda Total (X1 )

Ingreso Neto / Activo Total (X 2 )
Activo Corriente / Pasivo Corriente (X 3 )
Activo Corriente / Ventas Netas (X4 )
4.1.1 Resultados en el SPSS
En este caso la variable dependiente, quiebra de la empresa (Y), es una variable

dicotómica codificada como uno (1) si la empresa no quebró y con cero (0) si la
empresa quebró.
Utilizando el programa estadístico SPSS 13.0, en la opción correspondiente al

análisis discriminante, se obtienen los siguientes resultados:
Tabla 01: Resultados de la clasificación

Predicted Group Membreship
0 1 Total
Original Count 0 15 4 19
1 4 19 23
Ungrouped cases 1 3 4
% 0 78.9 21.1 100.0
1 17.4 82.6 100.0
Ungrouped cases 25.0 75.0 100.0
Cross- Count 0 14 5 19
validated(a 1 7 16 23
Ungrouped cases
% 0 73.7 26.3 100.0
1 30.4 69.6 100.0
Ungrouped cases
a Cross validation is done only for those cases in the analysis. In cross
validation, each case is classified by the functions derived from all cases
other than that case.
b 81.0% of original grouped cases correctly classified.
c 71.4% of cross-validated grouped cases correctly classified.
22
Los resultados evidencian que el 81% (15+19=34 de 42 empresas) de empresas han
sido clasificados correctamente. La validación cruzada permite comprobar la
capacidad predictiva de la función discriminante, para ello el SPSS genera tantas
funciones discriminantes como casos válidos tiene el análisis; cada una de esas
funciones se obtiene eliminando un caso. Después cada caso es clasificado utilizando
la función discriminante en la que no ha intervenido.
4.1.2 Resultados de la red neuronal:
Para realizar la clasificación con redes neuronales, se utilizó el programa

Tiberius Versión 6.1.9 (demo). Esta versión tiene la limitación de que se puede
trabajar con un máximo de 5 neuronas de entrada, 250 patrones
(observaciones) y 4 neuronas ocultas. Los datos fueron suministrados al
programa Tiberius en formato Excel.
Modelado de la Red Neuronal:
Leer el archivo de datos e indicar cuáles son las variables de entrada y salida.
Figura 09: Lectura de archivo y especificación de variables en Tiberius
23
Configuración de la red:
Figura 10: Arquitectura de la red Neuronal
Tabla 02: Clasificación de acuerdo a diferentes configuraciones de la red
Modelo Nº Neuronas Tasa de %True % False %Total

aprendizaje
1 1 0.7 85.0 76.5 81.1
2 1 0.4 70.0 100.0 83.3
3 2 0.7 95.0 94.1 94.6
4 2 0.0000001 0 100.0 45.9
5 3 0.7 100 100 100
6 4 0.7 100 94.1 97.3
La configuración 5, es la que clasifica a todo los patrones de manera

correcta. Esta configuración se caracteriza por tener una capa con 3 neuronas
y una taza de aprendizaje de 0.7.
24
4.2 Análisis de Regresión
Este caso tiene como objetivo predecir el precio de venta (Y) de las
casas en función del tamaño de la casa (𝑋1 ) y de la valoración asociada (𝑋2).
4.2.1 Resultados del modelo de regresión:
Tabla 03: Estimación de la regresión usando SPSS:
Sum of Mean
Model Squares df Square F Sig.
Regression 1029.040 2 514.520 41.885 .000(a)
Residual 208.830 17 12.284
Total 1237.870 19
a Predictors: (Constant), Valor asociado ($1000), Tamaño total vivienda
b Dependent Variable: Precio de venta ($1000)
Model Summary
R Adjusted R Std. Error of the

Model R Square Square Estimate
1 .912(a) .831 .811 3.50487
a Predictors: (Constant), Valor asociado ($1000), Tamaño total vivienda
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Cons tant) 11.966 4.949 2.418 .027
Tamaño total vivienda 2.567 .784 .854 3.275 .004
Valor asociado ($1000) .068 .285 .062 .238 .815
a. Dependent Variable: Precio de venta ($1000)
25
yest
90
80 R² = 0.7904
70
Yest
60
50
40
40 50 60 70 80 90
Figura 11: Relación entre los valores estimados y ajustados usando regresión
lineal simple
Los resultados ponen en evidencia que el modelo completo es

significativo (Sig.<0.05), indicando que tanto el tamaño total de la vivienda y el
valor asociado explica aproximadamente el 81.1% de la variación en el precio
de venta. Al evaluar la contribución individual, se observa que el tamaño total
de la vivienda contribuye a explicar de manera significativa (Sig.<0.05) al precio
de venta; en cambio, el valor asociado a la vivienda, no tiene una influencia
significativa en el modelo.
El coeficiente de determinación entre los valores observados y los estimados
usando el modelo de regresión lineal simple es de 0.7901. Así mismo se
encontró que el error cuadrático medio del modelo de regresión es:
̂2
∑(𝑌−𝑌)
EMC=√ =3.6578.
𝑛
Ambos valores nos permitirán comparar el rendimiento del modelo frente a los
resultados que brinda la red neuronal.
El pronóstico del precio de venta, cuando el tamaño de la casa es de X1 =15
(100 pies 2) y la valoración asociada X2 =45 ($1000), es:
Precio=11.966+2.567*15+0.068*45=$53.5
26
4.2.2 Resultados usando la red neuronal
Figura 12: Entrenamiento de la red neuronal
Min Exp Max Exp
x1 15 13,89 25,76
x2 45 35,6 69,6
Prediction
y 53.08 48 82
Clear
Figura 13: Pronostico con la red neuronal
27
La red uso tres neuronas, con una tasa de aprendizaje de 0.07. El
entrenamiento de la red dio como resultado un Error Cuadrático Medio de
2.6119.
La Figura 13 muestra que el coeficiente de determinación entre los valores

estimados y observados es de 0.8605. Tanto este valor como el
correspondiente al ECM, evidencian que si bien la diferencia entre ambos
procesos de estimación del modelo son similares, la red neuronal es
ligeramente más eficiente al presentar un mayor coeficiente de determinación y
un menor ECM.
85
80
R² = 0.8605
75
70
65
Yest
60
55
50
45
40
40 50 60 70 80 90
Figura 14: Relación entre los valores observados y estimados
El pronóstico con la red neuronal, para los mismos valores de las variables
independientes (Fig. 13), es de $53.08, cifra ligeramente inferior a la lograda
por el modelo de regresión.
28
V. Conclusiones
En la investigación se ha comprobado que los modelos de redes

neuronales artificiales tienen un mejor rendimiento en el problema de
clasificación, mas no en el problema de regresión, los resultados son muy
similares. En el problema de clasificación, el análisis discriminante logra
clasificar adecuadamente al 81% de los casos, mientras que la red neuronal
logra clasificar al 100% de las empresas.
Por otro lado, en el análisis de regresión la diferencia es mínima, en

favor de las redes neuronales; sin embargo no se puede establecer que las
redes tienen un mejor rendimiento que los modelos de regresión, en la
realización de los pronósticos.
VI. Discusión de resultados
El análisis de los dos casos con los métodos clásicos y con las redes
neuronales, tiene sus ventajas y desventajas. Si bien, las redes neuronales una
vez implementadas, son relativamente fáciles de usar, sin embargo no permiten
que el usuario “vea lo que hay detrás de ellas”; aunque también requiere cierta
pericia del usuario para encontrar la estructura óptima. Aquí no existen
supuestos preestablecidos sobre el modelo que representa a los datos, por el
contrario, la estructura surge como resultado del análisis. En el caso del
análisis de regresión, se requiere sólidos conocimientos en los modelos de
regresión, incluyendo los supuestos del modelo, así como también el
conocimiento de las consecuencias de su falta de conocimiento. Esta
desventaja se ve recompensada, porque el usuario tiene un mayor dominio del
modelo, así como de la interpretación de sus estimadores.
Si bien en el problema de clasificación se observa que las redes neuronales

proporcionan un mejor desempeño, sin embargo en el problema de regresión, la
supremacía no se puede demostrar; es más, el modelo de regresión tiene la ventaja de
que permite calcular intervalos de confianza para los pronósticos, lo que no es posible
con las redes neuronales.
29
VII. Referencias Bibliográficas
01. Acosta, B. A. & Zuluaga M. (2000). Tutorial sobre Redes Neuronales

Aplicadas en Ingeniería Eléctrica y su implementación en un sitio Web.
Revista Colombiana de Tecnologías Avanzadas. Pereira-Colombia.
02. Berenson, M. L., Levine, D. M. & Krehbiel T. C. (2001). Estadística para
Administración (2ª ed.). México: Pearson Educación.
03. Bishop, C. M. (1995). Neural networks for pattern recognition. Oxford:
Oxford University Press.
04. Castillo, E., Cobo, A. & Gutiérrez, J. M (1999). Introducción a las Redes
Funcionales con Aplicaciones: Un nuevo paradigma neuronal. Madrid
España: Edit. Paraninfo..
05. Castillo, E., Gutiérrez, J. M. & Hadi, A. S. (1999). Expert Systems and
Probabilistic Network Models. New York: Edit. Springer Verlag.
06. Cuadras, C: M. (1991). Métodos de Análisis Multivariante. Barcelona.
Promociones y Publicaciones Universitarias, S. A.
07. David, J.C. & McKay (2003). Information Theory, Inference, and Learning
Algorithms. Cambridge University Press.
08. Faraway, J. & Chatefield, C. (1998). Time series forecasting with neural
networks: a comparative study using the airline data. Appl. Statist, 47,
Part2, pp. 231-250.
09. Gujarati, D. N. (1997). Econometría. Colombia: McGraw HILL, INC.
10. Hagan, M. T., Demuth, H.B., & Beale, M. (1996). Neural Network Design.
Boston: PWS Publishing Company.
11. Hernández, R., Fernández, C.& Baptista, P. (2010). Metodología de la
Investigación. (5ª ed.). México: McGraw-Hill.
12. Johnson, A. R., Wichern, D. W. (1993). Applied Multivariate Statistical
Analysis. New Jersey. Prentice Hall, Inc. 3ª Ed.
13. Martín del Brío, B. & Sanz M. A. (2002). Redes Neuronales y Sistemas
Difusos. Madrid-España: Ed. Alfaomega, Ra-Ma.
14. McCulloch, W. S. & Pitts, W. (1943). A logical Calculus of Ideas Immanent
in Nervous Activity. Bulletin of Mathematical Biophysics, 5, 115-133.
15. Nojek, S., Britos, P., Rossi, B. & García Martínez, R. (2003). Pronóstico de
Ventas: Comparación de Predicción basada en Redes Neuronales versus
Método Estadístico. Reportes Técnicos en Ingeniería del Software. Vol.
5(1). Pág. 1-12.
16. Ruiz, C.A. & Basualdo, M.S. (2001). Redes Neuronales: Conceptos
Básicos y Aplicaciones. Rosario-Argentina.
17. Ripley, B.D. (1996). Pattern recognition and neural networks. Cambridge:
Cambridge University Press.
18. Rumelhart, D.E., Hinton, G.E. & Williams, R.J. (1986). Learning internal
representations by error propagation. En: D.E. Rumelhart y J.L. McClelland
(Eds.). Parallel distributed processing318-362. Cambridge, MA: MIT Press.
19. Sánchez, H. & Reyes, C. (1996). Metodología y diseños en la
investigación científica. Lima: Mantaro.
30
20. Zhang, G.P, Keil, M., Rai, A., & Mann, J. (2003). Predicting information
technology project escalation: A neural network approach. European
Journal of Operational Research, 146, 115–129.
Referencias Electrónicas
21. Análisis de la regression.

Recuperado en http://es.wikipedia.org/wiki/An_A1lisis_de_la_regresi_B3n
22. Bollella, Ana. Introducción a la Computación Neuronal.
Recuperado en:
http://www.monografias.com/trabajos12/redneuro/redneuro.shtml
23. Pantoja, R. M. C. Comparative Analysis of time series Forecasting with
neuronal networks, ARIMA models and GARCH process for non-stationary
time series.
Recuperado de
http://guaica.uniandes.edu.co:5050/dspace/bitstream/1992/373/1/mi_1258.
pdf
31

Autor: Msc. Lemin Abanto Cerna Msc. Walter G. Alva Alva: Resumen

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Autor: Msc. Lemin Abanto Cerna Msc. Walter G. Alva Alva: Resumen

Cargado por

Copyright:

Formatos disponibles

EVALUACIÓN DEL DESEMPEÑO DE LAS REDES NEURONALES, EN

COMPARACIÓN CON LOS MÉTODOS ESTADÍSTICOS TRADICIONALES DE

Autor: MSc. LEMIN ABANTO CERNA

MSc. WALTER G. ALVA ALVA

Este estudio tiene como objetivo comparar el rendimiento de los métodos

Palabras Clave: Redes Neuronales, Error Cuadrático Medio, Análisis de

Tabla 01: Resultados de la clasificación ..................................................................... 22

Tabla 02: Clasificación de acuerdo a diferentes configuraciones de la red ................. 24

Tabla 03: Estimación de la regresión usando SPSS: .................................................. 25

Figura 01: Neurona Biológica 10

Figura 02: Neurona artificial 12

Figura 03: Red multicapa 12

Figura 04: Función lineal identidad 14

Figura 05: Función Signo 14

Figura 06: Función sigmoidal logística 15

laterales. (c) Red con conexiones hacia atrás o recurrentes 16

Figura 09: Lectura de archivo y especificación de variables en Tiberius 23

Figura 10: Arquitectura de la red Neuronal 24

Figura 12: Entrenamiento de la red neuronal 27

Figura 13: Pronostico con la red neuronal 27

Figura 14: Relación entre los valores observados y estimados 28

Un sistema basado en redes neuronales, en sí no tiene verdadera Inteligencia

Esta nueva área de conocimiento está basada netamente en la computadora, y

En muchas ocasiones, ambas técnicas tratan de resolver problemas similares, de

La presente investigación trata de responder a dichas preguntas, comparando la

Los modelos de regresión y de clasificación son actividades que caracterizan tanto

La investigación así mismo pretende aperturar nuevas líneas de investigación, no

La mayor limitación de la investigación es la disponibilidad de bibliografía

Este trabajo tiene como objetivo comparar la eficiencia de dos técnicas

Sin embargo, no fue sino hasta el congreso de Darthmouth en el año 1956, en el

Por otro lado, en el caso de los métodos de regresión y clasificación, su aparición

El análisis clusters, conocido también como análisis de conglomerados, taxonomía

En cuanto a la comparación de los métodos estadísticos con las redes neuronales,

A nivel de Latinoamérica, en una investigación realizada por Nojek, Britos, Rossi y

2.2 Análisis de regresión múltiple

términos de error estén distribuidos normalmente con media cero y varianza  .

Uno de los métodos de estimación de este modelo es el de mínimos cuadrados, es

Esta técnica permite clasificar un conjunto de sujetos o elementos en dos o más

El procedimiento construye un conjunto de combinaciones lineales de las 𝑝

2.4 Redes Neuronales

Las Redes Neuronales Artificiales son sistemas de procesamiento de la

Figura 01. Neurona Biológica

Figura 02: Neurona artificial

Un conjunto de neuronas forma una capa y varias capas conectadas entre sí

Figura 03 Red multicapa

Neuronas: Unidades procesadoras.

Es decir se trata de una unidad de proceso con n entradas, x1, x2 , , xn y una

Donde, f (x ) es la función neuronal (función de salida o función de transferencia) y

suma (el peso wi 0  i indica el valor umbral de activación para la neurona, y x0  1 ,

es un valor auxiliar que permite introducir el valor umbral en el proceso)

Capas de una red

Una red se caracteriza porque tiene capas de entrada, capas ocultas y

Funciones de transferencia o de salida.

Las funciones de transferencia de un nodo, f (S ) , tienen el propósito de controlar la

𝑦 = tanh⁡(𝑥), cuyo gráfico es similar al anterior, pero definida en el intervalo [-1, 1]

2.4.2 Forma de conexión (arquitectura) entre las capas

Otra consideración del diseño de la red, está relacionada a la forma de

- Propagación hacia delante: Conectan neuronas de una capa con neuronas de la

La característica principal de las redes es su capacidad de aprender a partir de los

- Aprendizaje no supervisado: en este caso, es la red, la que tiene que descubrir

- Aprendizaje supervisado: aquí se proporciona a la red, los patrones para el

Dependiendo los tipos de aprendizaje, también hay dos categorías de algoritmos de

Los algoritmos de aprendizaje supervisado, se pueden clasificar de dos maneras: