Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dialnet DesarrolloDeTecnicasDeMineriaDeDatosEnProcesosIndu 1166 PDF
Dialnet DesarrolloDeTecnicasDeMineriaDeDatosEnProcesosIndu 1166 PDF
Modelizacin en lneas
de produccin de acero
Modelizacin en lneas
de produccin de acero
Universidad de La Rioja
Servicio de Publicaciones
2007
Esta tesis doctoral, dirigida por los doctores D. Joaqun B. Ordieres Mere y D. Eliseo P. Vergara Gonzlez,
fue leda el 31 de julio de 2006, y obtuvo la calificacin de Sobresaliente Cum Laude Unanimidad
ISBN 978-84-690-5501-4
UNIVERSIDAD DE LA RIOJA
Departamento de Ingeniera Mecnica
de acero
y por el
Prof. Dr. Eliseo P. Vergara Gonzlez
y desarrollada por
Ana Gonzlez Marcos
a n de optar al grado de
Doctora por la Universidad de La Rioja
en Julio de 2006
Resumen
cia de los modelos basados en datos frente a otros modelos analticos basados
en ecuaciones explcitas.
eje central sobre el que se desarrolla esta tesis. En ella, se propone el uso de
estas tcnicas, junto con otras procedentes del campo de la minera de datos,
modelos para predecir on-line las propiedades mecnicas de las bobinas de acero
el factor humano, etc.), los datos errneos son muy probables entre los datos
En primer lugar me gustara dar las gracias a mis directores de tesis, Joa-
buenos consejos.
Universidad de Len), con quienes siempre se aprende algo nuevo y con quienes
casa.
Por ltimo, pero no en ltimo lugar, quiero agradecerle a mi familia su apoyo
Esta tesis no habra sido posible sin vuestra ayuda y saber hacer.
A todos,
GRACIAS
ndice general
1. Introduccin 1
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . 6
4. Resultados y discusin 43
4.1. Aplicacin de tcnicas de minera de datos en el modelado de
5. Conclusiones 49
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Bibliografa 53
I Publicaciones 57
ndice de guras
et~al., 2000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
recocido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1. Ejemplo de mapa del lmite elstico estimado para una bobina. 50
Notacin
funcin de inuencia
~r vector de residuos
S factor de escala
t nmero de poca
n estimador de escala
W matriz de pesos (w ) y bias ( )
0
wkj pesos de las neuronas de la capa de salida
1.1. Antecedentes
Las plantas industriales, ms all de subsistir, buscan ser lderes en un am-
ellos.
datos, pero el proceso completo abarca tambin temas tales como la denicin
Preparacin
de los datos
Desarrollo
Datos
Modelado
Evaluacin
Figura 1.1: Fases del modelo de referencia CRISP-DM (Fuente: Chapman et~al.,
2000).
(Brachman and Anand, 1996; Chapman et~al., 2000; Fayyad et~al., 1996; Pyle,
misma idea general est presente en todos los modelos: primero el analista se
CRISP-DM (CRoss Industry Standard Process model for Data Mining ) (Chap-
en seis fases: anlisis del problema, anlisis de los datos, preparacin de los
de los datos.
rativo, ya que cualquier fase puede suscitar preguntas o ideas que necesitan ser
miento, hace que se piense en recurrir a modelos basados en datos frente a otros
no lineal cuenta con importantes tcnicas que han alcanzado gran aplicabilidad
den mencionar los algoritmos genticos, la lgica difusa, etc., si bien, una de
son las redes neuronales, eje central sobre el que se desarrolla esta tesis.
factor humano, etc.), los datos errneos, denidos en la literatura como espurios
(outliers ), son muy probables entre los datos almacenados. As, por ejemplo,
Hampel et~al. (1986) arman que los datos rutinarios contienen entre el 1 y el
to de datos causa un peor ajuste, en ocasiones lejano del ptimo, del modelo
obtenido, por lo que es muy importante tratarlos de algn modo para que no
perjudiquen los modelos buscados. Una de las estrategias en este sentido, con-
siste en hacer uso de tcnicas de diagnstico de espurios con las que se detectan
(Castejn Limas et~al., 2004; Rousseeuw and Leroy, 1987). Pero tambin, en
(Ahmed and Farag, 2002; Chen and Jain, 1994; Chuang et~al., 2000; Huang
pletamente nuevo para muchas industrias ya que, aunque los ingenieros tienen
cada vez un mayor acceso a los datos de proceso, raramente usan herramientas
cesado de los datos, no eran entendidos por los ingenieros. Tanto si los datos no
eran los apropiados para los algoritmos, como si stos se parametrizaban mal,
la delidad de los resultados obtenidos era muy baja, lo que pudo conducir a
Con esta tesis, en la que se recogen los frutos del trabajo realizado en el
1.3. Contribuciones
1.3.1. Publicaciones
todos robustos: la seleccin del factor de escala que determina los lmites para
1.4 Estructura del documento 7
reducir los efectos de los espurios. Adems, esta aproximacin tambin posee
Todos los trabajos presentados en esta tesis se enmarcan dentro del mbito
de la minera de datos :
tribuciones aportadas con esta tesis, as como su unidad temtica. El resto del
el Captulo 4, se discuten los resultados obtenidos. Esta tesis naliza con las
2.1. Introduccin
Para modelar procesos complejos, como es el caso de la mayora de los
una capa oculta con sucientes unidades no lineales, puede aprender cualquier
salida.
media del error cuadrtico (Mean Squared Error, MSE) como medida de error ,
1
0
wji j 0 k
wkj
xi zj yk tk
Capa de Capa Capa de Objetivo
entrada oculta salida
Figura 2.1: Esquema de un perceptrn multicapa con una capa oculta.
dos, ya que los modelos obtenidos pueden ser muy diferentes de los esperados
to contienen datos errneos (Ahmed and Farag, 2002; Chen and Jain, 1994;
Chuang et~al., 2000; Huang et~al., 1998; Liano, 1996; McDowall and Ham,
un elevado punto de ruptura y una alta eciencia con errores normalmente dis-
tribuidos (Rousseeuw and Leroy, 1987). Sin embargo, en su uso, existen algunas
determina los lmites para reducir los efectos de los espurios: si es demasiado
pequeo, una gran cantidad de datos, incluyendo los buenos, seran discrimina-
dos. La seleccin de este factor no es clara, siendo diversas las propuestas que se
medida no reeja el error real ya que se desconocen los datos que son espurios
y aquellos que no lo son. En este caso, ambas medidas del error pueden ser, en
et~al., 2000).
los errores obtenidos en cada poca. Adems, esta aproximacin tambin posee
aprendizaje robusto.
consta de dos pasadas a travs de las diferentes capas de la red: una hacia
(W ), capa por capa, hasta que se alcanzan las neuronas de la capa de salida.
Durante esta fase, los pesos de la red permanecen jos. Sin embargo, durante
la pasada hacia atrs, estos pesos se ajustan con una regla de correccin del
error. Concretamente, la seal de salida de la red (yk ) se compara con el patrn
de salida deseado (tk ) y se calcula una seal de error (segn un determinado
mizacin del error mediante el descenso del gradiente, donde los pesos de la
0 0 0 0 E(W )
wkj = wkj + wkj = wkj 0 (2.1)
wkj
E(W )
wji = wji + wji = wji (2.2)
wji
Para un determinado patrn de entrada, la salida de la neurona j-sima
!
X
zj
= f j ,
=f wji xi i j = 1, 2, ..., l (2.3)
i
X 0
yk = fs wkj zj k = fs (vk ) , k = 1, 2, ..., q (2.4)
j
siguientes expresiones:
0 E fs (vk )
wkj = k zj con k = (2.5)
yk vk
f
X 0 j
wji = j xi con j = k wkj (2.6)
i
k
guientes etapas:
2 Las funciones de activacin de las distintas capas de la red pueden ser de tipo lineal
ex ex
1
(F (x) = x), sigmoidal (F (x) = ), tangh (F (x) = ), etc.
1+ex ex +ex
2.2 Algoritmo de retropropagacin del error 13
4. Calcular los valores de para las capas de salida (k ) usando los valores
Tomando como medida del error la media del error cuadrtico (MSE) , la
3
0 fs (vk )
wkj = (tk yk ) zj (2.7)
vk
fs (vk ) 0 f j
wji = (tk yk ) wkj xi (2.8)
vk i
tas, indicando aquellas que han sido utilizadas en los trabajos desarrollados y
Et
t W = + t1 W (2.9)
W
Otros mtodos que permiten mejorar la velocidad de aprendizaje consisten
les se han desarrollado otros mtodos, tambin de segundo orden, que se pueden
2.2 Algoritmo de retropropagacin del error 15
(ecuacin 2.10).
Et E0
Wt+1 = Wt + t dt con dt = + t dt1 y d0 = (2.10)
W W
donde t es una funcin escalar que asegura que dt y dt1 son conjugados.
E
2
t
t =
W
2 (2.11)
Et1
W
Capacidad de generalizacin
Aunque es deseable alcanzar el mejor resultado posible durante el entrena-
no slo para que la red funcione correctamente ante conjuntos de datos que
no han sido vistos con anterioridad, sino tambin porque es posible que haya
complejidad fsica del problema (Haykin, 1999). Estas tres circunstancias estn
(2004) como en Perna Espinoza et~al. (2005a)), a la vez que se entrena la red,
dacin. De esta forma, se pretende evitar que la red se adapte demasiado a las
ajustables; hacer que varias neuronas compartan sus pesos (weight sharing );
o asociar a cada peso una tendencia de disminucin a cero para que desapa-
variables de entrada.
nombre indica, en aadir una pequea cantidad de ruido blanco a cada uno de
los patrones utilizados. As, cada vez que se presente el vector entrada-salida
El estimador fue introducido por Yohai and Zamar (1988) como una nueva
Supuesto 1. Sea h una funcin real que satisface las siguientes propiedades:
(i) h (0) = 0
(ii) h (v) = h (v)
(iii) Si 0v entonces h (v) h ()
(iv) h es continuo.
n
X vi
h = nE [h(v)] (2.12)
i=1
S(v)
estimador que minimiza S (~r ()). En su trabajo plantean que este estimador
pudiera tener un valor de punto de ruptura alto, pero al coste de tener una ba-
Sean h1 y h2 dos funciones que cumplen las propiedades (i)-(vi) del Supuesto
1, y sea S el estimado-M de escala basado en h1 . Entonces dado un conjunto
n ~r = Min n (~r ()) (2.14)
C
" n #1/2
1X ri ()
n (~r ()) = S (~r ()) h2 (2.15)
n i=1 S(~r ())
n
X ri
h1 = nE (h1 ) (2.16)
i=1
S(~r ())
2 n n
n (~
r ()) 1
2S(~r ()) S(~
r ()) ri ()
P
= n h2 S(~ r ()) +
i=1
o
ri () (x~i ,) S(~
r ())
+ 2 S(~r ()) S(~
r ()) r i () =0
(2.17)
n
P ri () (x~i ,)
1 S(~
r ())
S(~r ())
= i=1
n (2.18)
P ri () ri ()
1 S(~
r ()) S(~
r ())
i=1
donde
2.3 Algoritmo de retropropagacin TAO-robust 19
d
j (v) = hj (v) , j = 1, 2
dv
Sustituyendo 2.18 en 2.17 se obtiene la ecuacin de la estimacin
n
X ri () ri () (x~i , ) ~
w () 1 + 2 =0 (2.19)
i=1
S(~r ()) S(~r ())
donde
n h i
P ri () ri () ri ()
2h1 S(~
r ()) 2 S(~
r ()) S(~
r ())
i=1
w () = n (2.20)
P ri () ri ()
1 S(~
r ()) S(~
r ())
i=1
n
X
ET AO = 2 (r ; S (t)) (2.24)
=1
de la derivada parcial de la mtrica del error (que en este caso es n2 (~r)) con
respecto a la salida de la red (yk ), ya que el resto no depende del criterio de
n
n2 (~r)
E X 1 St St
= = 2S t h 2 (v) + 2 (v) S t r (2.25)
yk yk =1
n r r
donde
n
P
1 (v)
St =1 r
= P
n con v = (2.26)
r St
[1 (v) v ]
=1
1/2
r
Xn St2 h1 St
S t+1 (~r) = h i (2.27)
r
=1 nE h
1 St
Captulo 3
Modelado de una lnea de
produccin de acero galvanizado
3.1. Introduccin
La creciente demanda que estn experimentando los aceros recubiertos me-
junto con el aumento de las exigencias de los clientes, hace que el sector side-
en lazo abierto, al no ser posible aplicar una estrategia de control clsica. Por
fabricacin. De esta forma, sera posible una mejora en los sistemas de control
actuales, la cual repercutira en la calidad del producto nal, siendo ste uno
consigna del horno. Sin embargo, con un modelo de velocidad para la banda de
acero dentro del horno, a partir de los datos de proceso, como el propuesto en
problema que se pretende resolver. Por eso, en la seccin 3.2, se exponen los
factores que inuyen en las propiedades mecnicas de las bobinas de acero gal-
dichos modelos.
y propiedades del acero. Adems, hay que tener en cuenta que, cuando se apli-
1. microestructura
3. inclusiones no metlicas
plo, armaduras para hormign, cables, etc.), presenta problemas cuando el nivel
etc.
26 Modelado de una lnea de produccin de acero galvanizado
Aditivos
Como ya se ha comentado, la adicin de pequeas cantidades de carbono
los adecuados:
perniciosa inuencia del azufre y del oxgeno, que siempre suelen contener
perjudiciales en el material.
la corrosin.
resistencia a la corrosin.
son factores clave para obtener el anamiento del grano, la presencia de uno
tos son el niobio, el vanadio y el aluminio, los cuales pueden ser aadidos en
3 La fragilidad por revenido, o fragilidad Krupp, se produce al migrar los elementos a los
contornos del grano si el acero alcanza una temperatura entre 500 y 600 o C. A temperatura
normal, estos aceros tienen muy poca tenacidad y el fallo se produce por fractura intergra-
nular.
28 Modelado de una lnea de produccin de acero galvanizado
gran tendencia a formar carburos, por lo que basta con aadir pequeas
y nitruros.
se combina con el carbono para formar los carburos que dan al acero
nabilidad.
Inclusiones no metlicas
La presencia de inclusiones no metlicas debe ser cuidadosamente controla-
acero, por lo que se deben seguir ciertos pasos para reducirlas al nivel requerido.
mas de grietas en uniones soldadas. Otros elementos que pueden aparecer como
mente importante asegurar que este grupo de elementos sea eliminado de los
y nitrgeno, pueden comportarse de manera frgil, por lo que su nivel debe ser
cial anidad con ellos, se consiguen combinaciones que escapan del acero lquido
controlar el nivel de nitrgeno libre ya que ste debe mantenerse a niveles ba-
importante.
o
T( C)
850
650
450
60 90 120 t(s)
grano.
saturacin.
acero.
Materias Productos
primas semiacabados
base de mineral de hierro utiliza un alto horno, mientras que el proceso con
chatarra frrea recurre a un horno de arco elctrico. Ambos procesos son com-
colada continua, se toman muestras del mismo para ser analizadas, de tal forma
la colada.
Las chapas nas laminadas en caliente tambin pueden ser sometidas a de-
que la laminacin del temple permite eliminar las lneas de uencia, corregir
Seccin de salida
que ya poseen el espesor requerido. Para transformar las bobinas en una banda
ciclo de recocido (vase apartado 3.2.2), para mejorar las caractersticas mec-
cial, al pasar la banda entre dos las de mecheros cuya llama, reductora
tubos enfriados por aire. En esta seccin, una oxidacin de la banda se-
de tratamiento qumico.
En dos de los rodillos deectores que conducen la banda por debajo del
pote, estn localizados los equipos de la galga para medir el espesor del re-
quiere decir, que podra resultar factible desarrollar un modelo que permitiera
et~al. (2004).
dan alcanzar, una fase crucial en el proceso de minera de datos iniciado, fue la
Las fases de anlisis y preparacin del conjunto de datos, como paso previo
Tras eliminar los espurios y dividir el conjunto de datos en las clases pre-
el ajuste de los pesos de las neuronas, mientras que los de validacin (31,6 %
de los datos disponibles) fueron utilizados para comprobar, cada cierto nmero
nido con los patrones de entrenamiento era coherente con el error que vera la
En cada caso entrenado, la red nal se corresponda con aquella cuyo error
de validacin era mnimo. Por ltimo, los patrones de test (5 % restante), que
no haban sido vistos nunca por la red entrenada, sirvieron para comprobar la
tres conjuntos de cheros con los que se llev a cabo el entrenamiento, validacin
Variable Smbolo
Variables de entrada
Variables de salida
Composicin
. .
. .
qumica . . Lmite elstico
Resistencia a la
rotura
Temperatura
. Alargamiento
.
de la banda .
Velocidad de
la banda
cos tienen en las propiedades nales del acero. En la lnea de acero galvanizado
clave no slo para la obtener las propiedades de la banda deseadas, sino tam-
Variable Smbolo
Variables de entrada
zona de o
calentamiento ( C)
TMPH1SP
Variable de salida
ms de 6000. Por eso, una vez delimitados los objetivos a alcanzar, hubo que
causados por errores de adquisicin, y, por tanto, podan ser eliminados, los
era debida a fenmenos transitorios que pueden darse en la lnea, tales como
2002; Chen and Jain, 1994; Chuang et~al., 2000; Huang et~al., 1998; Liano,
1996; McDowall and Ham, 1997), se seleccion el mtodo propuesto por Liano
(1996), denominado LMLS (Least Mean Log Squares )), por sus importantes
entradas, quince neuronas en la capa oculta y una salida (gura 3.5). Para el
Por ltimo, para que el modelo de velocidad de la banda dentro del horno
Espesor
.
.
Ancho .
Velocidad de
la banda
Temperaturas
. .
de la banda y . .
. .
del horno
esta tesis, los cuales pueden dividirse, principalmente, en dos bloques. El pri-
Puesto que era una variable que no aportaba ningn tipo de informacin, y
Adems, se localizaron once bobinas que destacaban del resto por sus altos
44 Resultados y discusin
poseer una mayor resistencia a la rotura. Al ser un nmero tan poco signicativo
Tras eliminar los datos atpicos y dividir el conjunto de datos en las tres
clases detectadas, se observ que uno de los grupos en los que se acababa de
entrenamiento adecuado de una red neuronal con diecisiete entradas. Por ello,
clase2 ). De todas las redes entrenadas para cada caso, las mejores ofrecieron
resultados bastante buenos, siendo los errores medios relativos de los patrones
con los patrones de test, no fueron tan buenas como para la resistencia a la
tos fueron utilizados para cuanticar el impacto que los parmetros de proceso
(que son los que se pueden controlar para conseguir modicar las caractersticas
del producto nal) tenan sobre estas propiedades mecnicas. El objeto de este
anlisis no era otro que el de obtener un mayor conocimiento del efecto que
velocidad en la clase1, ya que por la propia razn de ser del ciclo de recocido,
4.2 Desarrollo de un nuevo algoritmo de entrenamiento robusto 45
Figura 4.1: Evolucin del lmite elstico en funcin de la velocidad en las muestras
recogidas para la clase1.
como se poda intuir en un principio, una vez entrenadas las redes, se comprob
red robusta, se obtuvo un 4,43 % de error medio relativo con los patrones de test,
modelo robusto permaneca muy prxima a ella, haciendo que el error entre las
error cuadrtico medio global que producen todos los datos, incluidos los datos
contaminados).
pararon los resultados obtenidos con los de la red robusta propuesta por Liano
diferentes tipos de ruido: ruido gaussiano; ruido gaussiano con adicin de es-
de error: se calcul la raz del error cuadrtico medio (Root Mean Square, RMS)
red que present un mejor comportamiento fue la LMLSnet con un error nal
del 0,60 %, seguida de la TAOnet, con un error del 0,75 %, y de la MSE con un
de gran valor, se observ la bondad de las redes robustas al ser sus respuestas
vio severamente afectada por los espurios, ofreciendo un modelo errneo. Los
errores nales de entrenamiento fueron muy parecidos para las redes robustas:
su punto de ruptura (50 %), es decir, cuado se aadi, adems del ruido gaus-
redes robustas fueron muy inferiores al obtenido con la red MSE, obtenindo-
que corresponda a esos datos. Las otras redes, LMLSnet y MSE, presentaron
tamiento adecuado, fue esta ltima, con un error del 0,98 % frente al 5,2 % y
portamiento fue muy similar al de la red robusta propuesta por Liano (1996),
5.1. Conclusiones
En este trabajo se ha mostrado la utilidad de las redes neuronales, junto
partir de los datos del mismo. Los resultados obtenidos han servido para re-
saltar las principales ventajas que aportan las redes neuronales en el modelado
sidad de tratar los espurios, los cuales, en mayor o menor medida, siempre se
ms econmica.
Color Key
290 291 292 293 294 295 296 297 298 299 300
YIELD STRENGTH
200 400 600 800
Width (mm)
294.27
295.26
295.41
295.29
295.12
295.23
295.37
294.59
294.06
294.05
294.12
294.08
294.34
294.57
294.63
294.55
294.61
294.59
294.57
294.82
294.94
294.78
294.77
294.71
294.85
294.79
294.91
295.01
295.04
295.05
295.04
295.05
295.24
295.23
295.18
295.02
295.06
295.11
295.11
295.14
295.23
295.28
295.44
295.46
295.31
295.43
295.39
295.43
295.43
295.27
295.29
295.29
295.4
294.6
294.8
294.9
295.1
295.2
0
Figura 5.1: Ejemplo de mapa del lmite elstico estimado para una bobina.
una herramienta que genera el cdigo C de una red neuronal, el cual puede ser
objeto de estudio, se miden cada 100 metros, con los modelos propuestos se
gura 5.1). Una de las ventajas que aporta este mapa, es que permite conocer
qu metros de una bobina cumplen con los requisitos del cliente y cuales no,
con el ahorro econmico que supone puesto que en lugar de desechar toda la
bobina, se cortar slo aquella zona que no cumpla con los requerimientos.
transitorias, etc.
1 http://www-ra.informatik.uni-tuebingen.de/SNNS/
5.2 Lneas de trabajo futuras 51
Por otro lado, se han mostrado las importantes propiedades que posee el
seleccionar el factor de escala que determina los lmites para reducir los efectos
de los espurios.
den llegar a ser graves: el etiquetado incorrecto del grado de acero de una
bobina. Bajo estas circunstancias, una bobina es tratada como si tuviera una
convertirse en producto nal, si, por error, se enva a un cliente una bobina de
procesos industriales.
mas.
bration from data with outliers'. Image and Vision Computing 20, 619630.
1, 2, 3.2.3
University Press. 2
Bishop, C. M.: 1995, Neural Networks for Pattern Recogition. Oxford University
Press. 1
Barcelona: Revert. 2
1.1, 1, 1
Cherkassky, V. and F. Mulier: 1998, Learning From Data: concepts, theory and
Chuang, C., S. Su, and C. Hsiao: 2000, `The annealing robust backpropagation
Cios, K., W. Pedrycz, and R. Swiniarski: 1998, Data Mining Methods for Kno-
Connor, J., R. Martin, and L. Atlas: 1994, `Recurrent neural networks and
Hawkins, D.: 1980, Identications of Outliers. New York: Chapman and Hall.
2
BIBLIOGRAFA 55
2, 2
Huang, B., B. Zhang, and Q. Huang: 1998, `Robust interval regression analysis
Huber, P. J.: 1981, Robust Statistics. New York: John Wiley and Sons. 2
Huber, P. J.: 2003, Robust Statistics. New York: John Wiley and Sons. 2
Liano, K.: 1996, `Robust error measure for supervised neural network learning
3.2.3, 4
3.2.3
bato Rubio: 2005a, `Steel annealing furnace robust neural network model.'.
Pyle, D.: 1999, Data Preparation for Data Mining. Morgan Kaufmann Publis-
hers. 1, 1
Ripley, B.: 1996, Pattern Recognition and Neural Networks. Cambridge Uni-
versity Press. 1
Rumelhart, D., J. McClelland, and the PDP research group: 1986, Parallel
Sammon, J.: 1969, `A nonlinear mapping for data structure analysis'. IEEE
Transactions on Computers 18, 401409. 3.2.3
Tabatabai, M. and I. Argyros: 1993, `Robust estimation and testing for general
Tollenaere, T.: 1990, `Supersab: Fast adaptive backpropagation with good sca-
sidad de Oviedo. 4
Walczak, B.: 1996, `Neural networks with robust backpropagation learning al-