Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
1
INDICE
Resumen ...................................................................................................................... 1
INDICE ......................................................................................................................... 2
INDICE DE TABLAS ..................................................................................................... 3
INDICE DE FIGURAS ................................................................................................... 3
I. INTRODUCCION .................................................................................................. 4
1.1 Justificación .................................................................................................... 5
1.2 Limitaciones.................................................................................................... 6
1.3 Objetivos ........................................................................................................ 6
II. Marco Referencial Científico ................................................................................. 7
2.1 Antecedentes ..................................................................................................... 7
2.2 Análisis de regresión múltiple ............................................................................. 9
2.3 Análisis Discriminante (Clasificación) ............................................................... 10
2.4 Redes Neuronales ........................................................................................... 10
2.4.1 Elementos de una red neuronal .................................................................... 13
2.4.2 Forma de conexión (arquitectura) entre las capas ........................................ 15
2.4.3 Formas de aprendizaje ................................................................................. 17
2.4.4 Implementación de la red:............................................................................. 19
III. Metodología ..................................................................................................... 21
3.1 Tipo y diseño de investigación: ........................................................................ 21
3.2 Proceso de investigación ................................................................................. 21
IV. RESULTADOS ................................................................................................. 22
4.1 Análisis Discriminante (Clasificación) ............................................................... 22
4.1.1 Resultados en el SPSS ................................................................................ 22
4.1.2 Resultados de la red neuronal: ..................................................................... 23
4.2 Análisis de Regresión....................................................................................... 25
4.2.1 Resultados del modelo de regresión: ............................................................ 25
4.2.2 Resultados usando la red neuronal .............................................................. 27
V. Conclusiones ...................................................................................................... 29
VI. Discusión de resultados ................................................................................... 29
VII. Referencias Bibliográficas ................................................................................ 30
2
INDICE DE TABLAS
INDICE DE FIGURAS
Figura 07: (a) Red con tres capas con conexión hacia delante. (b) Red con conexiones
Figura 08: Errores de prueba y entrenamiento como una función de las épocas de
entrenamiento 20
Figura 11: Relación entre los valores estimados y ajustados usando regresión lineal
simple 26
3
I. INTRODUCCION
Durante los últimos años, hemos sido testigos de la aparición de nuevas técnicas
de análisis de datos, que surgen frente a la necesidad de manejar grandes volúmenes
de información; en estas circunstancias, los métodos estadísticos tradicionales tienen
serias dificultades para manejarlos, incluso, en algunos casos, no hay técnica
disponible. Frente a estas limitaciones, aparecen nuevos métodos para el manejo de
datos, inspirados en el comportamiento de las neuronas biológicas, como son las
redes neuronales. Las Redes Neuronales, tratar de emular el comportamiento de las
neuronas biológicas, para solucionar dichos problemas. Estas técnicas surgen gracias
al desarrollo de las computadoras y están inmersas dentro del campo de la Inteligencia
Artificial; esta nueva rama del conocimiento trata de crear cierta “inteligencia” a las
máquinas para que resuelvan problemas que en un principio se creía no tenían
solución.
4
En el Capítulo I, se describe la problemática relacionada con ambos métodos: los
métodos estadísticos de regresión y clasificación y las redes neuronales. En el
Capítulo II, se formula el Marco teórico que sustenta al trabajo de investigación. El
Capítulo III, hace referencia a la metodología utilizada en el trabajo, para cumplir con
los objetivos del trabajo. El Capítulo IV, muestra los resultados de la investigación,
incluyendo las estimaciones a través de los métodos estadísticos y las redes
neuronales. El Capítulo V, describe las conclusiones del trabajo de investigación y el
Capítulo VI la discusión de resultados.
1.1 Justificación
5
1.2 Limitaciones
1.3 Objetivos
6
II. Marco Referencial Científico
2.1 Antecedentes
El hombre desde tiempos remotos, ha soñado con crear máquinas con inteligencia
propia, aunque dichos esfuerzos recién dieron sus frutos en el año 1943, cuando
McCullock y Pitts (1943), propusieron un modelo de neurona de cerebro humano y
animal. Estas neuronas informáticas, proporcionaron una representación simbólica de
la actividad cerebral. Posteriormente en el año 1948, Nobert Wiener sintetizó estas y
otras ideas en un mismo campo que lo denominó Cibernética, a partir de cual nacería,
la Inteligencia Artificial.
En el caso de las redes neuronales, el trabajo que inició McCulloch y Pitts (1943),
marcaron el inicio en esta nueva disciplina, los cuales aportaron conocimientos sobre
la fisiología básica y funcionamiento de las redes neuronales cerebrales así como su
emulación mediante las neuronas artificiales.
El análisis de regresión fue introducido por Francis Galton y confirmado por Karl
Pearson (como ce cita en Gujarati, 1997), a raíz de un estudio sobre la descripción de
los rasgos físicos de los descendientes, a partir de los rasgos de sus padres. Llegaron
a la conclusión de que la altura de los hijos tenía una tendencia a regresar a la
estatura promedio de los padres. Actualmente su uso está muy generalizado y busca
encontrar un modelo que permita pronosticar una variable (dependiente) a partir de
otro conjunto de variables (independientes) que se supone explican a la primera.
7
pero entre elementos de diferentes grupos existan diferencias marcadas. Las bases
matemáticas de esta técnica se remontan al libro “Principios of Numerical Taxonomy”,
escrito por Sokal y Sneath (1963) (citado en Cuadras, 1991), en el que exponen los
principios y procedimientos de la taxonomía numérica, inspirados en la clasificación de
las especies.
En el año 1998, aparece un estudio comparativo de las series de tiempo con las
redes neurales (Faraway), en el que se revelan muchos de los problemas de la
modelación con redes neuronales y refieren que éstas, no se pueden aplicar
ciegamente a los datos; por el contrario, consideran que el analista debe tener
habilidades en la modelación tradicional para seleccionar un buen modelo de red
neuronal.
En otro artículo publicado por Pantoja (s.f.), se compara los pronósticos del índice
general de la Bolsa de Valores de Colombia, a través de los modelos ARIMA y los
proporcionados por las redes neuronales; los autores refieren que las redes
neuronales pronostican mejor que los modelos ARIMA, en los casos de las variables
8
financieras, aunque no ocurre lo mismo con las series estacionarias en donde los
procesos GARCH, permiten capturar mejor la volatilidad de las series financieras.
Los estudios ponen en evidencia que aún no hay una concordancia sobre la
supremacía de un método sobre otro; la tendencia actual es a complementar ambos
métodos. Las redes neuronales aún necesitan de criterios estadísticos para una
elección adecuada de su estructura, así como para lograr un buen funcionamiento.
Parte del supuesto de que una variable denominada variable dependiente está
influenciada por una o más variables independientes, a través de la siguiente relación
funcional:
Y 0 1 X 1 2 X 2 p X p , matricialmente: 𝑌 = 𝑋𝛽 + 𝜇
Donde
0 , 1 , , p son los parámetros del modelo y es el término de
error o residual.
Este modelo supone que se cumplen los siguientes supuestos:
a. Las variables independiente (X i) son fijas y que para cada valor de estas variables
se supone que existe una población de valores de y de los cuáles se elige
aleatoriamente uno.
b. La varianza de Y es la misma en cada valor del vector X (Homogeneidad de
varianzas). El cumplimiento de este supuesto es crucial para realizar pronósticos o
predicciones. El incumplimiento determina que exista Heterocedasticidad.
c. Los términos de error o residuales no deben estar correlacionados, es decir:
cov( u i , j ) 0
.
d. Para propósitos de pronósticos e inferencias, además se debe cumplir que los
𝑌̂ = 𝑋𝛽̂
9
2.3 Análisis Discriminante (Clasificación)
10
Las redes neuronales artificiales, constituyen un área de la IA y se crearon con la
finalidad de resolver problemas que en un principio se creía, sólo podrían ser
solucionados por el cerebro humano.
Las redes neuronales constituyen un enfoque totalmente diferente de analizar los
datos con respecto a las técnicas tradicionales. En lugar de utilizar modelos
preconcebidos, éstas utilizan el cerebro humano y su estructura, para desarrollar una
estrategia, que permita la solución de los problemas en forma similar a la que
resultaría de algún experto humano. Un elemento esencial de una red neuronal, es su
capacidad de aprendizaje a partir de los datos disponibles. Este aprendizaje está
inspirado en la forma de aprender que tiene lugar en las neuronas, el cual se va
perfeccionando en la medida que la red adquiere más entrenamiento, es decir tienen
la capacidad de aprender a realizar tareas a partir de una experiencia inicial.
Una red neural, relaciona un conjunto de variables de entrada o inputs
(independientes) {𝑥𝑖 }, 𝑖 = 1, … , 𝑘, a un conjunto de una o más variables objetivo u
outputs (dependientes) {𝑦𝑗 }, 𝑗 = 1, … , 𝑘. La diferencia entre una red neural y los otros
metodos de pronóstico, es que, ésta hace uso de una o más capas ocultas, en las
cuales las variables de entrada son transformadas por alguna función especial,
denominada función de salida o de transferencia. Mientras esta aproximación de capa
oculta, es una especie de caja negra, ella representa una forma muy eficiente para
modelar procesos estadísticos altamente no lineales.
La figura 02 muestra una unidad neuronal típica sugerida por McCulloch y Pitts
(1943). En ella se pueden distinguir las siguientes componentes: un conjunto de
conexiones de entrada, un conjunto de pesos, una función procesadora, un umbral de
activación y un valor de salida.
11
AXONES SINAPSIS
CUERPO
x1
W1 DENDRITAS
-1
x2
W2 AXON
Salida
xn Neurona
Wn
Entradas
Pesos
12
2.4.1 Elementos de una red neuronal
unidad de salida:
n
y j f ( wij x j )
j 0
wij son los pesos que indican la aportación que tiene cada valor de entrada en la
Función lineal:
13
f ( x) x; x
Figura 04
Función signo de x:
1, si x 0
sgn( x )
1, en otro caso
Figura 05
14
Función Sigmoidal:
1
𝑓(𝑥) =
1 + 𝑒 −𝑎𝑥
Figura 06
Función tangente hiperbólica:
- Propagación hacia atrás: Cuando las salidas pueden estar conectadas como
entradas de neuronas de niveles previos o del mismo nivel, incluyéndose ellas
mismas. En el caso particular que las conexiones sean hacia atrás, la arquitectura
es adecuada para tratar modelos dinámicos y temporales, como el que se
pretende implementar en el trabajo. En la figura 10, se ilustran este tipo de redes.
15
Figura 07 (a) Red con tres capas con conexión hacia delante. (b) Red con
conexiones laterales. (c) Red con conexiones hacia atrás o recurrentes.
16
2.4.3 Formas de aprendizaje
- Algoritmos de aprendizaje:
El algoritmo de corrección del error, que altera los pesos de la neurona después
de la presentación de un patrón para corregir el error de salida.
1
𝐸(𝑊) = (1/𝑝)‖𝑌 − 𝑊𝑋‖2
2
Cada caso u observación asociado a las variables de entrada del modelo y a las variables de salida es
denominado patrón de entrenamiento.
17
patrones. Esto se logra modificando los pesos en dirección opuesta al gradiente de
la función de error.
𝛼: es la tasa de aprendizaje que varía entre 0 y 1. Hay que tener en cuenta que este
valor es fundamental en el proceso de entrenamiento de la red, ya que controla el
cambio de los pesos en cada iteración. Un valor pequeño hace disminuir la velocidad
de convergencia y la posibilidad de quedar atrapado en un mínimo local; en cambio un
ritmo de aprendizaje demasiado grande puede provocar inestabilidades en la función
de error y evitar que se produzca la convergencia debido a que se darán saltos en
torno al mínimo sin alcanzarlo. En general la tasa de aprendizaje suele estar
comprendida entre 0.05 y 0.5 (Rumelhart, Hinton y Williams, 1986).
Este algoritmo basado en la técnica del descenso por el gradiente, calcula las
derivadas de la superficie de error respecto a cada peso, ∂E(W)/ ∂Wij, con la finalidad
de encontrar el valor mínimo de la función de error, aunque nadie garantiza que se
llegue o que sea el camino más rápido hacia él. Frente a estas dificultades surgen
otros métodos, dentro de los cuáles se encuentra el algoritmo de Levenberg-
Marquardt. Este método, si bien acelera la convergencia, es mucho más complejo de
implementar. La actualización de pesos con este algoritmo se realiza con la siguiente
aproximación:
1
Wij (t + 1) ≈ Wij (t) − JT e
μ
18
Donde:
r 2
ECM b p bˆ p / r
p 1
Así mismo es importante realizar una validación cruzada para obtener una medida de
la calidad del modelo. En este sentido, los datos disponibles (patrones) se deben
disponer en dos partes: una parte destinada al entrenamiento de la red y la otra parte
a la comprobación. El entrenamiento es usualmente medido en épocas, el número de
presentaciones del conjunto de entrenamiento a la red.
Cuando el error de comprobación es mucho mayor que el error de entrenamiento,
entonces se produce un problema de sobreajuste durante el proceso de
entrenamiento. En realidad, ambos errores deberían ser similares, lo cual indica que
se han capturado las tendencias reales del modelo.
3
𝜕𝑒𝑖𝑗
𝐽={ }
𝜕𝑤𝑘𝑙
19
Típicamente cuando el número de épocas de entrenamiento se incrementa,
veremos los siguientes gráficos, independientemente del tipo de modelo de ANN.
Conjunto prueba
Conjunto Entrenamiento
Epocas de entrenamiento
El error del conjunto de entrenamiento, mide cuán bien la ANN modela los datos.
Debido a que nunca entrenamos sobre el conjunto de datos de prueba y los términos
de error son no correlacionados, el error del conjunto de prueba es una medida de que
tan bien el modelo sigue el patrón F o generaliza los conjuntos de datos. En la sección
A del gráfico, el error del conjunto de prueba comienza a aprender el patrón de la serie
de tiempo, indicado por el error decreciente. En Z épocas, el error del conjunto de
prueba es mínimo-la red ANN ha encontrado la función F en su nivel óptimo. Más allá
de éste mínimo, en la sección B, el error del conjunto de entrenamiento continúa
decreciendo, mientras que error del conjunto de prueba se incrementa. Este hecho se
explica porque al inicio la red se adapta progresivamente al conjunto de aprendizaje,
adaptándose al problema y mejorando la representación, luego en un momento dado,
el sistema se ajusta demasiado a las particularidades de los patrones empleados en el
entrenamiento, captando incluso el “ruido” en ellos presente, de manera que el error
que comete ante patrones diferentes a los empleados en el entrenamiento comienza a
crecer, produciéndose el sobreaprendizaje o sobre ajuste (Libro de Bonifacio Martín).
20
III. Metodología
∑ e2i
ECM = √ ̂, son los errores de estimación.
, donde ei = Y − Y
n
21
IV. RESULTADOS
0 1 Total
Original Count 0 15 4 19
1 4 19 23
Ungrouped cases 1 3 4
% 0 78.9 21.1 100.0
1 17.4 82.6 100.0
Ungrouped cases 25.0 75.0 100.0
Cross- Count 0 14 5 19
validated(a 1 7 16 23
Ungrouped cases
% 0 73.7 26.3 100.0
1 30.4 69.6 100.0
Ungrouped cases
a Cross validation is done only for those cases in the analysis. In cross
validation, each case is classified by the functions derived from all cases
other than that case.
b 81.0% of original grouped cases correctly classified.
c 71.4% of cross-validated grouped cases correctly classified.
22
Los resultados evidencian que el 81% (15+19=34 de 42 empresas) de empresas han
sido clasificados correctamente. La validación cruzada permite comprobar la
capacidad predictiva de la función discriminante, para ello el SPSS genera tantas
funciones discriminantes como casos válidos tiene el análisis; cada una de esas
funciones se obtiene eliminando un caso. Después cada caso es clasificado utilizando
la función discriminante en la que no ha intervenido.
Leer el archivo de datos e indicar cuáles son las variables de entrada y salida.
23
Configuración de la red:
24
4.2 Análisis de Regresión
Este caso tiene como objetivo predecir el precio de venta (Y) de las
casas en función del tamaño de la casa (𝑋1 ) y de la valoración asociada (𝑋2).
Sum of Mean
Model Squares df Square F Sig.
Regression 1029.040 2 514.520 41.885 .000(a)
Residual 208.830 17 12.284
Total 1237.870 19
a Predictors: (Constant), Valor asociado ($1000), Tamaño total vivienda
b Dependent Variable: Precio de venta ($1000)
Model Summary
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Cons tant) 11.966 4.949 2.418 .027
Tamaño total vivienda 2.567 .784 .854 3.275 .004
Valor asociado ($1000) .068 .285 .062 .238 .815
a. Dependent Variable: Precio de venta ($1000)
25
yest
90
80 R² = 0.7904
70
Yest
60
50
40
40 50 60 70 80 90
Figura 11: Relación entre los valores estimados y ajustados usando regresión
lineal simple
̂2
∑(𝑌−𝑌)
EMC=√ =3.6578.
𝑛
Ambos valores nos permitirán comparar el rendimiento del modelo frente a los
resultados que brinda la red neuronal.
El pronóstico del precio de venta, cuando el tamaño de la casa es de X1 =15
(100 pies 2) y la valoración asociada X2 =45 ($1000), es:
Precio=11.966+2.567*15+0.068*45=$53.5
26
4.2.2 Resultados usando la red neuronal
x1 15 13,89 25,76
x2 45 35,6 69,6
Prediction
y 53.08 48 82
Clear
27
La red uso tres neuronas, con una tasa de aprendizaje de 0.07. El
entrenamiento de la red dio como resultado un Error Cuadrático Medio de
2.6119.
85
80
R² = 0.8605
75
70
65
Yest
60
55
50
45
40
40 50 60 70 80 90
El pronóstico con la red neuronal, para los mismos valores de las variables
independientes (Fig. 13), es de $53.08, cifra ligeramente inferior a la lograda
por el modelo de regresión.
28
V. Conclusiones
El análisis de los dos casos con los métodos clásicos y con las redes
neuronales, tiene sus ventajas y desventajas. Si bien, las redes neuronales una
vez implementadas, son relativamente fáciles de usar, sin embargo no permiten
que el usuario “vea lo que hay detrás de ellas”; aunque también requiere cierta
pericia del usuario para encontrar la estructura óptima. Aquí no existen
supuestos preestablecidos sobre el modelo que representa a los datos, por el
contrario, la estructura surge como resultado del análisis. En el caso del
análisis de regresión, se requiere sólidos conocimientos en los modelos de
regresión, incluyendo los supuestos del modelo, así como también el
conocimiento de las consecuencias de su falta de conocimiento. Esta
desventaja se ve recompensada, porque el usuario tiene un mayor dominio del
modelo, así como de la interpretación de sus estimadores.
29
VII. Referencias Bibliográficas
30
20. Zhang, G.P, Keil, M., Rai, A., & Mann, J. (2003). Predicting information
technology project escalation: A neural network approach. European
Journal of Operational Research, 146, 115–129.
Referencias Electrónicas
31