Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Metodo 1 PDF
Metodo 1 PDF
Estimado Estudiante:
TABLA 2. RESULTADOS DEL ENTRENAMIENTO DE LA RED NEURONAL CON CAMBIOS EN LA TASA DE APRENDIZAJE
PREGUNTAS
PREGUNTAS
El intervalo de los números aleatorios no ha logrado disminuir el error. Sin embargo, cuando se incrementó el
aleatorio a 1000 en la tabla 3, el error se disminuye con la misma tasa de aprendizaje, pasa de 0.0001762 a
0.0000699. ¿La disminución de este error se debe solamente al incremento del número de ciclos de 1000 a
1500?
Al disminuir el número de ciclos de N=500 a N=10 el error lógicamente se
incrementa e = 0.4659. Esto significa que la red neuronal no ha aprendido lo
suficiente como para poder ser testeada con el conjunto validación.
PREGUNTAS
Es verdad que si no se tiene un número adecuado de ciclos de entrenamiento, la red neuronal no aprende de
forma correcta. Pero también existe la aparición del mínimo local cuando el error permanece “estable” a pesar
de incrementar el número de ciclos de entrenamiento. ¿Cómo se puede salir de un mínimo local?
PREGUNTAS
El problema común de una red neuronal es “encontrar” los valores adecuados para su arquitectura. Existen
formulas para calcular el número de neuronas ocultas, pero para la tasa de aprendizaje y el momentum hay
que realizar experimentos, ¿Existe una forma de calcularlos?
Entrenamiento y validación de la red neuronal con filtro
de datos
Ejecutando el filtro de dato de Weka, CfsSubsetEval y el método de
búsqueda BestFirst, algunos atributos fueron eliminados (lógicamente se
observa al aporte de cada uno al conjunto de datos). La red neuronal queda
como se muestra en la siguiente figura:
Figura 1. Red neuronal construida a partir del filtro de los atributos
El filtrado de atributos siempre es importante antes de realizar alguna clasificación. El trabajo de filtrado, se
lo ha hecho antes en la tarea de WrapperSelection (envolvente). Los resultados del filtrado de atributos
pueden tener distintos resultados, ¿En una clasificación utilizando una red neuronal nos fiamos más del
filtrado de datos o del número de ciclos de entrenamiento? Y esto no ¿Contradice el hecho que entre más
ejemplos mejor es el entrenamiento?
Cambiando los valores de la tasa de aprendizaje:
El filtrado de atributos siempre es importante antes de realizar alguna clasificación. ¿Pero, eso significa que
elimina aquellos atributos que no “aportan mucho” para la clasificación o está eliminando el ruido?
2.1.Introducción
2..11 folders
Precision
Iris1.arff BayesNet
.
Tabla de
Resta de Resta
. resta de
precisiones
precisiones
.
J48
Iris10.arff
2..11 folders
Con los algoritmos anteriores, se procede a clasificar cada uno de los ficheros
de entrenamiento obtenidos a partir del fichero iris.arff (10 ficheros para el
presente trabajo).
d -0
tn-1 = - - - - - - - - , Sd = (d2 - d)2 / n) / n - 1
Sd / n (1)
El valor de tn-1 = 0,6 es menor que el valor de la tabla para t, cuando tiene
como grados de libertad 9 = 2,26. Esto significa que no existe variación entre
los resultados obtenidos con los clasificadores por lo tanto no existen
diferencias. Es necesario notar que para el cálculo de las diferencias se
utilizó la resta de Precision(BayesNet) – Precisión (J48) lo cual produce un
resultado negativo para t. Sin embargo si se cambia el orden de la resta el
resultado es positivo como se demuestra en la tabla 3.
2.3.Experimentación
2 0,027 0,014 0,027 0,027 0,014 0,014 0,014 0,014 0,014 0,014
3 0 -0,035 0 0 0 0 0 0 0 0
4 0 0 0 0,049 0 0 0 0 0 0
8 -0,02 0,006 -0,001 -0,026 -0,014 -0,028 -0,007 -0,027 -0,007 -0,021
9 -0,025 -0,016 -0,021 -0,046 -0,027 -0,001 -0,015 -0,007 -0,026 -0,019
10 -0,007 0,004 -0,013 -0,014 -0,019 -0,02 -0,02 -0,02 -0,007 0,947
Sumatoria -0,045 -0,009 -0,043 -0,072 -0,079 -0,026 -0,013 -0,059 -0,072 0,891
X media -0,0045 -0,0009 -0,0043 -0,0072 -0,0079 -0,0026 -0,0013 -0,0059 -0,0072 0,0891
Desv.Estan 0,02 0,01 0,02 0,03 0,01 0,01 0,01 0,01 0,01 0,30
2 0,014 0,014 0,014 0,014 0,014 0,014 0,014 0,027 0,027 0,027
3 -0,035 0 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0 0 0,049
8 -0,028 -0,027 -0,026 -0,021 -0,02 -0,014 -0,007 -0,007 -0,001 0,006
9 -0,046 -0,027 -0,026 -0,025 -0,021 -0,019 -0,016 -0,015 -0,007 -0,001
10 -0,02 -0,02 -0,02 -0,019 -0,014 -0,013 -0,007 -0,007 0,004 0,947
Sumatoria -0,214 -0,148 -0,114 -0,093 -0,062 -0,033 -0,014 0,006 0,065 1,08
Xmedia -0,0214 -0,0148 -0,0114 -0,0093 -0,0062 -0,0033 -0,0014 0,0006 0,0065 0,108
Desv.Estan 0,79 0,78 0,78 0,78 0,78 0,78 0,78 0,78 0,78 0,78
Variable 1 Variable 2
Observaciones 10 10
Grados de libertad 9
Estadístico t 0,88337241
Observaciones 10 10
Grados de libertad 9
Estadístico t 9,014077466
BayesNet J48
BayesNet J48
Observaciones 11 11
Observaciones 10 10
Estadístico t -1
Valor crítico de t (una cola) 1,83311293 Table 9. T Student pareado para el fichero 8
P(T<=t) dos colas 0,1756348 Prueba t para medias de dos muestras emparejadas
Valor crítico de t (una cola) 1,83311293 Table 10. T Student pareado para el fichero 9
P(T<=t) dos colas 0,04548957 Prueba t para medias de dos muestras emparejadas
Observaciones 10 10
BayesNet J48
Coeficiente de correlación de Pearson -0,07898615
Media 0,9443 0,9589
Diferencia hipotética de las medias 0
Varianza 0,00029512 1,1433E-05
Grados de libertad 9
Observaciones 10 10
Estadístico t -5,22578356
Coeficiente de correlación de Pearson 0,7752588
P(T<=t) una cola 0,00027249
Diferencia hipotética de las medias 0
Valor crítico de t (una cola) 1,83311293
Grados de libertad 9
P(T<=t) dos colas 0,00054498
Estadístico t -3,13787074
Valor crítico de t (dos colas) 2,26215716
P(T<=t) una cola 0,0059845
BayesNet J48
Valor crítico de t (una cola) 1,83311293
Observaciones 10 10
2.4.Conclusiones
Se puede concluir además que la clase Setosa, es mucho más lineal que
Virginica y Versicolor en todos los folds utilizados para el análisis.
3. Bibliografia
1. Bayesian Network Classifiers in Weka, http://es.scribd.com/doc/3837893/Bayesian-Network-Classifiers-in-Weka
2. Interpreting Weka Output, http://www.let.rug.nl/tiedeman/ml06/InterpretingWekaOutput
3. Remco, Bouckaert.: “Estimating replicability of classifier learning experiments”, In Proceeding ICML ’04 of the
twenty-first international conference on Machine Learning, page 15, 2004.
4. T Student o Test T, http://patoral.umayor.cl/anestbas/TEST_T.html#Tabla1
5. Robles.V.: “Clasificación supervisada basada en Redes Bayesianas. Aplicación en Biología Computacional”,
Universidad Politécnica de Madrid, Tesis Doctoral, 2003.
6. Análisis de Información Clínica mediante técnicas de Minería de Datos,
http://www.revistaesalud.com/index.php/revistaesalud/article/view/358/707
ACTIVIDAD 3
El estudiante deberá entregar un trabajo de entre 5 y 10 páginas A4 a una cara con los
siguientes apartados:
1. Una justificación breve sobre los motivos para la elección del artículo.
2. Un resumen del artículo: de qué secciones consta y de qué trata cada una. Es
importante que el alumno demuestre su comprensión del artículo en este resumen.
En particular, que describa la aportación novedosa frente a trabajos anteriores
citados en el propio artículo
3. Un estudio sobre el ámbito de aplicabilidad de las conclusiones obtenidas (para qué
tipo de datos/algoritmos está especialmente indicado, limitaciones, en qué
situaciones está contraindicado...).
4. Un estudio de la bibliografía reciente del autor y el área. El estudiante puede hacer
el estudio comenzando con una búsqueda por autor en los servidores citeseer y
Google Scholar. Con los resultados, deberá realizar una selección de 5
publicaciones relacionadas con el tema de la selección de atributos y, en particular,
con la aproximación elegida, y analizar su impacto medido por el número de
citaciones. Finalmente, el informe deberá recoger publicaciones de otros autores
relacionadas con el artículo original, de publicaciones de relevancia y los mayores
índices de citación encontrados.
4. Introducción
Las fuentes de información existentes web, repositorios OCW, bibliotecas, etc., tienen gran
cantidad de información y generalmente se han utilizado métodos manuales y semiautomáticos
para clasificarla [2]. En la actualidad se prefiere utilizar métodos automáticos basados en la
estadística y algoritmos de inteligencia artificial para obtener dicha clasificación [3].
En este trabajo, se presenta las ventajas de aplicar métodos de probabilidad junto a maquinas
vectoriales, para clasificar el contenido y mejorar los resultados obtenidos con las técnicas de
agrupación de palabras en un texto. Para ello, se analizará la propuesta realizada en [3], se
explicará sus ventajas y se detallará sus principales contribuciones. Se escoge este trabajo debido
a que sus resultados muestran más del 70% de precisión en la categorización de textos y además
porque ha sido citado en más de 180 trabajos, siendo su cita más importante la detallada en [4], la
cual hace referencia a la categorización de un conjunto de textos basado en el algoritmo de
agrupación de cuello de botella, o como se denomina [4] “el método para obtener el ranking de
una variable”, este método se explica a continuación.
5. Trabajos relacionados
En la propia literatura de [3] se puede leer que existen trabajos que presentan mecanismos para
clasificar textos, logrando precisiones del 92% como es el caso de [5]. La clasificación de textos
puede ser aplicado para la identificación de spam en correos electrónicos. Muchas técnicas han
sido utilizadas para ello, como la técnica IMatch que busca duplicados en los correos basado en la
distancia del coseno, para determinar si existe similitud entre los textos de correos analizados [6].
Sin embargo esta técnica analiza el conjunto de todo el texto, a diferencia del análisis del
aparecimiento de una palabra en un texto como se hace en [3].
Un trabajo muy relacionado con lo descrito en [3] (y muy referenciado) es el que se describe en
[8], en donde se muestra que la categorización del texto se puede mejorar al aumentar un
pequeño número de documentos de formación etiquetados, con un gran número de documentos
sin etiquetar. Esto es importante porque en muchos problemas de categorización de texto la
obtención de etiquetas caro, mientras que grandes cantidades de documentos no etiquetados
están fácilmente disponibles. Allí, se introduce un algoritmo de categorización de los documentos
etiquetados y no-etiquetados basado en la combinación de Esperanza-Maximización (EM) y
clasificador NaiveBayes. El primer algoritmo se entrena utilizando los documentos disponibles
etiquetados, y probabilísticamente etiqueta aquellos que no lo están. A continuación, entrena a
una nuevo clasificador utilizando las etiquetas de todos los documentos, y se repite a la
convergencia. Este procedimiento básico de EM funciona bien cuando los datos se ajustan a la
generación de supuestos en el modelo. Sin embargo, estos supuestos son frecuentemente
alterados en la práctica, y se puede obtener bajos rendimientos. Se presentan dos opciones para
que el algoritmo mejore su precisión en estas condiciones: (1) un factor de ponderación para
modular la contribución de los datos no marcados, y (2) el uso de múltiples componentes de la
mezcla por clase. Como se describe anteriormente la esperanza de maximización parte de que se
tienen documentos etiquetados y no etiquetados, y efectúa un análisis probabilístico para la
clasificación de documentos. Se considera entonces una mejora en [3] ya que generalmente los
buscadores se basan en palabras y no en el contenido de todo un texto, de allí que se parte del
análisis de la pertenencia de las palabras al texto para luego si categorizarlos. Sin embargo, el
utilizar documentos no etiquetados, parece ser una buena vía, para enfatizar en que este tipo de
algoritmos debe tambien aprender a manejar información no estructurada mediante la cercanía
que tienen los textos etiquetados frente a los que no lo están, lo que repercute inclusive cuando
se utiliza conjuntos de características de cardinalidad pequeña (por ejemplo, k = 10), en donde se
espera que al menos en "complejos" conjuntos de datos como 20NG (grupos de noticias), exista
cierta ventaja en la representación de la forma de categorización descrita en [3] en donde; los
documentos al estar etiquetados y al tener un centroide ghost, puede servir de apoyo también
para etiquetar a los documentos que no contienen clase alguna. A continuación se describe la
propuesta de [3] empezando por aquellos por los algoritmos que utiliza.
El proceso annealing stages, obtiene los k clusters “deseados”: Para obtener los k clusters, en el
proceso de división se van creando para cada centroide c, un valor aleatorio cercano a c llamado
centroide fantasma ghost (G). El valor de ghost sirve para agrupar a cado de los centroides
creados (y por ende a los valores) en un solo centroide siempre y cuando estén dentro de su
intervalo, esto en el fin de ir “disminuyendo” la cantidad de centroides creados. En la siguiente
figura se muestra lo explicado en los párrafos anteriores:
Probabilidad de aparición de la
palabra en cada clúster
Palabra Ficheros
Cluster1
Cluster2 G1
… G2
Clúster inicial
Clúster k
Gk
Como se observa en la figura anterior se calcula para cada cluster la probabilidad de aparición de
la palabra en los mismos, sin antes dejar pasar que el centroide ghost (G) sirve para “disminuir” los
clusters generados. Todo este procedimiento se basa en la formula:
(2)
Para el caso de la clasificación de textos, el objetivo es aprender a partir de los datos. Para ello se
busca la dependencia funcional probabilística entre un conjunto de entrada (llamados vectores) y
los valores de salida.
La propuesta descrita en [3] une los dos algoritmos descritos en los epígrafes anteriores, mediante
el proceso descrito a continuación.
Los algoritmos descritos en los apartados anteriores, se unen con el fin de obtener una clasificación de los
textos. Es necesario aclarar que cada texto puede pertenecer a varias “clases” o a una sola clase, por lo tanto
en [3] se decide realizar dos tipos de clasificación.
Para la primera considerada como multiclase, se identifican varios clasificadores (SVM) y cada
clasificador se lo especializa en una sola clase de las multiclases identificadas. Mientras que para
la clasificación uniclase se otorga un valor de confianza, que permite identificar si el documento
(texto) pertenece o no a una clase según sea su cercanía a ese valor, lógicamente el valor de
confianza está en directa relación con el hiperplano creado por el algoritmo SVM (incluida la fase
de annealing stages).
Los datos que se utilizaron para probar el mecanismo fueron 20NG, grupos de noticias que se
encuentran a disposición en Reuters-21578, compuestos por 21578 artículos. La clasificación de
las noticias requiere de dos tipos de análisis muliticlase y uniclase. Para multiclase se ha
propuesto un parámetro conocido como unfair (injusto), en el cual sirve para determinar cuando
un clasificador obtuvo mejores resultados que otro, cuando los parámetros de B han sido
configurados erróneamente (injustamente).
Los resultados muestran que la combinación de los algoritmos mejora la clasificación en lo que
respecta a la categorización. Se puede afirmar ello cuando los algoritmos se combinaron para
clasificar a 15000 palabras, la precisión de menor valor es 80.8% y de 95.7% como máxima. Esto
demuestra que existe un alto rendimiento en la clasificación obtenida para uniclase y multiclase,
9. Bibliografía
7. J. Gómez, et al.: “Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet”, In
Procesamiento de lenguaje natural. No. 31, pp. 13-20, 2003.
8. S.Cesare, M. Santayana.: “Principios de análisis del texto literario”, Barcelona:Critica, DialNetl, Bibliotecas
Universitarias, 1985.
9. R. Bekkerman, Y. Ran.: “Distributional Word Clisters vs. Words for Text Categorization”, In Journal of Machine
Learning Research, pp. 1183-1208, 2003.
10. I.Guyon, A. Elisseeff.: “An Introduction to Variable and Feature Selection”, In Journal of Machine Learning
Research 3, pp. 1157-1182, 2003.
11. S.T. Dumais, J. Platt, D. Heckerman, and M. Sahami. Inductive learning algorithms and representations for text
categorization. In Proceedings of CIKM’98, 7th ACM International Conference on Information and Knowledge
Management, pages 148–155, Bethesda, US, 1998. ACM Press,New York, US.
12. Kolcz.E, Chowdhury.A, Alspector.J.: The impact of feature selection on signature-driven spam detection,
CiteSeer,2003.
13. R.Bekkerman, R.El-Yaniv, A.McCallum.: “Multi-Way Distributional Clustering via Pairwise Interactions, In
Proceedings of the 22 International Conference on Machine Learning, Bonn, Germany, 2005.
14. Gonzalez.L.: “Modelos de clasificación basados en máquinas de vectores soporte, In Asociación Científica de
Economía Aplicada, 2003.