Está en la página 1de 4

Clasificacin con numero variable de ejemplos Resolucion de ejercicios Practica N 03

ABSTRACT
En este documento detallamos la resolucin ejercicios que tienen que ver con la Clasifiacion con numero
variable de ejemplos; para ampliar nuestro conocimiento acerca de la Utilizacin de conjuntos de
entrenamiento y test para una mejor evaluacin del comportamiento de un clasificador y adems la
Comparacin del funcionamiento de diversos clasificadores con un nmero variable de ejemplos de
entrenamiento haciendo uso del Software Weka y su extensa minera de datos.

In this paper we detail the resolution exercises that deal with the standings with variable number of
examples ; to expand our knowledge about the use of training and test sets for better assessment of the
behavior of a classifier and also the comparison of the performance of different classifiers with a variable
number of training examples using the Weka software and extensive mining data.

PALABRAS CLAVE
Weka, minera, datos, rbol, decisin, umbral.
1 INTRODUCCION
Un clasificador depende del nmero de ejemplos de entrenamiento de que se disponga.
Idealmente, interesa disponer de un gran nmero de ejemplos para poder extraer un modelo
fiable, que justifique tales ejemplos y que se comporte adecuadamente ante casos nuevos.
En la prctica, el nmero de ejemplos de entrenamiento del que se dispone no es ilimitado; y
por tanto es importante que el clasificador elegido sea capaz de extraer la mxima informacin
posible de un pequeo conjunto de datos. No todos los clasificadores se comportan igual
cuando el nmero de ejemplos de entrenamiento es reducido; el objetivo de esta prctica ser
determinar cules son los clasificadores ms adecuados en estas circunstancias.
2. HERRAMIENTAS DE TRABAJO

WEKA, acrnimo de Waikato Environment for Knowledge Analysis, es un entorno para


experimentacin de anlisis de datos que permite aplicar, analizar y evaluar las tcnicas ms
relevantes de anlisis de datos, principalmente las provenientes del aprendizaje automtico,
sobre cualquier conjunto de datos del usuario. Es un software compuesto de un conjunto de
libreras JAVA que ha sido desarrollado en la universidad de Waikato (Nueva Zelanda) bajo
licencia GPL, lo cual ha impulsado que sea una de las suites ms utilizadas en el rea en los
ltimos aos. Cabe resaltar tambin la gran diversidad de algoritmos incluidos en WEKA que se
pueden utilizar segn como se quieran obtener unos u otros objetivos. Todo ello hace que
WEKA sea una herramienta principal en las ms importantes tecnologas basadas en el
procesamiento de informacin en los distintos mbitos de la sociedad.
MATLAB
Software que facilita el trabajo de realizar clculos numricos complejos representados
mediante algoritmos y adems de poder desarrollar los mismos, permite tambien analizar datos
y visualizarlos, representar funciones de una o dos variables; adems de ser un entorno virtual
muy til para poder visualizar resultados.

3 METODOS
COMPROBANDO EL FUNCIONAMIENTO DE UN CLASIFICADOR

Para probar el funcionamiento de un clasificador ante un nmero variable de ejemplos de


entrenamiento, el procedimiento es el siguiente:
1. Dividir el total de ejemplos disponibles en dos subconjuntos:
Conjunto de entrenamiento.
Conjunto de test.
2. Utilizar el conjunto de entrenamiento para generar el modelo (rbol, lista de reglas, etc.).
3. Utilizar el conjunto de test para verificar si el comportamiento del modelo es correcto con
ejemplos no vistos anteriormente.
4. Repetir el procedimiento anterior variando el nmero de ejemplos del conjunto de
entrenamiento.

La codificacin que se utilizo para el procedimiento anterior adecundolo a lo requerido en los


ejercicion 1 y 2, se detalla a continuacin:
>> !java weka.classifiers.trees.J48 -t entren.arff -T test.arff >out.txt
>>%Acondicionando el ejemplo principal deacuerdo al problema1
>> [entren, test] = lee_weka_test ('out.txt')
>> num = [5 10 15 20 30 40 60 80];
>> for i=1:8
separa('data/agarre.arff', 'entren.arff', 'test.arff',num(i)); %dividimos total de ejm disponibles
!java weka.classifiers.trees.J48 -t entren.arff -T test.arff -C 0.3>out.txt
[entren_c(i), test_c(i)] = lee_weka_test('out.txt');
end;
>> plot(num, test_c, 'b-o')
A partir del bucle for el procedimiento se repite cambiando la codificacin para K=1, Naive
Bayes con estimacin de funcin de densidad suma de gaussianas:
!java weka.classifiers.lazy.IBk -t entren.arff -T test.arff -K 1 > out.txt %K=1
!java weka.classifiers.bayes.NaiveBayes -t entren.arff -T test.arff -K > out.txt % Naive Bayes
Finalmente hacemos el procedimiento de ploteo y obtenemos el siguiente grfico:

ENTRENAMIENTO DE REDES NEURONALES MEDIANTE WEKA.

En WEKA las redes neuronales (perceptrn multicapa) se utilizan como otro tipo de clasificador
cualquiera. Como ejemplo, se generar desde Matlab una red neuronal para uno de los ficheros
de ejemplo presentes en WEKA:
>> !java weka.classifiers.functions.MultilayerPerceptron -H 2 t data/iris.arff
El parmetro -H indica el nmero de neuronas en la capa oculta (se utiliza una nica capa oculta
con 2 neuronas): -H 2. Entre los resultados de WEKA se muestran los pesos asignados durante el
entrenamiento a cada una de las conexiones entre neuronas. Se trata de un proceso ms lento y
ms costoso computacionalmente que el resto de algoritmos probados hasta el momento. El
ejercicio 2 de acuerdo a lo que se requiere se consiguieron resultados para los siguientes
nmeros de ejemplos: 5, 10, 15, 20, 25, 30, 40, 60 y se gener redes neuronales con 2, 3 y 4
neuronas en cada caso y finalmente se consigui el siguiente grfico:

CONCLUSIONES
En este trabajo se ha podido demostrar lo siguiente
Analizando la figura 1 se puede comprobar que: A menor nmero de ejemplos de
entrenamiento, mayor es el porcentaje de clasificaciones correctas sobre los ejemplos
de test, no es del todo cierto, ya que los resultados de las tres funciones del ejercicio 1
no cumplen esta condicin en su totalidad.
La figura 2 se puede comprobar no se puede concluir que a ms nmero de ejemplos de
entrenamiento, mayor es el porcentaje de clasificaciones correctas sobre los ejemplos
de test. Dado los resultados haciendo uso de neuronas, estas llegan a un punto lmite
luego empiezan a decrecer.
REFERECIAS
WEKA: Waitako Environment for Knowledge Analysis.
Introduccin bsica.
Departamento de Informtica Universidad de Valladolid.
http://www.infor.uva.es/~calonso/IAII/Aprendizaje/weka/I
ntroduccionWeka.pdf

Ferri, C.
Mi pgina de Weka.
http://www.dsic.upv.es/~cferri/weka/

Bauser, J.V. Ferragud, M.D. y Baz, R.Z.


(Ed.). (2007),Fundamentos matemticos para
la Ingeniera con MATLAB. Mxico:UPV.
Garca, D.
Weka Tutorial (Spanish)
http://metaemotion.com/diego.garcia.morate/

También podría gustarte