Está en la página 1de 3

´

FACULTAD DE INGENIERÍA
INGENIERIA DE SISTEMAS
Nombre de la
Asignatura Aprendizaje Computacional

Taller Regresión en WEKA


´
65%: 1ERA PARTE REGRESION MULTIPLE - CPU PERFORMANCE
Para esta parte se quiere laborar un modelo con el cual predecir el Desempeño estimado Relativo
de una CPU (Estimated Relative Performance (ERP)) basándose en una serie de atributos como,
MYCT, MMIN, MMAX, CACH, CHMIN, CHMAX.

En esta parte del taller se trabajará con el conjunto de datos cpu.arff

1. Note que el atributo vendor es nominal y no numérico, eso podrá darle problemas. Por
ahora simplemente borre este atributo.
2. Use la pestaña Visualize y explore los datos. Fíjese en las gráficas de dispersión de
algunos atributos contra la variable objetivo ERP.
o ¿Cree usted que la variable objeto si puede ser predicha (al menos parcialmente)
desde los datos de entrada?
o ¿Algunos de los atributos de entrada tienen una alta correlación?
3. Ahora realice una Reresión Lineal Simple (pestaña Classify, seleccionar Choose >
functions > LinearRegression). Usar las opciones por defecto. Examine los resultados
desde los errores obtenidos (Relative absolute error y Root relative squared error). Favor
documéntese sobre que significan estos errores
4. Antes se eliminó la variable vendor. Sin embargo, podemos usar atributos nominales en
una regresión convirtiéndolos en numéricos. Vuelva y cargue los datos originales
de cpu.arff. en la pestaña Preprocess seleccione Choose > filters > unsupervised > attribute
> NominaltoBinary y click en Apply. Esto reemplazará la variable vendor con 30 variables
binarias ahora hay 37 atributos (inicialmente habían 8).
5. Ahora realice nuevamente la regresión y analice los resultados desde lo errores
o Compare con los resultados de antes y diga si el haber binarizado la variable vendor
mejoró el desempeño del modelo.

35%: 2DA PARTE REGRESION LOGISTICA – REMISION DE LEUCEMIA

En esta parte se trabajará con el conjunto de datos leukemia-remission.arff

Tenemos ahora un problema en donde se pretende predecir si hay o no remisión de


Leucemia, en un paciente dado, utilizando ciertas variables predictoras, asociadas a una
serie de examenes: cellularity of the marrow clot section (CELL), smear differential
percentage of blasts (SMEAR), percentage of absolute marrow leukemia cell infiltrate
(INFIL), percentage labeling index of the bone marrow leukemia cells (LI), absolute number
of blasts in the peripheral blood (BLAST), and the highest temperature prior to start of
treatment (TEMP). No olvide que, si es necesario, se debería normalizar (Choose > filters >
unsupervised > attribute>Normalize)

Para esto usaremos el algoritmo de regresión logística de WEKA (pestaña Classify,


seleccionar Choose > functions > Logistic). Usar las opciones por defecto del algoritmo.
Antes de ejecutar haga click en percentage split y cámbielo al 80. Analice los resultados
desde los errores obtenidos (Relative absolute error y Root relative squared error).

Objetivo:
Determinar la comprensión de los conceptos básicos del proceso de Regresión y como el estudiante puede
realizarla en un software dado
´
Objetivos específicos
• Ver si el estudiante entiende el proceso básico de la Regresión
• Verificar la capacidad de modelar una situación u problema concreto que necesite la
regresión logística usando un software dado

También podría gustarte