Está en la página 1de 9

INTELIGENCIA ARTIFICIAL

Viernes, 12 de mayo de 2017


EXAMEN PARCIAL

Los alumnos formar grupos para desarrollar el siguiente examen igual al grupo del trabajo
final.
No se puede desarrollar el examen individualmente.

Fecha de entrega: martes 16 de mayo a las 19:00 PM en rea de sistemas.


Entregable CD con los siguientes datos (con tinta indeleble):
Universidad, Curso-Seccin, Profesor, Alumnos, Fecha,
Informe Impreso y anillado (no entregar con file)

Dedicacin: Sbado 50%


Domingo 75%
Lunes 50%
Martes 50%
Requerimiento 1 computador para cada integrante.
Recomendacin Trabajo en equipo y en paralelo.

CONTENIDO DEL CD
El CD debe de contener los siguientes datos, no coloque datos adicionales.
En la raz del CD debe de crear los siguientes elementos:

apellido1, apellido 2, apellido3 .. archivo cuyo nombre contiene la lista de


apellidos
no coloque los apellidos dentro del archivo
repositorio carpeta que contiene las fuentes del software
software otros programas usados
st414_a1_ep_2017i_U_grupo_##.pdf archivo pdf que contiene su informe final
## corresponde al nmero del grupo.

LENGUAJE DE PROGRAMACIN
a. Desarrollar el procedimiento de solucin usando el rapidminer y excel.
b. Debe de entregar el repositorio completo de la solucin al problema, as como
programas adicionales usados.

INFORME FINAL
a. Coloque al inicio de su informe este documento como referencia.
b. Documentar el algoritmo desarrollado o procedimiento con operadores (no se solicita
la impresin del programa fuente), segn el esquema de diseo de un agente
inteligente.
c. Entregar un solo archivo, en formato pdf, con el contenido total de su trabajo, segn
las indicaciones de arriba, este documento debe ser impreso, anillado y entregado en
fsico.
d. Coloque separadores en su trabajo (1 hoja), que indiquen la parte que est
entregando, dado que se evala cada parte de su informe, no comience una parte o
seccin de su examen a la mitad de una pgina.
e. El informe final debe contener como mnimo las siguientes partes: cartula, tabla de
contenido, resumen, introduccin, enunciado del examen, parte 1, parte 2, parte 3,
parte 4, parte 5, anexos, conclusiones, recomendaciones y bibliografa leda.
f. Separe la respuesta de cada pregunta con un salto de pgina, de tal forma que facilite
su evaluacin.
g. Si bien se evala el documento del examen parcial, todo lo que afirmen en este
documento debe de estar sustentado en el repositorio entregado.
h. Entregue adjunto a su examen una copia del repositorio que ha usado para resolver el
problema, use nombres que expongan claramente el paso que estn efectuando,
numere los objetos del repositorio de tal forma que sea claro en orden en que fueron
ejecutados para obtener el resultado final.
i. Si por algn motivo hace uso de programas diferentes al rapidminer debe ser
entregado en el CD
EXAMEN PARCIAL 2017i

Los alumnos para entregar este examen deben de desarrollar actividades (partes) indicadas
ms adelante, las cuales deben ser cuidadosamente documentadas y presentadas en
orden, indicando cmo han logrado desarrollar cada paso y las conclusiones a las que han
llegado, no se trata de hacer un manual, si no de explicar usando referencias, cuadros,
curvas, lo qu estn haciendo y qu se logra al ejecutar cada paso, evite afirmaciones
ambiguas (generalidades) y sin sustento.

Debe de considerar que el examen no es entregar el cdigo fuente de sus


programas, sino de explicar qu se est haciendo en cada paso, colocando ejemplos de
corridas y explicando lo que hace el programa.

No es necesario explicar la parte visual del programa, solo los algoritmos relacionados
con el curso, no hay que desarrollar casos de uso, ni diseos de pantallas o reportes.

En caso que sea necesario use un diagrama de secuencias para explicar sus programas.

Evite desarrollar programas usando variables no explicitas (tales como X, Q, A, C), coloque
como nombre de una variable lo que significa.

Ordene sus programas con un nmero de tal forma que el orden en que aparecen es el
orden en que deben ser invocados.

Desarrollar un modelo de prediccin haciendo uso del modelo de rboles de decisin.

INTRODUCCION
El proceso implica el desarrollo de las siguientes actividades, cada una de las cuales debe
ser cuidadosamente conceptualizada, explicada y planteada en el examen. Los grupos
pueden definir mayor o menor cantidad de actividades.

Cada actividad debe ser explicada en una nueva hoja, debe exponerse:
1. Nombre de actividad:
2. Entradas
3. Salidas
4. Ejemplos de las entradas y salidas (relacionadas)
5. Estrategia de implementacin.
6. Representacin (conocimiento declarativo)
7. Procedimiento de solucin (conocimiento procedural), presenta el algoritmo y su
respectiva explicacin
8. Clculo de la efectividad de la representacin (si es necesaria)

En caso que una actividad implique el uso de parmetros, estos deben ser calculados por
experimentacin, indicando el diseo experimental y los resultados de cada experimento.

Se recomienda que los ejemplos planteados correspondan al mismo caso en todo el


documento.

Antes de explicar cada actividad, los alumnos analizan la propuesta de solucin planteada
en la siguiente hoja y genera el modelo de solucin del problema (arquitectura de la
solucin)
ENUNCIADO
Se trata de disear un procedimiento para construir un modelo de clasificacin teniendo en
consideracin los siguientes aspectos:

Ejercicio disponible en: https://www.kaggle.com/c/springleaf-marketing-response

1 MODELO DE CLASIFICACION

El modelo de clasificacin debe ser desarrollado desde la data proporcionada en la tabla:

test.csv (149.94 mb)


train.csv (149.83 mb)
sample_submission.csv . (205.45 kb)

1.1 IMPORTACIN DE LOS DATOS


Importe los datos al rapidminer e identifique los tipos de atributos (regular, id o label) y los
tipos de datos para cada uno de los atributos de la data, analice la data antes de tomar una
decisin al respecto, revise el archivo: train.csv para ms referencias, presente la data en
un listado de la siguiente forma:

Nominales Numricos
Rol Nombre Tipo Frecuencia Valores Minim Mxim Promed Nul
Diferentes o o io l
id ID integer 1 15183 75964. 0
8 05
label TARGET binomin
al 1 (73012), 0 (3008)
regul
ar var3
regul
ar var15
regul
ar imp_ent_var16_ult1
regul imp_op_var39_comer
ar _ult1
regul saldo_medio_var44_ul
ar t3
regul
ar var38

En caso que el target tenga ms de 2 valores, considere a uno de ellos como el true y al
resto como el false.

1.2 ENTENDIMIENTO DEL PROBLEMA

Lea el enunciado del problema, revise la pgina web del propietario de la data y con sus
propios trminos, usando grficos, tablas, cuadros, etc, explique de qu se trata el
problema a resolver, no confunda un objetivo con un problema, un problema siempre
es un estado o una situacin que hay que describir a la que se percibe como problemtica
porque falta algo, porque no se sabe algo, porque an no se ha llegado a un valor o
simplemente porque es una percepcin de problema. La definicin del problema siempre es
relativa, es decir depende del observador, evite hacer apreciaciones de valor cuando defina
el problema (no puede decir que los virus informticos son malos, solo indique cmo es que
funcionan, en qu estado se encuentran, etc..) en cambio un objetivo es lo que usted
desea lograr, por lo tanto, no es una descripcin.
Apoye la definicin del problema, con grficos y curvas que puede obtener desde los
propios datos. Tenga en consideracin que el problema no es cmo hacer un modelo
predictivo, el problema no es encontrar los mejores atributos, ni encontrar el mejor modelo.

Se trata de explicar cul es el problema, tal que, si se resuelve, le servir a la empresa


luego que entre en operacin.

Use al menos 2 hojas para describir el problema., para su referencia un problema es


siempre un sustantivo, no es un verbo. El objetivo de un proyecto siempre es un verbo. El
objetivo es describir la situacin problemtica.

Observe que un problema no se debe de plantear como la ausencia de la solucin, es decir


un problema no se puede plantear como "falta de la respuesta" o como "no se sabe la
respuesta".

1.3 ENTENDIMIENTO DE LOS DATOS

Esta etapa tiene por finalidad tomar conocimiento de las estructuras de datos usadas para
almacenar los datos, los nombres de las columnas y la codificacin de las columnas de tipo
categricas, se trata de:
1. Identificar la estructura de las tablas que almacenan la data de cada situacin de riesgo.
2. Identificar la clave primaria de las estructuras de datos.
3. Identificar el procedimiento de clculo de la clase (target).
4. Identificar el nivel de granularidad del almacenamiento (por mes, por ao, por persona).
5. Analizar las relaciones internas entre los datos.

Estadstica univariada.
Analice los datos presentando la estadstica univariada de
los datos (Quartile Color Matriz) intrprete los resultados.
(Observe que solo deben ser de dos estados).

Encuentre aquellos atributos donde la diferenciacin entre


los caja sea clara

Baja diferenciacin Media diferenciacin

No basta con presentar los grficos, lo que debe de hacer es explicar cada uno de los
grficos, para llegar a entender el problema.

Efectu el anlisis de cada uno de los atributos, si desea apyese en el operador Weight by
Information Gain Ratio, para ordenar los atributos.

Exponga el histograma de los atributos de mayor peso.


Explique cada histograma, indicando en qu medida ha logrado identificar los patrones,
apoye su explicacin usando otros diagramas.

Mnimo 4 hojas.
Analice los datos presentando la multivariada (scatter matriz), interprete los resultados.

Identifique aquellos pares de atributos donde por regin existe algn tipo de diferenciacin.

Concluya con respecto a:


Ranking de atributos
Pares de atributos donde se presenta diferenciacin
Valor extremos
Valor null
Numero de estados por atributo

1.4 PREPARACIN DE LOS DATOS


Esta etapa tiene por finalidad construir una estructura de datos nica que contenga
todos los datos (atributos) por cada unidad de supervisin en una instancia de anlisis.
Para el problema planteado la instancia de anlisis corresponde al comportamiento de
una unidad de supervisin en determinado.

Esta etapa tiene por finalidad preparar los datos para aplicar los algoritmos de
aprendizaje que se usar cuando se construya el modelo.
1. Identificacin de valores null, se trata de reemplazar los valores para periodos no
existentes.
2. Identificacin de valores extremos. Se trata de identificar los montos muy altos que
pueden afectar el comportamiento de los datos.
3. Identificacin de valores mal formados. Se analiza durante el desarrollo del proyecto.
4. Normalizacin de los datos con la finalidad que el comportamiento depende del
patrn de comportamiento y no de la magnitud del consumo.
5. Evaluar la necesidad de generar agrupamiento de datos para verificar en qu casos
se puede mejorar el rendimiento del modelo (mes a ao).
6. Preparar transformaciones de los datos.

Use como referencia el siguiente modelo de solucin o revise el mtodo CRISP-DM para
conocer el mtodo de trabajo.
Balanceado

Matriz
Confusin

Muestreo
Identifique el nmero de registros positivos, negativos y null para los estados de la clase,
prepare muestras balanceadas para efectuar el entrenamiento del modelo, para efectuar
las pruebas, siempre pruebe con el 100% de los datos. Una muestra balanceada es aquella
donde el nmero de positivos y negativos es el mismo. Use el operador Sample. Asegrese
que la semilla del muestreo sea siempre diferente para obtener diferentes muestras de
entrenamiento.
Parmetro 1: Tamao de la muestra
Parmetro 2. % de positivos en la muestra

Exponga su procedimiento
Exponga qu hace el operador
Exponga los resultados obtenidos

Preparacin de clase:
Identifique un estado de inters al que asignara el positivo del modelo y al resto como el
negativo del modelo. Como referencia siempre los casos positivos son los poco frecuentes
en los datos (el % de fraudes siempre es bastante pequeo, el porcentaje de accidentes
siempre es bastante pequeo en relacin al 100% de tareas)

Exponga su procedimiento
Exponga qu hace el operador
Exponga los resultados obtenidos
Diga por ejemplo que porcentaje de los datos son YES o NO, y si estos estn o no
balanceados.

Preparacin de los atributos


Revise el histograma de cada uno de los atributos e identifique potenciales
transformaciones a los datos antes de der ingresados al procedo de modelado. Efectu las
transformaciones de los datos tal que solicita el algoritmo de clasificacin. La revisin de
los histogramas se expone en la seccin 1.3 ENTENDIMIENTO DE LOS DATOS

Presente el flujo de preparacin de atributos claramente, especificando los parmetros de


la transformacin y ejemplos de las corridas.

Ranking de atributos
Prepare el ranking de todos atributos para evaluar en qu medida contribuyen a la solucin
del modelo, use el operador: Weight by Information Gain

Modelo
Ver las siguientes secciones (explique y presente el modelo), use solo el algoritmo
Decision Tree.
Parmetro 3. Tamao del rbol

Prediccin
Ver las siguientes secciones (solo usando la data de original, calcule el rendimiento = 1-
error del modelo), para esto use el operador Performance.

1.5 DESARROLLO DEL MODELO

Pruebe construyendo un rbol de decisin, identifique los


parmetros del modelo, coloque todos los parmetros en el
mnimo valor y solo mueva la profundidad del modelo.

Presente el rbol para diferentes tamaos, y diferentes


iteraciones.

El grupo presentar luego el rbol que mejor rendimiento ha


tenido, concluyen en la presentacin de la lista de atributos,
el orden en que se usan en la clasificacin y las reglas de
decisin encontradas.

Apoye su decisin presentando una grafica sobre el tamao y el rendimiento VP y VPP.

Para exponer los resultados de la efectividad, prepare una grfica de la siguiente forma:

1.6 EVALUACION DEL MODELO

Cada modelo debe ser evaluado usando el operador Performance.

El resultado es presentado en tres indicadores (aptitud del


modelo) %VP, %VN y %VPP.

No siempre cuando se minimiza uno de ellos el otro tambin se


minimiza, por lo que debe de preparar una funcin de
optimizacin se integre estos tres indicadores de rendimiento,
de la siguiente forma: a1*%VP + a2*%VN a3*%VPP, donde a1
+a2 + a3 = 1.

Presente los resultados, dependiente de los parmetros identificado para su modelo


(parmetro 1, parmetro 2 y parmetro 3).

Observe que esta seccin est implcita en todo el proceso.

Solo al finalizar su trabajo, revise el indicador AUC (Curva ROC) y diga cul es el rea bajo
la curva.

Esta seccin se integra con la construccin del modelo.

Presente sus resultados en una tabla de la siguiente forma.

Datos de entrenamiento Datos de prueba


Exp Tam % VP VPP VN VPN Fun Tam % VP VPP VN VPN Fun
eri ao de cin ao de cin
me mu posi de de posi de
nto estr tivo Opti los tivo Opti
a s en miz dat s en miz
de la aci os la aci
entr mu n de mu n
ena estr pru estr
mie a eba a
nto de de
trai trai
n n

1.7 CONCLUSIONES

Llegue a conclusiones significativa, indique, por ejemplo, entre otros puntos.

Cules son los atributos que tienen el mejor rendimiento, sean originales o
transformados

Cul es la estructura del rbol de decisin, especificando los atributos que lo conforman
(de la lista anterior), presente el rbol y explique.

Cul es el rendimiento mximo del modelo, indique bajo que valores en sus parmetros.

Comportamiento del modelo en funcin al tamao del arbol

Otras conclusiones,

Entregables

1.1 IMPORTACION DE LOS DATOS 0 puntos


1.2 ENTENDIMIENTO DEL PROBLEMA 3 puntos
1.3 ENTENDIMIENTO DE LOS DATOS 4 puntos
1.4 PREPARACIN DE LOS DATOS 4 puntos
1.5 DESARROLLO DEL MODELO 4 puntos
1.6 EVALUACIN DEL MODELO 0 puntos
1.7. CONCLUSIONES 5 puntos

Coloque el enunciado de este examen como una seccin de su examen (la primera parte).
Separe cada seccin del examen con un salto de pgina.