Está en la página 1de 6

Introduccin

Orange
www.ailab.si\orange

Es una herramienta para data mining escrita en


C++, que define componentes.
Es una librera que se importa desde Python.
Los componentes pueden ser accedidos:

Victoria Montes

por medio de scripts desde Python.


por medio de widgets (componentes GUI), desde el
Canvas.

Es posible crear y agregar nuevos componentes.

vmontes@exa.unicen.edu.ar

Instalacin

Componentes

Es de distribucin libre bajo licencia GPL.


Requerimientos:

Orange provee componentes para:


Entrada/salida de datos, soporta los formatos C4.5,
assistant, retis y tab(nativo).
Preprocesamiento de datos: seleccin, discretizacin,
etc.
Modelado predictivo: rboles de clasificacin, regresin
logstica, clasificador de Bayes, reglas de asociacin,
etc.
Mtodos de descripcin de datos: mapas
autoorganizados, k-means clustering, etc.
Tcnicas de validacin del modelo: como validacin
cruzada.

Python, para scripting.


Los paquetes Qt,PyQt, PyQwt, para usar Canvas y widgets.
El paquete GraphViz, para algunos widgets.

Puede descargarse el paquete completo para Windows, desde:


http://www.ailab.si/orange/downloads.asp

Para utilizar el Canvas puede ser necesario el modulo NumPy (paquete de


funciones matemticas).

Canvas

Ejemplo - Entrada
Actualiza las conexiones entre widgets

Widget

Se trata de predecir el consumo de combustible en


millas por galn (variable de clase continua mpg).
Cantidad de instancias : 398.
Atributos:

Workspace

Descripcin del
componente

Mensajes de error y warnings

numero de cilindros (discreto).


caballos de fuerza (continuo).
peso (continuo).
aceleracin (continuo).
modelo-ao (discreto).
origen (discreto).
nombre (discreto).
6

Cargar los datos

Ejemplo - Pasos
Carga los datos.
Tratar los valores desconocidos.
Discretizar las variables continuas.
Aplicar Bayes.
Aplicar rbol de decisin.
Visualizar los resultados.

Numero de instancias

Cantidad de atributos
Variable de clase continua

Valores desconocidos

Discretizacin de atributos

Tratamiento de los
valores
desconocidos

conectar los
mdulos
6 valores desconocidos

Discretizacin de atributos

10

Bayes

Mtodo para estimar


la probabilidad de
clase

Mtodo para estimar


las probabilidades
condicionales

11

12

Visualizacin (nomograma)

Visualizacin (nomograma)

prediccin

13

Seleccin de atributos

Target class

14

Arbol de clasificacin

Atributos
seleccionados

15

Visualizacin
del rbol de clasificacin

16

Visualizacin
del rbol de clasificacin

17

18

Visualizacin
del rbol de clasificacin

Visualizacin
de instancias de un nodo

Color del nodo:


- default,
- instances in node: color proporcional a la cantidad de instancias
asociadas al nodo.
- majority class probability: color relacionado con la probabilidad de
la clase mayoritaria.
- target class probability: color relacionado con la probabilidad de la
clase objetivo.
- target class distribution: color relacionado con la distribucion de la
clase objetivo.

19

20

Visualizacin
del rbol de clasificacin II

Visualizacin
de instancias de un nodo
Seleccin del nodo

Instancias asociadas al nodo

21

Visualizacin
del rbol de clasificacin II

22

Visualizacin
del rbol de clasificacin II

23

24

Visualizacin
de instancias de un nodo

Python Win
watch

1 instancia

step / step over

3 instancias

Debugger

29 instancias

carga script

run

25

Ejemplo Reglas de Asociacin

1.
2.
3.

Ejemplo Reglas de Asociacin

Entrada: informacin sobre pasajeros del Titanic. Atributos:

26

Clase (first, second, third, crew)


Edad
Sexo
Sobrevivi

4.

Se generan las reglas, con mnimo de 0.4 de soporte


rules =
orange.AssociationRulesInducer(data.select(selection,0),support=0.4)

5.

Script
Se importan los paquetes necesarios.
import orange, orngAssoc
Se cargan los datos en la variable data
data = orange.ExampleTable("titanic")
Seleccionamos un subconjunto de 80% del tamao original
selection = orange.MakeRandomIndices2(data,0.8)

Se ordenan las reglas por soporte y confianza


orngAssoc.sort(rules, ["support", "confidence"])

6.

Se imprimen las reglas


print "%i reglas con soporte mayor o igual a %5.3f
encontradas.\n" % (len(rules), 0.4)
orngAssoc.printRules(rules[:13], ["support", "confidence"])

27

Ejecucin (PythonWin)

28

Ejecucin (PythonWin)
Ejecucin paso a paso

29

30

Ejecucin (PythonWin)

31

También podría gustarte