Está en la página 1de 106

Agora que vimos como as entradas e sadas podem ser representadas,

hora para olhar para os prprios algoritmos de aprendizagem. Este captulo


explica as ideias por trs das tcnicas que so usadas na minerao de dados
prtica. No vamos aprofundar-se profundamente nas questes mais
complicadas - verses avanadas dos algoritmos, otimizaes que so
possveis, complicaes que surgem na prtica. Esses tpicos so adiados para
o Captulo 6, onde nos deparamos com implementaes reais de mtodos de
aprendizado de mquinas, como os includos nos toolkits de minerao de
dados e usado para aplicaes do mundo real. importante compreend-los
mais avanadas para que voc saiba o que realmente est acontecendo quando
voc analisa um determinado conjunto de dados.
Neste captulo, analisamos as ideias bsicas. Uma das lies mais instrutivas e
que as ideias simples muitas vezes funcionam muito bem, e recomendamos
Metodologia "simplicidade-primeira" ao analisar conjuntos de dados
prticos. L so muitos tipos diferentes de estrutura simples que os conjuntos
de dados podem exibir. Em um conjunto de dados, pode haver um nico
atributo que faz todo o trabalho e os outros podem ser irrelevantes ou
redundante. Em outro conjunto de dados, os atributos podem contribuir de
forma independente e igualmente para o resultado final. Um tero pode ter
uma estrutura lgica simples, envolvendo apenas alguns atributos que podem
ser capturados por uma rvore de deciso. Em um quarto, pode haver algumas
regras independentes que governam a atribuio de instncias a diferentes
classes. Um quinto pode apresentar dependncia entre diferentes subconjuntos
de atributos. Um sexto pode envolver dependncia entre atributos numricos,
onde o que importa uma soma ponderada de valores de atributos com pesos
adequadamente escolhidos. Em stimo, a classificao apropriada para regies
especficas de espao de instncia podem ser as distncias entre as prprias
instncias. E em um oitavo, pode ser que no so fornecidos valores de classe:
o aprendizado no supervisionado.
Na infinita variedade de possveis conjuntos de dados existem muitos tipos
diferentes de estrutura de dados que pode ocorrer e uma ferramenta de
minerao de dados - no importa est procurando uma classe de estrutura
pode perder completamente regularidades de uma independentemente de quo
rudimentares possam ser. O resultado uma estrutura de classificao opaca
de um tipo em vez de um simples, elegante, estrutura imediatamente
compreensvel de outro.
Cada um dos oito exemplos de diferentes tipos de conjuntos de dados
esboados anteriormente leva a um mtodo de aprendizagem de mquina
diferente bem adaptado para descobrir isto.
As seces deste captulo analisam cada uma destas estruturas por sua vez.

4.1 Inferir regras rudimentares

Aqui est uma maneira fcil de encontrar regras de classificao muito


simples a partir de um conjunto de instncias.
Chamado 1R para 1-regra, ele gera uma rvore de deciso de um nvel
expresso na forma de um conjunto de regras que todos testar um determinado
atributo. 1R um mtodo simples e barato que muitas vezes vem com
bastante boas regras para caracterizar a estrutura em dados. Acontece que
regras simples frequentemente atingem nveis surpreendentemente
alto. Talvez seja porque a estrutura subjacente a muitos conjuntos de dados do
mundo real bastante rudimentar, e apenas um atributo suficiente para
determinar a classe de uma instncia com bastante preciso. Seja como for,
sempre um bom plano tentar
Coisas mais simples primeiro.
A ideia a seguinte: ns fazemos regras que testam um nico atributo e ramo
conformemente. Cada ramo corresponde a um valor diferente do atributo.
bvio qual a melhor classificao para dar a cada ramo: use a classe que
ocorre mais frequentemente nos dados de treinamento. Em seguida, a taxa de
erro das regras pode ser facilmente determinada basta contar os erros que
ocorrem nos dados de treinamento, ou seja, o nmero de instncias que no
tm a classe majoritria.
Cada atributo gera um conjunto diferente de regras, uma regra para cada valor
do atributo. Avalie a taxa de erro para o conjunto de regras de cada atributo e
escolha o melhor. simples assim! A Figura 4.1 mostra o algoritmo sob a
forma de pseudo-cdigo.

4.1 INFRAO DAS REGRAS RUDIMENTARES

Para cada atributo,


Para cada valor desse atributo, faa uma regra da seguinte maneira:
Conta a frequncia com que cada classe aparece
Encontre a classe mais frequente
Faa a regra atribuir essa classe a esse valor de atributo.
Calcule a taxa de erro das regras.
Escolha as regras com a menor taxa de erro.

Figura 4.1 Pseudocdigo para 1R.

Tabela 4.1
Avaliando os atributos nos dados meteorolgicos.
Atributo Regras Erros Erro total
1 Pespectiva Ensolarado -> no 2/5 4/14
Nublado -> sim 0/4
Chuvoso -> sim 2/5
2 Temperatura quente -> no * 2/4 5/14
Suave -> sim 2/6
Frio -> sim 1/4
3 Umidade alta -> no 3/7 4/14
Normal -> sim 1/7
4 Vento falso -> sim 2/8 5/14
True -> no * 3/6

* Foi feita uma escolha aleatria entre dois resultados igualmente provveis.

Para ver o mtodo 1R no trabalho, considere os dados meteorolgicos da


Tabela 1.2 (vamos encontr-lo muitas vezes novamente quando se olha como
funcionam os algoritmos de aprendizagem).
Para classificar na coluna final, jogo, 1R considera quatro conjuntos de regras,
um para cada atributo. Estas regras so apresentadas na Tabela 4.1. Um
asterisco indica que uma escolha entre dois resultados igualmente
provveis. O nmero de erros dado para cada regra, junto com o nmero
total de erros para a regra conjunto como um todo. 1R escolhe o atributo que
produz regras com o menor nmero de erros - isto , o primeiro e o terceiro
conjuntos de regras. Arbitrariamente quebrando o entre estes dois conjuntos
de regras d:

Perspectiva: Ensolarado -> no


Nublado -> sim
Chuvoso -> sim

Ns observamos desde o incio que o jogo para os dados meteorolgicos no


especificado.
Curiosamente, aparentemente jogado quando est nublado ou chuvoso, mas
no quando est ensolarado. Talvez seja uma perseguio interior.
Valores em falta e atributos numricos

Embora um mtodo de aprendizagem muito rudimentar, 1R acomodar tanto os


valores em falta e atributos numricos. Trata-se destes de forma simples, mas
eficazes. A ausncia tratada como apenas um outro valor de atributo, de
modo que, por exemplo, se os dados meteorolgicos continham valores em
falta para o atributo perspectivas, um conjunto de regras formado em
perspectivas especificaria quatro possveis valores de classe, um para
ensolarado, nublado e chuvoso e um quarto por falta

Podemos converter atributos numricos em valores nominais usando um


mtodo de discretizao simples. Primeiro, classifique os exemplos de
treinamento de acordo com os valores do atributo numrico. Isso produz uma
sequncia de valores de classe. Por exemplo, classificar a verso numrica dos
dados meteorolgicos (Tabela 1.3) de acordo com os valores de temperatura
produz a sequncia
64 65 68 69 70 71 72 72 75 75 80 81 83 85
sim no sim sim sim no no sim sim sim no sim sim no

A discretizao envolve dividir esta sequncia colocando pontos de isto. Uma


possibilidade colocar pontos de interrupo onde quer que a classe mude,
produzindo oito categorias:
sim | no | sim sim sim | no no | sim sim sim | no | sim sim | no

A escolha dos pontos de interrupo entre os exemplos em ambos os lados os


coloca em 64,5, 66,5, 70,5, 72, 77,5, 80,5 e 84. No entanto, as duas instncias
com valor 72 causam um problema porque tm o mesmo valor de
temperatura, mas caem em diferentes Classes. A correo mais simples
mover o ponto de interrupo em 72 para cima um exemplo, para 73.5,
produzindo uma partio mista em que no a classe majoritria.

Um problema mais srio que este procedimento tende a formar um grande


nmero de categorias. O mtodo 1R ir naturalmente gravitar para escolher
um atributo que se divide em muitas categorias, porque isso ir particionar o
conjunto de dados em muitas classes, tornando mais provvel que as
instncias tero a mesma classe que a maioria na sua partio. De fato, o caso
limitante um atributo que tem um valor diferente para cada instncia - ou
seja, um atributo de cdigo de identificao que identifica instncias de forma
exclusiva - e isso render uma taxa de erro zero no conjunto de treinamento
porque cada partio contm apenas uma instncia. Obviamente, os atributos
altamente ramificados geralmente no funcionam bem em exemplos de teste;
Na verdade, o atributo de cdigo de identificao nunca ir prever quaisquer
exemplos fora do conjunto de treinamento corretamente. Este fenmeno
conhecido como overfitting; ns j temos descrito no captulo 1 (pg. 35),
encontrar este problema repetidamente nos captulos subsequentes.
Para 1R, overfitting provvel que ocorra sempre que um atributo tem um
grande nmero de valores possveis. Consequentemente, ao discretizar um
atributo numrico adotado uma regra que dita um nmero mnimo de
exemplos da classe majoritria em cada partio. Suponha que o mnimo
fixado em trs. Isso elimina todas, exceto duas das parties anteriores. Em
vez disso, o processo de particionamento comea
sim no sim sim | sim . . .

Garantindo que haja trs ocorrncias de sim, a classe majoritria, na primeira


partio. No entanto, como o prximo exemplo tambm sim, no perdemos
nada ao incluir isso na primeira partio, tambm. Isso leva a uma nova
diviso:
sim no sim sim sim | no no sim sim sim | no sim sim no

Onde cada partio contm pelo menos trs instncias da classe majoritria,
exceto a ltima, que normalmente ter menos. Os limites de partio sempre
esto entre exemplos de classes diferentes.
Sempre que as parties adjacentes tm a mesma classe majoritria, como as
duas primeiras parties acima, elas podem ser mescladas sem afetar o
significado dos conjuntos de regras. Assim, a discretizao final
sim no sim sim sim no no sim sim sim | no sim sim no

Que leva ao conjunto de regras


Temperatura: 77,5 sim
> 77,5 no
A segunda regra envolvia uma escolha arbitrria; como acontece, no foi
escolhido. Se tivssemos escolhido sim em vez disso, no haveria necessidade
de nenhum ponto de interrupo - e como este exemplo ilustra, pode ser
melhor usar as categorias adjacentes para ajudar a quebrar os laos. Na
verdade, esta regra gera cinco erros no conjunto de treinamento e, portanto,
menos eficaz do que a regra anterior para a perspectiva. No entanto, o mesmo
procedimento leva a esta regra para a umidade:
Umidade: 82,5 sim
> 82,5 e 95,5 no
> 95,5 sim
Isso gera apenas trs erros no conjunto de treinamento e a melhor "regra 1"
para os dados da Tabela 1.3.
Finalmente, se um atributo numrico tem valores ausentes, uma categoria
adicional criada para eles o procedimento de discretizao precedente
aplicado apenas s instncias para as quais o valor do atributo definido.
Discusso

Em um trabalho inspirador intitulado "As regras de classificao muito


simples funcionam bem em conjuntos de dados mais usados" (Holte 1993),
um estudo abrangente do desempenho do procedimento 1R foi relatado em 16
conjuntos de dados usados com frequncia por pesquisadores de
aprendizagem de mquinas para avaliar seus algoritmos. Ao longo do estudo,
o estudo utilizou a validao cruzada, uma tcnica de avaliao que
explicaremos no Captulo 5, para garantir que os resultados fossem
representativos do que conjuntos de testes independentes produziriam. Aps
alguma experimentao, o nmero mnimo de exemplos em cada partio de
um atributo numrico foi definido em seis, no trs como usado para a
ilustrao anterior.

Surpreendentemente, apesar de sua simplicidade 1R fez surpreendentemente -


at mesmo embaraosamente - em comparao com os mtodos de
aprendizado mais avanados, e as regras que produziu revelaram-se apenas
alguns pontos percentuais menos precisas, em quase todos os conjuntos de
dados, que as rvores de deciso produzidas por um esquema de induo de
rvores de deciso de ltima gerao. Essas rvores eram, em geral,
consideravelmente maiores do que as regras de 1R. Regras que testam um
nico atributo so muitas vezes uma alternativa vivel para estruturas mais
complexas, e isso encoraja fortemente uma metodologia de simplicidade-
primeira, em que o desempenho de linha de base estabelecido usando
tcnicas simples e rudimentares antes de avanar para mtodos de
aprendizagem mais sofisticados, mais difcil para as pessoas interpretar.
O procedimento 1R aprende uma rvore de deciso de nvel nico cujas folhas
representam as vrias classes diferentes. Uma tcnica ligeiramente mais
expressiva usar uma regra diferente para cada classe. Cada regra uma
conjuno de testes, uma para cada atributo.
Para atributos numricos, o teste verifica se o valor est dentro de um dado
intervalo; para os nominais ele verifica se ele est em um certo subconjunto
dos valores desse atributo. Estes dois tipos de testes - intervalos e
subconjuntos - so aprendidos a partir dos dados de treinamento pertencentes
a cada classe. Para um atributo numrico, os pontos de extremidade do
intervalo so os valores mnimo e mximo que ocorrem nos dados de
treinamento para essa classe. Para um nominal, o subconjunto contm apenas
os valores que ocorrem para esse atributo nos dados de treinamento para a
classe. Normalmente, as regras que representam classes diferentes se
sobrepem e, no momento da previso, a previso a que apresenta os testes
mais correspondentes. Essa tcnica simples geralmente d uma primeira
impresso til de um conjunto de dados. extremamente rpido e pode ser
aplicado a grandes quantidades de dados.
4.2 Modelagem estatstica

O mtodo 1R usa um nico atributo como base para suas decises e escolhe o
que funciona melhor. Outra tcnica simples usar todos os atributos e permitir
que eles faam contribuies para a deciso que so igualmente importantes e
independentes uns dos outros, dada a classe. Isso irrealista, claro: o que

Torna os conjuntos de dados da vida real interessantes que os atributos


certamente no so igualmente importantes ou independentes. Mas isso leva a
um esquema simples que novamente funciona surpreendentemente bem na
prtica.
A Tabela 4.2 mostra um resumo dos dados meteorolgicos obtidos contando
quantas vezes cada par atributo-valor ocorre com cada valor (sim e no) para
o jogo. Por exemplo, voc pode ver na Tabela 1.2 que a perspectiva
ensolarado para cinco exemplos, dois dos quais tm play = yes e trs dos quais
tm play = no. As clulas na primeira linha da nova tabela simplesmente
contam essas ocorrncias para todos os valores possveis de cada atributo, e a
figura de jogo na coluna final conta o nmero total de ocorrncias de sim e
no. Na parte inferior da tabela, reescrevemos a mesma informao sob a
forma de fraes, ou probabilidades observadas. Por exemplo, dos nove dias
que o jogo sim, perspectiva ensolarado para dois, rendendo uma frao de
2/9. Para o jogo as fraes so diferentes: so a proporo de dias que o jogo
sim e no, respectivamente.
Suponhamos agora que encontramos um novo exemplo com os valores que
so mostrados na Tabela 4.3. Tratamos as cinco caractersticas da Tabela 4.2 -
perspectiva, temperatura, umidade, vento e a probabilidade geral de que o
jogo sim ou no - como igualmente importante, independente Evidncias e
multiplicar as fraes correspondentes. Olhando para o resultado sim d:

Probabilidade de sim = 2/9 x 3/ 9 x 3/9 x 3/9 x 9/14 = 0.0053.

As fraes so retiradas das entradas de sim na tabela de acordo com os


valores dos atributos para o novo dia, e o final de 9/14 a frao global
representando a proporo de dias em que o jogo sim. Um clculo
semelhante para o resultado no leva a

Probabilidade de no = 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0,0206.

Isso indica que, para o novo dia, no mais provvel do que sim - quatro
vezes mais provvel. Os nmeros podem ser convertidos em probabilidades,
normalizando-os de modo que somem 1:

Este mtodo simples e intuitivo baseado na regra de Bayes da probabilidade


condicional. A regra de Bayes diz que se voc tiver uma hiptese H e uma
evidncia E que suporte essa hiptese, ento

Usamos a notao de que Pr [A] denota a probabilidade de um evento A e que


Pr [A | B] denota a probabilidade de A condicional em outro evento B. A
hiptese H que o jogo ser, digamos, sim e Pr [H | E] vai passar a ser 20,5%,
tal como determinado anteriormente. A evidncia E a combinao particular
de valores de atributo para o novo dia, perspectiva = ensolarado, temperatura
= frio, umidade = alta e ventos = sim. Vamos chamar essas quatro peas de
evidncia E1, E2, E3 e E4, respectivamente. Assumindo que essas evidncias
so independentes (dada a classe), sua probabilidade combinada obtida
multiplicando as probabilidades:

No se preocupe com o denominador: vamos ignor-lo e elimin-lo na etapa


final de normalizao quando fizermos as probabilidades de sim e no somar
1, exatamente como fizemos anteriormente. O Pr [sim] no final a
probabilidade de um resultado sim sem conhecer nenhuma das evidncias E,
ou seja, sem saber nada sobre o dia especfico referenciado - a chamada
probabilidade prvia da hiptese H. Neste caso, Apenas 9/14, porque 9 dos
14 exemplos de treinamento tiveram um valor sim para o jogo. A substituio
das fraes da Tabela 4.2 pelas probabilidades de evidncia apropriadas

Assim como calculamos anteriormente. Novamente, o Pr [E] no denominador


desaparecer quando normalizarmos.
Este mtodo denominado Naive Bayes, porque baseado na regra de Bayes
e "naively" assume independncia - s vlido multiplicar probabilidades
quando os eventos so independentes. A suposio de que os atributos so
independentes (dada a classe) na vida real certamente simplista. Mas, apesar
do nome depreciativo, Naive Bayes funciona muito bem quando testado em
conjuntos de dados reais, particularmente quando combinado com alguns dos
procedimentos de seleo de atributos introduzidos no Captulo 7 que
eliminam atributos redundantes e, portanto, no independentes.
Uma coisa que pode dar errado com Naive Bayes que se um determinado
valor de atributo no ocorre no conjunto de treinamento em conjunto com
cada valor de classe, as coisas vo mal. Suponha no exemplo que os dados de
treinamento eram diferentes e o valor de atributo perspectiva = ensolarado
sempre esteve associado ao resultado no. Ento a probabilidade de perspectiva
= ensolarado dado um sim, isto , Pr [perspectiva = ensolarado | Sim], seria
zero, e porque as outras probabilidades so multiplicadas por isso, a
probabilidade final de sim seria zero, no importa quo grandes fossem. As
probabilidades que so zero mantm um veto sobre as outras. Isso no uma
boa ideia. Mas o bug facilmente corrigido por pequenos ajustes no mtodo
de clculo das probabilidades de frequncias.

Por exemplo, a parte superior da Tabela 4.2 mostra que para o jogo = sim, a
perspectiva ensolarada para dois exemplos, nublado para quatro, e chuvoso
para trs, e a parte inferior d essas probabilidades de eventos de 2/9, 4/9 e
3/9, respectivamente. Em vez disso, podemos adicionar 1 a cada numerador e
compensar adicionando 3 ao denominador, dando probabilidades de 3/12, 5/12
e 4/12, respectivamente. Isso garantir que um valor de atributo que ocorre
zero vezes recebe uma probabilidade que diferente de zero, embora pequena.
A estratgia de adicionar 1 a cada contagem uma tcnica padro chamada de
estimador de Laplace aps o grande matemtico francs do sculo XVIII
Pierre Laplace. Embora funcione bem na prtica, no h nenhuma razo
especial para adicionar 1 s contagens: poderamos escolher uma pequena
constante e usar
O valor de , que foi ajustado para 3, fornece efetivamente um peso que
determina quo influentes os valores a priori de 1/3, 1/3 e 1/3 so para cada
um dos trs valores de atributo possveis. Um m grande diz que estes priors
so muito importantes comparados com a evidncia nova que vem dentro do
jogo do treinamento, visto que um pequeno lhes d menos influncia.
Finalmente, no h nenhuma razo especial para dividir m em trs partes
iguais nos numeradores: ns poderamos usar

Em vez disso, onde p1, p2 e p3 soma a 1. Efetivamente, estes trs nmeros


so probabilidades a priori dos valores do atributo perspectiva sendo
ensolarado, nublado e chuvoso, respectivamente.
Esta agora uma formulao totalmente bayesiana, onde as probabilidades
anteriores foram atribudas a tudo vista. Tem a vantagem de ser
completamente rigoroso, mas a desvantagem de que no geralmente claro
como essas probabilidades prvias deve ser atribudo. Na prtica, as
probabilidades prvias fazem pouca diferena desde que haja um nmero
razovel de instncias de treinamento, e as pessoas geralmente apenas
estimam frequncias usando o estimador de Laplace inicializando todas as
contagens para um em vez de zero.

Valores em falta e atributos numricos

Uma das coisas realmente legais sobre a formulao Bayesiana que falta
Valores no so problema nenhum. Por exemplo, se o valor de perspectiva
faltavam no exemplo da Tabela 4.3, o clculo simplesmente omitiria esse
atributo, produzindo

Estes dois nmeros so individualmente muito mais altos do que eram antes,
porque uma das fraes est faltando. Mas isso no um problema porque
uma frao est faltando em ambos os casos, e essas probabilidades esto
sujeitas a um processo de normalizao mais. Isto resulta em probabilidades
de sim e no de 41% e 59%, respectivamente.

Se um valor est faltando em uma instncia de treinamento, ele simplesmente


no includo nas contagens de frequncia e as relaes de probabilidade so
baseadas no nmero de valores que realmente ocorrem e no no nmero total
de instncias.
Os valores numricos so geralmente manipulados assumindo que eles tm
uma distribuio de probabilidade "normal" ou "gaussiana". A Tabela 4.4
apresenta um resumo dos dados meteorolgicos com caractersticas numricas
da Tabela 1.3. Para atributos nominais, calculamos as contagens como antes, e
para as numricas, simplesmente listamos os valores que ocorrem. Ento,
enquanto ns normalizamos as contagens para os atributos nominais em
probabilidades, calculamos a mdia e o desvio padro para cada classe e cada
atributo numrico. Assim, o valor mdio da temperatura sobre as instncias
sim 73, e o seu desvio padro 6.2. A mdia simplesmente a mdia dos
valores precedentes, ou seja, a soma dividida pelo nmero de valores. O
desvio padro a raiz quadrada da varincia da amostra, que podemos
calcular da seguinte forma: subtrair a mdia de cada valor, quadrado do
resultado, som-los juntos e, em seguida, dividir por um menor do que o
nmero de valores. Depois de ter encontrado essa varincia de amostra,
encontre sua raiz quadrada para determinar o desvio padro.
Esta a forma padro de calcular a mdia e o desvio padro de um

Conjunto de nmeros (o "um menor que" a ver com o nmero de graus de


liberdade na amostra, uma noo estatstica que no queremos entrar aqui).
A funo de densidade de probabilidade para uma distribuio normal com
mdia e desvio padro dada pela expresso formidvel:

Mas no tenha medo! Tudo isso significa que se estamos considerando um


resultado de sim quando a temperatura tem um valor, digamos, de 66, apenas
precisamos conectar x = 66, m = 73 e s = 6,2 na frmula. Assim, o valor da
funo de densidade de probabilidade

Do mesmo modo, a densidade de probabilidade de um resultado sim quando


tem humidade valor, digamos, de 90 calculado da mesma maneira:
f (humidade = 90 | sim) = 0.0221.

A funo de densidade de probabilidade para um evento est muito


intimamente relacionada com a sua probabilidade. No entanto, no
exatamente a mesma coisa. Se a temperatura uma escala contnua, a
probabilidade de a temperatura ser exatamente igual a 66 ou exatamente
qualquer outro valor, como 63.14159262, zero. O significado real da funo
de densidade f(x) que a probabilidade de que a quantidade esteja dentro de
uma pequena regio em torno de x, digamos, entre x - /2 e x + /2, f (x).
Escrito acima est correto se a temperatura medida com o grau e umidade
mais prxima medido para o ponto percentual mais prximo. Voc pode
pensar que devemos ter em conta a preciso da figura e ao usar essas
probabilidades, mas isso no necessrio. O mesmo e apareceria em ambos o
sim e no verossimilhana que seguem e cancelam para fora quando as
probabilidades foram calculadas.
Usando essas probabilidades para o novo dia na Tabela 4.5

Verossimilhana de sim = 2/9 x 0.0340 x 0.0221 x 3/9 x 9/14 = 0.000036,


verossimilhana de no = 3/5 x 0.0221 x 0.0381 x 3/5 x 5/14 = 0.000108;
O que leva a probabilidades

Esses nmeros esto muito prximos das probabilidades calculadas


anteriormente para o novo dia na Tabela 4.3, porque os valores de temperatura
e umidade de 66 e 90 produzem probabilidades semelhantes aos valores frios
e altos usados antes.
A suposio de distribuio normal facilita a extenso do classificador Naive
Bayes para lidar com atributos numricos. Se os valores de quaisquer atributos
numricos esto faltando, os clculos de mdia e desvio padro so baseados
apenas nos que esto presentes.

Modelos bayesianos para classificao de documentos

Um domnio importante para a aprendizagem mquina a classificao de


documentos, na qual cada instncia representa um documento e a classe da
instncia o tpico do documento. Os documentos podem ser itens de notcias
e as classes podem ser notcias domsticas, notcias no exterior, notcias
financeiras e esportes. Os documentos so caracterizados pelas palavras que
aparecem neles, e uma maneira de aplicar a aprendizagem da mquina
classificao de documentos tratar a presena ou ausncia de cada palavra
como um atributo booleano. Naive Bayes uma tcnica popular para esta
aplicao, porque muito rpido e bastante preciso.
No entanto, isso no leva em conta o nmero de ocorrncias de cada palavra,
que informao potencialmente til ao determinar a categoria

Tabela 4.5 Outro novo dia.


Outlook Temperatura Umidade Vento Jogar
Ensolarado 66 90 verdade ?

de um documento. Em vez disso, um documento pode ser visto como um saco


de palavras - um conjunto que contm todas as palavras do documento, com
mltiplas ocorrncias de uma palavra aparecendo vrias vezes (tecnicamente,
um conjunto inclui cada um de seus membros apenas uma vez, enquanto um
saco pode ter elementos repetidos). As frequncias de palavras podem ser
acomodadas aplicando uma forma modificada de Naive Bayes que s vezes
descrita como multinominal Naive Bayes.
Suponhamos que n1, n2, ..., nk o nmero de vezes que a palavra i ocorre no
documento, e P1, P2, ..., Pk a probabilidade de obter palavra i quando a
amostragem de todos os documentos na categoria H. Suponha que a
probabilidade independente da O contexto da palavra e posio no
documento. Essas premissas levam a distribuio multinomial para
probabilidades de documentos. Para essa distribuio, a probabilidade de um
documento E dada a sua classe H em outras palavras, a frmula para o
computar a probabilidade Pr [E | H] na de Bayes regra

onde N = n1 + n2 + ... + nk o nmero de palavras no documento. O motivo


para os fatoriais para explicar o fato de que a ordenao das ocorrncias de
cada palavra imaterial de acordo com o modelo de saco de palavras. Pi
estimado calculando a frequncia relativa de palavra i no texto de todo o
treinamento documento mentos pertencentes categoria H. Na realidade deve
haver um novo mandato que d a probabilidade de que o modelo para a
categoria H gera um documento cuja comprimento o mesmo que o
comprimento de E ( por isso que utilizar o smbolo vez de =), mas
comum supor que este o mesmo para todas as classes e, portanto, pode ser
descartado.
Por exemplo, suponha que h apenas duas palavras, amarelo e azul, no
vocabulrio e uma determinada classe de documento H tem Pr [yellow | H] =
75% e Pr [azul | H] = 25% (se pode chamar H de classe de documentos verde
amarelado). Suponha que E o documento azul amarelo azul com um
comprimento de n = 3 palavras. Existem quatro sacos possveis de trs
palavras. Um deles {amarelo amarelo amarelo}, e sua probabilidade de
acordo com a frmula anterior

Os outros trs, com suas probabilidades, so

Aqui, E corresponde ao ltimo caso (lembre-se que dentro de um saco de


palavras a ordem imaterial); assim a sua probabilidade de ser gerado
pelo modelo de documento verde amarelado de 9/64, ou 14%. Suponha que
outra classe, documento verde muito azulada (cham-lo H), tem
Pr [yellow | H] = 10%, Pr [blue | H] = 90%. A probabilidade que E gerado
por este modelo 24%.
Se estas so as duas nicas classes, isso significa que E est na classe de
documento verde muito azulada? No necessariamente. A regra de Bayes,
dada anteriormente, diz que voc tem que levar em conta a probabilidade
prvia de cada hiptese. Se voc sabe que, de fato, os documentos verdes
muito azuis so duas vezes mais raros que os verde-amarelos, isso seria
suficiente para compensar a diferena anterior de 14% a 24% e inclinar o
equilbrio em favor da classe verde amarelada.

Os fatoriais na frmula de probabilidade precedente no precisam realmente


ser computados porque - sendo o mesmo para cada classe - eles caem no
processo de normalizao de qualquer maneira. No entanto, a frmula ainda
envolve a multiplicao em conjunto de muitas pequenas probabilidades, que
logo produz nmeros extremamente pequenos que causam underflow em
grandes documentos. O problema pode ser evitado usando logaritmos das
probabilidades em vez das prprias probabilidades.
Na formulao multinomial Naive Bayes a classe de um documento
determinada no apenas pelas palavras que nela ocorrem, mas tambm pelo
nmero de vezes que ocorrem. Em geral, ele funciona melhor do que o
modelo Naive Bayes ordinrio para a classificao de documentos,
particularmente para grandes tamanhos de dicionrio.

Discusso

Naive Bayes d uma abordagem simples, com semntica clara, para


representar, usar e aprender o conhecimento probabilstico. Resultados
impressionantes podem ser alcanados usando-o. Muitas vezes tem sido
demonstrado que Naive Bayes rivaliza, e de fato supera, classificadores mais
sofisticados em muitos conjuntos de dados. A moral , sempre tente as coisas
simples primeiro. Repetidamente na aprendizagem da mquina, as pessoas
acabaram por obter bons resultados usando mtodos de aprendizagem
sofisticados para descobrir, anos mais tarde, que mtodos simples como o 1R
e o Naive Bayes funcionam to bem ou melhor.
Existem muitos conjuntos de dados para os quais Naive Bayes no funciona
to bem, no entanto, e fcil perceber porqu. Como atributos so tratados
como se fossem completamente independentes, a adio de redundantes
distorce o processo de aprendizagem.
Como um exemplo extremo, se voc inclusse um novo atributo com os
mesmos valores que a temperatura dos dados climticos, o efeito do atributo
de temperatura seria multiplicado: todas as suas probabilidades seriam
quadradas, o que lhe daria muito mais influncia a deciso. Se voc fosse
adicionar 10 desses atributos, ento as decises seriam efetivamente feitas
apenas com a temperatura. Dependncias entre atributos inevitavelmente
reduzem o poder de Bayes Naive para discernir o que est acontecendo.
Podem, contudo, ser melhorados usando um subconjunto de atributos no
processo de deciso, fazendo uma cuidadosa seleo de quais usar. O Captulo
7 mostra como.
A suposio de distribuio normal para atributos numricos outra restrio
em Naive Bayes como a formulamos aqui. Muitos recursos simplesmente no
so normalmente distribudos. No entanto, no h nada que nos impea de
usar outras distribuies para os atributos numricos: no h nada mgico
sobre a distribuio normal. Se voc sabe que um determinado atributo
susceptvel de seguir alguma outra distribuio, os procedimentos de
estimativa padro para essa distribuio podem ser usados em vez disso. Se
voc suspeitar que no normal, mas no sabe a distribuio real, existem
procedimentos para "estimativa de densidade do kernel" que no assumem
qualquer distribuio especfica para os valores de atributo. Outra
possibilidade simplesmente discretizar os dados em primeiro lugar.

4.3 Divide e conquista: Construindo rvores de deciso


O problema de construo de uma rvore de deciso pode ser expressa de
forma recursiva. Primeiro,
selecione um atributo para colocar no n raiz e fazer um ramo para cada pos-
valor vel. Isto divide-se o exemplo conjunto em subconjuntos, um para cada
valor
o atributo. Agora, o processo pode ser repetido de forma recursiva para cada
ramo, usando
somente aquelas instncias que realmente atingir o ramo. Se em qualquer
momento, todas as instncias
num n tem a mesma classificao, parar o desenvolvimento de que parte da
rvore.
A nica coisa que resta a decidir como determinar qual atributo para dividir
em diante,
dado um conjunto de exemplos com diferentes classes. Considere
(novamente!) Os dados meteorolgicos.
H quatro possibilidades para cada diviso, e no nvel superior que produzem
rvores
tais como aqueles na Figura 4.2. Qual a melhor escolha? O nmero
de sim e no
classes so os indicados para as folhas. Qualquer folha com apenas uma
aula sim ou no -Vai
no tem que ser dividido ainda mais, eo processo recursivo por esse ramo vai
ter-
minate. Porque ns procuramos pequenas rvores, gostaramos que isso
acontea o mais rapidamente
possvel. Se tivssemos uma medida da pureza de cada n, poderamos
escolher o
atributo que produz os mais puros ns filha. Tome um momento de olhar para
Figura 4.2 e ponderar qual atributo voc acha que a melhor escolha.
A medida de pureza que vamos usar chamado de informaes e didas
ured em unidades chamadas pedaos . Associada a um n da rvore, que
representa o
quantidade esperada de informao que seria necessria para especificar se
uma nova
instncia deve ser classificada sim ou no, dado que o exemplo chegado a esse
n.
Ao contrrio dos bits na memria do computador, a quantidade de informao
esperado
geralmente envolve fraes de um pouco e muitas vezes menor do que
uma! Ns calculamos que
com base no nmero de sim e no h aulas no n; vamos olhar para os
detalhes
do clculo em breve. Mas primeiro vamos ver como ele usado. Ao avaliar a
primeira rvore na Figura 4.2, o nmero de sim e no h aulas nos ns folha
so
[2,3], [4,0], e [3,2], respectivamente, e os valores de informao destes nodos
so:

Pgina 16
Pode-se calcular o valor mdio de informao destes, tendo em conta o
nmero de instncias que descem cada ramo e cinco para baixo o primeiro eo
terceiro
e quatro para baixo a segunda:
Esta mdia representa a quantidade de informao que esperamos que seria
ne-
cessrio para especificar a classe de uma nova instncia, dada a estrutura de
rvore na Figura
4.2 (a).
Informao
Bits
23 40 32
514 0971 414 0 514 0971 0693
,,,,,
.
.
.
[] [] []
(
)=(
)
+(
)+(
)
=
Informao
Bits
Informao
Bits
Informao
Bits
23
0 971
40
00
32
0 971
,
.
,
.
,
.
[] () =
[] () =
[] () =
98
CAPTULO 4 Algoritmos: os mtodos bsicos
|

sim
sim
no
no
no
ensolarado
sim
sim
sim
sim
Nublado
sim
sim
sim
no
no
chuvoso
Perspectiva
(uma)
sim
sim
sim
no
no
quente
sim
sim
no
no
sim
sim
sim
no
suave
legal
temperatura
sim
(B)
sim
sim
sim
no
no
no
no
sim
sim
sim
sim
sim
sim
no
Alto
normal
umidade
(C)
sim
sim
sim
sim
sim
sim
no
no
sim
sim
sim
no
no
no
falso
verdade
ventoso
(D)
Figura 4.2 rvore tocos para os dados meteorolgicos.

Pgina 17
4.3
Diviso e conquista: CONSTRUINDO rvores de deciso
99
Antes criamos nenhuma das estruturas de rvore nascentes na Figura 4.2, a
formao
exemplos ing na raiz composto por nove sim e cinco no ns, o que
corresponde
para um valor de informaes
Assim, a rvore na Figura 4.2 (a), responsvel por um ganho de informao
de
o que pode ser interpretado como o valor informativo da criao de uma filial
na
outlook atributo.
O caminho a seguir clara. Ns calculamos o ganho de informao para cada
atri-
bute e escolher aquele que ganha o mximo de informaes para dividir
diante. No Sente
uao da Figura 4.2,
por isso, selecione o Outlook como o atributo de diviso na raiz da
rvore. Esperanosamente
isso est de acordo com a sua intuio como o melhor um para selecionar. a
nica escolha
para o qual um n filha completamente pura, e isso d-lhe uma considervel
vantagem sobre os outros atributos. Umidade a prxima melhor escolha,
pois
produz um n filha maior, que quase completamente puro.
Ento continuamos, de forma recursiva. A Figura 4.3 mostra as possibilidades
de uma outra
filial no n alcanado quando o Outlook ensolarado . Claramente, uma nova
diviso na
outlook ir produzir nada de novo, por isso, considerar apenas os outros trs
atributos.
O ganho de informao para cada acaba por ser
por isso escolha humidade como o atributo diviso neste momento. No h
necessidade de
dividir esses ns mais longe, de modo que este ramo est terminado.
A aplicao continuada da mesma ideia leva rvore de deciso da figura
4.4 para os dados meteorolgicos. Idealmente, o processo termina quando
todos os ns folha so
pura, isto , quando eles contm exemplos que todos tm a mesma
classificao.
No entanto, pode no ser possvel chegar a esta situao feliz porque no h
nada para parar o conjunto de treinamento contendo dois exemplos com
conjuntos idnticos de
atribui classes, mas diferentes. Consequentemente, ns parar quando os dados
no podem ser
dividir mais.
ganho
Bits
ganho
Bits
ganho
bits,
temperatura
umidade
ventoso
(
)=
(
)=
(
)=
0 571
0 971
0 020
.
.
.
ganho
Bits
ganho
Bits
ganho
Bits
ganho
bits,
Perspectiva
temperatura
umidade
ventoso
(
)=
(
)=
(
)=
(
)=
0 247
0 029
0 152
0 048
.
.
.
.
ganho
Informao
Informao
bits,
Perspectiva
(
)=
[] () -
[] [] []
(
)=
-
=
95
23 40 32
0940 0693 0247
,
,,,,,
.
.
.
Informao
Bits
95
0 940
,
.
[] () =

Pgina 18
informaes clculo
Agora hora de explicar como calcular a medida de informaes que so
usadas
como uma base para a avaliao de diferentes divises. Ns descrevemos a
idia bsica desta seo,
em seguida, na prxima examinamos uma correo que geralmente feito
para combater um preconceito
para seleccionar divide em atributos com um grande nmero de valores
possveis.
Antes de examinar a frmula detalhada para o clculo da quantidade de infor-
mao necessria para especificar a classe de um exemplo dado que ele atinja
uma rvore
n com um certo nmero de yes 'se no ' s, primeiro considerar o tipo de
devidamente,
laos que seria de esperar essa quantidade para ter:
100
CAPTULO 4 Algoritmos: os mtodos bsicos
|

...
...
no
no
sim
ensolarado
quente
suave
legal
Perspectiva
temperatura
sim
no
(uma)
...
...
no
no
no
sim
sim
ensolarado
Alto
normal
Perspectiva
umidade
(B)
...
...
sim
sim
no
no
sim
no
ensolarado
falso
verdade
Perspectiva
ventoso
(C)
Figura 4.3 tocos de rvores expandidas para os dados meteorolgicos.

Pgina 19
4.3
Diviso e conquista: CONSTRUINDO rvores de deciso
101
1. Quando o nmero de tanto sim 's ou no ' s zero, a informao
zero.
2. Quando o nmero de yes 'se no ' s igual, a informao chega a um
mximo.
Alm disso, a medida deve ser aplicvel a situaes multiclasse, no apenas
para
os de duas classes.
A medida informao refere-se quantidade de informaes obtidas pela
de tomar uma deciso, e uma propriedade mais sutil de informaes podem
ser derivadas
considerando-se a natureza das decises. As decises podem ser feitas em
uma nica etapa,
ou eles podem ser feitos em vrias etapas, e da quantidade de informao
envolvida
o mesmo em ambos os casos. Por exemplo, a deciso envolvido em
pode ser feito em duas fases. Primeiro, decida se o primeiro caso ou um dos
outros dois casos:
e, em seguida, decidir qual dos outros dois casos, :
Em alguns casos a segunda deciso no ter de ser feita, isto , quando
a deciso acaba por ser o primeiro. Tendo isto em conta leva
equao
Informao 2,3,4
Informao 2,7
Informao 3,4
[
]
(
)=
[] () + ()
[] ()
79
.
Informao 3,4
[] ()
Informao 2,7
[] ()
Informao 2,3,4
[
]
(
)
falso
verdade
sim
sim
no
ensolarado
Nublado
chuvoso
Perspectiva
umidade
ventoso
Alto
normal
no
sim
Figura 4.4 rvore de deciso para os dados meteorolgicos.

Pgina 20
Claro, no h nada de especial sobre esses nmeros especficos, e uma
semelhante
relacionamento deve segurar, independentemente dos valores reais. Assim,
podemos acrescentar mais
critrio lista anterior:
3. As informaes devem obedecer a propriedade de vrios estgios ilustrado
anteriormente.
Notavelmente, verifica-se que h apenas uma funo que satisfaz todos estes
propriedades, e conhecido como o valor da informao ou entropia:
A razo para os sinais negativos que logaritmos das fraces P 1 , P 2 , ..., P n
so negativos, de modo que a entropia realmente positivo. Normalmente os
logaritmos so
expressa em base 2, em seguida, a entropia em unidades chamadas bits de -
apenas o tipo de costume
de bits usados com computadores.
Os argumentos p 1 , p 2 ,. . . da frmula entropia so expressos como fraces
que adicionar-se a um, de modo que, por exemplo,
Assim, a propriedade de vrios estgios deciso pode ser escrita de um modo
geral como
em que p + q + r = 1.
Devido forma como a funo de log funciona, voc pode calcular a
informao
medir sem ter que trabalhar fora das fraces individuais:
Esta a maneira que a medida informao normalmente calculado
prtica. Assim, o valor da informao para o primeiro n de folha da primeira
rvore na figura
4.2
como indicado na pgina 98.
Altamente ramificao atributos
Quando alguns atributos tm um grande nmero de valores possveis, dando
origem a um
ramo multiponto com muitos ns filhos, surge um problema com as
informaes
Clculo de Ganho. O problema pode ser melhor apreciado no caso extremo,
quando
um atributo tem um valor diferente para cada instncia do conjunto de dados,
como, por
exemplo, um cdigo de identificao atribuir poder.
Informao 2,3
bits,
[] () = -

=
25
2535
3 0 5 971
registro
registro
.
Informao 2,3,4
[
]
(
) =-

=-
-
-
+
[
]
29
29 39
39 49
49
2
23
34
49
99
registro
registro
registro
registro
registro
registro
registro
.
entropia
entropia
entropia
PQR
r pq
qr
Q
qr
R
qr
-benzico.
,
,
(
)=
+
(
) ++
(
)
+
+

Contm uma

Informao 2,3,4
entropia 2 9
[
]
(
)=
(
)
-benzico.
.
3949
entropia pp
P
P
Pp
P
P
P
N
N
N
1
2
1
1
2
2
,,. . . ,
registro
registro . . .
registro
(
) =-
-
-
102
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 21
4.3
Diviso e conquista: CONSTRUINDO rvores de deciso
103
Tabela 4.6 d a dados meteorolgicos com esse atributo extra. Ramificao
em ID
cdigo produz o toco de rvore na Figura 4.5. As informaes necessrias
para especificar
a classe dado o valor deste atributo
que zero porque cada um dos 14 termos zero. Isto no surpreendente:
o ID
cdigo de atributo identifica o exemplo, que determina a classe sem qualquer
ambigidade, exatamente como Tabela 4.6 mostra. Consequentemente, o
ganho de informao desta
atributo apenas a informao na raiz, info ([9,5]) = 0.940 pedaos. Isto
maior do que o ganho de informao de qualquer outro atributo, e assim
por cdigo de identificao ser
inevitavelmente, ser escolhido como o atributo de diviso. Mas ramificao na
identificao
Cdigo o no bom para predizer a classe de instncias desconhecidos e diz
nada sobre a estrutura da deciso, que, afinal, so os objetivos gmeos de
aprendizado de mquina.
Informao 0,1
Informao 0,1
Informao 1,0
Informao 1,0
Informao 0,1
[] () +
[] () +
[] () + +
[] () +
[] ()
...
,
tabela 4.6
Os dados meteorolgicos com cdigos de identificao.
cdigo de identificao
Outlook
Temperatura
Umidade
Ventoso
Toque
uma
ensolarado
quente
Alto
falso
no
B
ensolarado
quente
Alto
verdade
no
C
Nublado
quente
Alto
falso
sim
D
chuvoso
suave
Alto
falso
sim
E
chuvoso
legal
normal
falso
sim
F
chuvoso
legal
normal
verdade
no
G
Nublado
legal
normal
verdade
sim
H
ensolarado
suave
Alto
falso
no
Eu
ensolarado
legal
normal
falso
sim
J
chuvoso
suave
normal
falso
sim
K
ensolarado
suave
normal
verdade
sim
eu
Nublado
suave
Alto
verdade
sim
M
Nublado
quente
normal
falso
sim
N
chuvoso
suave
Alto
verdade
no
no
sim
no
sim
no
cdigo de identificao
uma
B
cm
N
Figura 4.5 Coto de rvore para o cdigo de identificao do atributo.

Pgina 22
O efeito geral que a medida ganho de informao tende a preferir atri-
Butes com grande nmero de possveis valores. Para compensar isso, a
modifi-
cao do chamado medida a razo de ganho amplamente usado. A razo
ganho
derivados tendo em conta o nmero e o tamanho dos ndulos filha em
que um atributo divide o conjunto de dados, desconsiderando qualquer
informao sobre o
classe. Na situao mostrada na Figura 4.5, todas as contagens de ter um valor
de 1, de modo que o
valor da informao da diviso
porque a mesma fraco, 1/14, aparece 14 vezes. Isso equivale a log 14 ou
3.807 bits, que um valor muito elevado. Isto porque o valor da informao
de
Uma separao o nmero de bits necessrios para determinar a que cada
ramo instncia
atribudo, e os mais ramos existem, maior este valor . o ganho
rcio calculado dividindo o ganho de informao original, 0,940, neste caso,
pelo valor de informaes do atributo, 3.807-rendendo um valor da relao de
ganho de
0,247 para o cdigo de identificao do atributo.
Voltando ao tocos de rvores para os dados do tempo na Figura
4.2, Outlook splits
o conjunto de dados em trs subgrupos de tamanho 5, 4 e 5 e, portanto, tem
uma infor- intrnseca
valor mao de
sem pagar qualquer ateno para as classes envolvidas nos subgrupos. Como
ns temos
visto, esta informao valor intrnseco mais elevado para um mais altamente
ramificao
atributo como a hipottica cdigo de identificao. Mais uma vez podemos
corrigir a informao
ganho o dividindo pelo valor intrnseco informaes para obter a relao de
ganho.
Os resultados destes clculos para os tocos de rvores da Figura 4.2 so sum-
marized na Tabela 4.7. Outlook ainda sai por cima, mas a umidade agora um
tanto
contendor mais perto porque divide os dados em dois subconjuntos, em vez de
trs. Dentro
Neste exemplo particular, o hipottico cdigo de ID de atributo, com uma
relao de ganho
0,247, ainda seria prefervel a qualquer uma destas quatro. No entanto, sua
vantagem
Informao 5,4,5
[
]
(
) = 577 1.
Informao 1,1, ..., 1
[
]
(
) =-

1 14
1 14 14
registro
,
104
CAPTULO 4 Algoritmos: os mtodos bsicos
|

tabela 4.7
Ganho clculo da razo para os tocos de rvores da Figura 4.2.
Outlook
Temperatura
Umidade
Ventoso
Info
0,693
Info
0,911
Info
0,788
Info
0,892
ganhar: 0.940-
0,247
ganhar: 0.940-
0,029
ganhar: 0.940-
0,152
ganhar: 0.940-
0,048
0,693
0,911
0,788
0,892
Informao dividido:
1.577
Informao dividido:
1,557
Informao dividido:
1.000
Informao dividido:
0,985
info ([5,4,5])
info ([4,6,4])
info ([7,7])
info ([8,6])
ganhar rcio:
0,157
ganhar rcio:
0,019
ganhar rcio:
0,152
ganhar rcio:
0,049
0,247 / 1,577
0.029 / 1.557
0,152 / 1
0,048 / 0,985

Pgina 23
4.4
COBERTURA ALGORITMOS: REGRAS CONSTRUINDO
105
altamente reduzido. Em implementaes prticas, podemos usar um teste ad
hoc para proteger
contra a diviso em um atributo to intil.
Infelizmente, em alguns casos, o ganho de razo de modificao overcompen-
sates e pode levar a preferir um atributo apenas porque a sua informao
intrnseca
o muito menor do que para os outros atributos. Uma correo padro
escolher
o atributo que maximiza o rcio de ganho, desde que o ganho de informao
para esse atributo pelo menos to grande como o ganho mdio de
informao para todos os
atributos examinados.
Discusso
A abordagem de dividir e conquistar para induo de rvores de deciso, s
vezes chamado
induo de cima para baixo de rvores de deciso, foi desenvolvido e
aperfeioado ao longo de muitos anos
por J. Ross Quinlan, da Universidade de Sydney, Austrlia. Embora outros
tm
trabalhou em mtodos semelhantes, a pesquisa de Quinlan sempre foi no
prprio previso
frente de induo de rvores de deciso. O mtodo que foi descrito utilizando
o
critrio de ganho de informao essencialmente o mesmo como aquele
conhecido como ID3. O uso
do ganho relao era uma das muitas melhorias que foram feitas para ID3
mais
muitos anos; Quinlan descreveu como robusta sob uma ampla variedade de
circunstncias
posturas. Embora uma soluo robusta e prtico, sacrifica alguma do elemento
Gance e motivao terica limpa do critrio de ganho de informao.
Uma srie de melhorias para ID3 culminou em um prtico e influente
sistema de induo de rvore de deciso chamado C4.5. Essas melhorias
incluem
mtodos para lidar com atributos numricos, valores em falta, dados ruidosos,
e
gerando regras de rvores, e eles esto descritos na Seo 6.1.
4.4 Cobrir algoritmos: regras Construindo
Como vimos, os algoritmos de rvore de deciso so baseados em uma
diviso e conquista
abordagem para o problema de classificao. Eles trabalham de cima para
baixo, buscando
em cada etapa um atributo para dividir em que melhor separa as classes; em
seguida, recorrncia
sivamente processar os subproblemas que resultam da diviso. Esta estratgia
gera uma rvore de deciso, que pode, se necessrio, ser convertidos em um
conjunto de clas-
em regras embora sificao se para produzir regras eficazes, a converso no

trivial.
Uma abordagem alternativa tomar cada classe, por sua vez e buscar uma
forma de abran-
rando todos os casos em que, nos mesmos casos tempo excluindo no na
classe.
Isso chamado de cobertura abordagem, porque em cada fase voc identifica
uma regra que
"Cobre" alguns dos casos. Por sua prpria natureza, este cobrindo leads
abordagem
a um conjunto de regras, em vez de uma rvore de deciso.
O mtodo de cobertura pode facilmente ser visualizada num espao
bidimensional
dos casos, como mostrado na Figura 4.6 (a). Em primeiro lugar, fazer uma
regra que cobre os um 's. Para

Pgina 24
o primeiro teste em regra, dividir o espao na vertical, como mostrado na
figura centro.
Isto d o incio de uma regra:
Se x> 1.2, em seguida, um class =
No entanto, a regra abrange muitas b 's, bem como um ' s, portanto, um novo
teste adicionado ao
governar por mais dividindo o espao horizontal, como mostrado no terceiro
diagrama:
Se x> 1,2 e y> 2,6, em seguida, um class =
Isto d uma regra que abrange todos, mas um dos um 's. Provavelmente
apropriado deixar
por isso mesmo, mas se fosse considerado necessrio para cobrir a
final um, outra regra seria
necessrio, talvez
Se x> 1,4 e y <2,4, em seguida, um class =
O mesmo procedimento leva a duas normas que regulam o b 's:
Se x 1,2, em seguida class = b
Se x> 1,2 e y 2,6, em seguida class = b
106
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Figura 4.6 algoritmo Cobrindo: (a) que abrange as instncias e (b) a rvore de
deciso para
o mesmo problema.
x> 1.2?
B
no
y> 2.6?
sim
B
no
uma
sim
(B)

Pgina 25
4.4
COBERTURA ALGORITMOS: REGRAS CONSTRUINDO
107
Mais uma vez, um erroneamente cobertos por estas regras. Se fosse
necessrio excluir
que, mais testes teria de ser adicionada segunda regra, e regras adicionais
precisariam ser introduzidas para cobrir a b ' que estes novos testes de
excluso.
Regras contra rvores
Um algoritmo top-down dividir para conquistar funciona com os mesmos
dados em um
forma que , pelo menos superficialmente, bastante semelhante a um
algoritmo de cobertura. isto
pode primeiro dividir o conjunto de dados usando o x atributo e
provavelmente acabaria
dividindo-a no mesmo lugar, x = 1,2. No entanto, ao passo que o algoritmo
cobrindo
est preocupado apenas com cobrindo uma nica classe, a diviso levaria
tanto
aulas em conta, porque algoritmos de diviso e conquista criar um nico
descrio do conceito que se aplica a todas as classes. A segunda diviso
tambm pode estar em
o mesmo lugar, y = 2,6, levando a rvore de deciso na Figura 4.6 (b). esta
rvore
corresponde exactamente ao conjunto de regras, e, neste caso, no h
diferena na
efeito entre a cobertura e os algoritmos de dividir para conquistar.
Mas em muitas situaes no uma diferena entre regras e rvores em
termos
da clareza da representao. Por exemplo, quando o descrito
replicado problema subrvore na Seo 3.3, observamos que as regras podem
ser symmet-
ric, enquanto rvores deve selecionar um atributo para dividir em primeiro
lugar, e isso pode levar a
rvores que so muito maiores do que um conjunto equivalente de
regras. Outra diferena
que, no caso multiclasse, uma frao de rvore de deciso toma todas as
classes em conta,
tentando maximizar a pureza da separao, enquanto que o mtodo de gerao
de regra
concentra-se em uma classe de cada vez, ignorando o que acontece com o
outro
Classes.
Um algoritmo de cobertura simples
algoritmos cobrindo operar atravs da adio de testes para a regra que est
em construo
o, sempre se esforando para criar uma regra com a mxima preciso. Em
contraste, de dividir
e conquistar algoritmos operam atravs da adio de testes para a rvore que
est sob
construo, sempre se esforando para maximizar a separao entre as classes.
Cada uma delas envolve encontrar um atributo para dividir diante. Mas o
critrio para o
melhor atributo diferente em cada caso. Considerando algoritmos de diviso
e conquista
tais como ID3 escolher um atributo para maximizar o ganho de informao, a
cobertura
ing algoritmo iremos descrever escolhe um par atributo-valor para maximizar
o
probabilidade de classificao desejado.
Figura 4.7 d uma imagem da situao, mostrando o espao contendo todos
os casos, uma regra parcialmente construdo, ea mesma regra depois de um
novo termo
foi adicionado. O novo termo restringe a cobertura da regra: a ideia
incluir tantas instncias da classe desejada quanto possvel e excluir tantos
instncias de outras classes quanto possvel. Suponha que a nova regra ir
abranger um total de
t casos, dos quais p so exemplos positivos da classe e t - p esto em outra

Pgina 26
aulas, isto , eles so erros cometidos pela regra. Em seguida, escolha o novo
prazo para
maximizar a relao P / T.
Um exemplo ajudar. Para uma mudana, ns usamos o problema da lente de
contato da Tabela
1.1. Vamos formar regras que cobrem cada uma das trs classes, duro,
macio, e nenhum,
por sua vez. Para comear, vamos buscar uma regra:
E se ? em seguida, a recomendao = disco
? Para o termo desconhecido, temos nove opes:
idade = jovem
2/8
idade = pr-presbiopia
1/8
idade = presbiopia
1/8
espetculo prescrio = myope
3/12
espetculo prescrio = hypermetrope
1/12
astigmatismo = nenhuma
0/12
astigmatismo = yes
4/12
taxa de produo de lgrima = reduzida
0/12
taxa de produo de lgrima = normal
4/12
Os nmeros direita mostram a frao de instncias "corretas" no conjunto
apontada por essa escolha. Neste caso, correcta significa que a recomendao

difcil.Por exemplo, idade = jovens seleciona oito casos, dois dos quais
recomendado
As lentes de contato rgidas, ento a primeira fraco de 2/8. (Para seguir
este, voc precisar
olhar para trs, os dados da lente de contato na Tabela 1.1 na pgina 6 e
contam-se as entradas
na tabela.) Ns selecionamos a maior frao, 4/12, escolher arbitrariamente
entre
o stimo e a ltima opo na lista anterior, e criar a regra:
Se astigmatismo = sim, ento a recomendao = disco
Esta regra um passo imprecisa, obtendo apenas 4 casos correta dos 12
que ele cobre, mostrada na Tabela 4.8. Por isso, refin-la ainda mais:
Se astigmatismo = yes e? em seguida, a recomendao = disco
108.
CAPTULO 4 Algoritmos: os mtodos bsicos
|
Figura 4.7 O espao exemplo durante a operao de um algoritmo de
cobertura.

Pgina 27
4.4
COBERTURA ALGORITMOS: REGRAS CONSTRUINDO
109
Considerando-se as possibilidades de o termo desconhecido? produz os sete
opes:
idade = jovem
2/4
idade = pr-presbiopia
1/4
idade = presbiopia
1/4
espetculo prescrio = myope
3/6
espetculo prescrio = hypermetrope
1/6
taxa de produo de lgrima = reduzida
0/6
taxa de produo de lgrima = normal
4/6
(Mais uma vez, contar as entradas na Tabela 4.8.) O ltimo um vencedor
claro, recebendo quatro
instncias corrigir dos seis que cobre, e corresponde regra
Se a taxa de produo de astigmatismo = yes e desgaste = normal
em seguida, a recomendao = disco
Devemos parar aqui? Possivelmente. Mas vamos dizer que estamos indo para
regras exatas, no
importa quo complexa tornam-se. Tabela 4.9 mostra os casos que so
abrangidos pela
a regra at agora. As possibilidades para o prximo mandato esto agora
idade = jovem
2/2
idade = pr-presbiopia
1/2
idade = presbiopia
1/2
espetculo prescrio = myope
3/3
espetculo prescrio = hypermetrope
1/3
Precisamos escolher entre a primeira ea quarta. At agora temos tratado a
frao
es numericamente, mas embora estes dois so iguais (tanto avaliar a 1), eles
tem cobertura diferente: um escolhe apenas dois exemplos corretos e o outro
tabela 4.8
Parte dos dados da lente de contato para o qual o astigmatismo = yes .
Idade
Espetculo
Astigmatismo
produo de lgrimas
Recomendado
prescrio
taxa
lentes
jovem
mope
sim
reduzido
Nenhum
jovem
mope
sim
normal
difcil
jovem
hypermetrope
sim
reduzido
Nenhum
jovem
hypermetrope
sim
normal
difcil
pr-presbiopia
mope
sim
reduzido
Nenhum
pr-presbiopia
mope
sim
normal
difcil
pr-presbiopia
hypermetrope
sim
reduzido
Nenhum
pr-presbiopia
hypermetrope
sim
normal
Nenhum
presbiopia
mope
sim
reduzido
Nenhum
presbiopia
mope
sim
normal
difcil
presbiopia
hypermetrope
sim
reduzido
Nenhum
presbiopia
hypermetrope
sim
normal
Nenhum

Pgina 28
seleciona trs. Em caso de empate, ns escolhemos a regra com a maior
cobertura,
dando a regra final:
Se a taxa de produo de astigmatismo = yes e desgaste = normal
e prescrio espetculo = myope seguida recomendao = disco
Esta certamente uma das regras dadas para o problema da lente de
contato. Mas ela s
abrange trs dos quatro rgidos recomendaes. Ento, temos de eliminar estes
trs de
o conjunto de instncias e comear de novo, procurando uma outra regra da
forma:
E se ? em seguida, a recomendao = disco
Seguindo o mesmo processo, eventualmente, vai descobrir que a
idade = jovem o melhor
escolha para o primeiro mandato. Sua cobertura de sete; a razo para a sete
que trs
instncias tm sido removido do conjunto original, deixando 21 casos Alto-
Gether. A melhor escolha para o segundo termo o
astigmatismo = sim, selecionando 1/3
(na verdade, este um empate); taxa de produo de lgrima = normal, o
melhor para o terceiro,
selecionando 1/1.
Se a idade = jovem e astigmatismo = yes e
taxa de produo de lgrima = recomendao que o normal = disco
Esta regra na verdade abrange trs do conjunto original de casos, dois dos
quais so
abrangido pelo anterior governo, mas est tudo bem, porque a recomendao
a mesma para cada regra.
Agora que todos os casos de hard-lentes so cobertos, o prximo passo
prosseguir com
os soft-lente em exatamente da mesma maneira. Finalmente, as regras so
geradas para o nada
caso a menos que ns estamos buscando um conjunto de regras com uma
regra padro, caso explcito que
regras para o resultado final so desnecessrias.
O que acabamos de descrever o mtodo PRISM para a construo de
regras. isto
gera apenas correto ou regras "perfeitas". Ele mede o sucesso de uma regra
pela
frmula preciso p / t. Qualquer regra com uma preciso inferior a 100%
"incorreta" em
110
CAPTULO 4 Algoritmos: os mtodos bsicos
|

tabela 4.9
Parte dos dados da lente de contato para o qual o
astigmatismo = yes e lgrima
taxa de produo = normais .
Idade
Espetculo
Astigmatismo
produo de lgrimas
Recomendado
prescrio
taxa
lentes
jovem
mope
sim
normal
difcil
jovem
hypermetrope
sim
normal
difcil
pr-presbiopia
mope
sim
normal
difcil
pr-presbiopia
hypermetrope
sim
normal
Nenhum
presbiopia
mope
sim
normal
difcil
presbiopia
hypermetrope
sim
normal
Nenhum

Pgina 29
4.4
COBERTURA ALGORITMOS: REGRAS CONSTRUINDO
111
que atribui os casos para a classe em questo que realmente no tm essa
classe.
PRISM continua adicionando clusulas para cada regra at que ele perfeito:
a sua preciso
100%. Figura 4.8 apresenta um resumo do algoritmo. Os itera loop externo
mais
as classes, gerando regras para cada classe, por sua vez. Note que a
reinicializar
o conjunto completo de exemplos cada vez. Em seguida, criar regras para essa
classe e
remover os exemplos do conjunto at que no haja nada disso classe
esquerdo. Quando-
sempre que criar uma regra, comece com uma regra vazia (que abrange todos
os exemplos),
e, em seguida, restringir-lo adicionando testes at cobrir apenas exemplos do
desejado
classe. Em cada fase escolher o teste mais promissora, isto , aquele que maxi-
mizes a preciso da regra. Finalmente, romper os laos selecionando o teste
com grande-
cobertura est.
Regras contra listas de deciso
Considere as normas produzidas para uma determinada classe, isto , o
algoritmo na figura
4.8 com o circuito externo removido. Parece claro da forma que estas regras
so produzidos que se destinam a ser interpretados de forma, isto , como uma
deci-
lista de Sion, testando as regras, por sua vez, at que um se aplica e, em
seguida, usar isso. Isto
porque os casos abrangidos por uma nova regra so removidos do conjunto
instncia
logo que a regra concluda (na terceira linha a partir da extremidade do
cdigo de
Figura 4.8): regras, assim subsequentes so concebidos para instncias que
so no cobertos
pela regra. No entanto, embora parea que estamos supostamente para
verificar as regras
por sua vez, no temos de faz-lo. Considere-se que quaisquer regras
subseqentes gerados
para esta classe ir ter o mesmo efeito, todos eles prevem a mesma
classe. este
significa que no importa que ordem elas so executadas em: ou uma regra
Para cada classe C
Inicializar E para o conjunto de exemplo
Enquanto E contm instncias da classe C
Criar uma regra R com um lado esquerdo vazia que prev classe C
At R perfeito (ou no h outras mais atributos para usar) fazer
Para cada atributo A no mencionados em R, e cada valor de v,
Considere adicionar a condio A = V do LHS de R
Selecione A e v para maximizar a preciso p / t
(Desempatar, escolhendo o estado com o maior p)
Adicionar A = v para R
Remover os casos abrangidos por R a partir de E
Figura 4.8 Pseudocdigo para um aluno regra bsica.

Pgina 30
ser encontrado que abrange neste caso, no caso em que a classe em questo
pr-
dicted ou nenhuma regra for encontrada, caso em que a classe no est
previsto.
Agora volte para o algoritmo geral. Cada classe considerada, por sua vez, e
regras so gerados que distinguir os casos em que a classe dos outros. No
ordenao est implcito entre as regras para uma classe e aqueles para
outro. Con-
sequentemente, as regras que so produzidos podem ser executadas
independente da ordem.
Conforme descrito na Seo 3.3, regras independente encomendas parecem
fornecer mais
modularidade por cada um agindo nuggets como independentes de
"conhecimento", mas eles
sofrem a desvantagem de que no est claro o que fazer quando conflitantes
Regras aplicveis. Com regras gerado deste modo, um exemplo de teste pode
receber multi-
classificaes PLE, ou seja, as regras que se aplicam a diferentes classes
podem aceit-lo. De outros
exemplos de teste pode receber nenhuma classificao em tudo. Uma
estratgia simples para forar uma
deciso nestes casos ambguos escolher, desde as classificaes que so
previu, aquele com os exemplos mais formao ou, se nenhuma classificao
pr-
dicted, para escolher a categoria com os exemplos mais formao geral. Estes
dificuldades no ocorrem com listas de deciso, porque eles so feitos para
serem inter-
tado em ordem e execuo pra assim que uma regra se aplica: a adio de
uma regra padro no final garante que qualquer instncia de teste recebe uma
classificao.
possvel gerar boas listas de deciso para o caso utilizando um multiclass
ligeiramente
mtodo diferente, como veremos na Seo 6.2.
Mtodos como PRISM pode ser descrito como e conquista separada algo-
ritmos: a identificar uma regra que abrange muitos casos na classe (e exclui
no aqueles na classe), separar os casos cobertos porque eles j esto
cuidado pela regra, e continuar o processo sobre aqueles que esto
esquerda. este
contrasta bem com a abordagem de diviso e conquista de rvores de
deciso. o
passo separado aumenta grandemente a eficincia do mtodo, porque a
instncia
definir continuamente encolhe como a operao prossegue.
4.5 Regras de Associao Mineira
regras de associao so como regras de classificao. Voc pode encontr-los
na mesma
Assim, atravs da execuo de um procedimento de regra-induo de diviso
e conquista para cada pos-
expresso vel que poderia ocorrer no lado direito da regra. Mas no s
pode qualquer atributo ocorrer no lado da mo direita com qualquer valor
possvel; uma
regras de associao nica, muitas vezes prediz o valor de mais de um
atributo. Para
encontrar essas regras, voc teria que executar o procedimento regra da
induo, uma vez
para cada possvel combinao de atributos, com todas as combinaes
possveis de
valores, no lado da mo direita. Isso resultaria em um nmero enorme
regras de associao, que ento tem que ser podada para baixo sobre a base de
sua cobertura (o nmero de instncias que predizem corretamente) e sua
112
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 31
4,5
REGRAS Mining Association
113
preciso (o mesmo nmero expresso como uma proporo do nmero de
casos em que a regra se aplica). Esta abordagem bastante invivel. (Observe
que,
como mencionamos na Seo 3.4, o que estamos chamando de cobertura
muitas vezes chamado
suporte e que estamos chamando de preciso muitas vezes chamado
de confiana. )
Em vez disso, ns capitalizar sobre o fato de que estamos apenas interessados
em associao
regras com alta cobertura. Ignoramos, para o momento, a distino entre
os lados esquerdo e direito da regra e buscar combinaes de atributo de valor
pares que tm uma cobertura mnima pr-estabelecida. Estes so chamados
de conjuntos de itens: um
atributo de valor par um item. A terminologia deriva da cesta de mercado
anlise, na qual os itens so artigos em seu carrinho de compras ea super-
gerente de mercado est procurando associaes entre estas compras.
conjuntos de itens
A primeira coluna da Tabela 4.10 mostra os itens individuais para os dados do
tempo
da Tabela 1.2, com o nmero de vezes que cada item aparece no conjunto de
dados dada
direita. Estes so os conjuntos de um item. O prximo passo para gerar a
dois
item define fazendo pares de uns um item. Claro, no h nenhum ponto em
gerando um conjunto contendo dois valores diferentes do mesmo atributo (tal
como
outlook = ensolarado e perspectivas = nublado ), porque isso no pode
ocorrer em qualquer real
instncia.
Suponha que ns procuramos regras de associao com cobertura mnima 2:
assim,
descartar quaisquer conjuntos de itens que cobrem menos de duas
instncias. Isto deixa 47 dois
conjuntos de itens, alguns dos quais so mostrados na segunda coluna,
juntamente com o
nmero de vezes que aparecem. O prximo passo gerar os conjuntos de trs
itens,
39 dos quais tem uma cobertura de 2 ou superior. H 6 conjuntos de quatro
itens, e nenhuma
conjuntos-de cinco itens de dados, um de cinco itens definidos com cobertura
de 2 ou superior apenas pudesse
correspondem a uma instncia repetida. A primeira linha da tabela, por
exemplo, mostra
que h cinco dias, quando outlook = ensolarado, dois dos quais
tm temperatura =
suave, e, de facto, em ambos os dias
de humidade = alta e reproduzir = no to bem.
Regras de associao
Pouco vamos explicar como gerar esses conjuntos de itens de forma
eficiente. Mas primeiro vamos
-nos terminar a histria. Uma vez que todos os conjuntos de itens com a
cobertura necessria ter sido ge-
rado, o prximo passo transformar cada um em uma regra ou conjunto de
regras, com pelo menos o
preciso mnima especificada. Alguns conjuntos de itens ir produzir mais de
uma regra;
outros iro produzir nenhum. Por exemplo, h um conjunto de trs item com
um abran-
erage de 4 (linha 38 da Tabela 4.10):
Umidade = normal, ventoso = false, o jogo = yes
Este conjunto leva a sete regras potenciais:

Pgina 32
114
CAPTULO 4 Algoritmos: os mtodos bsicos
|

tabela 4.10
Item define para os dados meteorolgicos com cobertura de 2 ou superior.
conjuntos com uma posio
conjuntos de dois itens
conjuntos de trs itens
conjuntos de quatro itens
1
outlook = ensolarado (5)
outlook = ensolarado
outlook = ensolarado
outlook = ensolarado
temperatura = temperatura amena (2) = quente
= temperatura quente
= humidade alta (2)
Umidade = Alto
jogar = no (2)
2
outlook = nublado (4)
outlook = ensolarado
outlook = ensolarado
outlook = ensolarado
temperatura = quente (2)
= temperatura quente
Umidade = Alto
jogar = no (2)
ventoso = false
jogar = no (2)
3
outlook = chuvosa (5)
outlook = ensolarado
outlook = ensolarado
outlook = nublado
Umidade = normal (2)
Umidade = normal
= temperatura quente
play = sim (2)
ventoso = false
play = sim (2)
4
temperatura = cool (4) outlook = ensolarado
outlook = ensolarado
outlook = chuvosa
= humidade alta (3)
Umidade = Alto
temperatura = leve
ventoso = false (2)
ventoso = false
play = sim (2)
5
temperatura = leve (6) outlook = ensolarado
outlook = ensolarado
outlook = chuvosa
ventoso = true (2)
Umidade = Alto
Umidade = normal
jogar = no (3)
ventoso = false
play = sim (2)
6
temperatura = quente (4)
outlook = ensolarado
outlook = ensolarado
= temperatura fria
ventoso = false (3)
ventoso = false
Umidade = normal
jogar = no (2)
ventoso = false
play = sim (2)
7
Umidade = normal (7)
outlook = ensolarado
outlook = nublado
play = sim (2)
= temperatura quente
ventoso = false (2)
8
= humidade alta (7)
outlook = ensolarado
outlook = nublado
jogar = no (3)
= temperatura quente
play = sim (2)
9
ventoso = true (6)
outlook = nublado
outlook = nublado
temperatura = quente (2)
Umidade = normal
play = sim (2)
10
ventoso = false (8)
outlook = nublado
outlook = nublado
Umidade = normal (2)
Umidade = Alto
play = sim (2)
11
play = yes (9)
outlook = nublado
outlook = nublado
= humidade alta (2)
ventoso = true
play = sim (2)
12
jogar = no (5)
outlook = nublado
outlook = nublado
ventoso = true (2)
ventoso = false
play = sim (2)
13
outlook = nublado
outlook = chuvosa
ventoso = false (2)
= temperatura fria
Umidade = normal (2)

Pgina 33
4,5
REGRAS Mining Association
115
Se a umidade = normal e ventoso = false ento jogar = yes
4/4
Se a umidade = normal e jogar = yes em seguida, ventoso = false
4/6
Se ventoso = false and play = yes em seguida, a umidade = normal
4/6
Se a umidade = normal, em seguida, ventoso = false and play = yes
4/7
Se ventoso = false, em seguida, a umidade = normal e jogar = yes
4/8
Se o jogo = yes em seguida, a umidade = normal e ventoso = false
4/9
Se - ento humidade = normal e ventoso = false and play = yes
4/12
As figuras direita mostram o nmero de instncias para as quais todos os trs
con-
condies forem verdadeiras, isto , o pelo nmero de instncias de cobertura
dividida-
que as condies no antecedente so verdadeiras. Interpretado como uma
frao, eles
representam a proporo de casos em que a regra est correta, isto , a sua
preciso. Supondo que a preciso mnimo especificado de 100%, apenas o
primeiro
destas regras ir torn-lo para o conjunto de regras final. Os denominadores da
frao
es so facilmente obtidos, observando-se a expresso antecedente na Tabela
4.10
(Embora alguns no so mostrados na Tabela). A ltima regra acima no tem
nenhuma condio
es no antecedente, e o seu denominador o nmero total de ocorrncias na
o conjunto de dados.
Tabela 4.11 mostra a regra final definido para a dados meteorolgicos, com
abran- mnimo
erage 2 e mnimo 100% de preciso, classificado por cobertura. H 58 regras,
3
com a cobertura 4, 5 com a cobertura 3, e 50 com uma cobertura 2. Apenas 7
tm dois
em condies consequente, e nenhuma tem mais do que duas. A primeira
regra vem
a partir do conjunto item descrito anteriormente. s vezes, vrias regras
surgem a partir da
mesmo conjunto item. Por exemplo, as regras 9, 10 e 11 todos surgem a partir
do conjunto de quatro itens
na linha 6 do Quadro 4.10:
temperatura = legal, umidade = normal, ventoso = false, o jogo = yes
tabela 4.10
(contnuo)
conjuntos com uma posio
conjuntos de dois itens
conjuntos de trs itens
conjuntos de quatro itens
...
...
...
38
Umidade = normal
Umidade = normal
ventoso = false (4)
ventoso = false
play = yes (4)
39
Umidade = normal
Umidade = Alto
play = yes (6)
ventoso = false
jogar = no (2)
40
Umidade = Alto
ventoso = true (3)
...
...
47
ventoso = false
jogar = no (2)

Pgina 34
116
CAPTULO 4 Algoritmos: os mtodos bsicos
|

tabela 4.11
Regras de associao para os dados meteorolgicos.
regras de associao
Preciso cobertura
1 umidade = normal ventoso = false
jogo fi = yes
4
100%
2 = temperatura fria
fi umidade = normal
4
100%
3 outlook = nublado
jogo fi = yes
4
100%
4 Temperatura = jogo legal = yes
fi umidade = normal
3
100%
5 outlook = chuvoso ventoso = false
jogo fi = yes
3
100%
6 outlook = jogo chuvosa = yes
fi ventoso = false
3
100%
7 outlook = humidade ensolarado = Alto
jogo fi = no
3
100%
8 outlook = jogo ensolarado = no
fi umidade = Alto
3
100%
9 = temperatura fria ventoso = false
fi umidade = normal
2
100%
jogar = yes
10 temperatura = humidade legal = ventoso normais
jogo fi = yes
2
100%
= false
11 Temperatura = fresco ventoso = false jogo = yes
fi umidade = normal
2
100%
12 outlook = humidade das chuvas = ventoso normais
jogo fi = yes
2
100%
= false
13 outlook = humidade das chuvas = reproduo normal = yes
fi ventoso = false
2
100%
14 outlook = temperatura chuvosa = vento leve
jogo fi = yes
2
100%
= false
15 outlook = temperatura chuvosa = jogo leve = yes
fi ventoso = false
2
100%
16 temperatura = ventoso = false jogo leve = yes
outlook fi = chuvosa
2
100%
17 outlook = temperatura nublado = quente
fi ventoso = false
2
100%
jogar = yes
18 outlook = nublado ventoso = false
temperatura fi = quente
2
100%
jogar = yes
19 temperatura = jogo quente = yes
outlook fi = nublado
2
100%
ventoso = false
20 outlook = temperatura nublado = quente ventoso
jogo fi = yes
2
100%
= false
21 outlook = temperatura nublado = jogo quente
fi ventoso = false
2
100%
= yes
22 outlook = nublado ventoso = false jogo = yes
temperatura fi = quente
2
100%
23 temperatura = ventoso = false jogo quente = yes
outlook fi = nublado
2
100%
24 ventoso = false jogo = no
outlook fi = ensolarado
2
100%
Umidade = Alto
25 outlook = humidade ensolarado = Alto ventoso = false jogo fi = no
2
100%
26 outlook = ensolarado ventoso = false jogo = no
fi umidade = Alto
2
100%
27 umidade = Alto ventoso = false jogo = no
outlook fi = ensolarado
2
100%
28 outlook = temperatura ensolarado = quente
fi umidade = Alto
2
100%
jogar = nenhuma
29 temperatura = jogo quente = no
outlook fi = ensolarado
2
100%
Umidade = Alto
30 outlook = temperatura ensolarado = humidade quente
jogo fi = no
2
100%
= alta
31 outlook = temperatura ensolarado = jogo quente = no
fi umidade = Alto
2
100%
... ...
...
...
58 outlook = temperatura ensolarado = quente
fi umidade = Alto
2
100%

Pgina 35
4,5
REGRAS Mining Association
117
que tem cobertura 2. Trs subgrupos deste conjunto de itens tambm tm
cobertura de 2:
temperatura = legal, ventoso = false
temperatura = legal, umidade = normal, ventoso = false
temperatura = legal, ventoso = false, o jogo = yes
e estes levam a regras 9, 10 e 11, os quais so 100% precisas (no
dados de treinamento).
Gerao de regras de forma eficiente
Consideramos agora com mais detalhes um algoritmo para a produo de
regras de associao
com cobertura mnima especificada e preciso. Existem duas fases: generat-
ing item define com a cobertura mnima especificada, e de cada conjunto de
itens
determinao das regras que tm a preciso mnima especificada.
A primeira etapa procede por gerao de todos os conjuntos de um item com o
dado
cobertura mnima (primeira coluna da Tabela 4.10) e, em seguida, utilizar esta
para ge-
rar os conjuntos de dois itens (segunda coluna), conjuntos de trs itens
(terceira coluna), e assim por
em. Cada operao envolve uma passagem pelo conjunto de dados para contar
os itens em
cada conjunto, e depois da passagem dos sobreviventes conjuntos de itens so
armazenados em uma mesa- de hash
uma estrutura de dados padro que permite que os elementos armazenados na
mesma para ser encontrados muito
rapidamente. A partir dos conjuntos de um dos itens, conjuntos candidato dois
itens so gerados, e em seguida
a passagem feita por meio do conjunto de dados, contando a cobertura de
cada conjunto de dois itens;
no final dos conjuntos de candidatos com menos de cobertura mnima so
removidos
a partir da tabela. Os candidatos de dois conjuntos de itens so simplesmente
todos os conjuntos com uma posio
tomadas em pares, porque um conjunto de dois itens no podem ter a
cobertura mnima a menos
tanto seus constituintes conjuntos de um item de ter cobertura mnima
tambm. Isto aplica-se em
geral: um conjunto de trs item s pode ter a cobertura mnima, se todos os
seus trs
subconjuntos de dois itens tem cobertura mnima, bem como, e similarmente
para quatro itens
Conjuntos.
Um exemplo ajudar a explicar como conjuntos de itens candidato so
gerados.
Suponha que h cinco de trs produto conjuntos- (ABC), (ABD), (ACD),
(ACE), e
(BCD) -onde, por exemplo, A um recurso, como outlook = ensolarado. A
Unio
dos dois primeiros, (ABCD), um candidato conjunto de quatro item porque
seu outro trs
subconjuntos de itens (ACD) e (BCD) tm maior do que a cobertura
mnima. Se o
conjuntos de trs itens so classificados em ordem lexical, como eles esto
nesta lista, ento precisamos
considerar apenas os pares cujos primeiros dois membros so os mesmos. Por
exemplo, ns fazemos
no consideram (ACD) e (BCD) porque (ABCD) tambm pode ser gerado
a partir de (ABC) e (ABD), e se estes dois no so candidatos conjuntos de
trs itens
ento (ABCD) no pode ser um candidato conjunto de quatro item. Isso deixa
os pares (AB
C) e (ABD), que j explicamos, e (ACD) e (ACE).
Este segundo par leva ao set (ACDE), cuja subconjuntos de trs produto nem
todos
tem a cobertura mnima, por isso descartado. A tabela hash auxilia com este
verificar: ns simplesmente remover cada item do conjunto, por sua vez e
verifique se a

Pgina 36
restante conjunto de trs produto est de fato presente na tabela de
hash. Assim, neste
exemplo, h apenas um candidato conjunto de quatro itens,
(ABCD). Independente da resposta
ele realmente tem cobertura mnima s pode ser determinado verificando a
casos no conjunto de dados.
A segunda fase do processo leva cada elemento constante e gera regras
a partir dele, a verificao de que eles tm a preciso mnimo especificado. Se
apenas regras
com um nico teste sobre o lado direito foram procurados, seria simplesmente
uma questo
de considerar cada condio, por sua vez como a consequente da regra, exclu-
lo
a partir do conjunto de itens, e dividindo-se a cobertura de todo o produto
definido pela abran-
erage do resultante subconjunto obtido a partir do hash table-para produzir o
acurado
atrevido da regra correspondente. Dado que estamos tambm interessados em
associao
regras com vrios testes no consequente, parece que temos de avaliar a
efeito da colocao de cada subconjunto do produto definido no lado do lado
direito, deixando o
restante do conjunto como o antecedente.
Este mtodo de fora bruta ser de computao intensiva excessivamente a
menos
conjuntos de itens so pequenos, porque o nmero de subconjuntos possveis
cresce exponencialmente
com o tamanho do conjunto de itens. No entanto, h uma maneira
melhor. Observou-se quando
descrevendo regras de associao na Seo 3.4 que, se a regra da dupla
consequente
Se ventoso = false e play = no, ento outlook = ensolarado
e umidade = Alto
prende com uma dada cobertura mnima e preciso, em seguida, ambos single
consequentes regras formados a partir do mesmo conjunto de itens deve
tambm realizar:
Se a umidade = Alto e ventoso = false and play = no
em seguida, outlook = ensolarado
Se outlook = ensolarado e ventoso = false and play = no
em seguida, a umidade = alta
Por outro lado, se uma ou outra das regras individuais-consequente no detm,
h
h nenhum ponto em considerar a um duplo-consequente. Isto d uma forma
de Build-
ing-se das regras single-consequentes para candidatos duplo consequentes
queridos, a partir de
double-consequentes regras para candidatos triple-consequentes queridos, e
assim por diante. Do
Naturalmente, cada regra candidato deve ser comparado com a tabela hash
para ver se ele
realmente no tm mais do que a preciso mnima especificada. Mas isso
geralmente
envolve a verificao muito menos regras do que o mtodo de fora bruta.
interessante
que esta forma de construo de candidato ( n + 1) regras -consequent das
reais n -
consequentes queridos realmente apenas o mesmo que construir-se
candidato ( n + 1) -item
conjuntos de reais n conjuntos -Item, descritos anteriormente.
Discusso
regras de associao so frequentemente procurado por muito grandes
conjuntos de dados, e algo- eficiente
ritmos so altamente valorizadas. O mtodo descrito anteriormente faz uma
passagem
118
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 37
4.6
modelos Lineares
119
atravs do conjunto de dados para cada tamanho diferente de set item. s
vezes, o conjunto de dados
muito grande para ler no para a memria principal e deve ser mantido no
disco; ento ele pode ser
vale a pena reduzir o nmero de passes, verificando conjuntos de itens de dois
anos consecutivos
tamanhos de uma s vez. Por exemplo, uma vez que define com dois itens
foram gerados, todos
conjuntos de trs itens pode ser gerado a partir deles antes de passar pela
instncia definido para contar o nmero real de itens nos sets. Mais de trs
items
conjuntos do que o necessrio seria considerado, mas o nmero de passes
atravs do
todo conjunto de dados seria reduzida.
Na prtica, a quantidade de computao necessria para gerar regras de
associao
depende criticamente a cobertura mnima especificada. A preciso com menos
influncia, porque ela no afeta o nmero de passes que devemos fazer
atravs do conjunto de dados. Em muitas situaes, ns queremos obter um
certo nme-
ber de regras, digamos 50 com a maior cobertura possvel a um pr-
especificado
nvel mnimo de preciso. Uma maneira de fazer isso comear especificando
o abran-
erage a ser bastante alta e, em seguida, reduzi-lo, sucessivamente, reexecuting
todo
regra de apuramento de algoritmo para cada valor de cobertura e repetir isto
at que o
nmero desejado de regras tem sido gerada.
O formato de entrada tabular que usamos ao longo deste livro, e, em espe-
lar um arquivo padro ARFF baseado nele, muito ineficiente para muitos
associao regra
Problemas. regras de associao so usados frequentemente quando atributos
so binrios, quer
presente ou ausente e a maior parte dos valores de atributo associados com um
dado
exemplo, esto ausentes. Este um caso para a representao de dados
esparsos descrita
na Seo 2.4; o mesmo algoritmo para encontrar regras de associao se
aplica.
4.6 modelos lineares
Os mtodos que tm sido olhando para rvores de deciso e regras de trabalho
mais
naturalmente com atributos nominais. Eles podem ser estendidos aos atributos
numricos
quer atravs da incorporao de testes de valor numrico diretamente na
rvore de deciso ou regra
regime de induo, ou por prediscretizing numrico atributos em uns
nominais.
Vamos ver como nos captulos 6 e 7, respectivamente. No entanto, existem
mtodos
que o trabalho mais naturalmente com atributos numricos. Ns olhamos para
os simples aqui,
aqueles que formam os componentes de mtodos de aprendizagem mais
complexos, que vamos
examinar mais tarde.
previso numrica: Regresso Linear
Quando o resultado, ou classe, numrico e todos os atributos so numricos,
linear
regresso uma tcnica natural considerar. Este um mtodo de grampo em
estatistica-
Tics. A ideia a de expressar a classe como uma combinao linear dos
atributos,
com pesos predeterminados:
xw wa wa
wa kk
=
+
+
++
0
11
22
...

Pgina 38
onde X a classe; um 1 , um 2 , ..., um k so os valores do
atributo; e w 0 , W 1 , ..., w k so
Pesos.
Os pesos so calculados a partir dos dados de formao. Aqui a notao
recebe um
pouco pesado, porque precisamos de uma forma de expressar os valores de
atributos para cada
instncia treinamento. A primeira instncia ter uma classe, digamos, x (1) , e
valores de atributos
um 1
(1) , um 2
(1) , ..., um k
(1) , onde o expoente indica que se trata do primeiro exemplo.
Alm disso, conveniente notationally a assumir um atributo
adicional um 0 cuja
valor sempre 1.
O valor previsto para a aula da primeira instncia pode ser escrita como
Este o previsto, no o real, o valor para a classe a primeira instncia. de
inter-
est a diferena entre os valores previstos e os reais. O mtodo de
de regresso linear para escolher os coeficientes W J -Existem k + 1 deles-a
minimizar a soma dos quadrados dessas diferenas ao longo de todo o
treinamento
Instncias. Suponha que existem n para instncias de formao; denotam
o i th um com um
sobrescrito ( i ) . Em seguida, a soma dos quadrados das diferenas
em que a expresso dentro dos parnteses a diferena entre o i th
classe real da instncia e sua classe previsto. Esta soma dos quadrados o que
ns
tem que minimizar escolhendo apropriadamente os coeficientes.
Isso tudo est comeando a parecer formidvel. No entanto, a minimizao
tcnica simples, se voc tem o plano de fundo de matemtica adequada.
Basta dizer que, dada suficientes exemplos grosso modo, mais exemplos
de atributos de escolha de pesos para minimizar a soma do quadrado rena
cias no realmente difcil. Ele envolve uma operao de inverso de matriz,
mas esta
est prontamente disponvel como software pr-embalados.
Uma vez que a matemtica tem sido realizado, o resultado um conjunto de
pesos numricos,
com base nos dados de treino, o qual se pode usar para prever a classe de novo
Instncias. Vimos um exemplo disso quando se olha para o desempenho da
CPU
de dados, e os pesos reais numricos so apresentados na Figura 3.7 (a). esta
frmula
pode ser utilizado para prever o desempenho do processador de novos casos
de teste.
A regresso linear um mtodo excelente, simples para previso numrica e
que tem sido largamente utilizado em aplicaes estatsticas por
dcadas. Naturalmente, linear
modelos sofrem da desvantagem de, assim, a linearidade. Se os dados exibem
um no-
dependncia linear, a linha reta de melhor ajuste ser encontrado, onde
"melhor"
interpretado como a menos diferena mdia-quadrado. Esta linha pode no se
encaixar muito bem.
X
Wa
Eu
Jj
Eu
J
K
Eu
N
()
()
=
=
-

UMA
Contm uma

~
UMA
UMA
0
1
2
Wa
Wa
Wa
Wa
Wa
Kk
Jj
J
K
00
1
11
1
22
1
1
1
0
()
()
()
()
()
=
+
+
++
=
...
.
120
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 39
4.6
modelos Lineares
121
No entanto, modelos lineares servir bem como blocos de construo para mais
aprendizagem complexa
ing mtodos.
classificao Linear: A regresso logstica
regresso linear pode ser facilmente utilizado para a classificao em
domnios com numrica
atributos. Na verdade, podemos usar qualquer tcnica de regresso, seja linear
ou no-
linear, para a classificao. O truque fazer uma regresso para cada classe,
definindo a sada igual a um para os casos de formao que pertencem classe
e zero para aqueles que no o fazem. O resultado uma expresso linear para
o
classe. Em seguida, dado um exemplo de teste de classe desconhecida,
calcular o valor de cada
expresso linear e escolher aquele que o maior. Este mtodo por vezes
chamado de regresso linear multirrespostas.
Uma maneira de olhar para a regresso linear multirrespostas imaginar que
ele
se aproxima de uma numrico funo de pertinncia para cada classe. a
associao
funo de 1 para instncias que pertencem a essa classe e 0 para outras
instncias.
Dada uma nova instncia calculamos seus membros para cada classe e
selecione o
o maior.
regresso linear multirrespostas muitas vezes produz bons resultados na
prtica.
No entanto, h duas desvantagens. Em primeiro lugar, os valores de adeso
que produz no so
probabilidades apropriadas porque eles podem cair fora do intervalo de 0 a 1.
Em segundo lugar, menos-
quadrados de regresso assume que os erros no so apenas estatisticamente
indepen-
ent, mas tambm so distribudos normalmente com o mesmo desvio padro,
uma
pressuposto de que manifestamente violada quando o mtodo aplicado a
classificao
problemas o porque as observaes sempre apenas assumir os valores 0 e 1.
A tcnica estatstica relacionado chamado de regresso logstica no sofre
estes problemas. Em vez de aproximar os valores 0 e 1 diretamente, assim,
arriscando valores de probabilidade ilegtimos quando o alvo ultrapassado,
regresso logstica
sion constri um modelo linear com base em uma meta varivel transformada.
Suponha primeiro que existem apenas duas classes. A regresso logstica
substitui o
varivel alvo original
que no pode ser aproximado com preciso utilizando uma funo linear, com
Os valores resultantes no so limitados ao intervalo de 0 a 1, mas
pode mentir em qualquer lugar entre infinito negativo e infinito
positivo. Figura 4.9 (a)
traa a funo de transformao, que muitas vezes chamado
de transformao logit.
A varivel transformada aproximada usando uma funo linear apenas como
os gerados por regresso linear. O modelo resultante
Pr1
11
1
2
0
11
Aa
uma
W
Wa
Wa
K
Kk
,,. . . ,
Exp
...
,
[
]=
+
-benzico.
-
-
(
)
(
)
log Pr
Pr
1
1
1
1
2
1
2
Aa
uma
Aa
uma
K
K
-benzico.
,, ...,.
[
]
(
)-[
]
(
)
Pr 1 1
2
Aa
um K
,, ...,,
[
]

Pgina 40
com pesos w. Figura 4.9 (b) mostra um exemplo desta funo, de uma
dimenso
sion, com dois pesos w 0 = 0,5 e w 1 = 1.
Assim como na regresso linear, os pesos devem ser encontradas que se
encaixam os dados de treinamento
bem. regresso linear mede a qualidade do ajuste usando o erro
quadrado. Dentro
regresso logstica da log-verossimilhana do modelo utilizado em seu
lugar. Esta dada
de
122
CAPTULO 4 Algoritmos: os mtodos bsicos
|

-5
-4
-3
-2
-1
0
1
2
3
4
5
0
0,2
0,4
0,6
0,8
1
(uma)
0
0,2
0,4
0,6
0,8
1
-10
-5
0
5
10
(B)
Figura 4.9 regresso logstica: (a) transformar o logit e (b) uma regresso
logstica exemplo
funo de Sion.

Pgina 41
4.6
modelos Lineares
123
onde os X ( I ) so ou zero ou um.
Os pesos w i precisam ser escolhidos para maximizar o log-
verossimilhana. tem
vrios mtodos para resolver este problema de maximizao. A um simples
iteratively resolver uma seqncia de problemas de regresso ponderada
mnimos quadrados at
o log-verossimilhana converge para um mximo, o que geralmente acontece
em alguns
iteraes.
Para generalizar regresso logstica para vrias classes, uma possibilidade
para prosseguir
da maneira descrita anteriormente para a regresso linear multirrespostas por
per-
formando regresso logstica de forma independente para cada
classe. Infelizmente, o
estimativas de probabilidade resultantes no vai resumir a um. Para obter
probabili- adequada
dades, necessrio acoplar os modelos individuais para cada classe. Isto
produz um
problema de optimizao conjunta, e h mtodos de soluo eficiente para
este.
A conceitualmente mais simples e muito geral, maneira de resolver os
problemas multiclasse
conhecido como classificao de par a par. Aqui um classificador
construdo para cada par de
classes, utilizando apenas os casos destas duas classes. A sada numa
exemplo de teste desconhecido baseado em qual classe recebe a maioria dos
votos. este
mtodo geralmente produz resultados precisos em termos de erro de
classificao. Pode
tambm ser usado para produzir estimativas de probabilidade pela aplicao
de um mtodo chamado Pair-
acoplamento sbio, que calibra as estimativas de probabilidade individuais do
dife-
classificadores rentes.
Se existem k as classes, a classificao baseia-se em pares de um total
de k ( k - 1) / 2 classi-
sifiers. Embora isso parea desnecessariamente computao intensiva, no
. Dentro
verdade, se as classes so uniformemente preenchida classificao aos pares ,
pelo menos, to rpido
como qualquer outro mtodo multiclasse. A razo que cada par a par da
aprendizagem
ing problema envolve apenas casos relativos s duas classes sob conside-
o. Se n instncias so divididos igualmente entre k aulas, isso equivale a
2n/k
instncias por problema. Suponha que o algoritmo de aprendizagem para um
problema de duas classes
com n casos leva tempo proporcional ao n segundos para executar. Em
seguida, a corrida
tempo para a classificao de pares proporcional ao k ( k - 1) / 2
2 n / k segundos,
o qual ( k - 1) n. Em outras palavras, o mtodo de escala linearmente com o
nmero
de classes. Se o algoritmo de aprendizagem leva mais tempo, digamos
proporcional ao n 2 -
A vantagem da abordagem de pares torna-se ainda mais pronunciada.
A utilizao de funes lineares de classificao podem ser facilmente
visualizados em
espao instncia. O limite de deciso para duas classes mentiras de regresso
logstica
em que a probabilidade de previso 0,5, que :
Isto ocorre quando
Pr 1
11
05
1
2
0
11
Aa
uma
W
Wa
Wa
K
Kk
-benzico.
Exp
...
..
[
]=
+
-benzico.
-
-
(
)
(
)=
1
1
1
1
1
1
2
1
2
-
(
)
-[
]
(
)+
[
]
(
)
()
=
()
()
()
()
()
()
()
x
Aa
uma
X
Aa
uma
Eu
Eu
N
Eu
Eu
K
Eu
Eu
Eu
Eu
K
Eu
registro
,,. . . ,
registro
,,. . . ,
Pr
Pr
Pgina 42
Porque esta uma igualdade linear nos valores de atributos, a fronteira um
linear
avio, ou hiperplano, no espao instncia. fcil de visualizar conjuntos de
pontos que
no podem ser separados por um nico hiperpl, e estes no podem ser
discriminados
corretamente por regresso logstica.
de regresso linear multirrespostas sofre do mesmo problema. cada classe
recebe um vector peso calculado a partir dos dados de formao. Concentre-se
para o momento
em particular, um par das classes. Suponha que o vector de peso para a classe
1
eo mesmo para a classe 2 com expoentes apropriados. Em seguida, uma
instncia ser
ser atribudo classe 1, em vez de classe 2 se
Em outras palavras, ele ser atribudo classe 1 Se
Esta uma desigualdade linear nos valores de atributo, de modo que o limite
entre cada
par de classes um hiperplano. O mesmo se aplica aos pares quando se realiza
classificao. A nica diferena que a fronteira entre duas classes
regida pelas instncias de formao dessas classes e no influenciada pela
Outras classes.
classificao Linear usando o perceptron
A regresso logstica tentativas para produzir estimativas de probabilidade
precisos por max-
imizing a probabilidade de os dados de treinamento. claro, a probabilidade
exacta estimativa
mates levar a classificaes precisas. No entanto, no necessrio realizar
estimativa de probabilidade se o nico propsito do modelo prever rtulos
de classe.
Uma abordagem diferente para aprender uma hiperpl que separa as
instncias per-
teno para as diferentes classes-vamos supor que h apenas dois deles. E se
os dados podem ser separados em dois grupos perfeitamente usando um
hiperpl, dito
para ser linearmente separveis. Acontece que, se os dados so linearmente
separveis, no
um algoritmo muito simples para encontrar um hiperplano separando.
O algoritmo chamado de regra de aprendizagem perceptron. Antes de olhar
para ele em
detalhe, vamos examinar a equao para um hiperplano de novo:
Aqui, um 1 , um 2 , ..., um k so os valores de atributos, e w 0 , W 1 , ..., w k so os
pesos
que definem o hiperplano. Vamos supor que cada instncia de
formao a 1 , a 2 ,
. . . prorrogado por um atributo adicional a 0 , que sempre tem o valor 1
(como ns
fez no caso de regresso linear). Esta extenso, que chamado de vis, apenas
wa wa wa
wa kk
00
11
22
0
+
+
++
=
...
.
W
W
W
Wa
W
Wa
K
K
K
0
1
0
2
1
1
1
2
1
1
2
0
()
()
()
()
()
()
-
(
)+
-
(
) ++
-
(
)>
...
.
W
Wa
waw
Wa
Wa
K
K
K
K
0
1
1
1
1
1
0
2
1
2
1
2
()
()
()
()
()
()
+
++
>
+
++
...
...
W
Wawa
Wa
K
K
0
1
1
1
1
2
1
2
1
()
()
()
()
+
+
++
...
-benzico.
-
-
=
W
Wa
wa kk
0
11
0
...
.
124
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 43
4.6
modelos Lineares
125
significa que no temos de incluir um elemento constante adicional na soma.
Se a soma maior do que zero, o que ir prever primeira classe; Caso
contrrio, teremos
predizer a segunda classe. Queremos encontrar valores para os pesos de modo
que a formao
o de dados esteja corretamente classificados pelo hiperplano.
Figura 4.10 (a) d a regra de aprendizagem perceptron para encontrar uma
separao
hiperplano. Os algoritmo itera at que uma soluo perfeita foi encontrado,
mas
ele s vai funcionar corretamente se existe um hiperplano de separao, isto ,
se os dados forem
linearmente separveis. Cada iterao passa por todas as instncias de
formao. Se um
instncia classificados erroneamente encontrado, os parmetros do
hiperplano so
alterado para que a instncia classificados erroneamente se aproxima do
hiperplano ou
talvez at mesmo em todo o hiperplano para o lado correto. Se a instncia
pertence
para a primeira classe, isto feito atravs da adio de seus valores de
atributos ao vetor de peso;
Caso contrrio, eles so subtrados a partir dele.
Defina todos os pesos para zero
At que todas as instncias nos dados de treinamento so classificados
corretamente
Para cada instncia I nos dados de treinamento
Se eu for classificado incorretamente pelo perceptron
Se I pertence primeira classe de adicion-lo para o vector de ponderao
outra subtrai-lo a partir do vector de peso
(uma)
1
("vis")
atributo
um 1
atributo
um 2
atributo
um 3
w0
W2
W1
wk
(B)
Figura 4.10 O perceptron: (a) regra de aprendizagem e (b) a representao
como uma rede neural.

Pgina 44
Para ver por que isso funciona, considere a situao depois que uma
instncia a que pertence
para a primeira classe foi adicionado:
Isto significa que a sada para um aumentou
Este nmero sempre positivo. Assim, o hiperplano mudou na correta
direo para a classificao de exemplo a como positiva. Por outro lado, se
uma instncia pertencentes
ing para a segunda classe erroneamente classificada, a sada para essa
instncia diminui
aps a modificao, novamente mover o hiperplano para a direo correta.
Estas correces so incrementais e pode interferir com atualizaes
anteriores.
No entanto, pode-se mostrar que o algoritmo converge num nmero finito de
iteraes se os dados so linearmente separveis. Claro que, se os dados no
linearmente
separvel, o algoritmo no ir terminar, portanto, um necessidades do limite
superior de ser
imposto sobre o nmero de iteraes quando este mtodo aplicado na
prtica.
O hiperplano resultante chamado um perceptron, e o av de
redes neurais (voltamos a redes neurais na Seo 6.3). A Figura 4.10 (b)
representa o perceptron como um grfico com ns e arestas ponderadas,
imaginaes
vamente denominado uma "rede" de Existem duas camadas de ns
"neurnios.": entrada e
sada. A camada de entrada tem um n para cada atributo, alm de um n
extra que
sempre definido como um. A camada de sada constitudo por apenas um
n. Cada n
a camada de entrada ligado camada de sada. As conexes so ponderadas,
e os pesos so os nmeros encontrados pela regra de aprendizagem
perceptron.
Quando uma instncia apresentado ao perceptron, seus valores de atributos
servem para
"Ativar" a camada de entrada. Eles so multiplicados pelos pesos e resumiu
no n de sada. Se a soma pesada maior do que 0 o sinal de sada de 1,
representando a primeira classe; caso contrrio, -1, representando o segundo.
classificao Linear usando Winnow
O algoritmo perceptron no o nico mtodo que garantido para encontrar
uma
separando hiperplano para um problema linearmente separveis. Para
conjuntos de dados com binrio
atributos existe uma alternativa conhecida como Winnow, mostrado na Figura
4.11 (a).
A estrutura dos dois algoritmos muito semelhante. Como o perceptron,
Winnow
s atualiza o vetor de pesos quando uma instncia misclassified
encountered-
impulsionado erro.
Os dois mtodos diferem na forma como os pesos so atualizados. A regra
perceptron
emprega um mecanismo aditivo que altera o vector peso pela adio de (ou
sub
tratante) vector atributo da instncia. Winnow emprega atualizaes
multiplicativos
e altera pesos individualmente multiplicando-os pelo utilizador-especificado
parmetro de um (ou o seu inverso). O atributo valoriza a i so 0 ou 1 porque
ns
Aaaaaa
Aa
K
K
0
0
1
1
2
2
++++
...
.
waa
waa
waa
waa
K
K
K
0
0
0
1
1
1
2
2
2
+
(
)+
+
(
)+
+
(
) ++
+
(
)
...
.
126
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 45
4.6
modelos Lineares
127
Enquanto alguns casos so classificados incorretamente
para cada instncia de um
Classificamos um usando os pesos atuais
Se a classe predito incorrecta
Se um pertence primeira classe
para cada um que 1, multiplicar w por
i i

(se um 0, deixe w inalterado)


i i

de outra forma
para cada um que 1, dividir w por
i i

(se um 0, deixe w inalterado)


i i

(uma)
Enquanto alguns casos so classificados incorretamente
para cada instncia de um
Classificamos um usando os pesos atuais
Se a classe predito incorrecta
Se um pertence primeira classe
para cada um que 1,
i

multiplicar w i

+ Por
diviso w i

- Por
(Se um 0, deixar w
i i

+ EW i
- Inalterado)
em contrrio
para cada um que 1,
i

multiplicar w i

- Por
diviso w i

+ Por
(Se um 0, deixar w
i i

+ EW i
- Inalterado)
(B)
Figura 4.11 O algoritmo Winnow: (a) a verso desequilibrada e (b) o
equilibrada
verso.

Pgina 46
esto trabalhando com dados binrios. Os pesos so inalterado se o valor do
atributo 0,
porque ento eles no participam na deciso. Caso contrrio, o multiplicador
um , se esse atributo ajuda a tomar uma deciso correta e 1 / a , se isso no
acontece.
Outra diferena que o limiar na funo linear tambm um pelo utilizador
parmetro especificado. Chamamos esse limite q e classificar uma instncia
como pertena
ing para a classe 1, se e somente se
O multiplicador um precisa de ser maior do que um. O W I so ajustados para
uma constante de
o comeo.
O algoritmo que descrevemos no permite pesos negativos, que-
dependendo do domnio de pode ser uma desvantagem. No entanto, existe
uma verso,
chamado equilibrada Winnow, que no permite-los. Esta verso mantm dois
vetores de pesos, um para cada classe. Uma instncia classificado como
pertencente classe
1 se:
A Figura 4.11 (b) mostra o algoritmo equilibrada.
Winnow muito eficaz no homing em as caractersticas relevantes em um
dataset-
por isso chamado um atributo eficiente em termos de aprendiz. Isto significa
que ele pode ser um
bom algoritmo candidato se um conjunto de dados tem muitos recursos
(binrio) e mais de
eles so irrelevantes. Ambos peneirar e o algoritmo de perceptron pode ser
utilizado em
um ambiente online no qual novas instncias chegam de forma contnua,
porque podem
incrementalmente atualizar suas hipteses como novas instncias chegar.
4.7 aprendizagem baseada Instncia
Na instncia baseada em aprender os exemplos de treinamento so
armazenados na ntegra, e um dis-
funo cia usado para determinar qual membro do conjunto de treinamento
mais prximo
a uma instncia de teste desconhecido. Uma vez que a ocorrncia de formao
mais prximo foi
localizado, sua classe est previsto para a instncia de teste. O nico problema
restante
definir a funo de distncia, e que no muito difcil de fazer,
particularmente
se os atributos so numricos.
A funo de distncia
Embora existam outras opes possveis, a maioria dos alunos base de
instncia usar
Distncia euclidiana. A distncia entre uma instncia com valores de
atributo a 1
(1) ,
um 2
(1) , ..., um k
(1) (onde k o nmero de atributos) e um com valores de 1
(2) ,
um 2
(2) , ..., um k
(2) definida como
uma
uma
uma
uma
uma
uma
K
K
1
1
1
2
2
2
1
2
2
2
1
2
2
()
()
()
()
()
()
-
(
)+
-
(
) ++
-
(
)
...
.
W
Wa
W
Wa
W
Wa
K
K
K
0
0
0
1
1
1
+
-
+
-
+
-
-
(
)+
-
(
) ++
-
(
)>
...
Q
wa wa wa
wa kk
00
11
22
+
+
++
>
...
.Q
128
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 47
4.7
Aprendizagem baseada em INSTNCIA
129
Ao comparar as distncias no necessrio para executar a opera- raiz
quadrada
o; as somas de quadrados podem ser comparadas diretamente. Uma
alternativa para o
distncia euclidiana a Manhattan ou cidade-block mtrica, onde a diferena
entre os valores de atributos no quadrado, mas acabou de adicionar-se
(depois de tomar o
valor absoluto). Outros so obtidos tomando poderes superior ao quadrado.
potncias mais altas aumentam a influncia de grandes diferenas em
detrimento de pequeno
Diferenas. Geralmente, a distncia euclidiana representa um bom
compromisso.
Outras mtricas de distncia pode ser mais apropriado em circunstncias
especiais. o
chave pensar em instncias reais eo que isso significa para eles ser separados
por uma certa distncia, o que seria duas vezes a distncia que significa, por
exemplo?
Diferentes atributos so medidos em escalas diferentes, ento se o euclidiana
frmula de distncia foram usadas directamente, os efeitos de alguns atributos
pode ser
completamente ofuscado por outros que tiveram maiores escalas de
medida. Conse-
temente, usual para normalizar todos os valores de atributo para situar-se
entre 0 e 1, por
clculo
onde v i o valor real do atributo i, eo mximo e mnimo so
tomado todas as instncias no conjunto de treinamento.
Estas frmulas assumir implicitamente atributos numricos. Aqui, a diferena
entre dois valores a diferena numrica entre eles, e esta
diferena que quadrado e somados para se obter a funo de distncia. para
nominal
atributos que assumem valores que so simblica em vez de numrico, a dife-
cia entre dois valores que no so o mesmo muitas vezes considerado como
sendo um, enquanto
Se os valores forem os mesmos, a diferena zero. Sem escala necessrio
neste
caso, pois apenas os valores 0 e 1 so usadas.
Uma poltica comum para lidar com valores em falta a seguinte. para
nominal
atributos, suponha que uma caracterstica que falta maximamente diferente
de qualquer outro
valor recurso. Assim, se um ou ambos os valores esto faltando, ou se os
valores so dife-
rentes, a diferena entre eles tomado como uma; a diferena apenas de
zero
se eles no esto em falta e ambos so o mesmo. Para atributos numricos, as
di-
Conferncia entre dois valores em falta tambm tida como um. No entanto,
se apenas uma
valor estiver em falta, a diferena frequentemente visto como quer o
tamanho (normalizado) de
outro valor ou um menos que o tamanho, o que for maior. Isto significa que se
Os valores esto em falta, a diferena to grande quanto ele pode ser.
Encontrar vizinhos mais prximos de forma eficiente
Embora a aprendizagem baseada em instncia simples e eficaz, muitas vezes
lento. o
maneira bvia para descobrir qual membro do conjunto de treinamento mais
prximo de um desconhecido
instncia de teste calcular a distncia de cada membro do conjunto de
treinamento
uma
V
V
V
V
Eu
Eu
Eu
Eu
Eu
=
-
-
Min
Mximo
Min

Pgina 48
e selecione o menor. Este procedimento linear no nmero de treinamento
casos: em outras palavras, o tempo que leva para fazer uma nica previso
pro-
proporcional ao nmero de instncias de formao. Processamento de um
conjunto de teste inteira leva
tempo proporcional ao produto do nmero de casos na formao e
conjuntos de teste.
vizinhos mais prximos podem ser encontrados com mais eficincia,
representando o treinamento
definida como uma rvore, apesar de no ser evidente como. Uma estrutura
adequada um
KD-rvore. Esta uma rvore binria que divide o espao de entrada com um
hiperpl
e em seguida, se divide novamente cada partio, de forma recursiva. Todas as
divises so feitas paralelamente
um dos eixos, vertical ou horizontalmente, no caso bidimensional.
A estrutura de dados chamado de rvore-kd porque ele armazena um
conjunto de pontos em k -
espao dimensional, k o nmero de atributos.
A Figura 4.12 (a) apresenta um pequeno exemplo com k = 2, e A Figura 4.12
(b) mostra o
quatro casos de formao que representa, juntamente com os hiperplanos que
constituem
a rvore. Note-se que estes hiperplanos so no limites de deciso: as decises
so
feita em uma base de vizinho mais prximo, como explicado mais tarde. A
primeira diviso horizontalmente
Tal ( h ) , atravs do ponto (7,4) -este raiz da rvore. O ramo esquerdo no
subdiviso suplementar: contm o nico ponto (2,2), que uma folha da
rvore. o
ramo direito dividida verticalmente ( v ) no ponto (6,7). A sua criana
esquerda est vazia, e
seu filho direita contm o ponto (3,8). Tal como este exemplo ilustra, cada
regio
contm apenas um ponto, ou, talvez, sem pontos. ramos irmo do rvore-
por exemplo, as duas filhas de raiz na Figura 4.12 (a) no -so neces-
sariamente desenvolvido com a mesma profundidade. Cada ponto nos
corresponde conjunto de treinamento
a um nico n, e at metade so ns de folha.
130
CAPTULO 4 Algoritmos: os mtodos bsicos
|

(2,2)
(7,4); H
(6,7); V
(3,8)
(uma)
uma
uma
(2,2)
(7,4)
(6,7)
(3,8)
2
1
(B)
Figura 4.12 A K D-rvore para quatro casos de formao: (a) a rvore e (B) e
instncias
divide.

Pgina 49
4.7
Aprendizagem baseada em INSTNCIA
131
Como voc construir uma k D-rvore a partir de um conjunto de dados? Ele
pode ser atualizado de forma eficiente como
novos exemplos de treinamento so adicionados? E como ele acelerar o
vizinho mais prximo
clculos? Ns resolver a ltima questo em primeiro lugar.
Para localizar o vizinho mais prximo de um determinado ponto de destino,
siga a rvore
a partir da sua raiz para localizar a regio contendo o alvo. A Figura 4.13
apresenta um espao
como a da Figura 4.12 (b), mas com mais algumas instncias e um bound-
adicional
Ary. O alvo, o que no uma das instncias na rvore, marcada por uma
estrela.
O n de folha da regio que contm o alvo de cor preta. Isso no
necessariamente vizinho mais prximo do alvo, como este exemplo ilustra,
mas um
boa primeira aproximao. Em particular, qualquer vizinho mais prximo
deve estar closer-
dentro do crculo a tracejado na Figura 4.13. Para determinar se existe um,
primeiro
verificar se possvel para um vizinho mais prximo se encontram dentro
irmo do n.
irmo do n preto sombreada na Figura 4.13, e o crculo no inter-
seita, ento o irmo no pode conter um vizinho mais prximo. Em seguida,
fazer backup para a
n pai e verificar o seu irmo-que aqui cobre tudo acima do hor-
linha izontal. Neste caso, deve ser explorada, porque a rea que cobre
intersecta
com a melhor crculo at agora. Para explor-lo, encontrar suas filhas (do
ponto original
duas tias), verificar se eles cruzam o crculo (o esquerdo no, mas
o caminho certo faz), e descer para ver se ele contm um ponto mais prximo
(ele
faz).
Figura 4.13 Usando um k D-rvore para encontrar o vizinho mais prximo da
estrela.

Pgina 50
Em um caso tpico, este algoritmo muito mais rpido do que examinar todos
os pontos de encontrar
o vizinho mais prximo. O trabalho envolvido em encontrar o aproximada
inicial
vizinho mais prximo do ponto preto na Figura 4.13-depende da profundidade
do
rvore, determinado pelo logaritmo do nmero de nodos, log 2 n. A quantidade
de trabalho
envolvido no retrocesso para verificar se este realmente o vizinho mais
prximo
Depende um pouco sobre a rvore, e como boa a aproximao inicial . Mas
pelo
uma rvore bem construdo cujos ns so aproximadamente quadrada, em vez
de longa
rectngulos magras, ela tambm pode ser demonstrado ser logartmica no
nmero de ns.
Como voc construir uma boa rvore para um conjunto de exemplos de
treino? O problema
resume-se a selecionar a primeira instncia formao para dividir em e a
direo de
a separao. Uma vez que voc pode fazer isso, aplicar o mesmo mtodo
recursivamente para cada criana
da separao inicial para construir toda a rvore.
Para encontrar uma boa direo para a separao, calcular a variao dos
pontos de dados
ao longo de cada eixo individualmente, selecionar o eixo com a maior
varincia, e criar
um hiperplano diviso perpendicular a ele. Para encontrar um bom lugar para
a hiper-
plano, localize o valor mdio ao longo desse eixo e selecione a correspondente
ponto. Isso faz com que a separao perpendicular direco da maior
propagao,
com metade dos pontos que encontra-se em ambos os lados. Isto produz uma
rvore bem equilibrada. Para
evitar regies magro longo melhor para divises sucessivas para ser ao
longo de diferentes eixos,
provvel que, porque a dimenso do maior varincia escolhido em cada
fase.
No entanto, se a distribuio de pontos muito assimtrica, escolhendo a
mediana
valor pode gerar diversas separaes sucessivas na mesma direco,
produzindo longa,
hyperrectangles magras. Uma estratgia melhor para o clculo da mdia, em
vez de a
mediana e usar o ponto mais prximo que. A rvore no ser perfeitamente
equilibrado,
mas suas regies tender a ser quadrada, porque h uma maior chance de que
dife-
direes dife- ser escolhido para divises sucessivas.
Uma vantagem de aprendizagem baseada em instncia sobre a maioria dos
outros aprendizado de mquina
mtodos que os novos exemplos pode ser adicionado ao conjunto de treino,
em qualquer momento. Para
manter esta vantagem ao usar um k D-rvore, preciso ser capaz de atualiz-
lo incre-
mentalmente com novos pontos de dados. Para fazer isso, determinar qual o
n de folha contm
o novo ponto e encontrar o seu hyperrectangle. Se estiver vazia, basta colocar
o novo
ponto l. Caso contrrio, dividir o hyperrectangle, dividindo-o ao longo de sua
mais longa
dimenso para preservar a quadratura. Esta heurstica simples no garante que
a adio de uma srie de pontos vai preservar o equilbrio da rvore, nem que
o hyperrec-
emaranhados ser bem em forma para a busca de vizinho mais prximo.
uma boa ideia
reconstruir a rvore a partir do zero, ocasionalmente, por exemplo, quando a
sua profundidade cresce
a duas vezes o melhor profundidade possvel.
Como vimos, k D-rvores so boas estruturas de dados para encontrar vizi-
mais prximo
Bors eficiente. No entanto, eles no so perfeitos. conjuntos de dados
inclinadas apresentam uma base
conflito entre o desejo de que a rvore para ser perfeitamente equilibrado eo
desejo
para as regies de ser quadrada. Mais importante, retngulos, mesmo no
praas-se
a melhor forma de usar de qualquer maneira, por causa de seus cantos. Se o
crculo tracejado na
132
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 51
4.7
Aprendizagem baseada em INSTNCIA
133
A Figura 4.13 eram um pouco maiores, o que seria se o exemplo preto foram
um pouco
mais longe do alvo, que seria intersectar o canto inferior direito da
rectngulo na parte superior esquerda e, em seguida, o referido rectngulo
teria de ser investigada,
demasiado apesar do fato de que as instncias de formao que o definem so
um longo caminho
a partir do canto em questo. Os cantos de regies retangulares so difceis.
A soluo? Use hiperesferas, no hyperrectangles. esferas vizinhos
Considerando que podem sobrepor-se rectngulos pode encostar, mas isto no
um problema porque a
algoritmo de vizinho mais prximo para k D-rvores descrito anteriormente
no depende
sobre as regies sendo separado. Uma estrutura de dados chamado
uma rvore bola define k -
hiperesferas dimensionais ( "bolas") que abrangem os pontos de dados, e
organiza
-los em uma rvore.
A Figura 4.14 (a) mostra 16 casos de formao em espao bidimensional,
sobre-
definido por um padro de crculos sobrepostos, e a Figura 4.14 (b) mostra
uma rvore formada
a partir destes crculos. Crculos em diferentes nveis da rvore so indicados
por diferen-
estilos ent de trao e os crculos menores so desenhados em tons de
cinza. Cada n
da rvore representa uma bola, e o n tracejado ou sombreado de acordo
com a
mesma conveno para que voc possa identificar qual nvel as bolas
esto. Ajudar
-lo a entender a rvore, nmeros so colocados nos ns para mostrar quantas
Os pontos de dados so considerados dentro dessa esfera. Mas cuidado: este
no neces-
riamente o mesmo que o nmero de pontos que cai dentro da regio espacial
que o
representa bola. As regies em cada nvel, por vezes, se sobrepem, mas os
pontos que caem
para a rea de sobreposio so atribudos a uma nica das bolas de
sobreposio (a
diagrama no mostra que um). Em vez de as contagens de ocupao na figura
4.14 (b), os ns de rvores de esferas reais armazenam o centro e o raio da sua
esfera;
ns folha gravar os pontos que eles contm tambm.
Para usar uma rvore de bola para encontrar o vizinho mais prximo a um
determinado alvo, comear por tra-
invertendo a rvore de cima para baixo para localizar a folha que contm o
alvo e
encontrar o ponto mais prximo ao alvo em que a bola. Isto d um limite
superior para
distncia do alvo de seu vizinho mais prximo. Ento, assim como para o k D-
rvore,
examinar o n irmo. Se a distncia entre o alvo para o centro do irmo
exceder o seu raio mais a corrente limite superior, no se pode, eventualmente,
conter um
ponto mais prximo; caso contrrio, o irmo deve ser examinado por descer
da rvore
mais distante. Na Figura 4.15 o alvo marcado com uma estrela e o ponto
preto a sua
vizinho mais prximo atualmente conhecida. A totalidade do contedo da bola
cinzenta pode ser
descartada: ele no pode conter um ponto mais prximo, porque o seu centro
est muito longe.
Proceder de forma recursiva backup da rvore sua raiz, examinando
qualquer bola que pode
possivelmente conter uma mais prximo ponto do que o atual limite superior.
rvores de esferas so construdos de cima para baixo, e como com k D-
rvores O problema bsico
encontrar uma boa maneira de dividir uma bola contendo um conjunto de
pontos de dados em dois.
Na prtica, voc no tem que continuar at que as bolas de folhas contm
apenas
dois pontos: voc pode parar mais cedo, uma vez que um nmero mnimo pr-
determinado
chegou-e o mesmo vale para k D-rvores. Aqui um mtodo de diviso
possvel.

Pgina 52
134
CAPTULO 4 Algoritmos: os mtodos bsicos
|

(uma)
16
6
10
4
6
2
4
2
2
4
2
2
2
2
2
(B)
Figura 4.14 rvore de bola durante 16 casos de formao: (a) instncias e
esferas e (b) da rvore.

Pgina 53
4.7
Aprendizagem baseada em INSTNCIA
135
Escolha do ponto da bola que est mais afastado do seu centro, e, em seguida,
uma segunda
ponto que est mais distante do primeiro. Atribuir todos os pontos de dados na
bola para a
mais prximo um destes dois centros de fragmentao, em seguida, calcular o
centride de cada
cluster e o raio mnimo exigido para que ela inclua todos os dados aponta
representa. Este mtodo tem a vantagem de que o custo de dividir uma bola de
conteno
ing n pontos s linear em n. Existem algoritmos mais elaboradas que
produzir bolas apertadas, mas eles requerem mais computao. No vamos
descrever
algoritmos sofisticados para a construo de rvores de esferas ou
atualizando-os incrementos
mentalmente como novas instncias de formao so encontrados.
Discusso
aprendizagem baseada em instncia vizinho mais prximo simples e muitas
vezes trabalha muito
bem. No mtodo descrito anteriormente cada atributo tem exactamente a
mesma
influenciar a deciso, tal como acontece no mtodo Nave Bayes. Outro
problema que o banco de dados pode facilmente tornar-se corrompido por
exemplares ruidosos.
Uma soluo adotar o k estratgia -nearest-vizinho, onde alguns fixo,
pequeno, nmero k de vizinhos mais prximos, digamos cinco esto
localizados e usados juntos
para determinar a classe da instncia de teste atravs de uma votao por
maioria simples. (Nota
que foi utilizado K para indicar o nmero de atributos anteriores; esta uma
forma diferente, inde-
pendent uso.) Outra forma de proteo contra o banco de dados contra o rudo
escolher
os exemplares que so adicionados a ele selectiva e judiciosa; melhoria mento
mentos, descrito no Captulo 6, resolver estas deficincias.
Figura 4.15 Excluindo-se uma bola de inteira (cinza) com base em um ponto
de destino (estrela) e os seus actuais
vizinho mais prximo.

Pgina 54
O vizinho mais prximo mtodo originou muitas dcadas atrs, e estatsticos
analisados k esquemas -nearest-vizinho no incio dos anos 1950. Se o nmero
de treinamento
ing casos grande, faz sentido intuitivo de usar mais de um mais prximo
vizinho, mas evidente que isso perigoso, se h poucos casos. Pode ser
mostrado
que, quando k e o nmero n de instncias ambos se tornam infinitas, de tal
maneira
que K / N 0, a probabilidade de erro se aproxima do mnimo terico de
o conjunto de dados. O mtodo do vizinho mais prximo, foi aprovado na
classificao
mtodo no incio dos anos 1960 e tem sido amplamente utilizado no campo do
padro de reco-
definio por mais de trs dcadas.
Classificao vizinho mais prximo era notoriamente lento at k D-rvores
comearam a
ser aplicado no incio de 1990, embora a prpria estrutura de dados foi
desenvolvido
muito mais cedo. Na prtica, essas rvores se tornam ineficientes quando a
dimenso da
os aumentos de espao e so s vale a pena quando o nmero de atributos
pequena at 10. rvores Bola foram desenvolvidos muito mais recentemente e
so uma
exemplo de uma estrutura mais geral, s vezes chamado de uma rvore
mtrica. sofisticao
algoritmos cados pode criar rvores mtricas que lidam com sucesso com
milhares
de dimenses.
Em vez de armazenar todas as instncias de formao, voc pode comprimi-
los em regies.
Uma tcnica muito simples, mencionado no final da Seo 4.1, apenas para
registro
o intervalo de valores observados nos dados de treinamento para cada atributo
e cate-
sangrenta. Dada uma instncia de teste, voc trabalha fora, que varia os
valores de atributo cair
para dentro e para escolher a categoria com o maior nmero de intervalos
corretos para que
instncia. Uma tcnica ligeiramente mais elaborada a construo de
intervalos para cada
atributo e usar o conjunto de treinamento para contar o nmero de vezes que
cada classe ocorre
para cada intervalo em cada atributo. Atributos numricos podem ser
discretizado em
intervalos, e intervalos de "" consistindo de um nico ponto pode ser utilizado
para nominal
Outros. Ento, dada uma instncia de teste, voc pode determinar que
intervalos ele reside
e classific-lo por meio do voto, um mtodo chamado voto intervalos
metragens. Estes
mtodos so muito aproximados, mas muito rpido, e pode ser til para an-
inicial
sis de grandes conjuntos de dados.
4.8 Clustering
aplicar tcnicas de agrupamento quando no existe uma classe de ser previsto,
mas em vez
quando os exemplos so para ser divididos em grupos naturais. Estes
agrupamentos pr
presumivelmente reflete algum mecanismo no trabalho no domnio do qual
instncias
so desenhados, um mecanismo que faz com que alguns casos de suportar
uma forte resem-
blance uns com os outros do que para os casos restantes. natu- Clustering
Rally requer diferentes tcnicas para o aprendizado de classificao e de
associao
mtodos que temos considerado at agora.
136
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 55
Como vimos na Seo 3.9, existem diferentes formas em que o resultado de
clus-
introduzi- pode ser expressa. Os grupos que so identificados podem ser
exclusivo para que
qualquer instncia pertence em apenas um grupo. Ou podem ser sobrepostos
de modo que um
exemplo, pode cair em vrios grupos. Ou podem ser probabilstica, atravs do
qual um
exemplo, pertence a cada grupo com uma determinada probabilidade. Ou
podem ser hier-
archical, de tal modo que existe uma diviso em bruto de casos em grupos no
topo
nvel, e cada um desses grupos refinado ainda mais, talvez todo o caminho
para
instncias individuais. Realmente, a escolha entre estas possibilidades devem
ser dic-
tated pela natureza dos mecanismos que so considerados subjacentes a
nomeada-
fenmeno de clustering ular. No entanto, porque estes mecanismos so
raramente
conhecida-a prpria existncia de clusters , afinal, algo que estamos tentando
para descobrir e tambm por razes pragmticas, a escolha geralmente
ditado pela
ferramentas de cluster que esto disponveis.
Vamos examinar um algoritmo que forma aglomerados em domnios
numricos, par-
instncias titioning em clusters disjuntos. Como o mtodo bsico de vizinho
mais prximo
da aprendizagem baseada exemplo, uma tcnica simples e direta que
tem sido usada por vrias dcadas. No Captulo 6 examinamos mais recente
agrupamento
mtodos que executam agrupamento incrementais e probabilstica.
agrupamento iterativo baseado na distncia
A tcnica de agrupamento clssico chamado de k-mdias. Primeiro, voc
especificar antecipadamente
quantos conjuntos esto sendo procurados: este o
parmetro k . Ento k pontos so
escolhidos aleatoriamente como centros de cluster. Todos os casos so
atribudos ao seu mais prximo
centro de agrupamento de acordo com a distncia euclidiana ordinria
mtrica. Em seguida, o cen-
Troid, ou dizer, dos casos em cada grupo calculado-este o "meio"
parte. Estes centroids so tidas como novos valores de centro por seus
respectivos clus-
Ters. Finalmente, todo o processo repetido com os novos centros do
conjunto. iteraes
o continua at que os mesmos pontos so atribudos a cada cluster no
consecutiva
rodadas, em que fase os centros dos grupos ter se estabilizado e continuar a
ser o
mesmo para sempre.
Este mtodo de agrupamento simples e eficaz. fcil de mostrar que choos-
ing centro do grupo para ser o centride minimiza o quadrado da distncia
total de
de cada um dos pontos do cluster ao seu centro. Uma vez que a iterao se
estabilizou,
cada ponto atribudo ao seu centro mais prximo conjunto, de modo que o
efeito global a min-
imize o quadrado da distncia total desde todos os pontos para os seus centros
de cluster. Mas o
mnimo um local de um; no h nenhuma garantia de que ele o mnimo
global.
Os aglomerados finais so bastante sensveis aos centros dos grupos
iniciais. completamente dife-
arranjos rentes pode surgir a partir de pequenas mudanas na escolha aleatria
inicial.
Na verdade, isso verdade de todas as tcnicas de agrupamento prticos:
quase sempre infea-
vel para encontrar aglomerados globalmente ideais. Para aumentar a chance
de encontrar um mundial
4,8
CLUSTERING
137

Pgina 56
pessoas mnimos muitas vezes correr o algoritmo vrias vezes com inicial
diferente
opes e escolher o melhor resultado final-aquele com o menor total de
quadrado
distncia.
fcil imaginar situaes em que k -means no consegue encontrar um bom
cluster-
Ing. Considere quatro instncias dispostos nos vrtices de um retngulo em
dois
espao dimensional. H dois conjuntos naturais, formadas pelo agrupamento
os dois vrtices em cada extremidade de um lado curto. Mas suponhamos que
os dois inicial
centros de fragmentao acontecer a cair aos pontos mdios
dos longos lados. Isto forma um
configurao estvel. Os dois grupos cada um contm as duas instncias em
cada
final de um longo lado no importa quo grande a diferena entre o
comprimento e
os lados curtos.
clculos de distncia mais rpidos
O k algoritmo de agrupamento -means geralmente requer vrias iteraes,
cada
envolvendo encontrar a distncia de k centros de cluster de cada instncia para
determinar
minar a sua cluster. H aproximaes simples que acelerar isso considervel
habilmente. Por exemplo, voc pode projetar o conjunto de dados e fazer
cortes ao longo dos eixos selecionados,
em vez de usar as divises hiperplano arbitrrias que esto implcitas choos-
ing centro mais prximo do conjunto. Mas isso, inevitavelmente, compromete
a qualidade da
resultando aglomerados.
Aqui est uma melhor maneira de acelerar as coisas. Encontrar o centro mais
prximo do cluster
no to diferente de encontrar vizinhos mais prximos na aprendizagem
baseada em instncias.
Podem os mesmos eficientes Solutions k D-rvores e esferas rvores-ser
usado? Sim! De fato
eles podem ser aplicados de uma forma ainda mais eficiente, porque em cada
iterao
k -means todos os pontos de dados so processados em conjunto, enquanto
que no exemplo base de
instncias de teste de aprendizagem so processados individualmente.
Em primeiro lugar, construir uma k rvore D-rvore ou a bola para todos os
pontos de dados, que permanecer
esttica durante todo o processo de agrupamento. Cada iterao k -means
produz
um conjunto de centros de cluster e todos os pontos de dados devem ser
examinados e atribudo a
o centro mais prximo. Uma forma de processamento dos pontos a descer da
rvore de
a raiz at chegar a uma folha e verificar cada ponto individual na folha de
encontrar
o seu centro mais prximo do cluster. Mas possvel que a regio
representada por uma maior
n interior inteiramente dentro do domnio de um nico centro cluster. Nisso
caso, todos os pontos de dados sob esse n pode ser processado em um golpe!
O objectivo do exerccio, apesar de tudo, o de encontrar novas posies dos
centros dos grupos
calculando o centride dos pontos que eles contm. O centride pode ser cal-
lada, mantendo uma soma vetorial dos pontos no cluster, e uma contagem
de quantas existem at agora. No final, basta dividir uma pela outra para
encontrar
o centride. Suponha-se que a cada n da rvore que armazenar a soma
vectorial
dos pontos dentro daquele n e uma contagem do nmero de pontos. Se o
conjunto
n se insere no mbito de um nico cluster, o funcionamento totaliza para esse
cluster
138
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 57
pode ser atualizada imediatamente. Se no, olhe dentro do n procedendo
recorrncia
sivamente para baixo da rvore.
A Figura 4.16 mostra as mesmas instncias e rvore da bola como Figura 4.14,
mas com
dois centros de cluster marcado como estrelas negras. Porque todos os casos
so atribudos aos
o centro mais prximo, o espao dividido em dois por a linha grossa mostra
na Figura
4.16 (a). Comece na raiz da rvore na Figura 4.16 (b), com os valores iniciais
para a
soma vetorial e conta para cada grupo; todos os valores iniciais so
zero. proceda recorrncia
sivamente para baixo da rvore. Quando um n alcanado, todos os pontos
dentro que se encontram no conjunto
1, de modo cluster 1 da soma ea contagem pode ser atualizado com a soma e
contar para o n
A, e precisamos descer mais longe. Recursing volta para o n B, a bola
atravessa
a fronteira entre os clusters, de modo que seus pontos devem ser examinados
individualmente.
Quando o n C atingido, ele cai inteiramente dentro cluster 2; novamente,
podemos atualizar
cluster 2 imediatamente e necessidade descer mais longe. A rvore s
examinado
para baixo para a fronteira marcada pela linha a tracejado na Figura 4.16 (b), e
a vanta-
tagem que os ns abaixo no precisam de ser abertos, pelo menos, no nesta
espe-
iterao lar de k -means. Da prxima vez, os centros de cluster ter mudado e
coisas podem ser diferentes.
Discusso
Muitas variantes do bsico K procedimento -means tm sido
desenvolvidos. Alguns
produzir um agrupamento hierrquica por aplicao do algoritmo com k = 2
para a
conjunto de dados em geral e, em seguida, repetindo, de forma recursiva,
dentro de cada cluster.
Como voc escolhe k? Muitas vezes, nada se sabe sobre o nmero provvel de
clusters, e todo o ponto de agrupamento descobrir. Uma maneira tentar
dife-
rentes valores e escolher o melhor. Para fazer isso voc precisa aprender como
avaliar
o sucesso da aprendizagem de mquina, que o que Captulo 5 est em
causa. Ns voltamos
para agrupamento na Seo 6.6.
4.9 Leitura
O esquema 1R foi proposto e amplamente investigadas por Holte (1993). isto
Nunca foi realmente concebido como um "mtodo" aprendizagem de
mquina: o ponto era mais
para demonstrar que as estruturas muito simples subjacentes a maior parte da
prtica
conjuntos de dados a ser utilizado para avaliar os mtodos de aprendizagem
automtica no momento e que
colocando mtodos de alta potncia inferncia indutiva para trabalhar em
conjuntos de dados simples
era como usar uma marreta para quebrar uma noz. Por que lidar com uma
deci- complexo
rvore de Sion, quando uma regra simples vai fazer? O mtodo que gera uma
regra simples
por classe o resultado do trabalho de Lcio de Souza Coelho do Brasil e Len
Trigg
da Nova Zelndia, e tem sido apelidado hyperpipes. Um algoritmo muito
simples,
ele tem a vantagem de ser extremamente rpida e bastante vivel mesmo
com um
enorme nmero de atributos.
4,9
LEITURA ADICIONAL
139

Pgina 58
(uma)
16
6
10
4
6
2
4
2
2
4
2
2
2
2
2
UMA
B
C
(B)
Figura 4.16 Uma rvore de bola: (a) dois centros de fragmentao e sua linha
divisria e (b) o cor-
respondendo rvore.

Pgina 59
Bayes foi um filsofo Ingls do sculo XVIII, que exps a sua teoria
da probabilidade em "Um ensaio para resolver um problema na doutrina da
chances ", publicado na Philosophical Transactions, da Royal Society of
Londres (Bayes 1763); a regra que leva seu nome tem sido a pedra angular
da teoria da probabilidade desde ento. A dificuldade com a aplicao de
Bayes de
regra, na prtica, a atribuio de probabilidades anteriores. Alguns
estatsticos,
apelidado Bayesians, tome a regra como um evangelho e insistem que as
pessoas fazem srio
tenta estimar probabilidades anteriores com preciso, embora essas
estimativas so
muitas vezes subjetiva. Outros, no-Bayesians, preferem o tipo de anlise
prvia livre
que normalmente gera intervalos de confiana estatstica, que se reunir no
prximo captulo. Com um conjunto de dados particular, probabilidades
anteriores so geralmente razovel
habilmente fcil de estimar, que incentiva uma abordagem bayesiana para a
aprendizagem. o
suposio de independncia feita pelo mtodo Nave Bayes um grande
tropeo
bloco, no entanto, e algumas tentativas esto sendo feitas para aplicar a anlise
Bayesiana
sem assumir independncia. Os modelos resultantes so chamados Bayesiana
rede
funciona (Heckerman et al., 1995), e descrev-los na Seo 6.7.
tcnicas de Bayesian tinha sido utilizado no campo de reconhecimento de
padres (Duda
e Hart 1973) por 20 anos antes da sua adopo pelo aprendizado de mquina
pesquisadores (por exemplo, ver Langley et al., 1992) e obrigadas a trabalhar
em conjuntos de dados com
atributos redundantes (Langley e Sage 1994) e atributos numricos (John e
Langley 1995). A etiqueta Nave Bayes lamentvel, porque difcil de usar
este mtodo sem se sentir simpleminded. No entanto, no h nada nave
sobre seu uso em circunstncias apropriadas. O modelo Nave Bayes
multinomial,
que particularmente apropriado para a classificao de texto, foi investigado
pela
McCallum e Nigam (1998).
O clssico papel na induo de rvore de deciso por Quinlan (1986), que
descreve o procedimento bsico ID3 desenvolvido neste captulo. Uma
Descrio do mtodo, incluindo as melhorias que so incorporados no
C4.5, aparece em um livro clssico por Quinlan (1993), o que d uma listagem
do
sistema C4.5 completo, escrito na linguagem de programao C. PRISM foi
desenvolvido pela Cendrowska (1987), que tambm introduziu o conjunto de
dados de lente de contato.
As regras de associao so introduzidos e descritos na literatura banco de
dados
em vez de na literatura aprendizagem automtica. Aqui a nfase muito mais
sobre como lidar com enormes quantidades de dados em vez de formas
sensveis de teste
e avaliao de algoritmos de conjuntos de dados limitadas. O algoritmo
apresentado neste
captulo o mtodo Apriori desenvolvido por Agrawal e seus associados
(Agrawal
Et ai. 1993a, 1993b; Agrawal e Srikant 1994). Uma pesquisa de associao
regra
minerao aparece num artigo por Chen et ai. (1996).
A regresso linear descrita na maioria dos textos estatsticos padro, e um
nomeada-
cularmente tratamento abrangente pode ser encontrada em um livro de
Lawson e Hanson
(1995). O uso de modelos lineares de classificao desfrutado de uma grande
quantidade de pop-
ularity na dcada de 1960; Nilsson (1965) fornece uma excelente
referncia. ele define
4,9
LEITURA ADICIONAL
141

Pgina 60
uma unidade de limiar linear como um teste de binrio se uma funo linear
ou maior
menos do que zero e uma mquina linear como um conjunto de funes
lineares, uma para cada classe,
cujo valor para um exemplo desconhecido comparado ea maior escolhida
como a sua
classe prevista. No passado distante, perceptrons caiu em desgraa em
publicao
de um livro influente que mostraram que eles tinham limitaes fundamentais
(Minsky
e Papert 1969); No entanto, os sistemas mais complexos de funes lineares
tm
desfrutado de um ressurgimento nos ltimos anos sob a forma de redes
neurais, descrita
na Seo 6.3. Os algoritmos winnow foram introduzidas por Nick Littlestone
em
sua tese de doutoramento em 1989 (Littlestone 1988, 1989). classificadores
lineares multirrespostas
ter encontrado um novo aplicativo recentemente para uma operao
chamada de empilhamento que com-
bina a sada de outros algoritmos de aprendizagem, descrito no Captulo 7 (ver
Wolpert 1992). Friedman (1996) descreve a tcnica de classificao pairwise
o, Frnkranz (2002) analisa-lo ainda mais, e Hastie e Tibshirani (1998)
estend-lo para estimar as probabilidades usando acoplamento pares.
Fix e Hodges (1951) realizou a primeira anlise do vizinho mais prximo
mtodo, e Johns (1961) foi pioneira a sua utilizao em problemas de
classificao. Cobrir
e Hart (1967) obteve o resultado terico clssico que, para grande o suficiente
conjuntos de dados, a sua probabilidade de erro nunca excede o dobro do
mnimo terico;
Devroye et ai. (1996) mostrou que k -nearest vizinho assintoticamente ideal
para grandes k e n com k / n 0. mtodos vizinho mais prximo ganhou
popularidade na
mquina de aprendizagem atravs do trabalho de Aha (1992), que mostrou que
exemplo-
aprendizagem baseada pode ser combinado com poda exemplar barulhento e
atributo
ponderao e os mtodos que resultam um bom desempenho em comparao
com
outros mtodos de aprendizagem. Tomamos isso de novo no Captulo 6.
O K estrutura de dados D-rvore foi desenvolvido por Friedman et
ai. (1977). Nosso
A inscrio segue de perto uma explicao dada por Andrew Moore em seu
PhD
Tese (Moore 1991), que, juntamente com Omohundro (1987), foi pioneira a
sua utilizao em
aprendizado de mquina. Moore (2000) descreve formas sofisticadas de
construo
rvores de esferas que tm bom desempenho, mesmo com milhares de
atributos. Ns levamos a nossa bola
exemplo a rvore das notas de aula por Alexander Gray, da Carnegie-Mellon
Uni-
versidade. O mtodo intervalos recurso de votao mencionado
na discusso sub-
seo no final da Seo 4.7 descrito por Demiroz e Guvenir (1997).
O k algoritmo -means uma tcnica clssica, e muitas descries e
variaes esto disponveis (por exemplo, ver Hartingan 1975). O uso
inteligente de k D-rvores para
acelerar k -means clustering, que escolhemos para ilustrar usando rvores de
esferas
em vez disso, foi iniciada por Moore e Pelleg (2000) em seu X -means
agrupamento
algoritmo. Que o algoritmo tambm contm algumas outras inovaes,
descritos no
Seo 6.6.
142
CAPTULO 4 Algoritmos: os mtodos bsicos
|

Pgina 61
A avaliao a chave para fazer um progresso real em minerao de
dados. H muitos
formas de estrutura de dados inferir: ns encontramos muitos j e
vai ver refinamentos, e novos mtodos, no prximo captulo. Mas para
determinar
mine quais usar em um problema particular que precisamos formas
sistemticas para
avaliar como os diferentes mtodos de trabalho e comparar um com o
outro. ava-
liao no to simples como pode parecer primeira vista.
Qual o problema? Ns temos o conjunto de treinamento; certamente
podemos apenas olhar como
bem diferentes mtodos de fazer sobre isso. Bem, no: como veremos muito
em breve, per-
desempenho no conjunto de treinamento definitivamente no um bom
indicador de desempenho
em um conjunto de teste independente. Precisamos de formas de prever
limites de desempenho em
praticar, com base em experincias com o que podem ser obtidos dados.
Quando uma vasta oferta de dados est disponvel, isso no problema: basta
fazer um modelo
com base em um grande conjunto de treinamento, e experiment-lo em outro
grande conjunto de teste. mas, embora
minerao de dados, por vezes, envolve "big data" -particularmente em
marketing, vendas,
e aplicaes de apoio ao cliente que frequentemente o caso que os dados,
dados de qualidade,
escassa. As manchas de leo mencionado no Captulo 1 (pginas 23-24) teve
de ser detectado
captulo
5
Credibilidade:
Avaliar o que foi aprendido
143

Pgina 62
e marcado processo de antes manualmente um hbil e trabalho intensivo
sendo
usado como dados de treinamento. Mesmo na aplicao do carto de crdito
(pginas 22-23), h
acabou por ser apenas 1000 exemplos de treinamento do tipo adequado. a
eleio
fornecer dados Tricity (pginas 24-25) voltou 15 anos, 5000 dias, mas apenas
15
Dias de Natal e de Ao de Graas, e apenas 4 29s fevereiro e presidenciais
eleies. A aplicao diagnstico eletromecnica (pginas 25-26) foi capaz
para capitalizar sobre 20 anos de experincia gravada, mas isso rendeu apenas
300 utilizvel
Exemplos de falhas. aplicaes de marketing e vendas (pginas 26-28)
certamente
envolvam dados grandes, mas muitos outros no: dados de treinamento com
freqncia se baseia em espe-
conhecimentos e humana cialista que est sempre em falta.
A questo do desempenho previso com base em dados limitada uma inter-
esting, e ainda controverso, um. Encontraremos muitas tcnicas diferentes,
dos quais um repetido validao cruzada-est ganhando ascenso e proba-
Bly o mtodo de avaliao de escolha em situaes de dados limitados mais
prticos.
Comparando o desempenho de diferentes mtodos de aprendizado de mquina
em um determinado
problema outro assunto que no to fcil quanto parece: ter certeza de que
lhos
diferenas ent no so causados por efeitos casuais, so necessrios testes
estatsticos. assim
agora temos assumido tacitamente que o que est sendo previsto a
capacidade de classificar
instncias de teste com preciso; Contudo, algumas situaes envolvem a
previso da classe
probabilidades do que as prprias classes, e outros envolvem prevendo
numrico, em vez de valores nominais. Diferentes mtodos so necessrios
em cada caso.
Ento, olhamos para a questo do custo. Na maioria das situaes de
minerao de dados prtico
o custo de um erro de classificao errada depende do tipo de erro -se,
por exemplo, um exemplo positivo foi erroneamente classificada como
negativa ou vice
Versa. Ao fazer a minerao de dados, e avaliar o seu desempenho, muitas
vezes essen-
cial para levar esses custos em considerao. Felizmente, existem tcnicas
simples para
fazer a maioria dos sistemas de aprendizagem custar sensveis sem a braos
com os internos
do algoritmo. Finalmente, toda a noo de avaliao tem filo- fascinante
conexes filosfica. Para 2000 anos filsofos tm debatido a questo da
como avaliar as teorias cientficas e as questes so postos em destaque
por minerao de dados, porque o que extrado essencialmente uma
"teoria" dos dados.
5.1 Treinamento e testes
Para problemas de classificao, natural para medir o desempenho de um
classificador
termos da taxa de erro. O classificador prediz a classe de cada exemplo: se for
correto, que contado como um sucesso; se no, um erro. A taxa de erro
apenas o
proporo de erros cometidos ao longo de um conjunto de casos, e mede a
o desempenho global do classificador.
Claro, o que nos interessa o provvel desempenho futuro na nova
de dados, no o passado o desempenho em dados antigos. Ns j sabemos as
classificaes
144
CAPTULO 5 Credibilidade: AVALIAO QUE EST foi aprendido
|
Pgina 63
de cada instncia no conjunto de treinamento, o que, afinal, por isso que
podemos us-lo para treinamento
Ing. Ns geralmente no so interessados em aprender sobre esses
classifications-
embora possamos ser, se o nosso objectivo a limpeza de dados ao invs de
previso.
Ento a questo , a taxa de erro em dados antigos provvel que seja um
bom indicador de
a taxa de erro em novos dados? A resposta um sonoro no-no, se os dados
de idade
foi usado durante o processo de aprendizagem para treinar o classificador.
Este um fato surpreendente, e um muito importante. taxa de erro na
formao
ing conjunto no provvel que seja um bom indicador de desempenho
futuro. Por qu? Porque
o classificador foi aprendido com os mesmos dados de treinamento, qualquer
estimativa
de desempenho com base em que os dados sero otimista, e pode ser
irremediavelmente
otimista.
Ns j vimos um exemplo disso no conjunto de dados relaes de
trabalho. Figura
1.3 (b) foi gerado diretamente a partir dos dados de treinamento, e na Figura
1.3 (a) foi
obtido a partir dele por um processo de poda. O primeiro provvel que seja
mais preciso
taxa sobre os dados que foram usados para treinar o classificador mas
provavelmente ir executar
menos bem em dados de testes independentes, pois overfitted para os dados
de treino.
A primeira rvore vai ficar bem de acordo com a taxa de erro nos dados de
treinamento,
melhor do que a segunda rvore. Mas isso no reflectir a forma como eles iro
realizar em
dados de teste independentes.
A taxa de erro nos dados de treino chamado o erro resubstitution, porque
calculado pela resubstituting as instncias de formao em um classificador
que era
construdos a partir deles. Embora no seja um previsor fivel da verdadeira
erro
taxa dos novos dados, , no entanto, muitas vezes til saber.
Para prever o desempenho de um classificador em novos dados, preciso
avaliar a sua
taxa de erro em um conjunto de dados que no desempenhou nenhum papel na
formao do classificador. este
conjunto de dados independente chamado o conjunto de teste. Ns
assumimos que tanto os dados de treinamento
e os dados de ensaio so amostras representativas do problema subjacente.
Em alguns casos, os dados de ensaio pode ser de natureza distinta a partir dos
dados de formao.
Considere, por exemplo, o problema do risco de crdito da Seo
1.3. Suponha que o
banco tinha dados de treinamento de agncias em Nova York e na Flrida e
queria
saber o quo bem um classificador treinado em um desses conjuntos de dados
iria realizar em
uma nova filial em Nebraska. Ele provavelmente deve usar os dados da
Flrida como dados de teste
para avaliar o classificador New York treinados e os dados de Nova Iorque
para avaliar
o classificador Florida treinado. Se os conjuntos de dados foram reunidos
antes do treino,
desempenho nos dados de teste provavelmente no ser um bom indicador da
per-
desempenho em dados futuros em um estado completamente diferente.
importante que os dados de teste no foi utilizado em qualquer forma para
criar o classi-
sifier. Por exemplo, alguns mtodos de aprendizagem envolvem duas etapas,
uma para chegar
com uma estrutura de base e o segundo para optimizar os parmetros
envolvidos nesse
estrutura, e conjuntos separados de dados pode ser necessria em duas
fases. Ou voc
pode experimentar vrios sistemas de aprendizagem sobre os dados de
treinamento e depois avaliar
-los-on um conjunto de dados frescos, claro, para ver qual delas funciona
melhor. Mas nada
5.1
Treinamento e teste
145

Pgina 64
estes dados podem ser utilizados para determinar uma estimativa da taxa de
erro futuro. Em tal
situaes, as pessoas muitas vezes falar sobre trs conjuntos de dados: os de
formao de dados, a validao
o de dados, e os testes de dados. Os dados de treino utilizada por um ou
mais aprendizagem
mtodos para chegar a classificadores. A validao de dados usado para
otimizar
parmetros dessas classificadores, ou para seleccionar um em particular. Em
seguida, os dados de teste
usado para calcular a taxa de erro da final, optimizada, mtodo. Cada um
dos
trs conjuntos deve ser escolhido de forma independente: o conjunto de
validao deve ser diferente
a partir do conjunto de treinamento para obter bom desempenho na otimizao
ou seleo
estgio o, e o conjunto de teste deve ser diferente de ambos para obter uma
estimativa fivel
companheiro da taxa de erro verdadeiro.
Pode ser que uma vez que a taxa de erro tenha sido determinada, os dados de
teste
empacotado de volta para os dados de formao para produzir um novo
classificador para utilizao real.
No h nada de errado com isso: apenas uma maneira de maximizar a
quantidade de
dados utilizados para gerar o classificador que ir, na verdade, ser empregues
na prtica.
O que importante que as taxas de erro no so cotados com base em
qualquer um desses dados.
Alm disso, uma vez que a validao de dados tem sido usada-talvez para
determinar o melhor tipo
do esquema de aprendizagem para usar, ento ele pode ser empacotado volta
para os dados de treinamento
reconverter que esquema de aprendizagem, maximizando a utilizao dos
dados.
Se grandes quantidades de dados est disponvel, no h problema: vamos dar
uma grande amostra e
us-lo para a formao; em seguida, outro, grande amostra independente dos
dados diferente e
us-lo para o teste. Desde que ambas as amostras so representativas, a taxa
de erro
no conjunto de teste vai dar uma verdadeira indicao de desempenho
futuro. Geralmente, o
maior a amostra a formao melhor do classificador, embora os retornos para
comear
diminuir uma vez que um certo volume de dados de treino excedido. E,
quanto maior o
amostra de teste, mais precisa ser a estimativa de erro. A preciso da
estimativa de erro
companheiro pode ser quantificado estatisticamente, como veremos na
prxima seo.
O verdadeiro problema ocorre quando no existe uma vasta oferta de dados
disponveis. Dentro
muitas situaes os dados de treinamento devem ser classificados
manualmente e assim deve o
Os dados do teste, claro, para obter estimativas de erro. Isto limita a
quantidade de dados
que pode ser usado para o treinamento, validao e teste, eo problema se torna
como fazer a maior parte de um conjunto de dados limitado. A partir deste
conjunto de dados, uma certa quantidade
mantido sobre para testes-isso chamado de validao procedimento e o
remanescente
der usado para treinamento (e, se necessrio, parte do que reservado para
validao).
H aqui um dilema: para encontrar um bom classificador, ns queremos usar o
mximo de
de dados possvel para a formao; para obter uma boa estimativa de erro,
queremos usar como
muito do que possvel para o teste. Seces 5.3 e 5.4 avaliao amplamente
utilizado
mtodos para lidar com esse dilema.
5.2 desempenho Prevendo
Suponha que medimos o erro de um classificador em um conjunto de teste e
obter um certo
de erro numrico taxa de, digamos 25%. Na verdade, nesta seo referem-se a
taxa de sucesso
146
CAPTULO 5 Credibilidade: AVALIAO QUE EST foi aprendido
|

También podría gustarte