Árvores de decisão

• Aprendizado supervisionado;
• Árvores de decisão vão permitir que operemos diretamente com atributos nominais, sem necessidade de uma transformação;
Os nós da árvore têm todos a mesma estrutura. Os nós são os atributos, e seus ramos se dividem nos valores possíveis que esses atributos assumem. No caso de valores numéricos, contínuos, é normalmente empregada uma discretização (binning). Se todas as instâncias que possuem determinado valor do atributo são da mesma classe, esse é um ramo que leva a um nó folha ou terminal, constituído dos valores do atributo classe. O processo de partição da árvore deve seguir até que tenhamos todos os dados classificados, isto é, até que tenhamos todos nós terminais.

Entropia
Os algoritmos de árvore de decisão buscam particionamentos que maximizem a decisão, tornando as árvores e os caminhos que temos que percorrer menores. Eles buscam a cada nível da árvore (partição) uma maior informação para “pureza” das partições dos dados em termos de sua classe. Os principais critérios para seleção do nó raiz e os nós seguintes e os seus respectivos algoritmos encontram:
Ganho de informação = ID3 algorithm (Claude Shannon Entropy)
Gain ratio = C4.5 algorithm
Gini index = CART algorithm
Existem particionamentos que alteram pouco a distribuição dos dados entre as classes e trazem, portanto, pouca informação adicional para a classificação, e outros que proporcionam informação maior para a decisão. O método mais comum baseia-se na entropia (Shannon), que é uma medida de quantidade de informação. A entropia de um atributo S é dada na somatória abaixo em que p é a probabilidade de cada um dos possíveis valores de S.


A entropia é empregada para o cálculo do ganho da informação (information gain) de cada atributo com relação à classificação e é o método empregado pelo algoritmo conhecido como ID3.

O ganho de informação, com base na entropia, é dado por:

O ganho de informação de um atributo S é medido pela diferença da entropia do atributo da classe final (T=Target) e da entropia ponderada de T com relação a cada valor de S.
Entropia “ponderada”:

Assim, a entropia ponderada, 0.693, E(PlayGolf | Outlook), é dada por:

E o ganho de informação de outlook pode então ser finalmente calculado como:

Fazendo o cálculo para os demais atributos, você notará que outlook é o atributo com maior ganho de informação e, portanto, deve ser escolhido como o nó raiz da árvore para o primeiro nível de particionamento dos dados. A poda, eliminação de alguns nós ou níveis, é frequentemente usada para aumentar a generalidade do modelo e reduzir o sobreajuste.
Random forests: médias de diversas árvores de decisão concorrentes. Não confunda essas partições com a partição dos nodes da árvore de decisão; essa é uma divisão pura e simples de conjuntos de dados que terão seus treinamentos em separado.

Naive Bayes
O teorema de Bayes fornece uma maneira de calcular a probabilidade posterior, P (A | B), isto é, a probabilidade de A sabendo-se que B é verdadeiro, a partir de P (A), P (B) e P (B | A).

O classificador naive bayes assume que o efeito do valor de um preditor é independente dos valores de outros preditores. Essa suposição é chamada de independência condicional de classe.
• P (A | B) é a probabilidade posterior do preditor (atributo) da classe (alvo);
• P (A) é a probabilidade anterior de classe;
• P (B | A) é a probabilidade de que a probabilidade da classe preditora seja dada;
• P (B) é a probabilidade anterior de preditor.
Algumas considerações sobre Naive-Bayes
O problema de freqüência zero: Para evitar esse problema adicione 1 à contagem para cada combinação de classe de valor de atributo (estimador de laplace).
Preditores numéricos: As variáveis numéricas precisam ser transformadas em variáveis categóricas (binning) antes de empregar as tabelas de freqüência.
Modelo gerativo: o modelo naive bayes pode classificar uma instância com dados completos como sunny, cool, high, strong, mas pode também classificar uma instância apenas com informação parcial.
Independência condicional de classe: Outros modelos também são baseados no teorema de Bayes, sem assumir essa independência. Nesse caso podemos ter inúmeros modelos conforme as diferentes dependências são assumidas. Esses modelos dão lugar às redes baysianas e, mais modernamente, aos chamados probabilistic graphical models. No modelo naive bayes todas as variáveis encontram-se no mesmo nível e não se relacionam.

É possível obter um resultado bastante melhor discretizando as variáveis numéricas. Lembre-se: para variáveis numéricas a função naiveBayes assume uma distribuição normal, o que muitas vezes não é o caso, e se você verificar a distribuição das variáveis no nosso problema verá que elas não têm uma distribuição normal.
Você pode então empregar os comandos cut( ) ou hist( ) para discretizar (binning) as variáveis numéricas e buscar melhor resultado do modelo.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.