Интеллектуальный анализ данных - индукция дерева решений
Дерево решений - это структура, которая включает корневой узел, ветви и листовые узлы. Каждый внутренний узел обозначает проверку атрибута, каждая ветвь обозначает результат проверки, а каждый конечный узел содержит метку класса. Самый верхний узел в дереве - это корневой узел.
Следующее дерево решений предназначено для концепции buy_computer, которая указывает, собирается ли клиент компании покупать компьютер или нет. Каждый внутренний узел представляет собой проверку атрибута. Каждый листовой узел представляет собой класс.
Преимущества наличия дерева решений следующие:
- Это не требует знания предметной области.
- Это легко понять.
- Этапы изучения и классификации дерева решений просты и быстры.
Алгоритм индукции дерева решений
Исследователь машин по имени Дж. Росс Куинлан в 1980 году разработал алгоритм дерева решений, известный как ID3 (Iterative Dichotomiser). Позже он представил C4.5, который был преемником ID3. ID3 и C4.5 используют жадный подход. В этом алгоритме нет возврата; деревья строятся по принципу «разделяй и властвуй» сверху вниз.
Generating a decision tree form training tuples of data partition D
Algorithm : Generate_decision_tree
Input:
Data partition, D, which is a set of training tuples
and their associated class labels.
attribute_list, the set of candidate attributes.
Attribute selection method, a procedure to determine the
splitting criterion that best partitions that the data
tuples into individual classes. This criterion includes a
splitting_attribute and either a splitting point or splitting subset.
Output:
A Decision Tree
Method
create a node N;
if tuples in D are all of the same class, C then
return N as leaf node labeled with class C;
if attribute_list is empty then
return N as leaf node with labeled
with majority class in D;|| majority voting
apply attribute_selection_method(D, attribute_list)
to find the best splitting_criterion;
label node N with splitting_criterion;
if splitting_attribute is discrete-valued and
multiway splits allowed then // no restricted to binary trees
attribute_list = splitting attribute; // remove splitting attribute
for each outcome j of splitting criterion
// partition the tuples and grow subtrees for each partition
let Dj be the set of data tuples in D satisfying outcome j; // a partition
if Dj is empty then
attach a leaf labeled with the majority
class in D to node N;
else
attach the node returned by Generate
decision tree(Dj, attribute list) to node N;
end for
return N;
Обрезка деревьев
Обрезка дерева выполняется для удаления аномалий в обучающих данных из-за шума или выбросов. Обрезанные деревья меньше и менее сложны.
Подходы к обрезке деревьев
Есть два подхода к обрезке дерева:
Pre-pruning - Дерево обрезается путем преждевременного прекращения его строительства.
Post-pruning - Этот подход удаляет поддерево из полностью выросшего дерева.
Сложность затрат
Сложность стоимости измеряется следующими двумя параметрами:
- Количество листьев на дереве и
- Частота ошибок дерева.