11.2. Системы классификации

Признак классификации свойство или характеристика объекта классификации, по которому проводится классификация.

Метод классификации – совокупность правил и результат распределения заданного множества объектов на подмножества – классификационные группировки в соответствии с признаками сходства или различия. В качестве объектов классификации выступают различные номенклатуры – материалы, товары, подразделения и т.п. Эти номенклатуры требуют описания как их свойств, так и идентификации отдельных представителей.

Различают два метода классификации:

Иерархический метод устанавливает отношение подчинения между различными группировками. Последовательно детализируются качественные свойства объектов множеств: класс, подкласс, группа, подгруппа, вид и т.д. Ступень классификации – этап классификации, результатом которого является совокупность классификационных группировок.

Классифицируемое множество объектов по некоторому основанию деления – отдельному признаку классификации или их совокупности делится на подмножества.

Рисунок 11.1. Иерархический метод

Иерархический метод

На основании признака классификации (s1) исходное множество М разбито на подмножества: {1}, {2}, … {N}. Для подмножества {1} может быть выбран другой классификационный признак – (s2). В результате подмножество {1} разбивается на совокупность подмножеств {11}, {1m}. Для подмножества {2} выбран классификационный признак – (s3), подмножество {2}разбивается на совокупность подмножеств {21}, {22}, … {2k}и т.д.

При этом выполняются следующие условия:

Рисунок 11.2. Условия иерархического метода

Условия иерархического метода

Классификационные признаки для иерархического метода применяются последовательно в каждой иерархической ветви, при этом они могут отличаться друг от друга. Структура иерархической системы классификации жесткая и не подлежит изменению.

Основные достоинства иерархической системы классификации:

Рисунок 11.3. Число классификационных группировок

Число классификационных группировок

Например, число уровней иерархии – 3, для каждого уровня максимальное количество значений признаков классификации – 10, тогда, общее число классификационных группировок – 1000 (103).

Недостатками иерархической системы классификации являются:

1. Невозможность внесения изменений в классификатор (добавление или удаление классификационных признаков, изменение последовательности их применения) после его создания.

2. Трудоемкий поиск информации по произвольному сочетанию признаков классификации.

Фасетный метод классификации предполагает, что исходное множество объектов разбивается на подмножества группировок по независимым между собой признакам классификации – фасетам).

Фасет – набор значений отдельного признака классификации, все фасеты взаимно независимы.

Каждый объект одновременно имеет классификационные признаки из различных фасетов, а классификационные группировки создаются динамически путем задания фасетной формулы – последовательности фасет и значений классификационных признаков выбранных фасетов.

Рисунок 11.4. Фасетная формула

Фасетная формула

Например, группировка 1 создана на основании значений фасета Ф1, группировка 2 – на основании значений фасетов Ф3 и Фn и т.д.

Если общее число фасетов N и для фасета имеется Kn значений признаков, то общая емкость фасетной системы классификации соответствует величине H:

Рисунок 11.5. Емкость фасетной системы

Емкость фасетной системы

Таким образом, имеет место информационная избыточность группировок, в ряде случаев не возможных по смыслу. Этот метод классификации наиболее эффективен для машинной обработки данных, при использовании технологии БД и языков запросов высокого уровня.