Структура бази знань для вибору алгоритму кластеризації даних

Title Структура бази знань для вибору алгоритму кластеризації даних
Структура база знаний для выбора алгоритма кластеризации данных
Structure of the knowledge base for choosing the data clustering algorithm
Creator В.П. Бурдаєв
В.П. Б урдаев
V. Burdaev
Subject Кібернетика та системний аналіз
УДК 004.318
кластерний аналіз, база знань, експертна система
кластерный анализ, база знаний, экспертная система
cluster analysis, knowledge base, expert system
Description У статті обґрунтована актуальність завдання вибору алгоритму кластеризації об'єктів, на основі знань експертів. Проблема кластеризації полягає в тому, що для кожного конкретного типу даних, структури розташування об'єктів в просторі ознак треба або правильно підібрати відомий алгоритм, або його адаптувати або розробити новий. Вивчається математична модель кластерного аналізу. Адаптовано алгоритм динамічних згущень для розмитої класифікації різнорідних даних. Викладається стратегія проведення кластеризації в системі "КАРКАС". Розглянуто приклади правил і фреймів бази знань для вибору алгоритму кластерного аналізу.
В статье обоснована актуальность задачи выбора алгоритма кластеризации объектов на основе знаний экспертов. Проблема кластеризации состоит в том, что для каждого конкретного типа данных, структуры расположения объектов в пространстве признаков надо или правильно подобрать известный алгоритм, или его адаптировать или разработать новый. Изучается математическая модель кластерного анализа. Адаптирован метод динамических сгущенний для размытой классификации разнородных данных. Излагается стратегия проведения кластеризации в системе "КАРКАС". Рассмотрены примеры правил и фреймов базы знаний для выбора алгоритма кластерного анализа.
The urgency of the classification problem without learning (clustering) for multidimensional objects of different nature is considered in the article. In clustering algorithms, the most important and least formalized is the definition of the concept of homogeneity or a measure of the closeness of objects, clusters and the quality of the partitioning of objects into groups (the objectivity of the groups obtained), which primarily determines the final result of the classification. All this indicates that the implementation of such algorithms in the form of application programs in batch mode is inefficient. Therefore, for an optimal heuristic solution of clustering tasks, the researcher must actively use the knowledge of experts on cluster analysis. The choice of this or that measure of the distance between clusters depends on the geometric figures that form objects in the space of characteristics. The application of the "nearest neighbor" distance has good clustering results when objects in the feature space form a chain. The distance of the "distant neighbor" is used when objects form ball clouds. In the case where objects form ellipsoids, it is recommended to use the distances between their centers of gravity. The problem of clustering is that for each particular type of data, the structure of the location of objects in the space of objects, you either need to choose the right algorithm correctly, either adapt it, or develop a new one. To solve this problem, experts' knowledge is widely used. The algorithm of the method of dynamic condensations for clustering heterogeneous data is proposed and adapted. Results are obtained for creating a knowledge base on cluster analysis. A knowledge base was built for the selection of algorithms: "K-intra-group means", "ISODATA", hierarchical and fuzzy clustering for different types of attribute s. Examples of rules and frames that are used by the hierarchical functional system for making a decision on the choice of the clustering algorithm in the "KARKAS" system are given. To assess and compare the quality of the partitioning into clusters, different splitting quality functionals are used: "average intra-cluster scattering", "measure of the concentration of objects corresponding to the partitioning" and their combination. The results of clustering are presented: a table of distances between the centers of clusters, a table of variances to obtain an idea of the relative arrangement of images within the cluster.The knowledge base allows the expert obtain additional information about the number, shape and compactness of clusters, the number of cluster centers and their coordinates, the distance between clusters and the dimension of "anomalous" clusters.
Publisher Харківський національний університет Повітряних Сил ім. І. Кожедуба
Харьковский национальный университет Воздушных Сил им. И. Кожедуба
Kharkiv national Air Force University named after I. Kozhedub
Date 2018
Identifier http://www.hups.mil.gov.ua/periodic-app/article/18717
Source Збірник наукових праць Харківського національного університету Повітряних Сил. — 2018. — № 2(56). 82-88
Сборник научных трудов Харьковского национального университета Воздушных Сил. — 2018. — № 2(56). 82-88
Scientific Works of Kharkiv National Air Force University. — 2018. — № 2(56). 82-88
Relation http://www.hups.mil.gov.ua/periodic-app/article/18717/zhups_2018_2_13.pdf