Методи і алгоритми неієрархічної кластеризації для задач інтелектуального аналізу даних
Електронний науковий архів Науково-технічної бібліотеки Національного університету "Львівська політехніка"
Переглянути архів ІнформаціяПоле | Співвідношення | |
Title |
Методи і алгоритми неієрархічної кластеризації для задач інтелектуального аналізу даних
Методы и алгоритмы неиерархической кластеризации для задач интеллектуального анализа данных Research and development of methods and algorithms for non-hierarchical clustering for the intellectual tasks of data analysis |
|
Creator |
Файсал, М.Е. Cардієх
|
|
Subject |
information technology
information model cluster analysis the optimal clustering the search for cluster centers the threshold magnitude algorithm the algorithm k-means информационная технология информационная модель кластерный анализ оптимальная кластеризация поиск центров кластеров алгоритм пороговой величины алгоритм k-средних інформаційна технологія інформаційна модель кластерний аналіз оптимальна кластеризація пошук центрів кластерів порогової величини алгоритм k-середніх |
|
Description |
This thesis research addressed the problem of developing methods and algorithms for the optimal non-hierarchical clustering for information models of arbitrary physical nature. First developed a method and an adaptive algorithm based on this for the adaptive search the number of cluster centers and their position as well as the calculated dependence to determine optimal initial parameters of the algorithm. Has been further developed a method for finding the cluster centers, which allowed us to develop on its basis an algorithm which, unlike existing ones, for the starting point takes the center of gravity of the set of information models of objects. Developed a method for k-means, which allowed to find the most weighty clusters that are optimal in terms of quantity of information models of objects. Was further developed method of optimal partitioning into clusters, which allowed him to develop the basis of an algorithm which, unlike the existing one, allows the use of index estimates the optimality of the partition into clusters, which in turn will allow better performance.В диссертационной работе решена научная задача разработки методов и алгоритмов оптимальной неиерархической кластеризации информационных моделей произвольной физической природы. Впервые разработан метод и адаптивный алгоритм на его основе для графового адаптивного поиска количества и положения центров кластеров, обеспечивающий оптимальное определение центров кластеров для сферических областей, а также предложены расчетные зависимости для определения оптимальных начальных параметров работы алгоритма. Получил дальнейшее развитие метод нахождения центров кластеров, что позволило разработать на его основе эвристический алгоритм поиска центров кластеров (ЭАПЦК), который, в отличие от существующих, за начальную точку принимает центр тяжести множества информационных моделей объектов и позволяет улучшить критерии оптимальности. Развит метод k-средних, что позволило разработать на его основе в комбинации с методом пороговой величины, два алгоритма для нахождения кластеров, которые оптимальны с точки зрения количества информационных моделей объектов. Предложен модифицированный алгоритм пороговой величины, определяющий стабильные положения центров каждой кластерной области. Этот алгоритм является комбинацией классического алгоритма пороговой величины и алгоритма k-средних. Особенность разработанной комбинации заключается в том, что в отличие от алгоритма пороговой величины, в каждой области кластеризации сначала вычисляется стабильный центр множества информационных моделей и это множество информационных моделей в дальнейшем изымается из рассмотрения как очередной кластер. В работе предложен алгоритм качественного порога. В этом алгоритме каждая точка информационной модели рассматривается как возможный центр кластера. Для заданной величины радиуса сферы кластера (пороговой величины) вычисляется стабильное положение центра кластера с помощью алгоритма k-средних. Подсчитывается количество точек в каждом кластере для каждой точки множества. За первый кластер принимается тот, для которого количество точек максимально. Этот кластер считается первым найденным кластером и исключается из дальнейшего рассмотрения. Процесс продолжается до достижения пустого множества точек. Преимуществом алгоритма является то, что он позволяет определить кластеры с наибольшим скоплением точек и, тем самым, улучшить критерии оптимальности кластеризации.. Недостатком является низкое быстродействие. Теоретические и практические результаты диссертационной работы использованы при разработке библиотеки программ и системы неиерархической кластеризации. Предложенные методы и алгоритмы были использованы для реализации математического обеспечения кластерного анализа информационных моделей объектов различной физической природы. На основе полученных результатов разработана структура библиотеки алгоритмов неиерархической кластеризации информационных моделей объектов различной физической природы, которая не требует задания начального количества и положения центров кластеров и осуществляет оптимальное разбиение на кластеры. Отличительной особенностью разработанной ситемы является ее ориентация на поиск оптимального разбиения на кластеры. Для этой цели в системе разработана реляционная база данных результатов кластеризации. База данных хранит результаты кластерного анализа каждого набора данных различными алгоритмами и с применением различных метрик. Поскольку оптимальный поиск разбиения на кластеры требует сравнения результатов кластерного анализа различными методами, то такая база данных позволяет оптимальным образом использовать имеющиеся в системе методы и алгоритмы оценки и поиска оптимального разбиения на кластеры.Разработан диалоговый интерфейс системы неиерархической кластеризации, который позволяет осуществлять ввод информации, вывод информации в текстовом и графическом 2D и 3D режимах. Это позволило повысить эффективность современных информационных технологий анализа информационных моделей объектов произвольной физической природы.У дисертаційній роботі розв’язано наукову задачу розроблення методів і алгоритмів оптимальної неієрархічної кластеризації інформаційних моделей об’єктів довільної фізичної природи. Вперше розроблений метод і адаптивний алгоритм на його основі для графового адаптивного пошуку кількості і положення центрів кластерів а також розрахункові залежності для визначення оптимальних початкових параметрів роботи алгоритму. Отримав подальший розвиток метод знаходження центрів кластерів, що дозволило розробити на його основі алгоритм, який, на відміну від існуючих, за початкову точку приймає центр ваги множини інформаційних моделей об’єктів. Розвинуто метод k-середніх, що дозволило знаходити найбільш вагомі кластери, які оптимальні з точки зору кількості інформаційних моделей об’єктів. Отримав подальший розвиток метод оптимального розбиття на кластери, що дозволило на його основі розробити алгоритм, який, на відміну від існуючого, дозволяє використовувати індексні оцінки оптимальності розбиття на кластери, що в свою чергу дозволило підвищити швидкодію. |
|
Date |
2011-12-29T10:32:25Z
2011-12-29T10:32:25Z 2011 |
|
Type |
Autoreferat
|
|
Identifier |
Файсал, М. Е. Методи і алгоритми неієрархічної кластерізації для задач інтелектуального аналізу даних : автореферат дисертації кандидата технічних наук : 05.13.06 / М. Е. Файсал ; Національний університет "Львівська політехніка". - Львів, 2011. - 20 с.
http://ena.lp.edu.ua:8080/handle/ntb/11272 |
|
Language |
ua
|
|
Publisher |
Національний університет "Львівська політехніка"
|
|