Запис Детальніше

Комбінований ієрархічний підхід кластеризації документів

Репозитарій Вінницького Національного Технічного Університету

Переглянути архів Інформація
 
 
Поле Співвідношення
 
Title Комбінований ієрархічний підхід кластеризації документів
Complex hierarchical approach for document clusterization
Комбинированный иерархический подход кластеризации документов
 
Creator Шатовська, Т. Б.
Каменєва, І. В.
 
Description Запропоновано інтегрований ієрархічний підхід до класифікації тексту, заснований на дендрограмі та k-середніх кластеризаціях. Цей підхід дозволяє нам подати інтегрований новий метод ієрархічної кластеризації, який може класифікувати дані без попереднього задавання кількості класів, що дозволяє структуровано зберігати документи на комп'ютері. Цей підхід засновано на двох методах, які відносяться до області text і data mining. Першим етапом є попереднє оброблення документів, внаслідок чого скорочується час і якісно обчислюється результат. Другим етапом є використання векторної моделі, яка дозволяє чітко визначити значущість слів у документі. Використано ієрархічну кластеризацію, в яку входять два методи дендрограма і k-середніх. Метод дендрограми дозволяє заздалегідь визначити кількість кластерів (тек), метод k-середніх відносить документи до певних кластерів. Завершальним етапом є використання методу дендрограми для створення ієрархічної послідовності документів усередині кожного кластера (теки).
Представлен интегрированный иерархический подход классификации текста, основанный на дендрограмме и k-средних кластеризации. Этот подход позволяет нам представить интегрированный новый метод иерархической кластеризации, который может классифицировать данные без предварительного задания количества классов, что позволяет структурировано хранить документы на компьютере. Данный подход основан на двух методах, которые относятся к области text и data mining. Первым этапом является предварительная обработка документов в результате чего, сокращается время и качественно вычисляется результат. Вторым этапом является использование векторной модели, которая позволяет четко определить значимость слов в документе. Использована иерархическая кластеризация, в которую входят два метода: дендрограмма и k-средних. Метод дендрограммы позволяет предварительно определить количество кластеров (папок), метод k-средних относит документы к определенным кластерам. Завершающим этапом является применение метода дендрограммы для создания иерархической последовательности документов внутри каждого кластера (папки)
In this article we present integrated hieratical approach of text classification, based on dendrogramme and k-means clusterizations on computer. This approach allows us to present the computer-integrated new method of hierarchical clusterization, which can classify the amounts of classes given without a preliminary task, which allows keep structure documents on a computer. This approach is based on two methods related to the area text and data mining. The first stage is preprocessing of documents, as a result, time is reduced and a accurate result is calculated. The second stage is the use of vectorial model which allows expressly to define meaningfulness of words in a document. Then we use a hierarchical clusterization. It includes dendrogramms and k-means. Dendrogram method allows preliminary to define the amount of clusters (folders), the method of k-means attributes documents to certain clusters. The finishing stage is application of method of dendrogramms for creation of hierarchical sequence of documents into every cluster (folders).
 
Date 2016-01-26T14:49:46Z
2016-01-26T14:49:46Z
2010-11-12
 
Type Article
 
Identifier Шатовська Т. Б. Комбінований ієрархічний підхід кластеризації документів [Текст] / Т. Б. Шатовська, І. В. Каменєва // Вісник Вінницького політехнічного інституту. - 2009. - № 1. - С. 47-50.
1997-9274
1997-9266
http://visnyk.vntu.edu.ua/index.php/visnyk/article/view/696
http://ir.lib.vntu.edu.ua/handle/123456789/5928
519.7:004.912
 
Language uk_UA
 
Publisher ВНТУ