Метод виявлення нечітких дублікатів електронних текстових документів
Електронного архіву Харківського національного університету радіоелектроніки (Open Access Repository of KHNURE)
Переглянути архів ІнформаціяПоле | Співвідношення | |
Creator |
Чала, Л. Е.
Попаденко, П. Ю. |
|
Date |
2014-11-11T13:40:17Z
2014-11-11T13:40:17Z 2013 |
|
Identifier |
Чала, Л. Е. Метод виявлення нечітких дублікатів електронних текстових документів / Л. Е. Чала, П. Ю. Попаденко // Бионика интеллекта : науч.-техн. журн. – Х. : Изд-во ХНУРЭ, 2013. – Вып. 1 (80). – С. 88–92.
http://hdl.handle.net/123456789/1501 |
|
Description |
В роботі здійснено аналіз методів виявлення нечітких дублікатів текстових файлів. Показано, що існуючі методи виявлення нечітких дублікатів спрямовані на мініміза-цію обчислювальної складності з одночасним збільшенням повноти і точності алгоритму. У даній роботі запропоновано та протестовано гібридний метод, який дозволяє істотно поліпшити якість виявлення нечітких дублікатів при незначному збільшенні обчис-лювальної складності базового алгоритму. This paper analyzes the methods of near-duplicate detection in text files. It is shown that the existing methods of near-duplicates detection directed on minimization the computational complexity while increasing the completeness and accuracy of the algorithm. In this paper the hybrid method was proposed and tested, which can significantly improve the quality of near-duplicate detection slightly increasing the computational complexity of the basic algorithm. |
|
Language |
uk
|
|
Publisher |
ХНУРЭ
|
|
Subject |
нечіткі дублікати
частотний алгоритм шинглування гібридний метод |
|
Title |
Метод виявлення нечітких дублікатів електронних текстових документів
|
|
Type |
Article
|
|