Модифікація алгоритму пошуку нечітких дублікатів у текстах українською мовою
Електронний науковий архів Науково-технічної бібліотеки Національного університету "Львівська політехніка"
Переглянути архів ІнформаціяПоле | Співвідношення | |
Title |
Модифікація алгоритму пошуку нечітких дублікатів у текстах українською мовою
|
|
Creator |
Гриненко, А. Ю.
Петрашенко, А. В. Замятін, Д. С. |
|
Subject |
пошук нечітких дублікатів
метод шинглів near-duplicates detecting shingles method |
|
Description |
Розглянуті найпопулярніші алгоритми пошуку нечітких дублікатів. Було запропоновано модифікацію алгоритму пошуку нечітких дублікатів для текстових ресурсів, що ґрунтується на методі шинглів. Розроблений метод вирішує проблему чутливості до перестановки слів у класичному алгоритмі шинглів, що існує для текстів українською та іншими мовами слов'янської групи. Результати експериментів, що наведені роботі, показали приріст швидкості пошуку нечітких дублікатів. In this paper, are considered most popular algorithms of near-duplicates detecting. Was proposed modified algorithm for detecting near-duplicates for text resources based on shingles. New method solves problem of sensitivity to words inversion for classical shingles method that takes place for Ukrainian and other Slavonic languages. The results of experiments shown in the work demonstrate that the speed of the duplicate detection algorithms is greatly increased.
|
|
Date |
2012-05-03T08:57:24Z
2012-05-03T08:57:24Z 2011 |
|
Type |
Article
|
|
Identifier |
Гриненко А. Ю. Модифікація алгоритму пошуку нечітких дублікатів у текстах українською мовою / А. Ю. Гриненко, А. В. Петрашенко, Д. С. Замятін // Вісник Національного університету "Львівська політехніка". – 2011. – № 717 : Комп’ютерні системи та мережі. – С. 36-43. – Бібліографія: 10 назв.
http://ena.lp.edu.ua:8080/handle/ntb/12173 |
|
Language |
ua
|
|
Publisher |
Видавництво Львівської політехніки
|
|