Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних

The paper is devoted to improving semi-supervised clustering methods and comparing their accuracy and robustness. The proposed approach is based on expanding a clustering algorithm for using an available set of labels by replacing the distance function. Using the distance function considers not only...

Повний опис

Збережено в:
Бібліографічні деталі
Видавець:The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
Дата:2022
Автори: Lyubchyk, Leonid, Yamkovyi, Klym
Формат: Стаття
Мова:English
Опубліковано: The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2022
Теми:
Онлайн доступ:http://journal.iasa.kpi.ua/article/view/239726
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!

Організація

System research and information technologies
id journaliasakpiua-article-239726
record_format ojs
institution System research and information technologies
collection OJS
language English
topic центр мас
кластеризація
функція відстані
медоід
найближчий сусід
навчання з частковим залученням вчителя
center of mass
clustering
distance function
medoids
nearest neighbor
semi-supervised learning
spellingShingle центр мас
кластеризація
функція відстані
медоід
найближчий сусід
навчання з частковим залученням вчителя
center of mass
clustering
distance function
medoids
nearest neighbor
semi-supervised learning
Lyubchyk, Leonid
Yamkovyi, Klym
Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
topic_facet центр мас
кластеризація
функція відстані
медоід
найближчий сусід
навчання з частковим залученням вчителя
center of mass
clustering
distance function
medoids
nearest neighbor
semi-supervised learning
format Article
author Lyubchyk, Leonid
Yamkovyi, Klym
author_facet Lyubchyk, Leonid
Yamkovyi, Klym
author_sort Lyubchyk, Leonid
title Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_short Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_full Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_fullStr Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_full_unstemmed Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_sort порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних
title_alt Comparative analysis of modified semi-supervised learning algorithms on a small amount of labeled data
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДИФИЦИРОВАННЫХ АЛГОРИТМОВ ОБУЧЕНИЯ С ЧАСТИЧНЫМ ПРИВЛЕЧЕНИЕМ УЧИТЕЛЯ НА МАЛОМ КОЛИЧЕСТВЕ РАЗ-МЕЧЕННЫХ ДАННЫХ
description The paper is devoted to improving semi-supervised clustering methods and comparing their accuracy and robustness. The proposed approach is based on expanding a clustering algorithm for using an available set of labels by replacing the distance function. Using the distance function considers not only spatial data but also available labels. Moreover, the proposed distance function could be adopted for working with ordinal variables as labels. An extended approach is also considered, based on a combination of unsupervised k-medoids methods, modified for using only labeled data during the medoids calculation step, supervised method of k nearest neighbor, and unsupervised k-means. The learning algorithm uses information about the nearest points and classes’ centers of mass. The results demonstrate that even a small amount of labeled data allows us to use semi-supervised learning, and proposed modifications improve accuracy and algorithm performance, which was found during experiments.
publisher The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
publishDate 2022
url http://journal.iasa.kpi.ua/article/view/239726
work_keys_str_mv AT lyubchykleonid comparativeanalysisofmodifiedsemisupervisedlearningalgorithmsonasmallamountoflabeleddata
AT yamkovyiklym comparativeanalysisofmodifiedsemisupervisedlearningalgorithmsonasmallamountoflabeleddata
AT lyubchykleonid sravnitelʹnyjanalizmodificirovannyhalgoritmovobučeniâsčastičnymprivlečeniemučitelânamalomkoličestverazmečennyhdannyh
AT yamkovyiklym sravnitelʹnyjanalizmodificirovannyhalgoritmovobučeniâsčastičnymprivlečeniemučitelânamalomkoličestverazmečennyhdannyh
AT lyubchykleonid porívnâlʹnijanalízmodifíkovanihalgoritmívnavčannâzčastkovimzalučennâmučitelânamalíjkílʹkostírozmíčenihdanih
AT yamkovyiklym porívnâlʹnijanalízmodifíkovanihalgoritmívnavčannâzčastkovimzalučennâmučitelânamalíjkílʹkostírozmíčenihdanih
first_indexed 2024-04-08T14:50:26Z
last_indexed 2024-04-08T14:50:26Z
_version_ 1804810494122393600
spelling journaliasakpiua-article-2397262023-05-21T20:04:38Z Comparative analysis of modified semi-supervised learning algorithms on a small amount of labeled data СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДИФИЦИРОВАННЫХ АЛГОРИТМОВ ОБУЧЕНИЯ С ЧАСТИЧНЫМ ПРИВЛЕЧЕНИЕМ УЧИТЕЛЯ НА МАЛОМ КОЛИЧЕСТВЕ РАЗ-МЕЧЕННЫХ ДАННЫХ Порівняльний аналіз модифікованих алгоритмів навчання з частковим залученням учителя на малій кількості розмічених даних Lyubchyk, Leonid Yamkovyi, Klym центр мас кластеризація функція відстані медоід найближчий сусід навчання з частковим залученням вчителя center of mass clustering distance function medoids nearest neighbor semi-supervised learning The paper is devoted to improving semi-supervised clustering methods and comparing their accuracy and robustness. The proposed approach is based on expanding a clustering algorithm for using an available set of labels by replacing the distance function. Using the distance function considers not only spatial data but also available labels. Moreover, the proposed distance function could be adopted for working with ordinal variables as labels. An extended approach is also considered, based on a combination of unsupervised k-medoids methods, modified for using only labeled data during the medoids calculation step, supervised method of k nearest neighbor, and unsupervised k-means. The learning algorithm uses information about the nearest points and classes’ centers of mass. The results demonstrate that even a small amount of labeled data allows us to use semi-supervised learning, and proposed modifications improve accuracy and algorithm performance, which was found during experiments. Статья посвящена совершенствованию методов кластеризации с частичным подкреплением, а также сравнению их точности и устойчивости. Предлагаемый подход основан на расширении алгоритмов кластеризации, путем использования доступного набора меток классов с помощью замены функции расстояния; при этом при использовании предложенной функции расстояния учитываются не только пространственные данные, но и доступные метки. Более того, предложенная функция расстояния может быть адаптирована для работы с порядковыми переменными в качестве меток. Также предложено подход основанный на методе  обучения без учителя K-медоидов, модифицированный для использования только размеченных данных на этапе вычисления медоидов кластеров, а также комбинация метода обучения с учителем K ближайшего соседа и без учителя — K-средних. При этом алгоритм обучения использует информацию как о ближайших точках, так и о центрах масс классов. Полученные результаты демонстрируют, что даже небольшой объем помеченных данных позволяет использовать обучение с частичным подкреплением, а предлагаемые модификации обеспечивают повышение точности и устойчивости алгоритма, что было показано в ходе экспериментов. Присвячено вдосконаленню методів кластеризації з частковим підкріпленням, а також порівнянню їх точності та стійкості. Запропонований підхід заснований на розширенні алгоритмів кластеризації шляхом використання доступного набору міток класів за допомогою заміни функції відстані, при цьому за використання запропонованої функції відстані враховуються не тільки просторові дані, але й мітки. Більше того, запропонована функція відстані може бути адаптована для роботи з порядковими змінними як мітки. Також запропоновано підхід, заснований на методі навчання без вчителя k-медоїдів, модифікований для використання лише розмічених даних на етапі обчислення медоїдів кластерів, комбінацію методу навчання з учителем k найближчих сусідів та без вчителя – k-середніх. При цьому алгоритм навчання використовує інформацію як про найближчі точки, так і про центри мас класів. Отримані результати демонструють, що навіть невеликий обсяг помічених даних дає змогу використовувати навчання з частковим підкріпленням, а запропоновані модифікації забезпечують підвищення точності і стійкості алгоритму, що продемонстровано під час експериментів. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2022-12-27 Article Article application/pdf http://journal.iasa.kpi.ua/article/view/239726 10.20535/SRIT.2308-8893.2022.4.03 System research and information technologies; No. 4 (2022); 34-43 Системные исследования и информационные технологии; № 4 (2022); 34-43 Системні дослідження та інформаційні технології; № 4 (2022); 34-43 2308-8893 1681-6048 en http://journal.iasa.kpi.ua/article/view/239726/270396