Алгоритми очищення статистичної вибірки від аномалій для задач data science

The paper considers the nature of input data used by Data Science algorithms of modern-day application domains. It then proposes three algorithms designed to remove statistical anomalies from datasets as a part of the Data Science pipeline. The main advantages of given algorithms are their relative...

Повний опис

Збережено в:

Бібліографічні деталі
Видавець:	The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
Дата:	2023
Автори:	Pysarchuk, Oleksii, Baran, Danylo, Mironov, Yurii, Pysarchuk, Illya
Формат:	Стаття
Мова:	English
Опубліковано:	The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2023
Теми:	очищення від аномалій виявлення аномалій видалення шуму статистичні методи аналіз даних великі дані очищення даних anomaly removal anomaly detection noise removal statistical techniques data analysis big data data cleaning
Онлайн доступ:	http://journal.iasa.kpi.ua/article/view/260175
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!

Організація

System research and information technologies

id	journaliasakpiua-article-260175
record_format	ojs
spelling	journaliasakpiua-article-2601752023-05-24T21:28:17Z Algorithms of statistical anomalies clearing for data science applications АЛГОРИТМЫ ОЧИЩЕНИЯ СТАТИСТИЧЕСКОЙ ВЫБОРКИ ОТ АНОМАЛИЙ ДЛЯ ЗАДАЧ DATA SCIENCE Алгоритми очищення статистичної вибірки від аномалій для задач data science Pysarchuk, Oleksii Baran, Danylo Mironov, Yurii Pysarchuk, Illya очищення від аномалій виявлення аномалій видалення шуму статистичні методи аналіз даних великі дані очищення даних anomaly removal anomaly detection noise removal statistical techniques data analysis big data data cleaning The paper considers the nature of input data used by Data Science algorithms of modern-day application domains. It then proposes three algorithms designed to remove statistical anomalies from datasets as a part of the Data Science pipeline. The main advantages of given algorithms are their relative simplicity and a small number of configurable parameters. Parameters are determined by machine learning with respect to the properties of input data. These algorithms are flexible and have no strict dependency on the nature and origin of data. The efficiency of the proposed approaches is verified with a modeling experiment conducted using algorithms implemented in Python. The results are illustrated with plots built using raw and processed datasets. The algorithms application is analyzed, and results are compared. Розглянуто природу даних, що використовуються в задачах сучасних прикладних областей. Запропоновано декілька алгоритмів очищення статистичної вибірки від аномалій в конвеєрі задач Data Science. Відзнакою та перевагою запропонованих алгоритмів є їх відносна простота та обмежена кількість параметрів налаштувань, що визначаються за технологіями навчання відповідно до властивостей вхідних статистичних даних. Запропоновані алгоритми є достатньо гнучкими у використанні і не залежать від природи та походження даних. Результати модельного експерименту запропонованих підходів у вигляді скриптів мовою Python та базових бібліотек довели їх ефективність. Результати проілюстровано графіками, побудованими з використанням початкових даних та даних, що змінені за допомогою запропонованих алгоритмів. Застосування алгоритмів проаналізовано та порівняно результати виконання алгоритмів. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2023-03-30 Article Article application/pdf http://journal.iasa.kpi.ua/article/view/260175 10.20535/SRIT.2308-8893.2023.1.06 System research and information technologies; No. 1 (2023); 78-84 Системные исследования и информационные технологии; № 1 (2023); 78-84 Системні дослідження та інформаційні технології; № 1 (2023); 78-84 2308-8893 1681-6048 en http://journal.iasa.kpi.ua/article/view/260175/274360
institution	System research and information technologies
collection	OJS
language	English
topic	очищення від аномалій виявлення аномалій видалення шуму статистичні методи аналіз даних великі дані очищення даних anomaly removal anomaly detection noise removal statistical techniques data analysis big data data cleaning
spellingShingle	очищення від аномалій виявлення аномалій видалення шуму статистичні методи аналіз даних великі дані очищення даних anomaly removal anomaly detection noise removal statistical techniques data analysis big data data cleaning Pysarchuk, Oleksii Baran, Danylo Mironov, Yurii Pysarchuk, Illya Алгоритми очищення статистичної вибірки від аномалій для задач data science
topic_facet	очищення від аномалій виявлення аномалій видалення шуму статистичні методи аналіз даних великі дані очищення даних anomaly removal anomaly detection noise removal statistical techniques data analysis big data data cleaning
format	Article
author	Pysarchuk, Oleksii Baran, Danylo Mironov, Yurii Pysarchuk, Illya
author_facet	Pysarchuk, Oleksii Baran, Danylo Mironov, Yurii Pysarchuk, Illya
author_sort	Pysarchuk, Oleksii
title	Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_short	Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_full	Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_fullStr	Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_full_unstemmed	Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_sort	алгоритми очищення статистичної вибірки від аномалій для задач data science
title_alt	Algorithms of statistical anomalies clearing for data science applications АЛГОРИТМЫ ОЧИЩЕНИЯ СТАТИСТИЧЕСКОЙ ВЫБОРКИ ОТ АНОМАЛИЙ ДЛЯ ЗАДАЧ DATA SCIENCE
description	The paper considers the nature of input data used by Data Science algorithms of modern-day application domains. It then proposes three algorithms designed to remove statistical anomalies from datasets as a part of the Data Science pipeline. The main advantages of given algorithms are their relative simplicity and a small number of configurable parameters. Parameters are determined by machine learning with respect to the properties of input data. These algorithms are flexible and have no strict dependency on the nature and origin of data. The efficiency of the proposed approaches is verified with a modeling experiment conducted using algorithms implemented in Python. The results are illustrated with plots built using raw and processed datasets. The algorithms application is analyzed, and results are compared.
publisher	The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
publishDate	2023
url	http://journal.iasa.kpi.ua/article/view/260175
work_keys_str_mv	AT pysarchukoleksii algorithmsofstatisticalanomaliesclearingfordatascienceapplications AT barandanylo algorithmsofstatisticalanomaliesclearingfordatascienceapplications AT mironovyurii algorithmsofstatisticalanomaliesclearingfordatascienceapplications AT pysarchukillya algorithmsofstatisticalanomaliesclearingfordatascienceapplications AT pysarchukoleksii algoritmyočiŝeniâstatističeskojvyborkiotanomalijdlâzadačdatascience AT barandanylo algoritmyočiŝeniâstatističeskojvyborkiotanomalijdlâzadačdatascience AT mironovyurii algoritmyočiŝeniâstatističeskojvyborkiotanomalijdlâzadačdatascience AT pysarchukillya algoritmyočiŝeniâstatističeskojvyborkiotanomalijdlâzadačdatascience AT pysarchukoleksii algoritmiočiŝennâstatističnoívibírkivídanomalíjdlâzadačdatascience AT barandanylo algoritmiočiŝennâstatističnoívibírkivídanomalíjdlâzadačdatascience AT mironovyurii algoritmiočiŝennâstatističnoívibírkivídanomalíjdlâzadačdatascience AT pysarchukillya algoritmiočiŝennâstatističnoívibírkivídanomalíjdlâzadačdatascience
first_indexed	2024-04-08T14:50:27Z
last_indexed	2024-04-08T14:50:27Z
_version_	1804810494940282880

Алгоритми очищення статистичної вибірки від аномалій для задач data science

Організація

Схожі ресурси