Можливості семантичної розмітки корпусу української мови (КУМ)
ENPUIR - електронний архів наукових публікацій Національного педагогічного університету імені М. П. Драгоманова
Переглянути архів ІнформаціяПоле | Співвідношення | |
Title |
Можливості семантичної розмітки корпусу української мови (КУМ)
Возможности семантической разметки корпуса украинского языка (КУЯ) Capabilities of Semantic Tagging Within the Ukrainian Corpus |
|
Creator |
Дарчук, Н. П.
|
|
Subject |
Корпус текстів
семантичне розмічування таксономічна класифікація таксон тезаурус інформаційно-пошукова система Корпус текстов семантическая разметка таксономическая классификация linguistic corpus semantic tagging taxonomic classification taxon thesaurus information retrieval system 81’322:811.161.2 |
|
Description |
У статті розглянуто лінгвістичні засади семантичного розмічування Корпусу української мови як четвертого етапу представлення інформації про одиниці Корпусу. В основу розмічування покладено таксономічну класифікацію корпусу російської мови, але доповнену та видозмінену. Створено програмне забезпечення для роботи в он-лайн режимі. Матеріалом слугував частотний словник публіцистичного стилю обсягом 40 тис. лексем, укладений на вибірці 16 млн словоформ українськомовного тексту. В статье рассмотрены лингвистические основы семантической разметки Корпуса украинского языка как четвертого этапа представления информации о единицах Корпуса. В основу разметки положена таксономическая классификация корпуса русского языка, но дополненная и видозмененная. Создано программное обеспечение для работы в он-лайн режиме. Материалом послужил частотный словарь публицистического стиля объемом в 40 тыс. лексем, созданный на выборке в 16 млн словоформ украиноязычного текста. The article views linguistic aspects of semantic tagging within the Ukrainian Corpus. The lexical content of texts of different genres, in particular, modern fiction, drama, journalism, scientific, popular scientific, and business will be provided with a specific tagging respectively. The work represents two types of tagging: I – a taxonomic one, featuring journalistic and fiction genre and II – a thesaurus-based tagging specifically for scientific and business genres. The tagging is based on taxonomic classification applied in the Russian Corpus but extended and extra modified. There were developed the software tools for online work based on materials of frequency dictionary of journalistic style with a total volume of 40,000 lexems compiled from the sampling of 16 Million word forms of Ukrainian texts. The thesaurus-based approach is grounded on the identification of thematically relevant lexical-semantic variations and grouping them by applying a formalized method of a thesaurus construction, which meets the standards of modern terminography. There were developed the software tools for performing of two types of semantic tagging. |
|
Date |
2018-02-06T12:53:24Z
2018-02-06T12:53:24Z 2017 |
|
Type |
Article
|
|
Identifier |
Дарчук, Н. П. Можливості семантичної розмітки корпусу української мови (КУМ) / Н. П. Дарчук // Науковий часопис Національного педагогічного університету імені М. П. Драгоманова. Серія 9 : Сучасні тенденції розвитку мов : зб. наук. праць. - Київ : Вид-во НПУ імені М. П. Драгоманова, 2017. - Вип. 15. - С. 18-28.
http://enpuir.npu.edu.ua/handle/123456789/17838 |
|
Language |
uk
|
|
Publisher |
Видавництво НПУ імені М. П. Драгоманова
|
|