Запис Детальніше

Можливості семантичної розмітки корпусу української мови (КУМ)

ENPUIR - електронний архів наукових публікацій Національного педагогічного університету імені М. П. Драгоманова

Переглянути архів Інформація
 
 
Поле Співвідношення
 
Title Можливості семантичної розмітки корпусу української мови (КУМ)
Возможности семантической разметки корпуса украинского языка (КУЯ)
Capabilities of Semantic Tagging Within the Ukrainian Corpus
 
Creator Дарчук, Н. П.
 
Subject Корпус текстів
семантичне розмічування
таксономічна класифікація
таксон
тезаурус
інформаційно-пошукова система
Корпус текстов
семантическая разметка
таксономическая классификация
linguistic corpus
semantic tagging
taxonomic classification
taxon
thesaurus
information retrieval system
81’322:811.161.2
 
Description У статті розглянуто лінгвістичні засади семантичного розмічування Корпусу української мови як четвертого етапу представлення інформації про одиниці Корпусу. В основу розмічування покладено
таксономічну класифікацію корпусу російської мови, але доповнену та видозмінену. Створено
програмне забезпечення для роботи в он-лайн режимі. Матеріалом слугував частотний словник
публіцистичного стилю обсягом 40 тис. лексем, укладений на вибірці 16 млн словоформ
українськомовного тексту.
В статье рассмотрены лингвистические основы семантической разметки Корпуса украинского
языка как четвертого этапа представления информации о единицах Корпуса. В основу разметки
положена таксономическая классификация корпуса русского языка, но дополненная и видозмененная.
Создано программное обеспечение для работы в он-лайн режиме. Материалом послужил частотный словарь публицистического стиля объемом в 40 тыс. лексем, созданный на выборке в 16 млн словоформ украиноязычного текста.
The article views linguistic aspects of semantic tagging within the Ukrainian Corpus. The lexical
content of texts of different genres, in particular, modern fiction, drama, journalism, scientific, popular
scientific, and business will be provided with a specific tagging respectively. The work represents two types of
tagging: I – a taxonomic one, featuring journalistic and fiction genre and II – a thesaurus-based tagging
specifically for scientific and business genres.
The tagging is based on taxonomic classification applied in the Russian Corpus but extended and extra
modified. There were developed the software tools for online work based on materials of frequency dictionary
of journalistic style with a total volume of 40,000 lexems compiled from the sampling of 16 Million word forms
of Ukrainian texts. The thesaurus-based approach is grounded on the identification of thematically relevant
lexical-semantic variations and grouping them by applying a formalized method of a thesaurus construction,
which meets the standards of modern terminography. There were developed the software tools for performing
of two types of semantic tagging.
 
Date 2018-02-06T12:53:24Z
2018-02-06T12:53:24Z
2017
 
Type Article
 
Identifier Дарчук, Н. П. Можливості семантичної розмітки корпусу української мови (КУМ) / Н. П. Дарчук // Науковий часопис Національного педагогічного університету імені М. П. Драгоманова. Серія 9 : Сучасні тенденції розвитку мов : зб. наук. праць. - Київ : Вид-во НПУ імені М. П. Драгоманова, 2017. - Вип. 15. - С. 18-28.
http://enpuir.npu.edu.ua/handle/123456789/17838
 
Language uk
 
Publisher Видавництво НПУ імені М. П. Драгоманова