Запис Детальніше

Адаптивне перетворення часової структури мовного сигналу для задач сповільнення темпу

Електронний науковий архів Науково-технічної бібліотеки Національного університету "Львівська політехніка"

Переглянути архів Інформація
 
 
Поле Співвідношення
 
Title Адаптивне перетворення часової структури мовного сигналу для задач сповільнення темпу
Адаптивное преобразование временной структуры речевого сигнала для задач замедление темпа
Adaptive transformation of the speech signal temporal structure for tempo rate slowing problems
 
Creator Купчак, Марія Іванівна
 
Subject мовний сигнал
модифікація часового масштабу
темпоральна структура
функція темпоральних перетворень
регулювання темпу мови
темпоральная структура
речевой сигнал
модификация временного масштаба
функция темпоральных преобразований
регулирование темпа речи
temporal structure
speech signal
time-scale modification
temporal reconstruction functions
time-scale modification systems
 
Description Дисертація присвячена розробленню методів та засобів сповільненого відтворення звукових одиниць української мови на основі адаптивних технологій перетворення їх внутрішньої структури для систем регулювання темпу мови. Вперше розроблено метод побудови в аналітичному виді функцій темпоральних перетворень звуків, на основі якого побудовано ці функції для 6 основних класів звуків української мови. Удосконалено метод виділення та маркірування звукових одиниць, побудовано додаткові інформативні ознаки для виділення підкласів вокалізованих та невокалізованих приголосних, а також модифіковано метод первинної сегментації мовленнєвого сигналу. Для використання адаптивних перетворень часової структури мовного сигналу в системах регулювання темпу мови удосконалено темпоральну модель мовотворення, розроблено новий метод автоматичної сегментації сигналу, а також розв'язано задачу оптимального збільшення довжини фрагменту мовленнєвого сигналу для забезпечення його заданої тривалості в системах регулювання темпу мови. Створено спеціалізований програмний комплекс для задач перетворення часової структури мовних сигналів в системах регулювання темпу мови. Комплекс, розроблений в багатопотоковій архітектурі псевдобагатозадачного обчислювального середовища Win32s, забезпечує можливість вирішення широкого комплексу задач виділення, аналізу та перетворення звуків української мови. Проведені аудиторні дослідження виявили, що при застосування розроблених технологій словесна розбірливість мов становить не менше 92% при зміні коефіцієнту сповільнення в діапазоні від 1,0 до 3,5 за умови нормального темпу 80-90 слів/хв. Диссертация посвящена разработке методов и средств замедленного воспроизведения звуковых единиц украинского языка на основе адаптивных технологий преобразований их внутренней структуры для систем регулирования темпа речи. Анализ известных походов к преобразованию внутренней структуры речевого сигнала для различных применений (передача каналами связи, распознавание и синтез речи, синхронизация аудио и видеоинформации в мультимедиальных системах и т.д.) показал, что наиболее высокое качество преобразования достигается при использовании адаптивных подходов, когда алгоритмы преобразования внутренней структуры сигнала максимально приближены к процессам, происходящим при естественном изменении темпа речи диктором. Эти подходы разработаны для случая ускорения темпа речи и используют специально сконструированные на основе статистических исследований функции темпоральных преобразований. Однако для задач замедления темпа ни методика построения этих функций, ни, естественно, сами функции не разработаны. В диссертационной работе проведены необходимые статистические исследования длительностей звуков и их структурных участков при различных темпах произношения, на основании которых сделаны выводы о необходимости разработки отдельных функций темпоральных преобразований для случая замедления темпа, а также уточнена классификация звуков украинского языка для этой задачи. На основании анализа закономерностей изменения внутренней структуры звуков при переходе диктором од одного темпа произношения к другому (рассматривались 4 темпа – нормальный и три темпа в сторону замедления) разработан метод построения в аналитическом виде функций темпоральных преобразований. На основе метода построены функции для 6 основных в задачах изменения темпа классов звуков: ударные гласные, безударные гласные, носовые, сонорные, африкаты, щелевые. Для этой цели также усовершенствован метод сегментации и классификации отдельных участков речевого сигнала с использованием взвешенной специальным окном метрики, построенной на основании усреднения отдельных участков кратковременного преобразования Фурье. Построены дополнительные информативные признаки для выделения подклассов вокализованных и невокализованных согласных. Отдельно исследована задача преобразования временной структуры речевого сигнала при замедлении в системе регулирования темпа речи, когда длительность выходного сигнала жестко задается длительностью входного и коэффициентом регулирования темпа, а длительность преобразованного согласно адаптивным технологиям сигнала зависит в общем случае от результатов его разделения на звуки определенных классов. Для этой цели модифицирована модель речевого сигнала введением последовательных пар переходных и стационарных участков определенных классов, разработан метод автоматической сегментации речевого потока на основе использований спектральной метрики в топологическом пространстве элементарных сегментов. На основании неитерационной процедуры оптимизации с ограничением в виде равенства, а также при помощи итерационной схемы со штрафными функциями решена задача оптимального увеличения длительности преобразованного фрагмента в системе регулирования темпа речи. Разработан специализированный программный комплекс для задач преобразования временной структуры сигнала в системах регулирования темпа речи. Комплекс реализован в многопотоковой архитектуре псевдомногозадачной вычислительной среды Win32s и обеспечивает возможность решения широкого комплекса задач выделения, анализа и преобразования звуков украинского языка. Также проведены аудиторные испытания, которые показали, что применение разработанных технологий обеспечивает разборчивость слов не менее 92% при изменении коэффициента регулирования темпа от 1 до 3,5 при исходном нормальном темпе 80-90 слов/мин. The dissertation is devoted to the development of methods and tools for speech tempo slowing on the base of adaptive technologies of signal structure reconstruction in time-scale modification systems. A new method of functions for temporal reconstruction design is developed and 6 functions for major classes of Ukrainian sounds are developed. A method of sound speech sounds segmentation and labeling is modified to detect subclasses of voiced and unvoiced consonants. To use the proposed approach in time-scale modification systems a speech signal temporal model is modified, a new method of segmentation of continuous speech on stationary segments is developed, and the procedure of speech fragments enlargement for speech tempo slowing is optimized. A specialized software for speech time-scale modification on the base of multi-flow architecture under Win32s is developed to be used for different tasks in Ukrainian sounds extraction, analyzing and time-scale modification. Formal listening tests show that on the base of developed technologies separate words recognition is not less than 92% while the original tempo (80-90 words per min) is increased up to 3,5 times.
 
Date 2012-06-19T14:12:13Z
2012-06-19T14:12:13Z
2012
 
Type Autoreferat
 
Identifier Купчак М. І. Адаптивне перетворення часової структури мовного сигналу для задач сповільнення темпу : автореферат дисертації на здобуття наукового ступеня кандидата технічних наук : 05.13.23 – системи та засоби штучного інтелекту / Марія Іванівна Купчак ; Національний університет "Львівська політехніка". - Львів, 2012. - 23 с.
http://ena.lp.edu.ua:8080/handle/ntb/13357
 
Language ua
 
Publisher Національний університет "Львівська політехніка"