Analysis of the influence of sound signal processing parameters on the quality voice command recognition
Вісник НТУУ "КПІ". Серія Радіотехніка, Радіоапаратобудування.
Переглянути архів ІнформаціяПоле | Співвідношення | |
Title |
Analysis of the influence of sound signal processing parameters on the quality voice command recognition
Анализ влияния параметров обработки звукового сигнала на качество распознавания голосовых команд Аналіз впливу параметрів обробки звукового сигналу на якість розпізнавання голосових команд |
|
Creator |
Dyuzhayev, L. P.; Національний технічний університет України “Київський політехнічний інститут”
Koval, V. Yu.; ТОВ "Центральна промислова група" |
|
Subject |
speech recognition; voice commands; melcepstral coefficients; dynamic time warping
распознавания речи; голосовые команды; мелкепстральные коэффициенты; динамическое искажение времени 681.58 розпізнавання мови; голосові команди; мелкепстральні коефіцієнти; динамічне викривлення часу |
|
Description |
Introduction. For the task of voice control over different devices recognition of single (isolated) voice commands is required. Typically, this control method requires high reliability (at least 95% accuracy voice recognition). It should be noted that voice commands are often pronounced in high noisiness. All presently known methods and algorithms of speech recognition do not allow to clearly determine which parameters of sound signal can provide the best results. The main part. On the first level of voice recognition is about preprocessing and extracting of acoustic features that have a number of useful features – they are easily calculated, providing a compact representation of the voice commands that are resistant to noise interference; On the next level given command is looked for in the reference dictionary. To get MFCC coefficients input file has to be divided into frames. Each frame is measured by a window function and processed by discrete Fourier transform. The resulting representation of signal in the frequency domain is divided into ranges using a set of triangular filters. The last step is to perform discrete cosine transform. Method of dynamic time warping allows to get a value that is an inverse of degree of similarity between given command and a reference. Conclusions. Research has shown that in the field of voice commands recognition optimum results in terms of quality / performance can be achieved using the following parameters of sound signal processing:8 kHz sample rate, frame duration 70–120 ms, Hamming weighting function of a window, number of Fourier samples is 512.
В работе рассмотрено структуру системы распознавания голосовых команд, алгоритм выделения мелкепстральных коэффициентов и их сравнение методом динамического искажения времени. В системе со словарем из пятидесяти команд произнесенных одним диктором было исследовано влияние на качество распознавания голосовых команд таких параметров как: частота дискретизации, продолжительность фрейма, количество выборок Фурье, вид оконной функции. В роботі розглянуто структуру системи розпізнавання голосових команд, алгоритм виділення мелкепстральних коефіцієнтів та їх порівняння методом динамічного викривлення часу. В системі зі словником з п’ятдесяти команд вимовлених одним диктором було досліджено вплив на якість розпізнавання голосової команди таких параметрів як: частоти дискретизації, тривалості фрейму, кількості вибірок Фур’є, виду віконної функції на якість розпізнавання голосової команди. |
|
Publisher |
National Technical University of Ukraine
|
|
Date |
2014-04-10
|
|
Type |
info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion |
|
Format |
application/pdf
|
|
Identifier |
http://radap.kpi.ua/radiotechnique/article/view/763
|
|
Source |
BULLETIN of National Technical University of Ukraine. Series RADIOTECHNIQUE. RADIOAPPARATUS BUILDING; № 56 (2014); 34-41
Вісник НТУУ "КПІ". Серія Радіотехніка, Радіоапаратобудування; № 56 (2014); 34-41 Вестник НТУУ "КПИ". Серия Радиотехника, Радиоаппаратостроение; № 56 (2014); 34-41 |
|
Language |
ukr
|
|
Relation |
http://radap.kpi.ua/radiotechnique/article/view/763/733
|
|
Rights |
1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.3. Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).
|
|