Inwersja mowy za pomocą nieliniowej transfomacji czasowej

Autor

DOI:

https://doi.org/10.5604/01.3001.0010.7714

Słowa kluczowe:

inwersja mowy, nieliniowa transformacja czasowa, parametry mel-cepstralne

Abstrakt

Artykulografia Elektromagnetyczna (ang. Electromagnetic Articulography - EMA) jest precyzyjną metodą diagnozy narządów mowy dokonywaną za pomocą czujników pola elektromagnetycznego umieszczonych głównie na języku. Pomimo swej precyzji badanie jest dość uciążliwe dla mówcy dlatego poszukuje się różnych innych metod diagnozy. Jedną z nich jest inwersja mowy polegająca na estymacji ruchów języka na podstawie nagrań dźwiękowych. W niniejszym artykule opisano wstępne badania nad inwersją mowy z wykorzystaniem nieliniowej transformacji czasowej (ang. DTW). Jako metodę parametryzacji sygnału mowy wybrano współczynniki mel-cepstralne (ang. MFCC). Obliczono i przedyskutowano błędy estymacji na przykładzie słów języka polskiego.

Statystyka pobrań

Statystyki pobrań nie są jeszcze dostępne

Perkell J.S., Cohen M.H., Svirsky M.A., Matthies M.L., Garabieta I., Jackson M. T. Electromagnetic midsagittal articulometer (EMMA) systems for transducing speech articulatory movements. JASA, 1992, 92(6), 3078-96.   Google Scholar

Król D., Lorenc A., Święciński R. Detecting Laterality and Nasality in Speech with the Use of a Multi-Channel Recorder. Proceedings of the 40th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015, 5147-51.   Google Scholar

Beskow J., Engwall O., Granström B. Simultaneous measurements of facial and intraoral articulation. Proceedings of Fonetik 2003. Dept. of Linguistics, Stockholm University, 2003, 57-60.   Google Scholar

Kjellström H., Engwall O. Audiovisual to articulatory inversion. Speech Communication, 2009, 51(3), 195-209.   Google Scholar

Richmond K. Trajectory mixture density networks with multiple mixtures for acoustic-articulatory inversion. Advances in Nonlinear Speech Processing, Lecture Notes in Computer Science 2007, 4885, 263-72.   Google Scholar

Hueber T., Ben Youssef A., Bailly G., Badin P., Eliséi F. Cross-speaker Acoustic-to-Articulatory Inversion using Phone-based Trajectory HMM for Pronunciation Training. Proceedings of Interspeech, Portland, USA, 2012.   Google Scholar

Makowski R., Świętojański P., Wielgat R. Automatyczne rozpoznawanie mowy. Chapter 14 In book: Cyfrowe Przetwarzanie Sygnałów w Telekomunikacji. Podstawy, multimedia, transmisja. Publisher: Wydawnictwo Naukowe PWN - Red: Zielinski, T., Korohoda, P., Rumian, R. 2014, 522-30.   Google Scholar

Mik Ł., Wielgat R., Lorenc A., Król D., Święciński R., Jędryka R. Multimodal Speech Data Acquisition with the Use of EMA Fast-speed Video Cameras and a Dedicated Microphone Array. 23rd International Conference Mixed Design of Integrated Circuits and Systems (MIXDES), Łódź, Poland, June 2016.   Google Scholar

Rabiner L.R., Rosenberg A., Levinson S. Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition”, IEEE Trans. Acoust., Speech, Signal Processing, 1978, 26, 575-82.   Google Scholar

Kuhn M.H., Tomaschewski H.H. Improvements in Isolated Word Recognition. IEEE Trans. Acoust., Speech, Signal Processing, 1983, 31(1), 157-67.   Google Scholar

Lorenc A. Wymowa normatywna polskich samogłosek nosowych i spółgłoski bocznej, (rozdział 4.4). Dom wydawniczy ELIPSA, Warszawa 2016.   Google Scholar

Pobrania

Opublikowane

2016-12-30

Jak cytować

Wielgat, R., & Lorenc, A. (2016). Inwersja mowy za pomocą nieliniowej transfomacji czasowej. Health Promotion & Physical Activity, (1), 139–150. https://doi.org/10.5604/01.3001.0010.7714