Inwersja mowy za pomocą nieliniowej transfomacji czasowej
DOI:
https://doi.org/10.5604/01.3001.0010.7714Słowa kluczowe:
inwersja mowy, nieliniowa transformacja czasowa, parametry mel-cepstralneAbstrakt
Artykulografia Elektromagnetyczna (ang. Electromagnetic Articulography - EMA) jest precyzyjną metodą diagnozy narządów mowy dokonywaną za pomocą czujników pola elektromagnetycznego umieszczonych głównie na języku. Pomimo swej precyzji badanie jest dość uciążliwe dla mówcy dlatego poszukuje się różnych innych metod diagnozy. Jedną z nich jest inwersja mowy polegająca na estymacji ruchów języka na podstawie nagrań dźwiękowych. W niniejszym artykule opisano wstępne badania nad inwersją mowy z wykorzystaniem nieliniowej transformacji czasowej (ang. DTW). Jako metodę parametryzacji sygnału mowy wybrano współczynniki mel-cepstralne (ang. MFCC). Obliczono i przedyskutowano błędy estymacji na przykładzie słów języka polskiego.
Statystyka pobrań
Bibliografia
Perkell J.S., Cohen M.H., Svirsky M.A., Matthies M.L., Garabieta I., Jackson M. T. Electromagnetic midsagittal articulometer (EMMA) systems for transducing speech articulatory movements. JASA, 1992, 92(6), 3078-96. Google Scholar
Król D., Lorenc A., Święciński R. Detecting Laterality and Nasality in Speech with the Use of a Multi-Channel Recorder. Proceedings of the 40th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015, 5147-51. Google Scholar
Beskow J., Engwall O., Granström B. Simultaneous measurements of facial and intraoral articulation. Proceedings of Fonetik 2003. Dept. of Linguistics, Stockholm University, 2003, 57-60. Google Scholar
Kjellström H., Engwall O. Audiovisual to articulatory inversion. Speech Communication, 2009, 51(3), 195-209. Google Scholar
Richmond K. Trajectory mixture density networks with multiple mixtures for acoustic-articulatory inversion. Advances in Nonlinear Speech Processing, Lecture Notes in Computer Science 2007, 4885, 263-72. Google Scholar
Hueber T., Ben Youssef A., Bailly G., Badin P., Eliséi F. Cross-speaker Acoustic-to-Articulatory Inversion using Phone-based Trajectory HMM for Pronunciation Training. Proceedings of Interspeech, Portland, USA, 2012. Google Scholar
Makowski R., Świętojański P., Wielgat R. Automatyczne rozpoznawanie mowy. Chapter 14 In book: Cyfrowe Przetwarzanie Sygnałów w Telekomunikacji. Podstawy, multimedia, transmisja. Publisher: Wydawnictwo Naukowe PWN - Red: Zielinski, T., Korohoda, P., Rumian, R. 2014, 522-30. Google Scholar
Mik Ł., Wielgat R., Lorenc A., Król D., Święciński R., Jędryka R. Multimodal Speech Data Acquisition with the Use of EMA Fast-speed Video Cameras and a Dedicated Microphone Array. 23rd International Conference Mixed Design of Integrated Circuits and Systems (MIXDES), Łódź, Poland, June 2016. Google Scholar
Rabiner L.R., Rosenberg A., Levinson S. Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition”, IEEE Trans. Acoust., Speech, Signal Processing, 1978, 26, 575-82. Google Scholar
Kuhn M.H., Tomaschewski H.H. Improvements in Isolated Word Recognition. IEEE Trans. Acoust., Speech, Signal Processing, 1983, 31(1), 157-67. Google Scholar
Lorenc A. Wymowa normatywna polskich samogłosek nosowych i spółgłoski bocznej, (rozdział 4.4). Dom wydawniczy ELIPSA, Warszawa 2016. Google Scholar
Pobrania
Opublikowane
Jak cytować
Numer
Dział
Licencja
Prawa autorskie (c) 2016 Państwowa Wyższa Szkoła Zawodowa w Tarnowie & Autorzy
Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne 4.0 Międzynarodowe.