導(dǎo)讀
最近,基于表面肌電圖(sEMG)的無聲語(yǔ)音識(shí)別(SSR)研究是通過對(duì)有限數(shù)量的單詞或短語(yǔ)進(jìn)行分類來進(jìn)行的,與在細(xì)粒度音節(jié)或音素水平上的順序解碼相比,對(duì)形成中的時(shí)間語(yǔ)義沒有足夠的理解。本文提出了一種基于sEMG的SSR的音節(jié)級(jí)序列解碼方法,該方法使用變換器模型。所提出的方法由一個(gè)轉(zhuǎn)換器模型和一個(gè)語(yǔ)言模型組成。變換器模型首先將輸入的sEMG數(shù)據(jù)轉(zhuǎn)換為音節(jié)級(jí)決策序列。然后,這些順序的音節(jié)級(jí)決策被調(diào)整為最終的音節(jié)序列,以通過語(yǔ)言模型近似自然語(yǔ)言。為了驗(yàn)證所提出的方法的有效性,在對(duì)82個(gè)音節(jié)的詞典中生成的33個(gè)漢語(yǔ)短語(yǔ)進(jìn)行潛讀時(shí),使用兩個(gè)64通道的高密度電極陣列記錄了來自總共8名受試者的實(shí)驗(yàn)數(shù)據(jù)。該方法的字符錯(cuò)誤率最低,為5.14±3.28%,短語(yǔ)識(shí)別準(zhǔn)確率最高,為96.37±2.06%,顯著優(yōu)于其他基于表面肌電信號(hào)的SSR常用方法。這些發(fā)現(xiàn)證明了所提出的方法在實(shí)際SSR應(yīng)用中的可行性和可用性。
介紹
言語(yǔ)作為一種自然有效的人類交流方式,能夠包含和傳遞有意義的語(yǔ)義信息。近年來,隨著計(jì)算機(jī)科學(xué)技術(shù)的飛速發(fā)展,自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù)作為一種很有前途的人機(jī)交互方式受到了廣泛的關(guān)注。ASR系統(tǒng)通過計(jì)算機(jī)將語(yǔ)音信號(hào)轉(zhuǎn)換為文本符號(hào)。通過將語(yǔ)音識(shí)別接口集成到手機(jī)、手表、汽車等智能設(shè)備中,語(yǔ)音識(shí)別已經(jīng)廣泛應(yīng)用于人們的日常生活中。
然而,該技術(shù)在實(shí)際應(yīng)用中仍面臨一些挑戰(zhàn)。首先,ASR并不適用于有言語(yǔ)障礙的人。第二,在交流中存在個(gè)人隱私的安全問題。最后,在惡劣的聲環(huán)境下,即有噪聲的條件下,ASR的性能會(huì)受到影響。為了解決ASR的這些局限性,一種基于非聲學(xué)信號(hào)的無聲語(yǔ)音識(shí)別技術(shù)被提出。SSR利用各種生理指標(biāo)來檢測(cè)人類語(yǔ)言相關(guān)活動(dòng),然后解碼其語(yǔ)義信息。它能夠精確地識(shí)別語(yǔ)音,而不需要聲音。這些生理測(cè)量是通過感知無聲言語(yǔ)活動(dòng)中的各種生物信而獲得的,如表面肌電圖(sEMG)、腦電圖(EEG)、永磁或電磁關(guān)節(jié)成像(PMA或EMA)、唇讀等。從本質(zhì)上講,言語(yǔ)是由與發(fā)音相關(guān)的關(guān)節(jié)肌肉的神經(jīng)肌肉活動(dòng)產(chǎn)生的。表面肌電信號(hào)可以通過在人體皮膚表面放置電極來測(cè)量電信號(hào)來反映肌肉活動(dòng)模式。它操作簡(jiǎn)單,無創(chuàng)。因此,表面肌電信號(hào)在SSR的實(shí)際應(yīng)用中具有很大的潛力。
最初,一些基于表面肌電信號(hào)的SSR研究試圖使用簡(jiǎn)單的模式識(shí)別算法對(duì)sepa(表面肌電信號(hào))率詞進(jìn)行分類。以下列出了一些具有代表性的研究:Chan等人使用線性判別(LDA)對(duì)從受試者頸部和面部肌肉中收集的十個(gè)數(shù)字0-9的表面肌電信號(hào)進(jìn)行分類,并在聽覺實(shí)驗(yàn)中實(shí)現(xiàn)了7%的單詞錯(cuò)誤率(WER)。子序研報(bào)道了用隱馬爾可夫模型(HMM)分別建立獨(dú)立的韓語(yǔ)詞進(jìn)行模式分類,識(shí)別準(zhǔn)確率為87.08%。后來,用9個(gè)分類器來識(shí)別阿拉伯語(yǔ)中三個(gè)最難的元音。結(jié)果表明,隨機(jī)森林分類器的分類正確率為77%。
實(shí)際的言語(yǔ)交流依賴于連貫地按順序表達(dá)各種單詞和短語(yǔ)。然而,對(duì)相對(duì)較少的獨(dú)立單詞或元音進(jìn)行模式分類,不能滿足理解順序語(yǔ)義信息的需求。為了解決這一問題,Schultz等人提出了一種基于連續(xù)表面肌電信號(hào)的語(yǔ)音識(shí)別音素建模方法:他們基于HMM構(gòu)建了上下文依賴的音素模型,這種基于肌電信號(hào)的大詞匯量語(yǔ)音識(shí)別系統(tǒng)在101個(gè)單詞的詞匯任務(wù)中實(shí)現(xiàn)了10%的WER。然后在中,HMM結(jié)合發(fā)音模型的三聲子識(shí)別系統(tǒng)再次驗(yàn)證了基于音素的大詞匯量連續(xù)無聲語(yǔ)音識(shí)別的可行性。這些連續(xù)SSR系統(tǒng)的性能直接依賴于表面肌電信號(hào)的音素對(duì)齊。這個(gè)過程既復(fù)雜又耗時(shí)。對(duì)于長(zhǎng)句,不能保證對(duì)齊的準(zhǔn)確性。此外,通過語(yǔ)音和語(yǔ)言模型將音素序列映射到句子中需要大量的文本數(shù)據(jù)。這些問題使得有效、準(zhǔn)確地理解與語(yǔ)音相關(guān)的表面肌電信號(hào)變得困難。
最近,一些先進(jìn)的神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用于表面肌電信號(hào)的小詞匯量SSR,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶(LSTM)。然而,這些系統(tǒng)仍然停留在對(duì)有限數(shù)量的獨(dú)立單詞進(jìn)行模式分類,不夠智能和實(shí)用,無法理解語(yǔ)義信息。
在自然語(yǔ)言中,包括潛臺(tái)詞在內(nèi)的音節(jié)和音素與單詞或短語(yǔ)相比,代表著更細(xì)的信息。它們的序列可以組成各種短語(yǔ)或句子,為語(yǔ)言交際表達(dá)豐富的語(yǔ)義信息。因此,無聲語(yǔ)音也可以在音節(jié)級(jí)別上解碼,而不是單獨(dú)的單詞或短語(yǔ)的分類。一種智能實(shí)用的表面肌電信號(hào)SSR系統(tǒng)有望將語(yǔ)音相關(guān)的表面肌電信號(hào)直接解碼為音節(jié)序列,從而更好地理解語(yǔ)義信息。
也就是說,有必要通過音節(jié)級(jí)解碼而非簡(jiǎn)單分類來實(shí)現(xiàn)基于表面肌電信號(hào)的SSR,從而從表面肌電信號(hào)活動(dòng)模式中細(xì)粒度地挖掘語(yǔ)義信息。近年來,序列到序列(sequence-to-sequence, seq2seq)模型由于其強(qiáng)大的序列數(shù)據(jù)處理能力,已被應(yīng)用于一些自然語(yǔ)言處理(NLP)場(chǎng)景,包括語(yǔ)音識(shí)別、機(jī)器翻譯和文本摘要。這些seq2seq模型通常由編碼器-解碼器結(jié)構(gòu)組成。編碼器將輸入數(shù)據(jù)映射為高維表示,然后由解碼器轉(zhuǎn)換為最終輸出。這種結(jié)構(gòu)可以建立輸入和輸出數(shù)據(jù)之間的關(guān)系。此外,不需要使用fne粒度標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行精確對(duì)齊。模型將自己學(xué)習(xí)它們的對(duì)應(yīng)。這些特性保證了它們?cè)诮獯a語(yǔ)音或文本等順序信息方面的成功應(yīng)用。例如,基于門控循環(huán)單元(GRU)的編碼器和解碼器在英語(yǔ)-法語(yǔ)文本翻譯任務(wù)中取得了良好的效果。其次,采用多層長(zhǎng)短期記憶(LSTM)替代GRU,并對(duì)輸入數(shù)據(jù)進(jìn)行倒序讀取,提高了整體翻譯性能。這些基于RNNs的seq2-seq模型在解碼語(yǔ)音信號(hào)方面優(yōu)于傳統(tǒng)ASR系統(tǒng)。后來,seq2seq模型通過引入注意機(jī)制,可以更靈活、準(zhǔn)確地關(guān)注關(guān)鍵信息,有效避免了因輸入序列過長(zhǎng)而導(dǎo)致過多信息的問題。與上述常見的seq2seq模型相比,一種完全基于自注意機(jī)制的新型seq2seq模型transformer在一些順序解碼任務(wù)中表現(xiàn)出了最先進(jìn)的性能。這種自注意機(jī)制盡可能少地丟失重要信息,并幫助獲取數(shù)據(jù)的全局關(guān)聯(lián),這在長(zhǎng)期依賴問題上比LSTM更有優(yōu)勢(shì)。此外,由于不使用具有遞歸結(jié)構(gòu)的rnn,模型可以并行訓(xùn)練,大大減少了訓(xùn)練時(shí)間。變壓器模型也比上面提到的一些神經(jīng)網(wǎng)絡(luò)更易于解釋。
最初,一些基于sEMG的SSR研究試圖使用簡(jiǎn)單的模式識(shí)別算法對(duì)分離率單詞進(jìn)行分類。以下列出了一些有代表性的研究:Chan等人使用線性判別分析(LDA)對(duì)從受試者頸部和面部肌肉收集的0–9個(gè)數(shù)字的sEMG信號(hào)進(jìn)行分類,并在聽覺實(shí)驗(yàn)中實(shí)現(xiàn)了7%的單詞錯(cuò)誤率(WER)。后續(xù)研究報(bào)道,通過隱馬爾可夫模型(HMM)模型分別建立了單獨(dú)的韓語(yǔ)單詞進(jìn)行模式分類,識(shí)別準(zhǔn)確率為87.08%。后來,九個(gè)分類器被用來識(shí)別阿拉伯語(yǔ)中最難的三個(gè)元音。結(jié)果表明,隨機(jī)森林分類器表現(xiàn)最好,正確分類率為77%。
方法
下圖顯示了使用變換器模型從表面肌電信號(hào)解碼無聲語(yǔ)音的所提方法的框架。首先,對(duì)高密度電極陣列采集的表面肌電信號(hào)原始數(shù)據(jù)進(jìn)行處理,得到特征序列;然后,通過變換器模型將特征序列解碼為連續(xù)的音節(jié)級(jí)決策。最后,在語(yǔ)料庫(kù)的基礎(chǔ)上設(shè)計(jì)語(yǔ)言模型,生成接近自然語(yǔ)言的最后音節(jié)序列。
圖1 所提出的使用變換器模型解碼sEMG無聲語(yǔ)音的方法的框架。sEMG特征序列X=(x1,…,xT)被輸入到變換器模型中,然后被解碼為順序音節(jié)級(jí)決策Y?=(y1,…,yM)。通過語(yǔ)言模型生成了最后一個(gè)音節(jié)序列“P”=(“p1”,“…”,“pW”)。、
為本次研究中高密度電極陣列的布置和規(guī)格。將兩片32通道的柔性高密度電極陣列分別對(duì)稱地安裝在兩側(cè)的面部和頸部皮膚表面。每一塊電極陣列都被設(shè)計(jì)成不規(guī)則的形狀,以覆蓋與人類發(fā)音有關(guān)的重要肌肉,包括面部肌肉(顴大肌、顴小肌、笑肌)和頸部肌肉(胸鎖乳突肌、二腹肌前腹、頸闊肌)。每個(gè)電極直徑為5mm,單極構(gòu)成一個(gè)表面肌電記錄通道。兩個(gè)陣列中每?jī)蓚€(gè)電極的中心距離從10到18毫米不等。
圖2 高密度電極陣列的位置和規(guī)格。
圖3 語(yǔ)料庫(kù)中33個(gè)中文短語(yǔ)的列表。
圖4 三個(gè)代表性短語(yǔ)(即P1:“前進(jìn)”, 第18頁(yè):“定位原點(diǎn)”, 第33頁(yè):“發(fā)現(xiàn)被困人員”), 分別地文中還介紹了數(shù)據(jù)分割和特征提取的過程。所有這些信號(hào)片段都是從第一受試者S1的數(shù)據(jù)中選擇的。
本文提出的表面肌電信號(hào)無聲語(yǔ)音解碼方法由轉(zhuǎn)換器模型和語(yǔ)言模型組成。將短語(yǔ)級(jí)數(shù)據(jù)段的表面肌電信號(hào)特征序列輸入變壓器模型,然后解碼成連續(xù)的音節(jié)級(jí)決策。然后,通過根據(jù)語(yǔ)料庫(kù)構(gòu)建的語(yǔ)言模型,將這些音節(jié)級(jí)決策調(diào)整為接近自然語(yǔ)言的最終音節(jié)/字符序列。
結(jié)論
轉(zhuǎn)換模型被應(yīng)用于從表面肌電信號(hào)解碼無聲語(yǔ)音,因?yàn)樗哂性诩?xì)粒度音節(jié)水平上表征語(yǔ)義信息的強(qiáng)大能力。在所測(cè)試的SSR方法中,所提出的序列解碼方法獲得了最低的CER和最高的短語(yǔ)識(shí)別精度。實(shí)驗(yàn)結(jié)果驗(yàn)證了基于表面肌電信號(hào)的SSR序列解碼方法的可行性。該研究為促進(jìn)SSR的實(shí)際應(yīng)用提供了有價(jià)值的工具。
如果您對(duì)表面肌電方面研究感興趣,請(qǐng)與我們聯(lián)系!
聲明:文章僅用于學(xué)術(shù)交流,不用于商業(yè)行為,若有侵權(quán)及疑問,請(qǐng)后臺(tái)留言,管理員即時(shí)刪侵!