中文字幕在线免费观看一区,亚洲一区二区精品在线,51国产在线观看,日韩中文在线第一页

導(dǎo)讀


最近,基于表面肌電圖(sEMG)的無聲語(yǔ)音識(shí)別(SSR)研究是通過對(duì)有限數(shù)量的單詞或短語(yǔ)進(jìn)行分類來進(jìn)行的,與在細(xì)粒度音節(jié)或音素水平上的順序解碼相比,對(duì)形成中的時(shí)間語(yǔ)義沒有足夠的理解。本文提出了一種基于sEMG的SSR的音節(jié)級(jí)序列解碼方法,該方法使用變換器模型。所提出的方法由一個(gè)轉(zhuǎn)換器模型和一個(gè)語(yǔ)言模型組成。變換器模型首先將輸入的sEMG數(shù)據(jù)轉(zhuǎn)換為音節(jié)級(jí)決策序列。然后,這些順序的音節(jié)級(jí)決策被調(diào)整為最終的音節(jié)序列,以通過語(yǔ)言模型近似自然語(yǔ)言。為了驗(yàn)證所提出的方法的有效性,在對(duì)82個(gè)音節(jié)的詞典中生成的33個(gè)漢語(yǔ)短語(yǔ)進(jìn)行潛讀時(shí),使用兩個(gè)64通道的高密度電極陣列記錄了來自總共8名受試者的實(shí)驗(yàn)數(shù)據(jù)。該方法的字符錯(cuò)誤率最低,為5.14±3.28%,短語(yǔ)識(shí)別準(zhǔn)確率最高,為96.37±2.06%,顯著優(yōu)于其他基于表面肌電信號(hào)的SSR常用方法。這些發(fā)現(xiàn)證明了所提出的方法在實(shí)際SSR應(yīng)用中的可行性和可用性。


介紹


言語(yǔ)作為一種自然有效的人類交流方式,能夠包含和傳遞有意義的語(yǔ)義信息。近年來,隨著計(jì)算機(jī)科學(xué)技術(shù)的飛速發(fā)展,自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù)作為一種很有前途的人機(jī)交互方式受到了廣泛的關(guān)注。ASR系統(tǒng)通過計(jì)算機(jī)將語(yǔ)音信號(hào)轉(zhuǎn)換為文本符號(hào)。通過將語(yǔ)音識(shí)別接口集成到手機(jī)、手表、汽車等智能設(shè)備中,語(yǔ)音識(shí)別已經(jīng)廣泛應(yīng)用于人們的日常生活中。

然而,該技術(shù)在實(shí)際應(yīng)用中仍面臨一些挑戰(zhàn)。首先,ASR并不適用于有言語(yǔ)障礙的人。第二,在交流中存在個(gè)人隱私的安全問題。最后,在惡劣的聲環(huán)境下,即有噪聲的條件下,ASR的性能會(huì)受到影響。為了解決ASR的這些局限性,一種基于非聲學(xué)信號(hào)的無聲語(yǔ)音識(shí)別技術(shù)被提出。SSR利用各種生理指標(biāo)來檢測(cè)人類語(yǔ)言相關(guān)活動(dòng),然后解碼其語(yǔ)義信息。它能夠精確地識(shí)別語(yǔ)音,而不需要聲音。這些生理測(cè)量是通過感知無聲言語(yǔ)活動(dòng)中的各種生物信而獲得的,如表面肌電圖(sEMG)、腦電圖(EEG)、永磁或電磁關(guān)節(jié)成像(PMA或EMA)、唇讀等。從本質(zhì)上講,言語(yǔ)是由與發(fā)音相關(guān)的關(guān)節(jié)肌肉的神經(jīng)肌肉活動(dòng)產(chǎn)生的。表面肌電信號(hào)可以通過在人體皮膚表面放置電極來測(cè)量電信號(hào)來反映肌肉活動(dòng)模式。它操作簡(jiǎn)單,無創(chuàng)。因此,表面肌電信號(hào)在SSR的實(shí)際應(yīng)用中具有很大的潛力。

最初,一些基于表面肌電信號(hào)的SSR研究試圖使用簡(jiǎn)單的模式識(shí)別算法對(duì)sepa(表面肌電信號(hào))率詞進(jìn)行分類。以下列出了一些具有代表性的研究:Chan等人使用線性判別(LDA)對(duì)從受試者頸部和面部肌肉中收集的十個(gè)數(shù)字0-9的表面肌電信號(hào)進(jìn)行分類,并在聽覺實(shí)驗(yàn)中實(shí)現(xiàn)了7%的單詞錯(cuò)誤率(WER)。子序研報(bào)道了用隱馬爾可夫模型(HMM)分別建立獨(dú)立的韓語(yǔ)詞進(jìn)行模式分類,識(shí)別準(zhǔn)確率為87.08%。后來,用9個(gè)分類器來識(shí)別阿拉伯語(yǔ)中三個(gè)最難的元音。結(jié)果表明,隨機(jī)森林分類器的分類正確率為77%。


實(shí)際的言語(yǔ)交流依賴于連貫地按順序表達(dá)各種單詞和短語(yǔ)。然而,對(duì)相對(duì)較少的獨(dú)立單詞或元音進(jìn)行模式分類,不能滿足理解順序語(yǔ)義信息的需求。為了解決這一問題,Schultz等人提出了一種基于連續(xù)表面肌電信號(hào)的語(yǔ)音識(shí)別音素建模方法:他們基于HMM構(gòu)建了上下文依賴的音素模型,這種基于肌電信號(hào)的大詞匯量語(yǔ)音識(shí)別系統(tǒng)在101個(gè)單詞的詞匯任務(wù)中實(shí)現(xiàn)了10%的WER。然后在中,HMM結(jié)合發(fā)音模型的三聲子識(shí)別系統(tǒng)再次驗(yàn)證了基于音素的大詞匯量連續(xù)無聲語(yǔ)音識(shí)別的可行性。這些連續(xù)SSR系統(tǒng)的性能直接依賴于表面肌電信號(hào)的音素對(duì)齊。這個(gè)過程既復(fù)雜又耗時(shí)。對(duì)于長(zhǎng)句,不能保證對(duì)齊的準(zhǔn)確性。此外,通過語(yǔ)音和語(yǔ)言模型將音素序列映射到句子中需要大量的文本數(shù)據(jù)。這些問題使得有效、準(zhǔn)確地理解與語(yǔ)音相關(guān)的表面肌電信號(hào)變得困難。


最近,一些先進(jìn)的神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用于表面肌電信號(hào)的小詞匯量SSR,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶(LSTM)。然而,這些系統(tǒng)仍然停留在對(duì)有限數(shù)量的獨(dú)立單詞進(jìn)行模式分類,不夠智能和實(shí)用,無法理解語(yǔ)義信息。


在自然語(yǔ)言中,包括潛臺(tái)詞在內(nèi)的音節(jié)和音素與單詞或短語(yǔ)相比,代表著更細(xì)的信息。它們的序列可以組成各種短語(yǔ)或句子,為語(yǔ)言交際表達(dá)豐富的語(yǔ)義信息。因此,無聲語(yǔ)音也可以在音節(jié)級(jí)別上解碼,而不是單獨(dú)的單詞或短語(yǔ)的分類。一種智能實(shí)用的表面肌電信號(hào)SSR系統(tǒng)有望將語(yǔ)音相關(guān)的表面肌電信號(hào)直接解碼為音節(jié)序列,從而更好地理解語(yǔ)義信息。


也就是說,有必要通過音節(jié)級(jí)解碼而非簡(jiǎn)單分類來實(shí)現(xiàn)基于表面肌電信號(hào)的SSR,從而從表面肌電信號(hào)活動(dòng)模式中細(xì)粒度地挖掘語(yǔ)義信息。近年來,序列到序列(sequence-to-sequence, seq2seq)模型由于其強(qiáng)大的序列數(shù)據(jù)處理能力,已被應(yīng)用于一些自然語(yǔ)言處理(NLP)場(chǎng)景,包括語(yǔ)音識(shí)別、機(jī)器翻譯和文本摘要。這些seq2seq模型通常由編碼器-解碼器結(jié)構(gòu)組成。編碼器將輸入數(shù)據(jù)映射為高維表示,然后由解碼器轉(zhuǎn)換為最終輸出。這種結(jié)構(gòu)可以建立輸入和輸出數(shù)據(jù)之間的關(guān)系。此外,不需要使用fne粒度標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行精確對(duì)齊。模型將自己學(xué)習(xí)它們的對(duì)應(yīng)。這些特性保證了它們?cè)诮獯a語(yǔ)音或文本等順序信息方面的成功應(yīng)用。例如,基于門控循環(huán)單元(GRU)的編碼器和解碼器在英語(yǔ)-法語(yǔ)文本翻譯任務(wù)中取得了良好的效果。其次,采用多層長(zhǎng)短期記憶(LSTM)替代GRU,并對(duì)輸入數(shù)據(jù)進(jìn)行倒序讀取,提高了整體翻譯性能。這些基于RNNs的seq2-seq模型在解碼語(yǔ)音信號(hào)方面優(yōu)于傳統(tǒng)ASR系統(tǒng)。后來,seq2seq模型通過引入注意機(jī)制,可以更靈活、準(zhǔn)確地關(guān)注關(guān)鍵信息,有效避免了因輸入序列過長(zhǎng)而導(dǎo)致過多信息的問題。與上述常見的seq2seq模型相比,一種完全基于自注意機(jī)制的新型seq2seq模型transformer在一些順序解碼任務(wù)中表現(xiàn)出了最先進(jìn)的性能。這種自注意機(jī)制盡可能少地丟失重要信息,并幫助獲取數(shù)據(jù)的全局關(guān)聯(lián),這在長(zhǎng)期依賴問題上比LSTM更有優(yōu)勢(shì)。此外,由于不使用具有遞歸結(jié)構(gòu)的rnn,模型可以并行訓(xùn)練,大大減少了訓(xùn)練時(shí)間。變壓器模型也比上面提到的一些神經(jīng)網(wǎng)絡(luò)更易于解釋。


最初,一些基于sEMG的SSR研究試圖使用簡(jiǎn)單的模式識(shí)別算法對(duì)分離率單詞進(jìn)行分類。以下列出了一些有代表性的研究:Chan等人使用線性判別分析(LDA)對(duì)從受試者頸部和面部肌肉收集的0–9個(gè)數(shù)字的sEMG信號(hào)進(jìn)行分類,并在聽覺實(shí)驗(yàn)中實(shí)現(xiàn)了7%的單詞錯(cuò)誤率(WER)。后續(xù)研究報(bào)道,通過隱馬爾可夫模型(HMM)模型分別建立了單獨(dú)的韓語(yǔ)單詞進(jìn)行模式分類,識(shí)別準(zhǔn)確率為87.08%。后來,九個(gè)分類器被用來識(shí)別阿拉伯語(yǔ)中最難的三個(gè)元音。結(jié)果表明,隨機(jī)森林分類器表現(xiàn)最好,正確分類率為77%。


方法


下圖顯示了使用變換器模型從表面肌電信號(hào)解碼無聲語(yǔ)音的所提方法的框架。首先,對(duì)高密度電極陣列采集的表面肌電信號(hào)原始數(shù)據(jù)進(jìn)行處理,得到特征序列;然后,通過變換器模型將特征序列解碼為連續(xù)的音節(jié)級(jí)決策。最后,在語(yǔ)料庫(kù)的基礎(chǔ)上設(shè)計(jì)語(yǔ)言模型,生成接近自然語(yǔ)言的最后音節(jié)序列。


圖1 所提出的使用變換器模型解碼sEMG無聲語(yǔ)音的方法的框架。sEMG特征序列X=(x1,…,xT)被輸入到變換器模型中,然后被解碼為順序音節(jié)級(jí)決策Y?=(y1,…,yM)。通過語(yǔ)言模型生成了最后一個(gè)音節(jié)序列“P”=(“p1”,“…”,“pW”)。、


為本次研究中高密度電極陣列的布置和規(guī)格。將兩片32通道的柔性高密度電極陣列分別對(duì)稱地安裝在兩側(cè)的面部和頸部皮膚表面。每一塊電極陣列都被設(shè)計(jì)成不規(guī)則的形狀,以覆蓋與人類發(fā)音有關(guān)的重要肌肉,包括面部肌肉(顴大肌、顴小肌、笑肌)和頸部肌肉(胸鎖乳突肌、二腹肌前腹、頸闊肌)。每個(gè)電極直徑為5mm,單極構(gòu)成一個(gè)表面肌電記錄通道。兩個(gè)陣列中每?jī)蓚€(gè)電極的中心距離從10到18毫米不等。


圖2 高密度電極陣列的位置和規(guī)格。


信號(hào)采集實(shí)驗(yàn)前,所有電極均涂有導(dǎo)電凝膠,以保證電極與皮膚良好接觸。用酒精墊清潔面部和頸部皮膚,電極陣列用醫(yī)用級(jí)雙面膠帶固定在皮膚上。接地電極和參比電極分別置于耳廓兩側(cè)后方。實(shí)驗(yàn)是在一個(gè)安靜舒適的房間里進(jìn)行的。受試者被要求對(duì)語(yǔ)料庫(kù)的內(nèi)容足夠熟悉,以避免在實(shí)驗(yàn)過程中出現(xiàn)語(yǔ)音錯(cuò)誤。本研究語(yǔ)料庫(kù)由智能家居、機(jī)械控制、消防救援等日常應(yīng)用場(chǎng)景中的33個(gè)漢語(yǔ)短語(yǔ)組成,記為P1-P33。所有短語(yǔ)都是從82個(gè)漢字的字典中生成的。在漢語(yǔ)中,每個(gè)漢字對(duì)應(yīng)一個(gè)音節(jié)。因此,直接用一個(gè)漢字來標(biāo)注每個(gè)音節(jié)是很簡(jiǎn)單的。一個(gè)短語(yǔ)的音節(jié)/字符數(shù)從2到6不等。每個(gè)短語(yǔ)的發(fā)音可以看作是一系列不同的音節(jié)/字符。對(duì)于每個(gè)短語(yǔ),受試者被要求默念20次。為了避免肌肉疲勞,每?jī)纱沃貜?fù)至少間隔3秒。


圖3 語(yǔ)料庫(kù)中33個(gè)中文短語(yǔ)的列表。


采用自定義多通道信號(hào)采集裝置記錄64通道表面肌電信號(hào)。每個(gè)通道信號(hào)經(jīng)過內(nèi)置的64 dB增益2級(jí)放大器和20-500 Hz帶通濾波器后,由一個(gè)采樣頻率為1000HZ的16位a /D轉(zhuǎn)換器進(jìn)行采樣。所有信號(hào)數(shù)據(jù)都存儲(chǔ)在一臺(tái)筆記本電腦上。隨后,筆記本電腦通過高速無線網(wǎng)絡(luò)將數(shù)據(jù)通過rtx3080ti gpu傳輸?shù)皆贫朔?wù)器的工作站。所有任務(wù)都是在基于Python 3.6.1的PyTorch框架上實(shí)現(xiàn)的。圖4顯示了三個(gè)具有代表性的短語(yǔ)(即P1:“前進(jìn)”,P18:“定位原點(diǎn)”,P33:“發(fā)現(xiàn)被困人員”)的多通道表面肌電信號(hào)波形,包含不同的音節(jié)/字符數(shù)。


圖4 三個(gè)代表性短語(yǔ)(即P1:“前進(jìn)”, 第18頁(yè):“定位原點(diǎn)”, 第33頁(yè):“發(fā)現(xiàn)被困人員”), 分別地文中還介紹了數(shù)據(jù)分割和特征提取的過程。所有這些信號(hào)片段都是從第一受試者S1的數(shù)據(jù)中選擇的。


數(shù)據(jù)分割
當(dāng)進(jìn)行潛聲發(fā)音時(shí),一系列連續(xù)的信號(hào)爆發(fā)代表表面肌電信號(hào)振幅的變化。因此,我們采用幅值閾值方法[33]來獲取記錄數(shù)據(jù)流中每個(gè)短語(yǔ)對(duì)應(yīng)的表面肌電信號(hào)段。我們通常將閾值設(shè)置為平均值加上所有頻道的emg基線(不含語(yǔ)音)平均值的三倍標(biāo)準(zhǔn)差。將信號(hào)的包絡(luò)最初超過閾值的時(shí)間作為表面肌電信號(hào)段的開始時(shí)間,將包絡(luò)低于閾值的時(shí)間標(biāo)記為表面肌電信號(hào)段的偏移量(圖4)。這樣,每一個(gè)短語(yǔ)重復(fù)都被確定為一個(gè)表面肌電信號(hào)數(shù)據(jù)段,這也對(duì)應(yīng)著本研究要識(shí)別的一個(gè)數(shù)據(jù)樣本。最后,每個(gè)主題33個(gè)短語(yǔ)的樣本總數(shù)為33 ×20 =660。

特征提取
首先,將每個(gè)數(shù)據(jù)段劃分為連續(xù)的、不重疊的數(shù)據(jù)幀來表征序列信息??値瑪?shù)T經(jīng)驗(yàn)設(shè)置為60幀。隨后,對(duì)于每個(gè)數(shù)據(jù)幀,我們從每個(gè)表面肌電信號(hào)通道中提取Hudgin et al.提出的四個(gè)時(shí)域特征,包括表面肌電信號(hào)的平均絕對(duì)值、過零、斜率符號(hào)變化和波形長(zhǎng)度。將所有64個(gè)通道的4個(gè)特征拼接起來,形成每個(gè)數(shù)據(jù)幀1 ×256形式的一維特征向量x。因此,對(duì)于每個(gè)數(shù)據(jù)段,得到一個(gè)特征序列X=(x1,?,xT),T=60,形式為60 ×256(圖4)。

使用轉(zhuǎn)換器器的無聲語(yǔ)音解碼


本文提出的表面肌電信號(hào)無聲語(yǔ)音解碼方法由轉(zhuǎn)換器模型和語(yǔ)言模型組成。將短語(yǔ)級(jí)數(shù)據(jù)段的表面肌電信號(hào)特征序列輸入變壓器模型,然后解碼成連續(xù)的音節(jié)級(jí)決策。然后,通過根據(jù)語(yǔ)料庫(kù)構(gòu)建的語(yǔ)言模型,將這些音節(jié)級(jí)決策調(diào)整為接近自然語(yǔ)言的最終音節(jié)/字符序列。

結(jié)論

轉(zhuǎn)換模型被應(yīng)用于從表面肌電信號(hào)解碼無聲語(yǔ)音,因?yàn)樗哂性诩?xì)粒度音節(jié)水平上表征語(yǔ)義信息的強(qiáng)大能力。在所測(cè)試的SSR方法中,所提出的序列解碼方法獲得了最低的CER和最高的短語(yǔ)識(shí)別精度。實(shí)驗(yàn)結(jié)果驗(yàn)證了基于表面肌電信號(hào)的SSR序列解碼方法的可行性。該研究為促進(jìn)SSR的實(shí)際應(yīng)用提供了有價(jià)值的工具。



如果您對(duì)表面肌電方面研究感興趣,請(qǐng)與我們聯(lián)系!

聲明:文章僅用于學(xué)術(shù)交流,不用于商業(yè)行為,若有侵權(quán)及疑問,請(qǐng)后臺(tái)留言,管理員即時(shí)刪侵!


山西邁爾諾醫(yī)療科技有限公司

山西省太原市小店區(qū)長(zhǎng)治路111號(hào)山西世貿(mào)中心C座19層1907號(hào)

郵編:030000

聯(lián)系電話:15650705728

商務(wù)郵箱:menovomed@163.com

晉ICP備2022000724號(hào)-1

Copyright ? 2022 邁爾諾醫(yī)療 保留所有權(quán)利