久久99国产精品无码久久久久久久,国产小说区图片区色综合区色欲

高密度表面肌電（HD-sEMG）在無聲話語識別中的應用

背景

語言表達是人類參與生活、工作的一種重要的工具，通過發(fā)送、接受清晰的語音信號，人們可以明確地理解別人的意圖，并予以反饋。高質(zhì)量的語音信息對于大腦的解碼來說尤為重要，若是在語音發(fā)送、語音傳播、語音解碼的任意環(huán)節(jié)出現(xiàn)問題，都會導致語音信號的接收不完全，對正常交流造成惡劣影響。根據(jù) 2006 年全國第二次殘疾人抽樣調(diào)查結(jié)果，我國現(xiàn)有 8296 萬殘疾人，其中言語殘疾人口有 127 萬人，占總殘疾人口數(shù)的 1.53%。言語殘疾造成的溝通不便，嚴重降低他們的生活質(zhì)量，影響他們的日常生活交流，對他們的家庭和社會都是沉重的負擔。因此，幫這部分言語殘疾人建立與健康人群的語言紐帶迫在眉睫。而這些言語障礙殘疾人中，有一部分屬于發(fā)音肌肉功能比較完整、但聲帶受損的，如果可以利用他們發(fā)音肌肉的活動來識別發(fā)音內(nèi)容就可以重建他們與外界的溝通。對于一些聲帶使用過度的人群，如職業(yè)歌唱家、教師等，同樣存在不發(fā)出聲音的情況下與他人進行良好溝通的需求。

在軍隊或銀行等特定的機密場所中，使用可聽的語音進行交流可能會暴露敏感信息。例如特種部隊士兵，可能需要依靠無聲通信來進行秘密行動。同時，在水下工作、火災現(xiàn)場、輻射現(xiàn)場等，一線救援人員通常會穿著防護服，不能透過防護面具發(fā)出清晰聲音。人們希望能在不發(fā)出聲音的情況下發(fā)送、接收到同伴的溝通意圖。

在科技飛速發(fā)展的現(xiàn)代社會，人們不僅需要直接通過聽覺系統(tǒng)聽到言語信息，還需要通過間接的形式獲取語音內(nèi)容。因此，自動語音識別（Automaticspeech recognition，ASR）技術(shù)就此產(chǎn)生。語音信號伴隨著發(fā)音動作的進行而產(chǎn)生，一直被廣泛應用于基于人的語音輸入的語音識別系統(tǒng)中，如微信中的語音轉(zhuǎn)文字功能、訊飛的語音轉(zhuǎn)文字輸入法。然而，由于語音信號極易受到環(huán)境噪聲和人為干擾的影響，在很多場景中很難被高質(zhì)量地采集到，語音內(nèi)容自然也很難精確識別出來，人們需要一種不易受到環(huán)境噪聲干擾的語音內(nèi)容識別技術(shù)。

針對以上三類問題及需求，有很多研究進行了基于表面肌電信號進行無聲語音識別的探索，利用表面肌電信號穩(wěn)定、不易干擾的優(yōu)點，對無聲語音信息進行精準識別。從而保證殘疾人在無需發(fā)出聲音情況下也能表達自己的意圖，讓私密場合里的人們之間的交流只需動動嘴巴而不必發(fā)出可聽語音，使嘈雜環(huán)境中的發(fā)音信息也能被清晰地識別成“可視化”內(nèi)容。

基于高密度肌電信號的無聲語音識別系統(tǒng)應用場景

基于表面肌電信號的語音識別技術(shù)
發(fā)音是一個極為復雜的生理過程，是由語音器官的協(xié)調(diào)運動所引起的相關(guān)肌肉相互配合收縮、放松來控制的，整個過程涉及面、頸部40多塊肌肉。人類可以通過控制肌肉的協(xié)同模式，有意識地、明確地表達自己的意圖。當人們在進行說話的動作時，參與發(fā)音的肌肉被激活，相應地會產(chǎn)生肌肉電信號。發(fā)不同的音時，激活的肌肉、能量存在一些差別，利用這一特點可以從不同發(fā)音過程中采集肌電信號并進行特征提取以識別發(fā)音內(nèi)容。

基于sEMG信號進行語音識別有一個較為規(guī)范化的過程。首先要同步采集發(fā)音過程中的sEMG信號，然后對采集到的信號做預處理。之后提取合適的特征并輸入分類器進行大量、多次的訓練，建立sEMG信號與人類自然語音的映射關(guān)系。在訓練過程結(jié)束后，就可以輸入測試數(shù)據(jù)集也就是新的sEMG信號進行分類識別，讀取到人類在這段sEMG信號中“說的話”。

高密度表面肌電采集與預處理

受試者在進行無聲發(fā)音任務時，肌電數(shù)據(jù)的采集不易受到外界環(huán)境的干擾，但為了讓受試者保持良好的生理和心理狀態(tài)，實驗被安排在屏蔽房中進行。為降低電力所帶來的工頻干擾，屏蔽房中除實驗設備及燈光，其余所有電源均被切斷。屏蔽房內(nèi)擺放一把椅子供受試者坐下，同時在椅子前面的桌子上擺放一個顯示器，通過展示發(fā)音波形向受試者進行發(fā)音任務提醒。

實驗室環(huán)境

電極分布位置
由于電極數(shù)量和位置對于采集到的包含發(fā)音信息的肌電信號質(zhì)量有著巨大影響，過少的電極不能完整覆蓋與發(fā)音相關(guān)的所有面頸部肌肉，過多的電極采集到的數(shù)據(jù)會存在冗余。在綜合考慮了受試者的面、頸部寬度以及發(fā)音相關(guān)的肌肉位置后，本實驗確定在受試者面頸部共貼上120個電極。其中，面部基于面中間位置對稱的左右兩側(cè)各貼上4×5（行×列）個電極，頸部基于頸中間位置對稱的左右兩側(cè)各貼上5×8（行×列）個電極。電極的直徑相同，為10mm。相鄰電極之間的距離相等，中心點的距離約為15mm，以保證采集到的信號獨立。

120通道高密度肌電示意圖

面頸部電極陣列分布示意圖及其分組

實驗過程

每一組包含28次發(fā)音，為防止受試者出現(xiàn)發(fā)音疲勞的狀況，該過程被分成兩次進行，在14次發(fā)音后實驗員會示意受試者休息1min。受試者按照顯示器上提示的波形進行3s靜息、1s發(fā)音、3s靜息、……、3s靜息。其中間隔的3s靜息是為了讓發(fā)音肌肉休息，避免肌肉疲勞。

發(fā)音任務

實驗流程圖

高密度肌電信號的預處理
HD sEMG 本質(zhì)上是多個通道的表面肌電信號的匯總，而表面肌電信號作為一種非平穩(wěn)的時序電信號，在采集過程中容易受到外界信號的干擾。因此在對肌電信號進一步分析之前，應進行濾波處理，獲取純凈的肌電活動數(shù)據(jù)。同時，由于實驗中的發(fā)音任務不是連續(xù)的，在特征提取之前需要將完整發(fā)音過程的數(shù)據(jù)單獨分割出來再進行拼接操作，從而得到完整的、具有一定數(shù)據(jù)量級的發(fā)音數(shù)據(jù)。

預處理流程圖

首先將12 個特征與3種分類器進行匹配，并提出4個評估標準對識別性能進行分析。結(jié)果顯示，線性判別分析（LinearDiscriminantanalysis，LDA）和支持向量機（Support vectormachine，SVM）在本文數(shù)據(jù)集中的表現(xiàn)明顯優(yōu)于K最鄰近結(jié)點（K-nearest neighbor，KNN），LDA和SVM的分類性能不相上下，但SVM匹配所有特征時的運行時間都要長于LDA。因此，LDA更適合本文數(shù)據(jù)集的語音識別。同時，在LDA所匹配的12個特征中，波形長度（Waveformlength，WFL）能實現(xiàn)最高分類精度、敏感度和F1分數(shù)，在它的運行時長僅比其它特征略高1~2s的情況下，可以認定WFL實現(xiàn)了與LDA的最佳匹配。

總結(jié)

對稱位置通道sEMG信號的分析顯示，發(fā)音過程中對稱位置的肌電信號變化存在高度一致性。并且，單獨使用左側(cè)范圍和單獨使用右側(cè)范圍通道的肌電信號的分類精度高度一致，說明了對稱位置通道可能包含了相同的肌電變化信息，無需重復采集。最后，通道排序的結(jié)果說明了對于不同受試者都可以使用少量電極達到較好的識別性能，具體的通道數(shù)量、位置要因人而異，但是從生理角度去選取通道位置是有一定價值的。

基于高密度表面肌電信號的無聲語音識別研究，可以為后續(xù)無聲語音識別時特征、分類器的選擇提供參考，同時為標準化電極位置、數(shù)量的選取打下基礎。

言語發(fā)聲神經(jīng)電信號測量系統(tǒng)

當前大多數(shù)利用表面肌電信號進行語音識別的研究中,存在使用的電極數(shù)量少、位置選取不夠科學的問題。高密度肌電設備對語音識別時電極位置對識別性能的影響進行分析,來達到更好地選擇電極位置和數(shù)量的效果具有不可替代的作用。

同時在神經(jīng)工程領域，越來越多的研究嘗試同步采集腦電與肌電的信號，用來探索包括發(fā)音在內(nèi)的運動意圖由大腦傳遞到肌肉執(zhí)行的過程中潛在的規(guī)律。高密度腦肌電測量識設備使得研究情緒，肌肉活動到最終發(fā)音的全過程研究與實驗成為可能。

Speech HD-64 型言語發(fā)聲神經(jīng)電信號測量系統(tǒng)是一套采集語音過程中的腦/肌神經(jīng)肉肌電信號的設備，并可通過后端的分析軟件，以及與力學、運動學設備的同步信號分析，開展語言學、無聲通信、言語障礙、人體運動特性、模式識別、假肢設計、虛擬現(xiàn)實等多領域的研究工作。