中文字幕在线免费观看一区,亚洲一区二区精品在线,51国产在线观看,日韩中文在线第一页

背景

語言表達是人類參與生活、工作的一種重要的工具,通過發(fā)送、接受清晰的語音信號,人們可以明確地理解別人的意圖,并予以反饋。高質(zhì)量的語音信息對于大腦的解碼來說尤為重要,若是在語音發(fā)送、語音傳播、語音解碼的任意環(huán)節(jié)出現(xiàn)問題,都會導致語音信號的接收不完全,對正常交流造成惡劣影響。根據(jù) 2006 年全國第二次殘疾人抽樣調(diào)查結(jié)果,我國現(xiàn)有 8296 萬殘疾人,其中言語殘疾人口有 127 萬人,占總殘疾人口數(shù)的 1.53%。言語殘疾造成的溝通不便,嚴重降低他們的生活質(zhì)量,影響他們的日常生活交流,對他們的家庭和社會都是沉重的負擔。因此,幫這部分言語殘疾人建立與健康人群的語言紐帶迫在眉睫。而這些言語障礙殘疾人中,有一部分屬于發(fā)音肌肉功能比較完整、但聲帶受損的,如果可以利用他們發(fā)音肌肉的活動來識別發(fā)音內(nèi)容就可以重建他們與外界的溝通。對于一些聲帶使用過度的人群,如職業(yè)歌唱家、教師等,同樣存在不發(fā)出聲音的情況下與他人進行良好溝通的需求。


在軍隊或銀行等特定的機密場所中,使用可聽的語音進行交流可能會暴露敏感信息。例如特種部隊士兵,可能需要依靠無聲通信來進行秘密行動。同時,在水下工作、火災現(xiàn)場、輻射現(xiàn)場等,一線救援人員通常會穿著防護服,不能透過防護面具發(fā)出清晰聲音。人們希望能在不發(fā)出聲音的情況下發(fā)送、接收到同伴的溝通意圖。


在科技飛速發(fā)展的現(xiàn)代社會,人們不僅需要直接通過聽覺系統(tǒng)聽到言語信息,還需要通過間接的形式獲取語音內(nèi)容。因此,自動語音識別(Automaticspeech recognition,ASR)技術(shù)就此產(chǎn)生。語音信號伴隨著發(fā)音動作的進行而產(chǎn)生,一直被廣泛應用于基于人的語音輸入的語音識別系統(tǒng)中,如微信中的語音轉(zhuǎn)文字功能、訊飛的語音轉(zhuǎn)文字輸入法。然而,由于語音信號極易受到環(huán)境噪聲和人為干擾的影響,在很多場景中很難被高質(zhì)量地采集到,語音內(nèi)容自然也很難精確識別出來,人們需要一種不易受到環(huán)境噪聲干擾的語音內(nèi)容識別技術(shù)。

針對以上三類問題及需求,有很多研究進行了基于表面肌電信號進行無聲語音識別的探索,利用表面肌電信號穩(wěn)定、不易干擾的優(yōu)點,對無聲語音信息進行精準識別。從而保證殘疾人在無需發(fā)出聲音情況下也能表達自己的意圖,讓私密場合里的人們之間的交流只需動動嘴巴而不必發(fā)出可聽語音,使嘈雜環(huán)境中的發(fā)音信息也能被清晰地識別成“可視化”內(nèi)容。


基于高密度肌電信號的無聲語音識別系統(tǒng)應用場景


基于表面肌電信號的語音識別技術(shù)
發(fā)音是一個極為復雜的生理過程,是由語音器官的協(xié)調(diào)運動所引起的相關(guān)肌肉相互配合收縮、放松來控制的,整個過程涉及面、頸部40多塊肌肉。人類可以通過控制肌肉的協(xié)同模式,有意識地、明確地表達自己的意圖。當人們在進行說話的動作時,參與發(fā)音的肌肉被激活,相應地會產(chǎn)生肌肉電信號。發(fā)不同的音時,激活的肌肉、能量存在一些差別,利用這一特點可以從不同發(fā)音過程中采集肌電信號并進行特征提取以識別發(fā)音內(nèi)容。

基于sEMG信號進行語音識別有一個較為規(guī)范化的過程。首先要同步采集發(fā)音過程中的sEMG信號,然后對采集到的信號做預處理。之后提取合適的特征并輸入分類器進行大量、多次的訓練,建立sEMG信號與人類自然語音的映射關(guān)系。在訓練過程結(jié)束后,就可以輸入測試數(shù)據(jù)集也就是新的sEMG信號進行分類識別,讀取到人類在這段sEMG信號中“說的話”。


高密度表面肌電采集與預處理

受試者在進行無聲發(fā)音任務時,肌電數(shù)據(jù)的采集不易受到外界環(huán)境的干擾,但為了讓受試者保持良好的生理和心理狀態(tài),實驗被安排在屏蔽房中進行。為降低電力所帶來的工頻干擾,屏蔽房中除實驗設備及燈光,其余所有電源均被切斷。屏蔽房內(nèi)擺放一把椅子供受試者坐下,同時在椅子前面的桌子上擺放一個顯示器,通過展示發(fā)音波形向受試者進行發(fā)音任務提醒。


實驗室環(huán)境


電極分布位置
由于電極數(shù)量和位置對于采集到的包含發(fā)音信息的肌電信號質(zhì)量有著巨大影響,過少的電極不能完整覆蓋與發(fā)音相關(guān)的所有面頸部肌肉,過多的電極采集到的數(shù)據(jù)會存在冗余。在綜合考慮了受試者的面、頸部寬度以及發(fā)音相關(guān)的肌肉位置后,本實驗確定在受試者面頸部共貼上120個電極。其中,面部基于面中間位置對稱的左右兩側(cè)各貼上4×5(行×列)個電極,頸部基于頸中間位置對稱的左右兩側(cè)各貼上5×8(行×列)個電極。電極的直徑相同,為10mm。相鄰電極之間的距離相等,中心點的距離約為15mm,以保證采集到的信號獨立。

120通道高密度肌電示意圖


面頸部電極陣列分布示意圖及其分組


實驗過程

每一組包含28次發(fā)音,為防止受試者出現(xiàn)發(fā)音疲勞的狀況,該過程被分成兩次進行,在14次發(fā)音后實驗員會示意受試者休息1min。受試者按照顯示器上提示的波形進行3s靜息、1s發(fā)音、3s靜息、……、3s靜息。其中間隔的3s靜息是為了讓發(fā)音肌肉休息,避免肌肉疲勞。


發(fā)音任務


實驗流程圖


高密度肌電信號的預處理
HD sEMG 本質(zhì)上是多個通道的表面肌電信號的匯總,而表面肌電信號作為一種非平穩(wěn)的時序電信號,在采集過程中容易受到外界信號的干擾。因此在對肌電信號進一步分析之前,應進行濾波處理,獲取純凈的肌電活動數(shù)據(jù)。同時,由于實驗中的發(fā)音任務不是連續(xù)的,在特征提取之前需要將完整發(fā)音過程的數(shù)據(jù)單獨分割出來再進行拼接操作,從而得到完整的、具有一定數(shù)據(jù)量級的發(fā)音數(shù)據(jù)。


預處理流程圖


首先將12 個特征與3種分類器進行匹配,并提出4個評估標準對識別性能進行分析。結(jié)果顯示,線性判別分析(LinearDiscriminantanalysis,LDA)和支持向量機(Support vectormachine,SVM)在本文數(shù)據(jù)集中的表現(xiàn)明顯優(yōu)于K最鄰近結(jié)點(K-nearest neighbor,KNN),LDA和SVM的分類性能不相上下,但SVM匹配所有特征時的運行時間都要長于LDA。因此,LDA更適合本文數(shù)據(jù)集的語音識別。同時,在LDA所匹配的12個特征中,波形長度(Waveformlength,WFL)能實現(xiàn)最高分類精度、敏感度和F1分數(shù),在它的運行時長僅比其它特征略高1~2s的情況下,可以認定WFL實現(xiàn)了與LDA的最佳匹配。


總結(jié)

對稱位置通道sEMG信號的分析顯示,發(fā)音過程中對稱位置的肌電信號變化存在高度一致性。并且,單獨使用左側(cè)范圍和單獨使用右側(cè)范圍通道的肌電信號的分類精度高度一致,說明了對稱位置通道可能包含了相同的肌電變化信息,無需重復采集。最后,通道排序的結(jié)果說明了對于不同受試者都可以使用少量電極達到較好的識別性能,具體的通道數(shù)量、位置要因人而異,但是從生理角度去選取通道位置是有一定價值的。


基于高密度表面肌電信號的無聲語音識別研究,可以為后續(xù)無聲語音識別時特征、分類器的選擇提供參考,同時為標準化電極位置、數(shù)量的選取打下基礎。




言語發(fā)聲神經(jīng)電信號測量系統(tǒng)


當前大多數(shù)利用表面肌電信號進行語音識別的研究中,存在使用的電極數(shù)量少、位置選取不夠科學的問題。高密度肌電設備對語音識別時電極位置對識別性能的影響進行分析,來達到更好地選擇電極位置和數(shù)量的效果具有不可替代的作用。


同時在神經(jīng)工程領域,越來越多的研究嘗試同步采集腦電與肌電的信號,用來探索包括發(fā)音在內(nèi)的運動意圖由大腦傳遞到肌肉執(zhí)行的過程中潛在的規(guī)律。高密度腦肌電測量識設備使得研究情緒,肌肉活動到最終發(fā)音的全過程研究與實驗成為可能。


Speech HD-64 型言語發(fā)聲神經(jīng)電信號測量系統(tǒng)是一套采集語音過程中的腦/肌神經(jīng)肉肌電信號的設備,并可通過后端的分析軟件,以及與力學、運動學設備的同步信號分析,開展語言學、無聲通信、言語障礙、人體運動特性、模式識別、假肢設計、虛擬現(xiàn)實等多領域的研究工作。

分散式高密度肌電,每組4、8、16通道傳感器(最大256通道)


腦電模塊(可同步實時采集高密度腦/肌電)



言語發(fā)聲神經(jīng)電信號采集分析軟件


主要優(yōu)勢:

1、多模態(tài)數(shù)據(jù)同步模塊,可實現(xiàn)多種信號實時同步傳輸;

2、可配置設備的采集參數(shù),實現(xiàn)數(shù)據(jù)同步采集功能,可顯示實時波形、實時頻譜圖、實時電勢圖和3D模型姿態(tài);

3、自定義動作序列播放功能,并用Mark點標記動作事件信息;


軟件操作界面


支持肌電、心電、腦電、慣性信號、血氧、血壓的多種信號聯(lián)合采集,并配置設備采集參數(shù)


實時顯示設備的連接狀態(tài)、電量和信號強度


實時顯示波形




實時頻譜圖、時域頻譜





肌肉疲勞分析




自定義動作序列播放功能,并用Mark點標記動作事件信息,不同動作序列用不同顏色表示



如果您對言語研究感興趣,請與我們聯(lián)系!


聲明:文章僅用于學術(shù)交流,不用于商業(yè)行為,若有侵權(quán)及疑問,請后臺留言,管理員即時刪侵!


山西邁爾諾醫(yī)療科技有限公司

山西省太原市小店區(qū)長治路111號山西世貿(mào)中心C座19層1907號

郵編:030000

聯(lián)系電話:15650705728

商務郵箱:menovomed@163.com

晉ICP備2022000724號-1

Copyright ? 2022 邁爾諾醫(yī)療 保留所有權(quán)利