首页
/
每日頭條
/
科技
/
語音識别原理
語音識别原理
更新时间:2025-01-31 19:58:58

  首先,我們知道聲音實際上是一種波。常見的mp3、wmv等格式都是壓縮格式,必須轉成非壓縮的純波形文件來處理,比如Windows PCM文件,也就是俗稱的wav文件。wav文件裡存儲的除了一個文件頭以外,就是聲音波形的一個個點了。

  在開始語音識别之前,有時需要把首尾端的靜音切除,降低對後續步驟造成的幹擾。這個靜音切除的操作一般稱為VAD,需要用到信号處理的一些技術。要對聲音進行分析,需要對聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀。分幀操作一般不是簡單的切開,而是使用移動窗函數來實現,這裡不詳述。幀與幀之間一般是有交疊的。

  每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。

  分幀後,語音就變成了很多小段。但波形在時域上幾乎沒有描述能力,因此必須将波形作變換。常見的一種變換方法是提取MFCC特征,根據人耳的生理特性,把每一幀波形變成一個多維向量,可以簡單地理解為這個向量包含了這幀語音的内容信息。這個過程叫做聲學特征提取。實際應用中,這一步有很多細節,聲學特征也不止有MFCC這一種,具體這裡不講。

  至此,聲音就成了一個12行(假設聲學特征是12維)、N列的一個矩陣,稱之為觀察序列,這裡N為總幀數。觀察序列如下圖所示,圖中,每一幀都用一個12維的向量表示,色塊的顔色深淺表示向量值的大小。

  接下來就要介紹怎樣把這個矩陣變成文本了。首先要介紹兩個概念:音素:單詞的發音由音素構成。對英語,一種常用的音素集是卡内基梅隆大學的一套由39個音素構成的音素集,參見The CMU Pronouncing Dictionary。漢語一般直接用全部聲母和韻母作為音素集,另外漢語識别還分有調無調,不詳述。狀态:這裡理解成比音素更細緻的語音單位就行啦。通常把一個音素劃分成3個狀态。

  語音識别是怎麼工作的呢?實際上一點都不神秘,無非是:第一步,把幀識别成狀态(難點);第二步,把狀态組合成音素;第三步,把音素組合成單詞。

Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
怎樣知道自己電腦内存規格
怎樣知道自己電腦内存規格
當我們選購電腦時,不清楚到底應該選擇多大的内存,買大内存,又覺得費錢,買小了又怕以後不夠用,那麼買電腦時到底要如何選擇适合自己的内存呢?那麼電腦内存容量是越大越好嗎?其實并不是,此前英特爾官微就表示,合适才最重要,因為數據會“分别”存儲在内...
2025-01-31
新手自制起泡膠
新手自制起泡膠
新手自制起泡膠?同學們,機靈姐在起泡膠皇家學院進行了研究,自制發泡膠的自制配方首次發布以下方法各有優缺點您也可以嘗試,下面我們就來聊聊關于新手自制起泡膠?接下來我們就一起去了解一下吧!新手自制起泡膠同學們,機靈姐在起泡膠皇家學院進行了研究,...
2025-01-31
惠普暗影精靈7和8哪個好
惠普暗影精靈7和8哪個好
10月28日,英特爾正式發布了第12代酷睿處理器。而在同一天,惠普也同步推出了搭載英特爾全新第12代酷睿處理器的遊戲台式機——惠普OMEN暗影精靈8。其最高可支持第12代酷睿i9-12900KNVIDIAGeForceRTX309024GB...
2025-01-31
如何修複移動硬盤
如何修複移動硬盤
如何修複移動硬盤?出現故障的原因,是硬盤在使用時電腦突然斷電或非法關機,或使用者在硬盤使用完畢後直接拔下有這種原因造成的移動硬盤故障,我們要先對其進行磁盤檢查,檢查的具體方法如下:點擊“開始”-“運行”-在輸入框中輸入“chkdskk”-按...
2025-01-31
手機充電快沒電也快
手機充電快沒電也快
随着手機的不斷進步與發展,手機的性能也是越來越強大,但是各位小夥伴們有沒有想過,即便是手機再強大,如果你的手機沒電了,不也是一塊闆磚嗎?所以今天小超就為各位小夥伴推薦幾塊100W起步的手機,讓小夥伴們從此告别手機沒電的焦慮。第一款:紅米No...
2025-01-31
Copyright 2023-2025 - www.tftnews.com All Rights Reserved