音樂訊號的基本特徵 - 音樂訊號分析與檢索 第三週

Posted by JSON on March 15, 2016

音訊常被使用的幾個特徵

  1. Volume
  2. Pitch
  3. Spectrum
  4. Zero Crossing Rate

我們的目標是對這些特徵作量化的計算,以利進一步的處理與辨識。

普遍的音樂分析的步驟:

  1. 定出Frame大小,如:20~40ms為一個frame
  2. 以Frame為單位,取出Volume, Pitch, Zero-crossing rate…等特徵
  3. 以Frame為單位進行分析

Frame Blocking

Frame Blocking

Example:

  1. Sample Rate為16KHz,Frame Size為512Samples, Frame duration=512/16000=0.032=32ms
  2. 承上,Overlap為192Samples, Hop Size=512-192=320SamplesFrame Rate=16000/320=50frames/sec

Time-domain三個最重要的Features(in frame)

  1. Intensity
  2. Fundamental Period(FP)
  3. Timbre:FP的波形

Frequency-domain三個最重要的Features(in frame)

  1. Energy:每個Sample的總和
  2. Pitch:諧波之間的距離
  3. Timbre:Samples取平滑的線

Matlab打包音訊資料成Frame

[y, fs] = audioread('file.wav');
frameMat = enframe(y, frameSize, overlap);

frameMat得到的矩陣,每一欄都是一個frame。

Volume

compute volume in a frame:

volume的大小會受frame size決定的大小的影響。

Zero Crossing Rate(ZCR)

the number of zero crossing in a frame, bit resolution越低,會更容易發生Zero Crossing。 ZCR可用來偵測unvoiced sounds的開頭與結束,或者是區別其雜訊。

Pitch

fundamental frequency,每秒有幾個fundamental period,單位為hertz(Hz), 更常用的單位為semitone,計算方式:

`

Tones

  1. Tone1: high-high(中文的一聲)
  2. Tone2: low-high(中文的二聲)
  3. Tone3: high-low-high(中文的三聲)
  4. Tone4: high-low(中文的四聲)

Tone Sandhi:例如總統應為兩個三聲,但發音上習慣發成二聲+三聲。 「請老李給我買五把好雨傘」全為Tone3,但在說的時候不會全發三聲,理解Tone Sandhi有助於TTS(Text to speech)。

Beat

兩頻率近似的聲音產生的干涉

可聽見的干涉頻率為: