Shazam算法采用傅里葉變換將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào),并獲得音頻指紋,最后匹配指紋契合度來(lái)識(shí)別音頻。
1、AudioSystem獲取音頻
奈奎斯特-香農(nóng)采樣定理告訴我們,為了能捕獲人類(lèi)能聽(tīng)到的聲音頻率,我們的采樣速率必須是人類(lèi)聽(tīng)覺(jué)范圍的兩倍。人類(lèi)能聽(tīng)到的聲音頻率范圍大約在20Hz到20000Hz之間,所以在錄制音頻的時(shí)候采樣率大多是44100Hz。這是大多數(shù)標(biāo)準(zhǔn)MPEG-1 的采樣率。44100這個(gè)值最初來(lái)源于索尼,因?yàn)樗梢栽试S音頻在修改過(guò)的視頻設(shè)備上以25幀(PAL)或者30幀( NTSC)每秒進(jìn)行錄制,而且也覆蓋了專(zhuān)業(yè)錄音設(shè)備的20000Hz帶寬。所以當(dāng)你在選擇錄音的頻率時(shí),選擇44100Hz就好了。
定義音頻格式:
public static float sampleRate = 44100; public static int sampleSizeInBits = 16; public static int channels = 2; // double public static boolean signed = true; // Indicates whether the data is signed or unsigned public static boolean bigEndian = true; // Indicates whether the audio data is stored in big-endian or little-endian order public AudioFormat getFormat() { return new AudioFormat(sampleRate, sampleSizeInBits, channels, signed, bigEndian); }
分享標(biāo)題:Java實(shí)現(xiàn)Shazam聲音識(shí)別算法的實(shí)例代碼-創(chuàng)新互聯(lián)
本文鏈接:http://www.rwnh.cn/article48/dcoeep.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營(yíng)銷(xiāo)推廣、網(wǎng)頁(yè)設(shè)計(jì)公司、定制開(kāi)發(fā)、手機(jī)網(wǎng)站建設(shè)、域名注冊(cè)、網(wǎng)站設(shè)計(jì)公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容