关于音频分析(200分)

  • 主题发起人 主题发起人 EdwinYeah
  • 开始时间 开始时间
E

EdwinYeah

Unregistered / Unconfirmed
GUEST, unregistred user!
请为以下软件设计提供总体思路:
对环境进行录音,当有人说话,或某种声音(如铃声)响起时才开始录音。
由于录音时间较长,事后对音频文件的分析要定位到特定位置再用人耳分析,如定位到“拉登”这个词(应为“拉”字)的开始位置,然后播放。
问题:
1.如何判断某种声音响起?
2.如果定位到特定声音?
 
这两个问题是如此的简单,还用的着问?特别是第二个问题.
你找个好一点的导师,老老实实读完硕士读博士不就会了.
 
to LeeChange,
简明就好,可否提点一二?小弟实在是基础差得不得了。
 
应该没有完整的语音识别那么复杂,因为我不需要整句识别,只要定位到
某个发音上即可,是不是应该通过频率定位?
 
算法很难的,就算你在某种
特定环境下搞出来了,适应性也极差
 
属于关键字识别,最简单的办法就是监测共振峰,
先用fft转到频率强度上,然后监测,
比如200 300 400 500...某几个特征频率上同时超过了某一阀值。
 
第一个问题比较简单
第二个问题有点难
如果录音时间很长的话
那么检测的时间就需要很长的时间
 
多人接受答案了。
 
后退
顶部