不知道算不算语音编程的问题 --by 萧月禾 (300分)

  • 主题发起人 主题发起人 萧月禾
  • 开始时间 开始时间

萧月禾

Unregistered / Unconfirmed
GUEST, unregistred user!
好久没上大富翁了,有个问题想向大家请教一下。

简单来说,有这样的需求,用程序截获一段录音,比如,录音内容是
“您的编号是:1234号”,除了其中的“1234”,其他部分内容都是
固定的事先录好的,我想通过程序分析出到“1234”这个数字出来,
当然它也可能是“5678”了,同时,从 0-9 这10个数字的音也是事
先对方录好的,通过程序截获到这句话,再比较分析其中的“编号值”。

有没有简单的办法可实现这个需求?因为所获取的声音内容和音调
都是事先录制(数字部分根据实际组合),可事先知道它的音频等
有关信息,凭这点能否简单地用类似字符串比较的方式来达到目的?

以前我也没弄过类似的东东,有些想当然了。还请有经验的朋友指点
一下。

(放在“多媒体”版会不会比较少人看呀?我一向在数据库版混的)
 
呵呵,我一向是在 OP 版混的:)

我觉得应该涉及到XX降噪、特征提取等方面的东西,具体嘛。。。完全不知道:)


 
可否把声音作为一个对象比较?一个声音对象都有哪些元素呀?
 
还是装个语音识别的东东吧,然后分析识别出来的文本.
 
参考一下,看能不能整合到你的程序中
http://www.ctiforum.com/factory/f02_02/www.microsoft.com/microsoft03_0801.htm
 
语音的格式?如果是最简单的语音,切出这部分后,用IBM的语音识别函数
 
这个成功的话应该是突破性的,顶一下。
 
关于语音识别,那些语音录入的工具,在使用前都要进行“语音训练”,以分析和记录
使用者的声音特征,那么,这些“声音特征”都包括什么内容?可否在程序中对其进行
设置和组合?一段“声音”,究竟在程序中是以什么方式来描述?一堆问号在我周围晃
来晃去。。。。
 
大家好象对这个问题不感兴趣,或许以为没什么机会用到罢
其实它非常有用,等完成后,我会告诉大家我要拿它来做什么。。。。
 
特地上来看了一下, 不过还是不懂这方面的东西
这是要做个简单的语音识别了, 只识别数字
 
这个东西是拼语音阿..
没什么吧...
你把数字的部分变成录好的文件播放就行了..动态生成一个wav文件什么的.不就行了吗?
您的编号是.wav + 1.wav + 2.wav + 3.wav + 4.wav
 
 
這方面我不清楚了。但這個人一定可以幫你:
http://www.delphibbs.com/delphibbs/dispu.asp?username=hfghfghfg
 
我觉得用文件名来判断应该是比较容易的办法,比如发“1”的声音文件就是1.wav,发“2”的声音文件就是2.wav,依次类推,比较声音内容比较复杂而且也麻烦,不一定可行。不过如果1234读1 2 3 4还算比较容易,如果读1千2百3十4就更麻烦了,呵呵,这种发音的程序我没写过,直接翻译成汉字的程序是网上一大堆呵呵。
 
to itren, delphilai:
不是这个概念。。。。。。。
 
>关于语音识别,那些语音录入的工具,在使用前都要进行“语音训练”,以分析和记录
>使用者的声音特征,那么,这些“声音特征”都包括什么内容?可否在程序中对其进行
>设置和组合?一段“声音”,究竟在程序中是以什么方式来描述?一堆问号在我周围晃
>来晃去。。。。
我认为是记录声音的一些频率特征,就如音乐中的音调(高中低),但是处理比之更复杂。
你可以做个试验,把几个不同场合不同人的声音(所说的内容相同)录下来,用波表软件打开比较一个相同的字的波形----应该轮廓相似…………如果在程序中将这些声音全部滤去一部份,波形应该相同…………是不是可以朝这方面考虑考虑,又或者根据声音波形转换成图形曲线,比较曲线的相似性以确定数字……仅供参考
 
不好意思,今天才登上QQ...

这是一个模式识别的问题,老兄去 http://www.pris.edu.cn 看看吧...
 
呵呵,今天才上qq,看来萧月禾得qq上面不少人。
又是模式识别,这几天被图片的识别搞得头都大了。
感觉好多朋友吧这个问题分析的有点大,不好下手。
首先,需要搞清楚的是都是实现录制好的,那么就是说0-9这些数据是一定可以比较的。
就是说0和0是完全相同的,那么,就是如何匹配的问题了。
这个跟我正在做的东西差不多,将所有的0-9的声音数据按照一个指标转化为线性,比如说
按照强弱线性化,然后将各个数据间异或,找出来每一个数据的特征,取最先或者最突出
的特征(比方说,0在0.235秒又一个强度为75的特征,其他的1-9都没有)。那么,当取得
数据的时候,从时间顺序或者其他顺序(按照你取特征值的方法而决定,我这里是用时间
做例子)来依次判断出来代表的意义。
 
多人接受答案了。
 
后退
顶部