如何将多个声音合成为一个声音?(200分)

  • 主题发起人 主题发起人 szyc927
  • 开始时间 开始时间
S

szyc927

Unregistered / Unconfirmed
GUEST, unregistred user!
环境假设:
A、B、C三台计算机通过麦克风将采集的声音分别传到D计算机,D将其合成为一个声音,再传到其他的计算机。

请问应如何实现?
 
在Internet上传递声音
提交日期:2003-8-1

关键词:Internet 传递声音
  在几年以前ip电话被炒的沸沸扬扬,但用过的人都觉得这个技术非常不成熟,语音质量很差,时断时续,还经常有延迟,结果这项技术的应用没有普及开来。但随着internet应用的越来越广泛以及相关技术发展的日新月异,声音质量不断提高,通过internet打电话早已不再是梦想,已经成为了我们生活中的一部分。今天我使用ip电话打长途,每分钟只需要3毛钱,使用oicq的语音聊天,网友仿佛就在你的身边。如果我们的带宽足够的,我们甚至还可以在网上收看quicktime视频直播,用realaudio收听电台广播,也可以点播好听的mp3歌曲。不过对于程序员来说,更好的消息是我们对于这些媒体流的编程也也变得越来越容易。为什么这么说呢,下面让我们先来了解一下codec。

codecs

  什么是codecs?其实它就是音频压缩的解码编码器,实际上有点类似activex控件。activex控件使程序员可以调用一些他人实现好的功能而无需从头做起。codecs提供了类似的功能,只不过它集中在提供如何对媒体格式进行转换的功能。例如,如果想写一个把cd转mp3的应用程序,我们只需要做下列工作:

l 从cd音轨中读取数据。

l 生成一个有效的mp3文件头。

l 调用相应的codec把音轨数据编码为mp3。

windows本身已经带了很多的codec。下面是其中几个的说明:

名称
名称

pcm
用于生成windows标准声音格式。大多数codec支持的声音格式都可以和它相互转化。

gsm
好像用于某些移动电话网络。

dsp truespeech
可以生成一种一位的声音格式用于语音通话-声音非常清楚。

fraunhoffer iis mp3
这种可以用来生成mp3格式。



  当前安装的codec的完整列表可以通过察看控制面板中多媒体的部分来获得。

acm api

  acm是"audio compression manager"缩写,翻译过来就是声音压缩管理器。它是微软编写的用于调用codec功能的接口函数库。它本来应该声明在mmsystem.pas单元中,但是由于某些原因borland把它给省略了。所以我们要作的第一件事是找到它的api声明单元msacm.pas。必须要感谢francois piette,他共享了他转换的单元文件,我们可以从www.delphi-jedi.org下载它。

  使用acm转换媒体格式包括以下几步:

  l 首先必须指定输入输出格式,我们需要设定twaveformatex记录, 但是这个结构记录太小无法容纳大多数codec所需要的信息。为了解决这个问题,我们使用一个自定义的 tacmformat记录,这个记录在twaveformatex的基础上增加了128字节。

  l 打开一个acm流。首先调用acmstreamopen函数,把输入输出格式作为参数传递过去。然后acm或者返回一个有效的句柄或者返回一个错误代码(比如acmerr_notpossible)来表明转换的请求无法完成。

  l 接下来要确定输出缓冲区的大小。调用acmstreamsize函数会通知acm每次我们将生成多少字节的数据,然后函数会返回请求大小的缓冲区(我们总是应该高估一下大小,保证提供一个足够大的缓冲区)。

  l 然后,我们要生成一个转换头。需要调用acmstreamprepareheader函数,把先前调用acmstreamopen函数返回的流句柄作为参数。生成的转换头会告诉acm源缓冲区和目的缓冲区的地址。acm不会自动分配内存,我们必须自己来申请内存。

  l 所有的准备工作基本上完成了,只剩下如何转换数据了。这是非常简单的,只需要调用acmstreamconvert函数。acmstreamconvert函数的参数包括流句柄和转换头句柄。这个函数通过设定转换头中的cbdstlengthused表明转换过程中真正被使用的字节数。

  l 一旦完成了acm的会话,我们必须释放使用的全部资源。转换头用acmstreamunprepareheader函数来释放,流用acmstreamclose来关闭。

选择格式

  正如前面提到的,在开始转换以前必须先设定输入输出格式。twaveformatex记录(声明在mmsystem.pas单元中),它仅仅指定了比特率,频率等等。除非我们只打算在不同的pcm格式间进行转换,否则twaveformatex是不够用的。下面是它的替代格式:

tacmwaveformat = packed record

case integer of

0 : (format : twaveformatex);

1 : (rawdata : array[0..128] of byte);

end;


  这个变体记录使我们仍然可以读取twaveformatex结构数据,同时rawdata提供了足够的空间来容纳其它codec需要的额外信息。

  虽然我们不知道额外信息的大小,但我们可以使用acmformatchoose函数来获得。

  acmformatchoose函数只需要一个tacmformatchoosea类型的参数。这个参数是一个简单的结构可以包括下列信息:



成员
说明

pwfx
一个twaveformatex结构指针用来接收结果(这里我们实际上用的是tacmformat)。

cbwfx
接收结果的缓冲区大小。

cbstruct
结构大小。



另一个值得一提的成员是fdwstyle, 它包括用来指定格式额外信息的标志。特别是下面这个标志:

acmformatchoose_stylef_inittowfxstruct

这个标志表明pwfx指向的缓冲区已经包括了一个有效的格式,当acmformatchoose函数调用后,会显示一个格式选择对话框,有效格式将显示为缺省值。

什么情况下无法转换?

一个原因就是一台机器上有的codec可能另一台机器上没有。这样导致了你可以读取一个声音格式,但无法生成这个声音格式。fraunhoffer iis mp3 codec就有这个问题。在windows 9x 和windows nt下,我们可以生成mp3文件,但在windows 2000却去掉了这一功能l,结果虽然在windows2000下我们可以听mp3,当我们无法生成mp3,除非我们交一笔钱,faint。

另一个原因是并非所有的acm格式可以相互转换。比如,我们无法在下面的格式间转化:

gsm 8位 单声道 > mp3 8位 单声道

虽然无法直接转换,但可以通过中间格式来间接转换,中间格式通常是pcm格式,这是因为绝大多数codec都支持pcm格式的转换。新的转换途径就变成了:

gsm 8位 单声道 > pcm 8位 单声道 > mp3 8位 单声道

而转换为"mp3 16位 立体声"还需要增加一步,就是把8位 pcm格式转换为16位pcm格式。

acm的潜在本领

可能从上面的介绍来看acm的功能很有限,仅仅是能把一个媒体格式转换为另一个媒体格式。不过一想到需要自己写一个可用于internet的声音流的编码解码器的工作量,比如mp3的压缩函数,你就会发现acm真的是个好东东,价格便宜量又足j。

同时想像一下有了acm我们实现一个internet电话是多么的简单,首先从麦克风获得输入的声音数据,压缩为一个合适的基于低带宽的流格式,然后通过tcp/ip协议传到目的计算机。同时,目的计算机接收压缩的数据,解压缩,最后通过扬声器播放出来。

acm的潜在本领就在这里,有相当多的acm codec是可映射为wave格式的,这就是说它们可以作为标准的波设备来实时的播放或记录音频。而网络电话的最主要的要求之一就是实时性。

比如,我们可以很容易的打开一个gsm的声音输入源,一旦我们从波输入设备接收到数据,数据就已经被压缩好了,可以立即传输。同时,一旦通过tcp/ip socket接收到了数据,我们马上可以通过波输出设备播放之。

要注意标准的pcm格式数据对于通过modem实现实时的语音传输来说实在是太大了,而gsm 6.1只要1.5k/秒就可以达到实时的效果,而16位单声道的mp3 也仅仅需要2k/秒的带宽。

另外对于mp3格式来说,它可以作为一个播放格式,但它不适合作为输入格式(因为只有windows nt平台上的mp3 codec才支持mp3的编码),通常我们需要用其它程序手工转换生成mp3,所以它不适合应用在网络电话上,不过它是非常适合于网络点播的,因为它的压缩比高,而且音质失真少。

原理就是象上面描述的那样简单,但很多事情总是说起来容易,做起来难。所以,下面实现了几个控件和程序来实际的演示一下。由于代码比较长,这里就不详细列出来了,只简单的说明一下。

控件

l tacmconverter:这个控件有两个作用。第一,它可以在两个不同媒体格式间转化数据。第二,这个控件可以用来指定acm流的输入输出格式。(用右键调出控件的控件编辑器可以在设计时调用acmformatchoose函数显示格式选择对话框来指定格式)。

l tacmin:用来从麦克风接收数据,我们使用标准的pcm格式或其它波输入设备支持的格式来记录数据。

l tacmout:这个控件是用来回放声音的。numbuffers属性可以用来指定开始播放前使用的缓冲区数。这对于实时音频传输意义不大,但对于在internet上音频广播却是很方便,同时当连接数据波动时可以缓冲额外的音频数据。
 
后退
顶部