音乐节拍如何获取?(很有意思........)(100分)

  • 主题发起人 主题发起人 jack011
  • 开始时间 开始时间
J

jack011

Unregistered / Unconfirmed
GUEST, unregistred user!
音频的波形曲线我知道如何获取,也能画出来!

但是音频(音乐)的节拍不知道如何获取,哪位高手有做过这样东东呢?
音频的波形曲线和节拍有关系吗? 请各位多多指教!
 
怎么没人回答,冷场了
建议先和音乐老师交流
呵呵
 
我觉得节拍应该是认为划分的,很难取出来。
 
概念有点糊涂了,那音频的每一时刻频率是如何获取的呢?
 
数字化生活之——数字音频基础知识大串烧


  声音是信息传播的载体之一,是多媒体技术研究的一个重要的内容。我们甚至可以预言,数字音频是未来音频处理的必然趋势。然而,在数字化音频的时代,普通用户对于数字音频还是知之甚微。本文着重从基础谈起,希望能对渴求基础知识的读者有所帮助。
留声机发明后,人们希望保存声音的愿望变为现实,而如今音频处理的发展早已不仅仅满足于单纯地记忆声音,音频处理技术自上世纪末开始伴随着个人PC的发展和普及得到迅速的发展。

  在模拟音频技术中,通常以磁介质来记录声音。这一原理很容易理解,例如话筒则是模拟录音中常用的工具,它把声波信号转换为电信号,随着声波信号的变化,话筒内电流的强弱也产生相应的变化。这种变化经过放大处理后传递到磁头,从而产生连续的强度不同的磁场,进而磁化磁带上的磁性材料。于是声音就这样保存在了磁带上。值得注意的是,模拟音频的记录方式是线性的,这条线是由无数个连续变化的磁场状态组成的。因而我们无法从中找取一个代表声波元素的绝对磁场强度,每个点的磁场强度都不是单独存在的。因此,存储介质的磁性变化将会直接影响到模拟音频的回放质量。

  而数字音频没有这样的烦恼,即使被复制无数次,数字音频信号绝对不会出现任何信号丢失或发生变化的情况。为什么数字音频有这样的特性?数字音频技术,是通过将声波波形转换成一连串的二进制的数据来保存声音的。实现这个步骤主要依靠模/数转换器(ADC,Analog to Digital Converter),它每隔一个时间间隔不停地间断性地在模拟音频的波形上采取一个幅度值,这一过程我们称之为采样。而每个采样所获得的数据与该时间点的声波信号相对应,它称之为采样样本。将一连串样本连接起来,就可以描述一段声波了,而每秒钟对声波采样的次数我们称之为采样频率,单位是Hz(赫兹)。对于每一个采样,系统会分配一定的储存位数(bit数)来表达声波的振幅状态,称之为采样精度,这一过程也可称之为量化。采样精度越高,声音被还原的就越细腻。数字音频是经过采样和量化后得到的。时间上的离散叫采样,幅度上的离散叫量化。随后按一定的格式将离散的数字信号记录下来,并在数据的前、后加上同步和纠错等控制信号,即完成了转化工作。

   我们很明显的看出,模拟音频在时间上的连续性是数字音频无法比拟的。而数字音频,我们可以将其看作一个数字序列,只能以限的二进制数据来表示一段音频信号。这就是模拟音频和数字音频最根本的区别所在。
   上面介绍了关于数字音频的一些基本知识,现在再为其中出现的相关术语做进一步的详细说明。


1.采样频率(Sampling Rate)
  采样频率是指每秒钟抽取声波幅度样本的次数,其单位为Hz(赫兹)。例如,CD音频通常采用44.1kHz的采样频率,也就是每秒钟在声波曲线上采集44100个样本。傅立叶定理表明,在单位时间内的采样点越多,录制的声音就越接近原声。我们可以从时间概念上来理解采样频率,采样频率越高,数字音频则越接近原声波曲线,失真也就越小。当然,高采样频率意味着其存储音频的数据量越大。采样频率的高低是根据奈奎特采样定理和声音信号本身的最高频率决定的。该定理指出:采样频率不应低于原始声音的最高频率的2倍,这样才能把以数字表达的声音还原成原来的声音。众所周知,人耳的响应频率范围在20Hz~20kHz,根据奈奎特采样定理,为保证声音不失真,采样频率至少应保证不低于40kHz。此外,由于每个人的听力范围是不同的,20Hz~20kHz只是一个参考范围,因而通常还要留有一定余地,所以CD音频通常采用44.1kHz的采样频率。

2.采样精度(Bit Resolution)


http://www.jxnews.com.cn/images/n987/pic_17756.jpg
l8c-1.jpg 采样精度示意图,图中曲线即波形音频曲线。

  采样精度直接关系到音频文件的品质,主要用于描述每个声音样本的振幅大小,其单位为bit(位),常用的有8位、12位和16位等。那么8位、12位和16位到底可以表示多少个不同的振幅状态?我们可以这样理解:计算机数字信号最终归于二进制数字表示,即为“0”、“1”两个数字。那么拿8位采样精度来说,即可以描述2的8次方=256(0~255)个不同的振幅状态。同理,16位采样精度则可以描述216(16上标)=65536(0~65535)个不同的状态。大家可以看到左图中采样精度越高,数字音频曲线越接近原声波曲线。因而采样精度越高,就能得到更接近原声的音质,声音的保真度也就越高。通常16位的采样精度足以表示从人耳刚听到最细微的声音到无法忍受的巨大的噪音这样的声音范围了。同样,采样精度越高,表示的声音的动态范围就越广,音质就越好,但是同样的储存的数据量也越大。

3.量化
  这个过程就是把整个振幅划分成有限个小幅度,每一个有限的小幅度赋予相同的一个量化值(振幅状态),用于表示采样精度可以描述的振幅状态的数量。量化的方法大致可以分成两类:

(1)均匀量化:也就是采用相等的量化间隔来度量采样得到的幅度。这种方法对于输入信号不论大小一律采用相同的量化间隔,其优点在于获得的音频品质较高,而其缺点在于音频文件容量较大。

(2)非均匀量化:即对输入的信号采用不同的量化间隔进行量化。对于小信号采用小的量化间隔,对于大信号采用大的量化间隔。虽然非均匀量化后文件容量相对较小,但对于大信号的量化误差较大。

  数字音频文件是有大小的,比如一首MP3通常有4~7MB,那么这是怎么计算出来的呢?这里有一个公式可以推算在计算机中音频文件的大小:

  文件每秒存储量(字节)=采样频率(Hz)×采样精度(位)×声道数/8

  一张标准数字唱盘(CD-DA红皮书标准)的标准采样频率为44.1kHz、量化位数为16可以计算出每秒钟WAVE文件的大小=44100×16×2/8=176400Bytes≈168.2KB,这样,如果一首5分钟的CD音频歌曲,那么它的大小大概是0.1682×60×5=50.468MB,因而一张650MB的CD光盘通常只存10~14首歌曲。

(远望资讯)
 
技术与标准--音频
什么是声音…
稍有物理知识的人都会知道,声音是因为物体的振动而产生的。音乐是听觉艺术,其最基本的构成就是声音。但是并不是我们在自然界中听到的一切声音都可以作为音乐的构成材料。在音乐体系中用到的声音,是无数人经过长期实践精选出来的、最能够体现人类感情的声音。这些声音组成了一个固定的乐音体系,又经由几十代音乐大师之手,创作出了无数优美、动人、振奋人心的传世佳作。
从听觉角度来讲,声音主要由四种属性——高低、长短、强弱、色彩(即常说的音色)。其中:
音的高低是由发音源在一定时间内的振动次数(频率)来决定的。振动次数越多,频率越高,音也就越高。反之则低;
音的长短是由发音源振动时所持续的时间来决定的。持续的时间越长,音越长,反之则短;
音的强弱取决于由发音源的振动幅度(振幅),幅度越大,音越强,幅度小音就弱;
而发音源的材质、形状及泛音数的多少则决定了音色。
声音的以上这四种属性,在音乐的表现中都是非常重要的,其中又以“ 高低”和“长短”最为重要。比如一首歌曲,本来是由人声演唱的,但是如果我们把它改编为器乐曲、并且减小音量,虽然改变了音的长短和音色,但是仍然可以很容易地分辨出它的旋律。但是,如果我们把这首乐曲中每个声音的长短、高低随意的改变 ,其原来的旋律马上会受到严重的破坏——面目全非呀!由此可见,无论是创作、演奏、歌唱的时候都应该对声音的高低(音高)和长短(即后面 要谈到的“时值”、“节奏”)加以特别的注意。
由于物体在振动的时候并不是总是规则的,所以声音又有“乐音”和“噪音 ”之分。规则振动发出的是乐音,反之则称为噪音。在音乐中,用的最多的是乐音,但是这并不代表噪音就不属于音乐的组成部分,乐队中的大部分节奏打击乐 器所发出的声音就属于噪音,但它同样具有非常丰富的音乐表现力,甚至成为了现代通俗音乐中不可缺少的部分。
最后,还需要再提到的一点是——我们平时听到的某一个音都不只是一个单独的纯正的音在响,而是许多个声音的结合,我们称之为“复合音”。这是因为物体在振动的时候不仅整体在振动,而且各个部分也在振动。以吉他为例,在我们拨响一根琴弦地的同时,这根琴弦的1/2、1/3、1/4……各个部分也都在分别振动。这种由琴弦(发音源)整体振动产生的声音称为“基音”,是最容易被人耳听到的音。其它部分振动产生的音,称为“泛音”在与基音同时发声的时候是不容易被听到的,除非我们刻意地抑制基音,突出泛音。比如吉他中的自然泛音和人工泛音奏法。为了说明这个理论,更直观的理解,有吉他的朋友可以在每条弦的第12品附近做一个试验。——先用左手的小指轻轻地虚按在任意一根弦的第12品位置(琴弦不要碰到音品),然后用右手拨动这根弦,同时马上抬起左手的小指。这时你会听到一个不同于弹奏这根弦的空弦或第12品时的、非常特别的声音,这就是泛音。现在,观察一下儿吉他第12品对于琴弦来讲的大概位置。怎么样?对了是1/2处!同样1/3处(第7品)、1/4处(第4品)都有这种声音。


数字音频基础
大家知道,无论现在的多媒体电脑功能如何强大,其内部也只能处理数字信息。而我们听到的声音都是模拟信号,怎样才能让电脑也能处理这些声音数据呢?还有,究竟模拟音频与数字音频有什么不同呢?数字音频究竟有些什么优点呢?这些都是我们下面所要介绍的。
把模拟音频转成数字音频,在电脑音乐里就称作采样,其过程所用到的主要硬件设备便是模拟/数字转换器(Analog to Digital Converter,即ADC)。采样的过程实际上是将通常的模拟音频信号的电信号转换成许多称作“比特(Bit)”的二进制码0和1,这些0和1便构成了数字音频文件。如下图,图中的正弦曲线代表原始音频曲线;填了颜色的方格代表采样后得到的结果,二者越吻合说明采样结果越好。

上图中的横坐标便是采样频率;纵坐标便是采样分辨率。图中的格子从左到右,逐渐加密,先是加大横坐标的密度,然后加大纵坐标的密度。显然,当横坐标的单位越小即两个采样时刻的间隔越小,则越有利于保持原始声音的真实情况,换句话说,采样的频率越大则音质越有保证;同理,当纵坐标的单位越小则越有利于音质的提高,即采样的位数越大越好。有一点请大家注意,8位(8Bit)不是说把纵坐标分成8份,而是分成2^8=256份;同理16位是把纵坐标分成2^16=65536份;而24位则分成2^24=16777216份。现在我们来进行一个计算,看看一个数字音频文件的数据量到底有多大。假设我们是用44.1kHz、16bit来进行立体声(即两个声道)采样,即采样成标准的CD音质(也称作红皮书音频)。那么就是说,一秒钟内采样44.1千次,每次的数据量是16×2=32bit(因为立体声是两个声道)。而大家知道,一个字节(Byte)含有8个位(Bit),那么一秒钟内的数据量便是44.1k×32bit /(8bit / Byte)=176.4 kByte。一个汉字在电脑里占用两个字节,那么176.4kB的空间可以存储 176.4k / 2=88200个汉字,也就是说一秒钟的数字音频数据量与近九万个汉字(一部中篇小说)的数据量相当。由此可见,数字音频文件的数据量是十分庞大的。
也许有人会问,为什么要把CD音质的采样频率规定成44.1kHz而不是其他的频率呢?这个问题问得好。44.1kHz意味着每秒采样四万多下,这会不会太多了点呢?究竟每秒采样多少次才算合理呢?大家请看下图。图中,上半部分表示原始音频的波形;下半部分表示录制后的波形;红色的点表示采样点。

大家可以发现,上下波形之所以不吻合,是因为采样点不够多,或严谨一点说,是采样频率不够高。这种情况,我们称之为低频失真。
一个常见的低频失真的例子便是电影上车辆行驶时车轮转动的情况(一个典型的“马车轮”效应的例子)。你也许早已发现,飞快转动的车轮有时看起来似乎是静止不动甚至会向反方向转动(类似的情况也发生在直升飞机的翼片和螺旋浆上面)。 关于合理的采样频率这一问题在Nyquist(奈奎斯特)定理中早已有明确的答案:要想不产生低频失真,则采样频率至少得是录制的最高频率的两倍(上图中,采样频率只是录制频率的4/3倍)。这个频率通常称作Nyquist极限。
在正常的音乐中,最高的音符也只不过7kHz-8kHz,这似乎意味着16kHz的采样频率便已足够。其实这7、8kHz仅仅表示基音的音高,还有大量的泛音未包括在内,故用这种方法来定采样频率是十分不科学的。其实,所谓“不失真”,换句话说便是“人们听不到失真”。人类的听力范围是20Hz-20kHz,所以采样频率至少得是20k×2=40kHz便可保证不产生低频失真。CD音质的44.1kHz正是这样制定出来的(略高于40kHz是为了留有余地)。按照Nyquist定理,这样的采样频率可以保证即使是22.05kHz的超声波也不会产生低频失真。而音频的工业标准所规定的48kHz采样频率(如DAT,Digital Audio Tape)则有更高的Nyquist极限,满足更苛刻的要求。
那么数字音频又是如何播放出来的呢?首先,将这些由大量数字描述而成的音乐送到一个叫做数/模转换器(Digital to Analog Converter,即DAC)的线路里。它将数字回变成一系列相应的电压值,然后通过有助于稳定的保持线路,最后将信号由低通滤波器输出。这样,比较平缓的具有脉动电压的模拟信号可继续发送至放大器和扬声器,电流经过放大再转变成声音。
相对应的模拟音频又是怎样录制与播放的呢?首先,声波通过麦克风,空气分子的振动转变为电信号的波动(数字录音也必需经过这一步)。录音磁头的电磁铁根据通过电流的大小而产生大小不同的磁场,磁场的变化情况会相应的记录在磁带上(实际上是磁带上的磁粉排列发生了变化),这样便完成录音过程。播放时,放音磁头读出印记在磁带上的磁场大小变化的情况(即磁粉的排列位置),并转变为相应的电信号。之后的情况与数字音频的播放完全类似,即这些波动的电信号(模拟信号)继续传送至放大器和扬声器,电信号重新转变为声音(即空气分子的振动)。
说到这里,我们可以理解数字录音的好处了。首先,录制好的音乐是以数字来储存的,而数字的传输错误率是相当低甚至是可以避免的,所以录制好的音乐可以多次复制而效果不减(这在制作过程中十分重要)。而模拟信号则每传输一次就失真一次。而且,模拟录音的本底噪音很大,要想满足严谨的录音要求则需要购买复杂而又昂贵的设备,操作也十分繁琐。况且,处理数字信息是电脑的拿手好戏,只需面对显示器,所有的工作都可以弹指一挥间完成。正是基于以上这些优点,使得建立一个家庭工作室(Home Studio)显得非常具有吸引力,并且技术上也成为可能。

常见的音频文件介绍
我们都知道,声音是由振动而产生的一种波,传统的声音处理方法都是模拟方法,其一般过程是通过声音录入设备把声音的振动转化为电流,通过一定的模拟电路进行放大和处理,再经磁设备记录到磁带上或送到音箱。传统的模拟方法存在消除噪声难、易失真、不易修改等缺点。数字化方法能有效的克服模拟方法的缺陷,声卡正是用数字化方法来处理声音,包括数字化录音、编辑、播放等方式。
获取数字化声音的过程实际上就是声音的模数转换(D/A)过程,采样频率(Sampling Rate)和采样大小(Sampling Size)是数字化录音时的两个基本指标。 采样频率是单位时间内的采样次数。采样频率越大,采样点之间的间隔越小,数字化得到的声音就越逼真,但相应的数据量就越大,处理起来就越困难。根据硬件的支持不同,采样频率可以从8KHz(8000次/s)到96KHz。44.1KHz就是通常所说的CD音质的采样频率。
采样大小即是记录每次采样值大小的数值的位数,决定采样的动态变化范围。采样大小通常有8-Bit、16-Bit、24-Bit、32Bit等。按8-Bit进行的采样能描述2的8次方,即256种变化,按16-Bit进行采样则能描述2的16次方,即65536种变化。
声道一般有单声道(MONO)、立体声(Stereo)。数字化声音的播放过程就是数字化声音的数模转换。数字化声音的采集(AD)和播放(DA)是由音频卡的数字信号处理芯片DSP来完成的。
电脑上常见的音频格式通常分为midi文件和声音文件两大类。其中,Midi文件是一种音乐演奏指令的序列,就像乐谱一样,可以利用声音输出设备或与电脑相连的电子乐器进行演奏,由于不包含具体声音数据,所以文件较小。而声音文件则是通过录音设备录制的原始声音,直接记录了真是声音的二进制采样数据,通常文件较电脑音乐在现在市面上,可见的主要格式由以下10种:
1、 MIDI(.MID):
MIDI是乐器数字接口的英文缩写,是数字音乐/电子合成乐器国际标准。MIDI目的是解决各种电子乐器间存在的兼容性问题。MIDI规范不仅定义了电脑音乐程序,音乐合成器及其电子音乐设备交换音乐信号的方式,而且还规定了不同厂家的电子乐器与电脑连接的电缆和硬件及设备见数据传输的协议,可用于为不同乐器创建数字声音,能很容易的模拟钢琴,小提琴等传统乐器的声音。MIDI本身并不能发出声音,它是一个协议,只包含用于产生特定声音的指令,而这些指令则包括调用何种MIDI设备的声音,声音的强弱及持续的时间等。电脑把这些指令交由声卡去合成相应的声音。最初,因为不同MIDI设备的乐器音色排列方法不一,所以会造成同一MIDI文件在不同的设备会出现完全不同的放声效果。为避免出现这种混乱情况,GM(GENERAL MIDI)标准被提出并得到了WINDOW操作系统的支持,得到了相当广泛得应用。它规定了前128中常用乐器的音色编排方式,例如1号是钢琴,66号是萨克斯管等等,它实际上是对midi规范的补充。 ROLAND公司提出的GB标准兼容GM的基础上,对其进行了发展,增强了音乐的表现力--他提供比gm标准数量更多的打击乐器组合更多的特殊音响。gs标准具有广泛的软硬件适应性,包括声卡,音乐爱好者的娱乐乐器啊到专业音乐器材等。后来,yamaha公司又提出了基于gm标准的xg标准。相对于保存真实采样数据的声音文件,MIDI文件显得更加紧凑,其文件的大小要比WAV文件小的多--一分钟的WAV文件约要占用10MB的硬盘空间,而已分钟的MIDI却只有区区的3.4KB。现在,MIDI已经成为电脑音乐的代名词。 电脑播放MIDI文件时,有两种方法合成声音;FM合成和波表合成。FM合成是通过多个频率的声音混合来模拟乐器的声音,波表合成是将乐器的声音样本存储在声卡波形表中,播放时从波形表中取出来,产生声音。采用波表合成技术,可以产生更逼真的声音。 MIDI文件有几个变通的格式,其中CMF文件是随声卡一起使用的音乐文件,于MIDI文件非常相似,只是文件头略有差别;另一种MIDI文件是WINDOWS使用的RIFF文件的一种子格式,称为RMID,扩展名为RMI。。
2、 WAVE(.WAV):
由MICROSOFT公司开发的一种WAV声音文件格式,是如今电脑上最为常见的声音文件,符合RIFF文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台机器应用程序所广泛支持,WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他压缩算法,支持多种音频位数,采样频率和声道,但其缺点是文件体积较大,所以不适合长时间纪录。。
3、.MP1/.MP2/.MP3:
MPWG代表的是MPEG活动影音压缩标准, MPEG音频文件指的是MPEG标准中的声音部分 即MPEG音频层。MPEG频文件根据压缩质量和编码复杂程度的不同可分为三层(MPEG AUDIO LAYER 1/2/3分别与MP1。MP2和MP3这三种声音文件相对应MPEG音频编码具有很高的压缩率,MP1和MP2 的压缩率分别为4:1和6:1-8:1,而MP3的压缩率则高达10:1-12:1,也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。因此,目前INTERNET上的音乐格式以MP3最为常见。 MP3为降低声音失真采取了名为“感官编码技术”的编码算法:编码时先对音频文件进行频谱分析然,然后用过滤器率掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然他是一种有损压缩,但是它的最大优势是一极小的声音失真换来了较高的压缩比。
4、.MP4:
MP3问世不久,就凭这较高的压缩比12:1和较好的音质创造了一个全新的音乐领域,然而MP[3的开放性却最终不可避免的导致了版权之争,在这样的背景之下,文件更小,音质更佳,同时还能有效保护版权的MP4就应运而生了。 MP3和MP4之间其实并没有必然的联系,首先MP3是一种音频压缩的国际技术标准,儿MP4确实一个商标的名称,其次,他采用的音频压缩技术也迥然不同,MP4采用的是美国电话电报公司所研发的,以“知觉编码”为关键技术的a2b音乐压缩技术http://www.a2bmusic.com课讲压缩比成功的提高到15:1,最大可达到20;1而不影响音乐的实际听感,同时mp4在加密和授权方面也做了特别设计,它有如下特点:
●每首mp4乐曲就是一个扩展名为.exe的可执行文件。在windows里直接双击就可以运行播放十分方便。mp4这个有点同时又是她的先天缺陷--容易感染电脑病毒!
●更小的体积!更好的音质?想对先进的a2b音频压缩技术的采用,使mp4文件的大小仅为mp3的四分之三左右,从这个角度来看np4更适合在inter上传播,而且据说音质也更胜一筹,但我怎么也没听出他比mp3的音质更为优越。
●独特的数字水印。mp4月去采用了名为“SOLANA ”技术的数字水印。可方便的追踪和发现盗版发行行为。而且,任何针对mp4的非法解压行为都可能导致mp4原文件的损毁。
●支持版权保护。mp4乐曲还内置了包括与作品版权持有者相关的文字、图像等版权说明,即可说明版权。又表示了对作者和演唱者的尊重。
●比较完善的功能。np4可独立调节左右声道音量控制,内置波形/分频动态音频显示和音乐管理器可支持多种彩色图像,网站连接及无限制的滚动显示文本。
5、VQF
VQF即TWINVQ是有NTT与YAMAHA共同开发的一种音频压缩技术。VQF的音频压缩率比标准的MPEG音频压缩率高出近一倍,可以达到18:1左右,甚至更好。也就是说,把一首四分钟的歌曲压成MP3大约需要4MB左右的硬盘空间,而同一首歌曲如果使用VQF音频压缩技术的话哪只需要2MB左右的硬盘空间。因此在音频压缩率方面,MP3和RA都不是VQF的对手。 如此之高的压缩率是否会影响音质呢?实际聆听的结果告诉我们--不会。当VQF以44KHZ,96KBIT/S的频率压缩时,她的音质几乎等于44KHAZ,256KBIT/S的MP3。经SOUNDVQ压缩后的音频文件在进行回放效果试听时,几乎没有人能听出他与原音频文件的差异。
6、AIF/.AIFF:
AIFF是音频交换文件格式的英文缩写。是APPLE公司开发的一种音文件格式,被MACINTOSH平台及其应用程序所支持,NETSCAPE NAVIGATOR浏览器重的LIVEAUDIO也支持AIFF格式,SGI及其他专业音频软件包也同样支持AIFF格式。AIFF支持ACE2、ACE8、MAC3和MAC6压缩。支持16位44.1KHZ立体声。
7、AU:
AUDIO文件是SUN胃系统公司推出的一种经过压缩的数字声音格式。AU文件原先是UNIX操作系统下的数字声音文件。由于早期INTERNET上的WEB服务器主要是基于UNIX的,所以,AU格式的文件在如今的INTERNET中也是常用的声音文件格式,NETSCAPE NAVIGATOR浏览器中的LIVEAUDIO也支持AUDIO格式的声音文件。
8、VOC
VOICE文件是新加坡著名的多媒体公司CREATIVE LABS开发的声音文件格式,多用于保存CREATIVE SOUND BLASTER系列声卡所采集的声音数据,被WINDOWS平台和DOS平台所支持,支持CCITTA LAW和CCITT u LAW等压缩算法。再DOS程序和游戏中常会遇到这种文件,他是随声卡一起产生的数字声音文件,他与WAV文件的结构相似,可以通过一些工具软件方便的互相转换。
9、RA/.RM/.RAM
REALAUDIO文件是REAL NETWORKS公司开发的一种新型音频流文件格式,它包含在REAL NETWORK公司所定制的音频、视频压缩规范--REALMEDIA中,主要用于再低速率的广域网上实时传输音频信息。网络连接速率不同,客户端所获得的声音质量也不尽相同:对于14.4KBPS的网络连接,可获得调幅(AM)质量的音质;对于28.8KBPS的连接,可以达到广播级的声音质量,如果使用ISDN或ADSL等更快的线路连接,则可获得CD音质的声音。
10、MOD/.S3M/.XM/.MTM/.FAR/.KAR/.IT
模版格式同时具有MIDI与数字音频的共同特性--既包括如何演奏乐曲的指令,有保存了数字声音信号的采样数据。因此,其声音回放质量对音频硬件的依赖性较小,也就是说在不同的机器上可以获得基本相似的声音回放质量。模块文件根据不同的编码有MOD、S3M、XM、MTM、FAR、KAR、IT等多种不同格式。 电脑上这么多种格式的音乐文件其实都是通过我们电脑里的声卡合成输出为我们的耳朵最终所听到的音乐。声卡最为常见的合成手段有两种:FM合成和波表合成。其中,FM合成方式多鉴于早期的ISA声卡,是运用是声音振荡的原理对MIDI进行合成处理,效果是在很差劲。想要在电脑上听到真正悦耳动听的音乐,就去研究波表合成吧
11、IMA-ADPCM(ADPCM:Adaptive Differential Pulse Code Modulation),是一种针对16比特(或者更高)声音波形数据的一种有损压缩算法,它将声音流中每次采样的16比特(bit)数据以4比特存储,所以压缩比1:4。而压缩/解压缩算法非常的简单,所以是一种低空间消耗,高质量声音获得的好途径。著名的WestWood在它的许多游戏里都使用了这个技术,沙丘II、命令与征服、红色警戒等等,保存声音的数据文件后缀名为.AUD的大多用IMA-ADPCM压缩(不过WestWood的游戏数据文件大多经过打包,这些小文件统统放进了一个.MIX文件包中,关于解开.MIX文件包,参见:http://www.geocities.com/SiliconValley/8682)。
ADPCM主要是针对连续的波形数据的,保存的是波形的变化情况,以达到描述整个波形的目的。本文并不想详细介绍ADPCM算法原理,那些是数学知识,有高等数学基础的朋友可以自己研究。

MIDI基本原理
就MIDI信号(或数据)本身而言,不过只是一堆数据而已,没有任何的声音。是Music Instrument Digital Interface的缩写,意思是:音乐设备的数字化界面(或连接)。
我们可以把一大堆乐器的音色先录下来,然后每个音色给它一个编号。比如Acoustic Piano编号为00。接着再给所有的音高也用一串编号表示(因为我们通常用的是12平均律),比如C3音我们编号为00。剩下就是音符的时值问题,我们可以把8分音符编号为60。好, 现在如果要一个原声钢琴8分音符的C3音,就可以用一串数字"00 00 60"来表示。(这就好比一种语言,只不过全是数字。但话说回来,如果当初先辈们不把钢琴这样乐器称为"钢琴",而叫它"零零"呢?我们今天岂不也会说:"孔祥东的'零零'弹的是好!")
问题是,如果我是按我的办法把乐器编号的,你是按你自己的办法,那么我设计出来的MIDI乐器就没法和你的MIDI乐器共同工作。(我就不喜欢把Acoustic Piano编号为00,编成99不行吗?)最后,一些大的MIDI设备厂商共同制定了一套MIDI标准,无论各家如何开发自己的产品,其基本设计必须参照这套MIDI标准协议,这就是我们常说的"GM标准"(Gerneral MIDI)。
实际上,还有更多的数字代表不同的含义,用以表现音乐的各种色彩。可以想象,那数据量极大的。如果我们把很多乐器排列、基本发声规律等全部列出,并用相应的数字来编号,就可以得到几张表格。如果MIDI乐器和电脑都采用这套表格,那么电脑和MIDI乐器就可以"沟通"了。但GM标准是一项工业标准,它规定的是一些最基本的规则,而且各大厂商各有一套对乐器、音色、音色表达的研究办法,造成成本不一,所以GM标准留了很大的余地允许厂商把自己的开发成果放入MIDI设备。最早的就是Roland的GS(General Standard)标准,后来又有YAMAHA的XG(Extended MIDI)标准。这些表格通常称为"MIDI Mapper"(MIDI映射表),它们不仅是用户需要的,每一台MIDI设备内部也会需要相应的映射表来做解码,如此才能让该设备正确工作。
然后,MIDI信号通过设备内部的解码程序,再经过振荡器、滤波器、ADDA转换器、信号放大器等元件,将纯粹的数据变成可以听到的声音。并且,这些元件的工作方式都允许被用户来控制。可想而知,MIDI信号在变成声音的过程中,如果有一个地方不同,那么同一MIDI信号在不同的设备上出来的声音就不同!

豪杰格式转换技术
目前,豪杰格式转换技术.支持大多的音频文件格式(见下表) :
CDA/MID/MPG/RMI/MPG/MP1/MP2/MP3/MP4/VOB/AC3可以转换为WAV/MP3/WMA/RM/DAC格式之一。
From To
MP3 MP3 to WAV, MP3 to WMA, MP3 to DAC, MP3 to RM
WAV WAV to MP3, WAV to WMA, WAV to DAC, WAV to RM
WMA WMA to WAV, WMA to MP3, WMA to DAC, WMA to RM
RM RM to WAV, RM to WMA, RM to DAC, RM to MP3
DAC DAC to WAV, DAC to WMA, DAC to MP3, DAC to RM
快速的转换速度:进行格式转换时,有很快的转换速度,举例来说,一般的CD转换为MP3,只需要120秒到150妙之间。
支持批量的文件转换:多个文件可以同时进行转换,相互之间不受任何影响。
能嵌入互联网上的文件:能嵌入互联网上的文件,输入目标文件的URL,可在线转化,对于流媒体格式能截取并转换。
播放与转换能同时进行:能实现播放与转换同步进行,相互之间没有任何的干扰。

原文地址:http://hi.baidu.com/lxxxuell/blog/item/a98083dd71f6f7345882dd32.html
 
音频的波形曲线如何获取,可以说一下吗?我很感兴趣~~~~!!!!
 
to abin30:

谢谢abin30的指点啊,学到很多实用的东西啊!
你QQ是多少啊?能否交流一下! 谢谢abin30兄
 
呵呵 QQ:379721581 欢迎交流啊~。
 
节奏强的音乐可用低通滤波
大多数的音乐节奏并不强,没有很好的办法得出节拍
现在比较流行的音乐是多种节拍混合,
掺合了交响乐,京剧等等。
 

Similar threads

S
回复
0
查看
3K
SUNSTONE的Delphi笔记
S
S
回复
0
查看
2K
SUNSTONE的Delphi笔记
S
I
回复
0
查看
719
import
I
I
回复
0
查看
804
import
I
后退
顶部