Posts /

Intro to Audio Content Analysis

Twitter Facebook
29 May 2016

ACA(Audio Content Analysis) 指的是从音频信号,例如存储在数字媒介中的录音,中提取信息。这些被提取的信息通常叫做 meta data

音色音高旋律之类的信息,都是可以从音频信号中提取出来的,但也有一些属于 meta data 范畴的信息是隐含在歌曲中的,比如歌曲的年份,标签,歌名和歌手信息。

ACA是一个交叉领域,它需要音乐理论、心理学、声学、音频工程、图书馆学和模式识别与机器学习等计算机科学方面的只是。如果是商业项目,还要考虑法律问题。

实际上 ACA 属于MIR(音乐信息检索)学科的一个领域。

总结一下:ACA 可以应用的地方有:

Audio Content 包含哪些内容呢?

音乐传递的信息是多方面的,最初包含以下三个方面:

当然存在一些不便于分入这三类中的一些特性,比如音色受这个三个方面的影响都有。

一个 ACA 系统主要包含处理提取这三类信息的的部分。在很多情况下,这三者的处理并没有划分明显的界限。

下面看一下,一个 ACA 系统的常见过程:

Audio Signal  -> Decision,Interpretation,Classification  ->   Feature,Extraction  ->  Meta data

从技术角度来看,在 low level 上, 可以从以下五类来区分 music content:

大多数音频内容分析系统都可以被构建成两个主要过程:

这样做的目的主要有两个,一个是 dimensionality reduction, 另一个是希望获取更多有意义的表现形式,从而更易被人理解。

一个 feature 不需要非得被人理解或者便于解释,只需要为第二个阶段提供 condensed information 的支持,用于产生一个可靠地综合结果。

我们需要区分的是 low-level features 和 high-level features,后者便于人的理解,通常在第二个阶段生成

Takes the extracted feature data and attempts to map it into a domain both usable and comprehensible.   即从 low 到 high。

这个过程既可以通过使用分类系统,也可以应用专业或者先验知识。

由于并没有一个明显的区分 low 和 high 的标准,有时候可能通过上下文来决定输出的是 low-level 还是 high-level 的描述。知识上,我们可能会面临一个无穷多抽象层的问题。

总结一下,在一个 ACA 系统中,可能只包含两个过程的一个,或者包含任意数量的两个过程,一个过程的输出作为下一个过程的输入。

<全文完>
Twitter Facebook