当前位置:首页 > 基于独立分量分析的混合语音信号盲分离系统的研究
基于独立分量分析的混合语音信号盲分离系统的研究
利用系统的某些先验知识和运用合适的优化程序来间接估计源信号。
未知源信号S(t)混合系统A观测信号X(t)分离系统W恢复信号Y(t)
图1-1 盲信号分离基本原理图
在许多情况下,源信号是同时经线性滤波器且相互混合的。对观察信号进行处理的目的就是采取自适应系统提取原始的源信号。也可以表述为:当传输信道特征未知时,从一个传感器阵列或转换器的输出信号中分离或估计源信号的波形。
因为是在缺乏混合系统和滤波器过程参数的情况下进行源信号的估计的,所以盲信号的分离看起来似乎有点不可思议,也很难想象能将源信号完全估计出来。事实上,在缺乏某些先验知识时是不可能唯一地确定源信号的。然而,在允许一定程度上的不确定性时,对源信号加以估计则通常是可能的。用数学术语来说,这种不确定性和模糊性可以看作是对被估计的源信号的任意比例的伸缩,排序或时滞,但依然保留了源信号的波形信息。尽管这种不确定性使盲信号分离具有一定的局限性,但在许多实际应用中它并非关键问题,因为源的大量相关信息蕴含在源信号的波形中而不是信号的振幅或者系统输出的排列顺序中。当然,对于某些动态模型,不能保证估计或者提取出来的信号与源信号具有相同的波形,在这种情况下,要求必须进一步降低,即允许提取的波形是初始源信号波形的失真形式(滤波或卷积)。
声音处理方面最典型的例子是鸡尾酒会问题(cocktail party problem)。鸡尾酒会中,与会者同时在同一个房间里面交谈,各人的讲话声音经过反射和其他人的声音以及背景噪声混合在一起,传入人的耳朵。这个环境可以用多信道的卷积混合模型来描述。人的听觉系统在这个酒会环境里,可以有选择地听取某个人的讲话声音,而同时感觉其他人的声音和背景噪声似乎不存在(或者影响很小)。因此,人们感兴趣的问题就是:是否可以用一个麦克风阵列,将这些声音转换成观测数据,然后用多信道解卷的方法提取出我们所关心的某个人的声音。仅仅从观测数据上看,房间对声音产生的回响作用(冲击响应)以及某个人的讲话内容都是未知的,因此这个卷积混合过程是盲的,也就是需要用盲解卷的方法。
盲源分离的最基本思想就是利用所有源信号之间是彼此相互统计独立的,通过这个假设条件来弥补信道先验信息的缺乏。统计独立性是比不相关约束更强的假设条件。独立性在很多场合下都是适用的,这是由于各种不同的信源之间并没有多少的物理联系.往往是彼此独立的。因此,该算法思想对于很多的实际物理系统是适用的。BSS算法最初研究时一般是考虑信号的二阶统计特性,因此算法
9
基于独立分量分析的混合语音信号盲分离系统的研究
并不能保证所分离的信号是彼此独立的。而将高阶统计量引入到盲信号处理中,能够很好的表征信号的统计独立性,由此发展出了一个新的盲分离算法的实现方法――独立分量分析法(ICA)。 2.2 独立分量分析概论
独立分量分析(ICA-Independent Component Analysis),顾名思义,就是要从多维的观测信号中去发现隐含在其中的独立的分量或因素。它是利用了高阶统计工具和信息论的知识来分析信号的统计独立性,实现信号的盲分离。 2.2.1 ICA的基本概念
独立分量分析算法在很多文献中以不同的名字被提及。独立分量分析理论和盲源分离问题很接近,通过独立分量分析问题的解就可以在盲分离问题中恢复出源信号,反之也可以用盲分离问题的算法来找到独立分量分析问题的解。但是,独立分量分析理论具有更强的通用性。信号的盲分离之所以是可行的,关键是在于原始信号之间是彼此相互独立的。独立分量分析通过最大化一个基于高阶累计量的分离准则,有的文献也称之为对照函数(Contrast function),使得互累计量为零。在此情况下寻找一个新的矢量坐标系。使得混合信号在该坐标系下的投影元素是相互独立的,并且和原始信号相对应,从而实现信号的分离。 2.2.2 ICA的发展简史
C.Jutten和J.Herault于1991年首创将人工神经网络算法用于BSS问题[3],从而开启了一个新领域。虽然他们的学习算法是启发式的并且没有明确指出需利用观察信号的高阶(高于二阶)统计信息,但是其迭代计算公式已具备后来算法的雏形。
1994年,P.Comon 首先界定了解决BSS问题的ICA方法的基本假设条件(ICA 这个名称就是他提出的)。他还明确指出,应该通过使某个称为对比函数(contrast function)的目标函数达到极大值来消除观察信号中的高阶统计关联,从而实现BSS[4]。他还指出ICA是PCA的推广。
1995年,A.J.Bell和T.J.Sejnowski发表了ICA 发展史中的里程碑文献[1]。其重要贡献在于:第一,利用神经网络的非线性特性来消除观察信号中的高阶统计关联(文中采用的是具有Sigmoid函数的神经元),因此只适合超高斯pdf的信号(例如语音信号的分离问题)。第二,用信息最大化准则建立目标函数,从而将信息论方法与 ICA 结合起来。第三,给出了神经网络式的最优 W 迭代学习算法,
10
基于独立分量分析的混合语音信号盲分离系统的研究
成为后续各种算法的基础。第四,成功地对具有10个人说话的鸡尾酒会问题给出了很好的分离效果。因为证明了ICA是一种解决BSS问题的简单、高效算法,从而带起了一大批后续的研究工作。
1996年,B.A.Pearlmutter在ICA中引入了最大似然准则的目标函数[42]。同年,J-F.Cardoso和B.H.Laheld提出了ICA学习算法中的“相对梯度”,“等价变换”和有关稳定性和分离精度等重要思路和方法[16]。
1997年,D.H.Pham和P.Garat 通过准最大似然途径对ICA的学习算法、稳定性、分离精度和源pdf的确定作了进一步讨论[43]。
1998年,PIEEE的10月号的论文集为BSP专集,其中文献[8]和[18]对一领域的成果作了综述并指出进一步发展方向。
1999年,获得了更多的研究成果,例如关于如何确定源信号pdf的问题。 2.2.3 ICA的实现条件
(1) 各源信号Si(t)均为 0 均值、高斯随机变量,各源信号之间统计独立。如果各源信号Si(t)的概率密度函数(即pdf)为pi(Si),则S(t)的pdf为ps(S),可以用下式计算:
ps(S)??pi(Si) (2-1)
i?1N(2) 源信号数 M 与观察信号数 N 相同,即 M=N ,这时混合矩阵 A 是一个确定且未知的 N×N 维方阵。假设 A 是满秩的,逆矩阵A?1存在。
(3) 各个Si(t)的pdf中只允许一个具有高斯分布,如果具有高斯分布的源信号个数超过一个,则各源信号是不可分的。Darmois定理严格证明了这一结论。
(4) 各观察器引入的噪声很小,可以忽略不计。这是可用式X(t)?AS(t)描述源信号与观察信号之间的关系且 M=N 。
(5) 关于各源信号的pdf pi(Si),略有一些先验知识,主要是根据源信号的特性对其pdf作出相应的假设,例如:在本文中主要是针对语音信号进行分离,而语音信号是超高斯信号,因而我们就可估计其pdf为双曲正割函数的平方
22?i(Si)?sech2(Si)?(sp) (2-2) siie?eICA 的思路即是设置一个 N×N 维反混合阵 W?(wij),X(t)经过 W 变换后得到 N 维输出列向量Y(t)?[y1(t),y2(t),?,yN(t)]T,即有
Y(t)?WX(t)?WAS(t) (2-3) 如果通过学习得以实现WA?I,则Y(t)?S(t),从而实现源信号分离的目标。
11
基于独立分量分析的混合语音信号盲分离系统的研究
2.3 ICA的目标函数
ICA的目标函数是通过变换Y(t)?WX(t),由观察信号向量求得源信号向量。
?能使之达到极大(小)值,则此W?即为所为此需设置一个目标函数L(W),如W需解,即使得Y(t)与S(t)相对应。 2.3.1 最大似然目标函数
前面已经指出,如能求出反混合阵W使得WA?I,则可求得Y(t)=S(t),实现源信号分离。由此得A=W?1,这就是说,求反混合阵W等效于求混合阵A。这样,可以将S(t)至X(t)的变换方程改写为:
X(t)=AS(t)=W?1S(t) (2-4)
其中W待定。已知S(t)的pdf为ps(S)??pi(Si)(见式(2-1))。按照式(2-4),
i?1NS(t)?WX(t),则可根据
pX(X)?detWpY(Y)Y?WX (2-5)
?X(X),即有 得到X(t)的似然pdfp?X(X)=detWpS(S)S?WX=detW?pi(Si)S?WX (2-6) pi?1N?X(X)也是W的函数,可以将其明显地表示为由于此式右侧的W是待定的,p?X(X,W),其自然对数用l(W,X)表示,称为随机向量X的似然值(likelihood),p即
N?X(X,W)=lndetW+?lnpi(Si)S?WX (2-7) l(W,X)=lnpi?1?,使得l(W,X)对于X的集合平均值达到最大值,则W?即是因此如能求得一个W所需的解。这称之为最大似然(maximum likelihood,ML)原理。这样,可以将=
l(W,X)的集合平均值E[l(X,W)]定为 ICA 的目标函数,记为LML(W),即
?X(X,W)dX (2-8) LML(W)=E[l(X,W)]=?pX(X)lnpX?使L(W)最大,即为ICA的解。 注意,式中的pX(X)为X的真实pdf。若有WML?X(X,W)之间的KL发散度,另一种方案,是将目标函数定义为pX(X)和p记为LKL(W),即
12
共分享92篇相关文档