当前位置:首页 > 基于独立分量分析的混合语音信号盲分离系统的研究
基于独立分量分析的混合语音信号盲分离系统的研究
?p(X)?dX (2-9) ?X(X,W))=?pX(X)ln?X LKL(W)=KL(pX(X)p??X(X,W)??pX注意到随机向量X的熵H(X)为
H(X)=-?pX(X)lnpX(X)dX
X且与W无关,因此LML(W)和LKL(W)之间满足下列关系:
LKL(W)=-H(X)- LML(W) (2-10)
?使L(W)达到极大值时,将使L(W)达到极小值,所以取KL发散这样,当WMLKL度为目标函数时,使其达到极小值的W是ICA的解(H(X)与W无关,可作常数). 如观察向量的个数有限,可记为X(1),X(2),?,X(T),则式(2-8)的集合平均~只能用有限多个样本的平均来近似取代,这时目标函数记为LML(W),其计算公式为
1T1T~?X(X(t),W) (2-11) LML(W)=?l(X(t),W)=?lnpTi?1Ti?1注意,当只有一个观察向量样本,即T=1时,按式(2-11)进行W学习的算法是随机梯度算法;若T > 1,则是批处理算法。
应该指出,为计算最大似然目标函数LML(W)或LKL(W),都需要预先知道各信号源的pdfpi(Si)。若关于其先验知识不够充分,则必须进行假设或在学习过程中予以确定。
2.3.2 统计独立性目标函数
已知Y(t)?WX(t)(式(2-3)),设Y的pdf是pY(Y),Y的各个分量的pdf为N?i(yi)。这样可以用p(Y)和p?p?Y(Y)= ?Y(Y)之间的KL发散度pi(yi),且设pYi?1作为Y(t)各分量之间统计独立性的度量,据此构成的目标函数用LSI(W)表示,即有
?p(Y)??Y(Y))=?pY(Y)ln?Y LSI(W)=KL(pY(Y)p?dY (2-12) ?p(Y)?Y?Y?Y(Y)= 可以看到,当且仅当pY(Y)=p?i(yi)时,LSI(W)等于0,这时Y(t)的p?i?1?使L(W)达到极小值,各个分量统计独立。如果取此为目标函数,只需求得WSIN即求得ICA的解。
当只有T个观察向量X(t),t?1~T,Y(t)也只有T个。这时可用近似的目标
~函数LSI(W),
13
基于独立分量分析的混合语音信号盲分离系统的研究
1TpY(Y(t))~ LSI(W)=? (2-13)
?Y(Y(t))Tt?1p对于平稳随机向量的情况,
~ limLSI(W)=LSI(W) (2-14)
T??~LSI(W)可以计算如下。由于Y(t)?WX(t)(式(2-3)),根据 pY(Y)=detW可得
NpY(Y(t))?i(yi(t))Y(t)?WX(t)+lnpX(X(t)) (2-16) ln=-lndetW-?lnp?Y(Y(t))pi?1?1pX(X)X?W?1Y (2-15)
此式最右侧的lnpX(X(t))与W无关,因而在目标函数中可以将其作为一个常数,这时式(2-14)可以写成下列形式:
1TN~~?i(yi(t)) LSI(W)=-lndetW-??lnp-H(X) (2-17)
Tt?1i?1Y(t)?WX(t)其中
1T~ H(X)=-?lnpX(X(t))
Tt?1~?即是ICA的解。 使LSI(W)达到极小值的W~~可以将LSI(W)与上一小节的最大似然目标函数LML(W)作一对比,根据式(2-7),式(2-11)可以改写成下列形式:
1TN~ LML(W)=lndetW+??lnpi(Si(t)) (2-18)
Tt?1i?1S(t)?WX(t)对比式(2-18)和式(2-19)可以看到,如果将各yi的pdf取得与各源信号Si的pdf一致,即
?i(yi(t))=pi(Si(t))S(t)?y(t) , i?1~N (2-19) pii则这两种目标函数具有下列关系: ~~~ LML(W)=-LSI(W)-H(X) (2-20)
~~?如使L?ICA的解W达到极小,即使二者完全等价。在求WL(W)ML(W)达到极大,SI~的学习算法中可将与W无关的H(X)略去不顾并用式(2-17)来计算目标函数,这种处理方法更加方便。
14
基于独立分量分析的混合语音信号盲分离系统的研究
2.3.3 信息最大化(最大熵)目标函数
按文献[2]的思路,求解ICA问题时,对于每个观察向量X?[x1,x2,?,xN]T先通过线性变换求一个中间向量Z?[z1,z2,?,zN]T=WX。然后通过非线性变换
yi?gi(zi)求得输出向量Y?[y1,y2,?,yN]T。再针对Y建立一个目标函数,通过
?使此目标函数达到极值,该W?即是ICA的解。此思路的初衷是学习求得一最佳W模仿单层前向神经网络,X和Y分别作为网络的输入和输出。关键在于如何选择目标函数和各个非线性函数gi(?)。该文献选择Y的熵作为目标函数,表示为
LH(W),即有
LH(W)=H(Y)=?E[lnpY(Y)] (2-21) 其中pY(Y)是Y的pdf。当只有T各观察向量X(t),t?1~T时,Y(t)也只有T个。
~这时可用下列近似目标函数LH(W)替代LH(W):
1T~LH(W)=-?lnpY(Y(t)) (2-22)
Tt?1~且 limLH(W)=LH(W)。
T??选择熵作为目标函数是因为熵是一个随机量无序性的度量,如果Y的各分量
~?即求统计独立性越高则相应Y的熵越大,所以只需求得使LH(W)达到最大的W得了ICA的解。
式(2-22)中的pY(Y(t))可计算如下。如用y'i表示dgi(zi)dzi=dyidzi,则其雅可比阵J(G)的元素Jij可表示为
Jij=y'iwij , i?1~N,j?1~N (2-23) 易于证明,J(G)的行列式可用下式计算:
detJ(G)=detW?y'i (2-24)
i?1N这样,pY(Y(t))可以表示为
pY(Y(t))=detW?y'i(t)i?1N?1?pX(X(t)) (2-25)
为简洁起见,Y(t)=G(X(t))这一条在此式中不再标明,将式(2-25)代入式(2-22),得到
1TN?1T~ LH(W)= lndetW+??lny'i+?lnpX(X(t)) (2-26)
Tt?1i?1Tt?1~注意此式最右侧项等于H(X)。式(2-17)和式(2-20)对比后可以看到,如条件
15
基于独立分量分析的混合语音信号盲分离系统的研究
?i(yi(t))=pi(Si(t))S(t)?y(t), y'i(t)=p i?1~N (2-27)
ii得到满足,则
~~~~LH(W)=-LSI(W)=LML(W)+H(X) (2-28)
~?应使如果略去与W无关的H(X),上式中的三种目标函数是一致的,ICA的解W~~~LH(W)和LML(W)达到极大值,使LSI(W)达到极小值。
~A.J.Bell等在1995年提出LH(W)时模仿神经网络的办法,将非线性函数=yi?gi(zi)选择为Sigmoid函数,即有
1 yi?gi(zi)= 或 yi?gi(zi)=tanh(zi), ?i ?zi1?e这时yi的取值范围为(0,1)或(-1,1)。相应地 y'i=
dg(zi)?i(yi)=yi(1?yi) 或 y'i=p?i(yi)=1?yi2 =pdzi这种类型的pdf具有超高斯特性,所以用它来解决同样具有超高斯特性pdf的语音和音乐信号BSS问题时效果很好。相反,用其来解决具有次高斯特性pdf的两个均匀分布随即信号BSS问题时不能凑效。这样,解决BSS问题仍归结于对被分离源信
?i(yi))的确定或在学习过程中对它的确定。很多实验号pdf pi(Si)(或等效的p表明,关键在于确定这些pdf是超高斯的或次高斯的,而其具体形式细节对分离效果的影响往往不大。
~由于各种目标函数的一致性且由于H(X)项与W无关,所以为简洁计,后面
~将用下列目标函数L(W)来计算:
1TN~?i(yi(t)) L(W)=-lndetW-??lnp (2-29)
Tt?1i?1Y(t)?WX(t)~?使L?即是ICA的解。 如W(W)达到极小,W2.4 ICA的学习算法 2.4.1 相对梯度学习算法
在一般的人工神经网络中,所有权参数构成一个向量,其学习算法中利用目标函数对于权参数向量的梯度。在ICA中,W使一个N×N维矩阵,可以将其改写为
~一个N2×1维列向量来进行处理。而在用迭代算法求使L(W)达极小值的最优解时,仍将W作为一个矩阵来处理,下面先给出若干定义。
设有一个 N×N 维矩阵??(?ij),其迹tr?为
16
共分享92篇相关文档