当前位置:首页 > Clementine12理论基础(全)
1、隱含層只有一層
2、隱含層和輸出層的神經元模型不同 3、隱含層是非線性,而輸出層為線性
神經網路模型的學習過程 (A) 模型的特點 1、有指導的學習 2、前饋網路 3、反向傳播演算法 (B)可變參數 1、隱含層的數目 2、學習效率 3、動態常量
4、停止準則
神經網路的主要特點
並行分佈處理—並行結構和並行實現,適於即時和動態處理 非線性映射 —可以處理非線性問題
適應和集成 —適用於複雜、大規模和多變數系統,可以線上 神經網路模型的主要功能 ? ? ? ?
分類(Cl) 預測(Pr) 控制(Ct) 函數擬合(Ft)
神經網路的不足: ? ? ?
模型為黑匣子,得到的結果不易解釋 模型可能會出現過擬合的情況
結果可能是局部最小值,而非全局最優值
八、 C5.0
C5.0 是Clementine決策樹模型中的一種演算法,由ID3(Iterative
Dichotomiser 3)以及C4.5改進而來的,而ID3是以Shannon(1949)的資訊理論(Information theory)為依據,於1979年由Quinlan所提出。
所謂的資訊理論是指若一事件有ui(i?1,2,???,k)種結果,對應的機率為
P(ui),則此事件發生後所得到的資訊量H(U)(視為熵(Entropy))為:
H(U)??P(ui)log2i1???P(ui)log2P(ui)。 P(ui)i
而此資訊量即代表一種平均不確定性,故若H(U)?0時,表示只存在唯一的可能性,或者可以說不存在不確定性;相反地,如果事件的k個可能的結果都有相同的發生機率,即所有P(ui)?1,就會使得H(U)達到最大,也就是說不確定性k也最大。因此,可以得到以下結論:P(ui)差別越小,H(U)就越大;P(ui)差別大,H(U)就越小。
ID3的分類概念則是希望資訊增益(Information Gain)最大。資訊增益定義如下:
Gain(T)?Info(S)?Info(T)
其中,若假設S是一個樣本集合,目標變數C有k個分類,freq(Ci,S)表示S中
屬於Ci類的樣本數,S表示樣本集合S的樣本數,則
Info(S)???((freq(Ci,S)/|S|)?log2(freq(Ci,S)/|S|))
i?1k
若如果某預測變數T,有n個分類,則預測變數T引入後的條件熵(Conditional Entropy)定義為:
Info(T)???((|Ti|/|T|)?Info(Ti))
i?1n
下面是資訊量(Entropy)與資訊增益(Information Gain)的計算例子:
該組的樣本的資訊量(Entropy)為: Info(S)??
關於T1的條件熵(Conditional Entropy)為:
9955log2()?log2()?0.940 1414141452233(?log2()?log2())14555544400 ?(?log2()?log2())
14444453322 ?(?log2()?log2())?0.694145555Info(T1)?
T1帶來的資訊增益(Information Gain)為:
共分享92篇相关文档