当前位置:首页 > Clementine12理论基础(全)
其中H(t) / H0(t)為危險比值(hazard ratio),係數bi...bk則由Cox regression所估計。
十四、 Support Vector Machine (SVM支持向量機)
何謂svm: ?
支持向量機(support vector machine,SVM)是在統計學理論最新發展的基礎上產生的一個嶄新的學習系統,它既是一種借助於最優化方法解決機器學習問題的新工具,又是資料採擷中的一項新技術。 ?
在20世紀90年代中後期得到了全面深入的發展,現已經成為機器學習和資料採擷領域的標準工具。支持向量機能非常成功地處理回歸問題(時間序列分析、生物序列分析)和模式識別(文本分類、圖像分類、手寫字元識別、判別分析)等諸多現實問題,其性能勝過其它大多數的學習系統。
SVM之概念: ?
找出一個超平面(hyperplane),使之將兩個不同的集合分開。為什麼使用超平面這個名詞,因為實際資料可能是屬於高維度的資料,而超平面意指在高維中的平面。 ?
SVM是將資料映成至一個高維度的空間,使非線性可分的資料點也可被分
類, 找出分界線之後再將資料做轉換,找出一個超平面。
分類步驟
上圖分別表示: ? ? ?
SVM之調校: ?
對於一群在
空間中的資料,我們希望能夠在該空間之中找出一
資料點落於不同的兩類中 由一條曲線將其分類
經由轉換之後,兩類的邊界可由超平面所分隔。
Hyper-plan,並且,希望此Hyper-plan 可以將這群資料切成兩群(ie:群組A、群組B)。而屬於群組A 的資料均位於Hyper-plan 的同側,而群組B 的資料均位於Hyper-plan 的另一側。 ?
除了超平面之外,SVM也會找到邊際線來定義分出的兩類,邊際線越廣表示模型的預測力越好,先前的例子邊際線並不非常廣 且模型是過度配視,
為了使模型的邊際線越廣(預測能力越好)即使有少量的非類錯誤也是可容許的。
調校過程
上圖分別表示 ? ? ?
在邊際線(margin)上的點即為SV
為了使margin越廣,少部分的分類錯誤是可被接受的。
遇到這種情況時,我們要在margin廣度跟少量錯誤分類間做最適的平衡,核函數(kernel function)有一個調校參數C ,可以控制兩者之間的關係。 ? ?
將問題簡化即為
已知Training Data Sets:
,我們希望利用
Training Data 找出一最佳Hyper-plan H,以利將未知的Xi 歸類。
如圖:
十五、 Bayes Net
Na?ve Bayes Classifer
? 單純貝氏分類器 (Na?ve Bayes Classifier) 是一種簡單且實用的分類方法。
? 在某些領域的應用上,其分類效果優於類神經網路和決策樹
? 採用監督式的學習方式,分類前必須事先知道分類型態,透過訓練樣本的訓練學習,有效地處理未來欲分類的資料。
? 用於大型資料庫,可以得出準確高且有效率的分類結果
? 單純貝氏分類器主要是根據貝氏定理 (Bayesian Theorem) ,來預測分類的結果。
共分享92篇相关文档