摘要: 「主成分分析在機器學習內被歸類成為降維(Dimension reduction)內特徵擷取(Feature extraction)的一種方法,降維就是希望資料的維度數減少,但整體的效能不會差異太多甚至會更好」
主成分分析,我以前在念書(統計系)的時候老師都講得很文謅謅,我其實都聽不懂。
「主成分分析在機器學習內被歸類成為降維(Dimension reduction)內特徵擷取(Feature extraction)的一種方法,降維就是希望資料的維度數減少,但整體的效能不會差異太多甚至會更好」 → 其實說法還是很文謅謅。
簡單說法是,降維(Dimension reduction)是當資料維度數(變數)很多的時候,有沒有辦法讓維度數(變數)少一點,但資料特性不會差太多。
這邊我會分兩種方式(機器學習和統計學)去解釋PCA:
機器學習
機器學習主要是希望用PCA達到dimension reduction的目的,主要是為了避免Hughes 現象(Hughes Phenomenon)/ 維度詛咒(curse of dimensionality)。文
這邊先簡單說維度詛咒,預測/分類能力通常是隨著維度數(變數)增加而上升,但當模型樣本數沒有繼續增加的情況下,預測/分類能力增加到一定程度之後,預測/分類能力會隨著維度的繼續增加而減小(之後在寫一篇維度詛咒的介紹)。
主成份分析的基本假設是希望資料可以在特徵空間找到一個投影軸(向量)投影後可以得到這組資料的最大變異量,好文謅謅這是什麼意思哩?
轉貼自: medium.com
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應