聚類分析的主要步驟
1.數據預處理,
2.為衡量數據點間的相似度定義一個距離函數,
3.聚類或分組,
4.評估輸出。
數據預處理包括選擇數量,類型和特征的標度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉化為一個新的顯著特征,它們經常被用來獲取一個合適的特征集來為避免“維數災”進行聚類,數據預處理還包括將孤立點移出數據,孤立點是不依附于一般數據行為或模型的數據,因此孤立點經常會導致有偏差的聚類結果,因此為了得到正確的聚類,我們必須將它們剔除。
既然相類似性是定義一個類的基礎,那么不同數據之間在同一個特征空間相似度的衡量對于聚類步驟是很重要的,由于特征類型和特征標度的多樣性,距離度量必須謹慎,它經常依賴于應用,例如,通常通過定義在特征空間的距離度量來評估不同對象的相異性,很多距離度都應用在一些不同的領域,一個簡單的距離度量,如Euclidean距離,經常被用作反映不同數據間的相異性,一些有關相似性的度量,例如PMC和SMC,能夠被用來特征化不同數據的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來衡量兩個圖形的相似性。