聚類分析的主要步驟
1.數(shù)據(jù)預(yù)處理,
2.為衡量數(shù)據(jù)點間的相似度定義一個距離函數(shù),
3.聚類或分組,
4.評估輸出。
數(shù)據(jù)預(yù)處理包括選擇數(shù)量,類型和特征的標(biāo)度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉(zhuǎn)化為一個新的顯著特征,它們經(jīng)常被用來獲取一個合適的特征集來為避免“維數(shù)災(zāi)”進(jìn)行聚類,數(shù)據(jù)預(yù)處理還包括將孤立點移出數(shù)據(jù),孤立點是不依附于一般數(shù)據(jù)行為或模型的數(shù)據(jù),因此孤立點經(jīng)常會導(dǎo)致有偏差的聚類結(jié)果,因此為了得到正確的聚類,我們必須將它們剔除。
既然相類似性是定義一個類的基礎(chǔ),那么不同數(shù)據(jù)之間在同一個特征空間相似度的衡量對于聚類步驟是很重要的,由于特征類型和特征標(biāo)度的多樣性,距離度量必須謹(jǐn)慎,它經(jīng)常依賴于應(yīng)用,例如,通常通過定義在特征空間的距離度量來評估不同對象的相異性,很多距離度都應(yīng)用在一些不同的領(lǐng)域,一個簡單的距離度量,如Euclidean距離,經(jīng)常被用作反映不同數(shù)據(jù)間的相異性,一些有關(guān)相似性的度量,例如PMC和SMC,能夠被用來特征化不同數(shù)據(jù)的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來衡量兩個圖形的相似性。