廣東策智市場信息咨詢股份有限公司
        公司地址:廣州市天河區林和中路188號附樓三樓A之D08
        其它地址:湖南省長沙市天心區勞動西路293號嘉盛奧美城1708室 ;湖北省武漢市建設大道538號同城廣場A棟1202;
        聯系電話:13148420404
        公司傳真:020-29819059
        辦公手機:18620250304
        官方網址:http://www.phosphatechemical.com/
        企業郵箱:guangdongcezhi@163.com
        行業動態
        您當前位置:首頁 > 行業動態
        市場研究方法之聚類分析
        信息來源:   發布時間:2016-4-25   瀏覽:

        什么是聚類分析


        聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。

        聚類與分類的不同在于,聚類所要求劃分的類是未知的。

        聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。

        聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。

        從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如SPSS、SAS等。

        從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。

        從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。


        聚類分析的主要應用


        在商業上

        聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。

        聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。

        在生物上

        聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識

        在地理上

        聚類能夠幫助在地球中被觀察的數據庫商趨于的相似性

        在保險行業上

        聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房產分組

        在因特網應用上

        聚類分析被用來在網上進行文檔歸類來修復信息

        在電子商務上

        聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。


        聚類分析的主要步驟


        1.數據預處理,

        2.為衡量數據點間的相似度定義一個距離函數,

        3.聚類或分組,

        4.評估輸出。

        數據預處理包括選擇數量,類型和特征的標度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉化為一個新的顯著特征,它們經常被用來獲取一個合適的特征集來為避免“維數災”進行聚類,數據預處理還包括將孤立點移出數據,孤立點是不依附于一般數據行為或模型的數據,因此孤立點經常會導致有偏差的聚類結果,因此為了得到正確的聚類,我們必須將它們剔除。

        既然相類似性是定義一個類的基礎,那么不同數據之間在同一個特征空間相似度的衡量對于聚類步驟是很重要的,由于特征類型和特征標度的多樣性,距離度量必須謹慎,它經常依賴于應用,例如,通常通過定義在特征空間的距離度量來評估不同對象的相異性,很多距離度都應用在一些不同的領域,一個簡單的距離度量,如Euclidean距離,經常被用作反映不同數據間的相異性,一些有關相似性的度量,例如PMC和SMC,能夠被用來特征化不同數據的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來衡量兩個圖形的相似性。

        將數據對象分到不同的類中是一個很重要的步驟,數據基于不同的方法被分到不同的類中,劃分方法和層次方法是聚類分析的兩個主要方法,劃分方法一般從初始劃分和最優化一個聚類標準開始。CrispClustering,它的每一個數據都屬于單獨的類;FuzzyClustering,它的每個數據可能在任何一個類中,CrispClustering和FuzzyClusterin是劃分方法的兩個主要技術,劃分方法聚類是基于某個標準產生一個嵌套的劃分系列,它可以度量不同類之間的相似性或一個類的可分離性用來合并和分裂類,其他的聚類方法還包括基于密度的聚類,基于模型的聚類,基于網格的聚類。

        評估聚類結果的質量是另一個重要的階段,聚類是一個無管理的程序,也沒有客觀的標準來評價聚類結果,它是通過一個類有效索引來評價,一般來說,幾何性質,包括類間的分離和類內部的耦合,一般都用來評價聚類結果的質量,類有效索引在決定類的數目時經常扮演了一個重要角色,類有效索引的最佳值被期望從真實的類數目中獲取,一個通常的決定類數目的方法是選擇一個特定的類有效索引的最佳值,這個索引能否真實的得出類的數目是判斷該索引是否有效的標準,很多已經存在的標準對于相互分離的類數據集合都能得出很好的結果,但是對于復雜的數據集,卻通常行不通,例如,對于交疊類的集合。


        聚類分析的算法


        聚類分析是數據挖掘中的一個很活躍的研究領域,并提出了許多聚類算法。傳統的聚類算法可以被分為五類:劃分方法、層次方法、基于密度方法、基于網格方法和基于模型方法。


        相關熱點
        版權所有  廣東策智市場信息咨詢股份有限公司 http://www.phosphatechemical.com/ 
        公司地址:廣州市天河區林和中路188號附樓三樓A之D08 分公司地址:湖南省長沙市天心區勞動西路293號嘉盛奧美城1708室 ;湖北省武漢市建設大道538號同城廣場A棟1202; 
        電話:13148420404  手機:18620250304  傳真:020-29819059 聯系人:胡先生 
        網站ICP備案號:粵ICP備2023013887號-1  術支持:斌網網絡
        在線客服 資深顧問

        2018国产精华国产精品| 亚洲AV永久纯肉无码精品动漫| 国产精品视频1区| 99久久综合国产精品免费| 91大神精品视频| 无码精品人妻一区二区三区漫画| 亚洲精品无码成人AAA片| 久久国产成人精品国产成人亚洲| 日本精品一区二区久久久| 日韩视频一区二区三区| 国产亚洲精品美女久久久久 | 色综合91久久精品中文字幕| 久久99热这里只有精品66| 亚洲精品白色在线发布| 久久国产精品无码HDAV| 亚洲永久永久永久永久永久精品| 久久精品亚洲视频| 亚洲AV无码久久精品狠狠爱浪潮| 国内精品人妻无码久久久影院 | 久久精品一区二区东京热| 精品亚洲综合久久中文字幕| 亚洲精品自在在线观看| 国产在视频线精品视频二代| 亚洲精品你懂的在线观看| 亚洲精品无码av人在线观看| 尹人久久久香蕉精品| 国产自啪精品视频网站丝袜 | 精品国产av一二三四区| 精品久久久久久亚洲中文字幕| 热久久99精品这里有精品| 国产精品久久久久国产精品 | 完整观看高清秒播国内外精品资源| 日韩在线观看一区二区三区| 香蕉依依精品视频在线播放| 亚洲国产精品尤物YW在线观看| 亚洲人成电影网站国产精品| 亚洲精品无码成人片在线观看| 国产精品尹人在线观看| 久久亚洲av无码精品浪潮| 国产偷久久久精品专区| 国产成人精品日本亚洲|