廣東策智市場信息咨詢股份有限公司
        公司地址:廣州市天河區林和中路188號附樓三樓A之D08
        其它地址:湖南省長沙市天心區勞動西路293號嘉盛奧美城1708室 ;湖北省武漢市建設大道538號同城廣場A棟1202;
        聯系電話:13148420404
        公司傳真:020-29819059
        辦公手機:18620250304
        官方網址:http://www.phosphatechemical.com/
        企業郵箱:guangdongcezhi@163.com
        行業動態
        您當前位置:首頁 > 行業動態
        市場調研中如何處理數據缺失值
        信息來源:   發布時間:2016-4-26   瀏覽:

        (一)個案剔除法(Listwise Deletion)


        最常見、最簡單的處理缺失數據的方法是用個案剔除法(listwise deletion),也是很多統計軟件(如SPSS和SAS)默認的缺失值處理方法。在這種方法中如果任何一個變量含有缺失數據的話,就把相對應的個案從分析中剔除。如果缺失值所占比例比較小的話,這一方法十分有效。至于具體多大的缺失比例算是“小”比例,專家們意見也存在較大的差距。有學者認為應在5%以下,也有學者認為20%以下即可。然而,這種方法卻有很大的局限性。它是以減少樣本量來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。在樣本量較小的情況下,刪除少量對象就足以嚴重影響到數據的客觀性和結果的正確性。因此,當缺失數據所占比例較大,特別是當缺數據非隨機分布時,這種方法可能導致數據發生偏離,從而得出錯誤的結論。


        (二)均值替換法(Mean Imputation)


        在變量十分重要而所缺失的數據量又較為龐大的時候,個案剔除法就遇到了困難,因為許多有用的數據也同時被剔除。圍繞著這一問題,研究者嘗試了各種各樣的辦法。其中的一個方法是均值替換法(mean imputation)。我們將變量的屬性分為數值型和非數值型來分別進行處理。如果缺失值是數值型的,就根據該變量在其他所有對象的取值的平均值來填充該缺失的變量值;如果缺失值是非數值型的,就根據統計學中的眾數原理,用該變量在其他所有對象的取值次數最多的值來補齊該缺失的變量值。但這種方法會產生有偏估計,所以并不被推崇。均值替換法也是一種簡便、快速的缺失數據處理方法。使用均值替換法插補缺失數據,對該變量的均值估計不會產生影響。但這種方法是建立在完全隨機缺失(MCAR)的假設之上的,而且會造成變量的方差和標準差變小。


        (三)熱卡填充法(Hotdecking)


        對于一個包含缺失值的變量,熱卡填充法在數據庫中找到一個與它最相似的對象,然后用這個相似對象的值來進行填充。不同的問題可能會選用不同的標準來對相似進行判定。最常見的是使用相關系數矩陣來確定哪個變量(如變量Y)與缺失值所在變量(如變量X)最相關。然后把所有個案按Y的取值大小進行排序。那么變量X的缺失值就可以用排在缺失值前的那個個案的數據來代替了。與均值替換法相比,利用熱卡填充法插補數據后,其變量的標準差與插補前比較接近。但在回歸方程中,使用熱卡填充法容易使得回歸方程的誤差增大,參數估計變得不穩定,而且這種方法使用不便,比較耗時。


        (四)回歸替換法(Regression Imputation) 


        回歸替換法首先需要選擇若干個預測缺失值的自變量,然后建立回歸方程估計缺失值,即用缺失數據的條件期望值對缺失值進行替換。與前述幾種插補方法比較,該方法利用了數據庫中盡量多的信息,而且一些統計軟件(如Stata)也已經能夠直接執行該功能。但該方法也有諸多弊端,第一,這雖然是一個無偏估計,但是卻容易忽視隨機誤差,低估標準差和其他未知性質的測量值,而且這一問題會隨著缺失信息的增多而變得更加嚴重。第二,研究者必須假設存在缺失值所在的變量與其他變量存在線性關系,很多時候這種關系是不存在的。


        (五)多重替代法(Multiple Imputation)


        多重估算是由Rubin等人于1987年建立起來的一種數據擴充和統計分析方法,作為簡單估算的改進產物。首先,多重估算技術用一系列可能的值來替換每一個缺失值,以反映被替換的缺失數據的不確定性。然后,用標準的統計分析過程對多次替換后產生的若干個數據集進行分析。最后,把來自于各個數據集的統計結果進行綜合,得到總體參數的估計值。由于多重估算技術并不是用單一的值來替換缺失值,而是試圖產生缺失值的一個隨機樣本,這種方法反映出了由于數據缺失而導致的不確定性,能夠產生更加有效的統計推斷。結合這種方法,研究者可以比較容易地,在不舍棄任何數據的情況下對缺失數據的未知性質進行推斷。NORM統計軟件可以較為簡便地操作該方法


        相關熱點
        版權所有  廣東策智市場信息咨詢股份有限公司 http://www.phosphatechemical.com/ 
        公司地址:廣州市天河區林和中路188號附樓三樓A之D08 分公司地址:湖南省長沙市天心區勞動西路293號嘉盛奧美城1708室 ;湖北省武漢市建設大道538號同城廣場A棟1202; 
        電話:13148420404  手機:18620250304  傳真:020-29819059 聯系人:胡先生 
        網站ICP備案號:粵ICP備2023013887號-1  術支持:斌網網絡
        在線客服 資深顧問

        国产主播精品在线| 精品日韩亚洲AV无码| 日韩av激情在线观看| 欧美日韩精品乱国产| 揄拍自拍日韩精品| 无码囯产精品一区二区免费| 国产午夜无码精品免费看| 伊人这里只有精品| 久久精品亚洲乱码伦伦中文| 亚洲精品无码你懂的网站| 日韩视频在线观看| 亚洲av日韩精品久久久久久a| 日韩成人无码中文字幕| 国产午夜久久精品| 日韩国产一区二区| 国产乱码精品一区二区三区四川| 国产精品林美惠子在线播放 | 日韩一区二区视频| 亚洲处破女AV日韩精品| 日韩精品一区二区三区在线观看 | 精品一区二区三区影院在线午夜| 亚洲国产日韩在线视频| 日韩三级草久国产| 日韩蜜芽精品视频在线观看| 国产精品中文字幕在线| 国产在线精品一区二区在线看 | 91麻豆精品国产自产在线观看一区| 国产精品无码专区在线观看| 国产精品国产三级国产AⅤ| 国产精品99久久久久久董美香| 亚洲国产精品自产在线播放 | 四虎永久在线精品波多野结衣| 2020国产成人久久精品| 亚洲精品色播一区二区| 国产精品白丝AV在线观看播放| 97精品伊人久久大香线蕉| 蜜臀亚洲AV无码精品国产午夜. | 国产精品亚洲玖玖玖在线观看| 好湿好大硬得深一点动态图91精品福利一区二区| 亚洲精品无码成人片在线观看| 久久亚洲中文字幕精品一区四|