回歸分析(regression analysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。
方差齊性
線性關(guān)系
效應(yīng)累加
變量無測量誤差
變量服從多元正態(tài)分布
觀察獨(dú)立
模型完整(沒有包含不該進(jìn)入的變量、也沒有漏掉應(yīng)該進(jìn)入的變量)
誤差項(xiàng)獨(dú)立且服從(0,1)正態(tài)分布。
現(xiàn)實(shí)數(shù)據(jù)常常不能完全符合上述假定。因此,統(tǒng)計(jì)學(xué)家研究出許多的回歸模型來解決線性回歸模型假定過程的約束。
研究一 個(gè)或多個(gè)隨機(jī)變量Y1 ,Y2 ,…,Yi與另一些變量X1、X2,…,Xk之間的關(guān)系的統(tǒng)計(jì)方法。又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變量,X1、X2,…,Xk為自變量。回歸分析是一類數(shù)學(xué)模型,特別當(dāng)因變量和自變量為線性關(guān)系時(shí),它是一種特殊的線性模型。最簡單的情形是一個(gè)自變量和一個(gè)因變量,且它們大體上有線性關(guān)系,這叫一元線性回歸,即模型為Y=a+bX+ε,這里X是自變量,Y是因變量,ε是隨機(jī)誤差,通常假定隨機(jī)誤差的均值為0,方差為σ^2(σ^2大于0)σ2與X的值無關(guān)。若進(jìn)一步假定隨機(jī)誤差遵從正態(tài)分布,就叫做正態(tài)線性模型。一般的情形,差有k個(gè)自變量和一個(gè)因變量,因變量的值可以分解為兩部分:一部分是由自變量的影響,即表示為自變量的函數(shù),其中函數(shù)形式已知,但含一些未知參數(shù);另一部分是由于其他未被考慮的因素和隨機(jī)性的影響,即隨機(jī)誤差。當(dāng)函數(shù)形式為未知參數(shù)的線性函數(shù)時(shí),稱線性回歸分析模型;當(dāng)函數(shù)形式為未知參數(shù)的非線性函數(shù)時(shí),稱為非線性回歸分析模型。當(dāng)自變量的個(gè)數(shù)大于1時(shí)稱為多元回歸,當(dāng)因變量個(gè)數(shù)大于1時(shí)稱為多重回歸。
回歸分析的主要內(nèi)容為:①從一組數(shù)據(jù)出發(fā)確定某些變量之間的定量關(guān)系式,即建立數(shù)學(xué)模型并估計(jì)其中的未知參數(shù)。估計(jì)參數(shù)的常用方法是最小二乘法。②對這些關(guān)系式的可信程度進(jìn)行檢驗(yàn)。③在許多自變量共同影響著一個(gè)因變量的關(guān)系中,判斷哪個(gè)(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法。④利用所求的關(guān)系式對某一生產(chǎn)過程進(jìn)行預(yù)測或控制。回歸分析的應(yīng)用是非常廣泛的,統(tǒng)計(jì)軟件包使各種回歸方法計(jì)算十分方便。
回歸分析的應(yīng)用
相關(guān)分析研究的是現(xiàn)象之間是否相關(guān)、相關(guān)的方向和密切程度,一般不區(qū)別自變量或因變量。而回歸分析則要分析現(xiàn)象之間相關(guān)的具體形式,確定其因果關(guān)系,并用數(shù)學(xué)模型來表現(xiàn)其具體關(guān)系。比如說,從相關(guān)分析中我們可以得知“質(zhì)量”和“用戶滿意度”變量密切相關(guān),但是這兩個(gè)變量之間到底是哪個(gè)變量受哪個(gè)變量的影響,影響程度如何,則需要通過回歸分析方法來確定。
一般來說,回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實(shí)測數(shù)據(jù)來求解模型的各個(gè)參數(shù),然后評價(jià)回歸模型是否能夠很好的擬合實(shí)測數(shù)據(jù);如果能夠很好的擬合,則可以根據(jù)自變量作進(jìn)一步預(yù)測。
例如,如果要研究質(zhì)量和用戶滿意度之間的因果關(guān)系,從實(shí)踐意義上講,產(chǎn)品質(zhì)量會(huì)影響用戶的滿意情況,因此設(shè)用戶滿意度為因變量,記為Y;質(zhì)量為自變量,記為X。根據(jù)圖8-3的散點(diǎn)圖,可以建立下面的線性關(guān)系:
Y=A+BX+§
式中:A和B為待定參數(shù),A為回歸直線的截距;B為回歸直線的斜率,表示X變化一個(gè)單位時(shí),Y的平均變化情況;§為依賴于用戶滿意度的隨機(jī)誤差項(xiàng)。
在SPSS軟件里可以很容易地實(shí)現(xiàn)線性回歸,回歸方程如下:
y=0.857+0.836x
回歸直線在y軸上的截距為0.857、斜率0.836,即質(zhì)量每提高一分,用戶滿意度平均上升0.836分;或者說質(zhì)量每提高1分對用戶滿意度的貢獻(xiàn)是0.836分。
740)this.width=740">
上面所示的例子是簡單的一個(gè)自變量的線性回歸問題,在數(shù)據(jù)分析的時(shí)候,也可以將此推廣到多個(gè)自變量的多元回歸,具體的回歸過程和意義請參考相關(guān)的統(tǒng)計(jì)學(xué)書籍。此外,在SPSS的結(jié)果輸出里,還可以匯報(bào)R2,F(xiàn)檢驗(yàn)值和T檢驗(yàn)值。R2又稱為方程的確定性系數(shù)(coefficient of determination),表示方程中變量X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強(qiáng)。通常將R2乘以100%來表示回歸方程解釋Y變化的百分比。F檢驗(yàn)是通過方差分析表輸出的,通過顯著性水平(significant level)檢驗(yàn)回歸方程的線性關(guān)系是否顯著。一般來說,顯著性水平在0.05以下,均有意義。當(dāng)F檢驗(yàn)通過時(shí),意味著方程中至少有一個(gè)回歸系數(shù)是顯著的,但是并不一定所有的回歸系數(shù)都是顯著的,這樣就需要通過T檢驗(yàn)來驗(yàn)證回歸系數(shù)的顯著性。同樣地,T檢驗(yàn)可以通過顯著性水平或查表來確定。在上面所示的例子中,各參數(shù)的意義如表8-2所示。
表8-2 線性回歸方程檢驗(yàn)指標(biāo) 顯著性水平 意義
R 0.89 “質(zhì)量”解釋了89%的“用戶滿意度”的變化程度
F 276.82 0.001 回歸方程的線性關(guān)系顯著
T 16.64 0.001 回歸方程的系數(shù)顯著
示例 SIM手機(jī)用戶滿意度與相關(guān)變量線性回歸分析
我們以SIM手機(jī)的用戶滿意度與相關(guān)變量的線性回歸分析為例,來進(jìn)一步說明線性回歸的應(yīng)用。從實(shí)踐意義講上,手機(jī)的用戶滿意度應(yīng)該與產(chǎn)品的質(zhì)量、價(jià)格和形象有關(guān),因此我們以“用戶滿意度”為因變量,“質(zhì)量”、“形象”和“價(jià)格”為自變量,作線性回歸分析。利用SPSS軟件的回歸分析,得到回歸方程如下:
用戶滿意度=0.008×形象+0.645×質(zhì)量+0.221×價(jià)格
對于SIM手機(jī)來說,質(zhì)量對其用戶滿意度的貢獻(xiàn)比較大,質(zhì)量每提高1分,用戶滿意度將提高0.645分;其次是價(jià)格,用戶對價(jià)格的評價(jià)每提高1分,其滿意度將提高0.221分;而形象對產(chǎn)品用戶滿意度的貢獻(xiàn)相對較小,形象每提高1分,用戶滿意度僅提高0.008分。
方程各檢驗(yàn)指標(biāo)及含義如下:
指標(biāo) 顯著性水平 意義
R2 0.89 “質(zhì)量”和“形象”解釋了89%的“用戶滿意度”的變化程度
F 248.53 0.001 回歸方程的線性關(guān)系顯著
T(形象) 0.00 1.000 “形象”變量對回歸方程幾乎沒有貢獻(xiàn)
T(質(zhì)量) 13.93 0.001 “質(zhì)量”對回歸方程有很大貢獻(xiàn)
T(價(jià)格) 5.00 0.001 “價(jià)格”對回歸方程有很大貢獻(xiàn)
從方程的檢驗(yàn)指標(biāo)來看,“形象”對整個(gè)回歸方程的貢獻(xiàn)不大,應(yīng)予以刪除。所以重新做“用戶滿意度”與“質(zhì)量”、“價(jià)格”的回歸方程如下:
用戶滿意度=0.645×質(zhì)量+0.221×價(jià)格
對于SIM手機(jī)來說,質(zhì)量對其用戶滿意度的貢獻(xiàn)比較大,質(zhì)量每提高1分,用戶滿意度將提高0.645分;用戶對價(jià)格的評價(jià)每提高1分,其滿意度將提高0.221分(在本示例中,因?yàn)椤靶蜗蟆睂Ψ匠處缀鯖]有貢獻(xiàn),所以得到的方程與前面的回歸方程系數(shù)差不多)。
方程各檢驗(yàn)指標(biāo)及含義如下:
指標(biāo) 顯著性水平 意義
R 0.89 “質(zhì)量”和“形象”解釋了89%的“用戶滿意度”的變化程度
F 374.69 0.001 回歸方程的線性關(guān)系顯著
T(質(zhì)量) 15.15 0.001 “質(zhì)量”對回歸方程有很大貢獻(xiàn)
T(價(jià)格) 5.06 0.001 “價(jià)格”對回歸方程有很大貢獻(xiàn)