這些訣竅講的是“如何進行實證研究”,而不僅僅是“如何寫實證論文”;但總的來看,“做”和“寫”的差别并不大。
實證研究中最重要的三點是什麼?是因果識别(identification)、因果識别、因果識别。務必闡明因果識别的策略(當然,首先要理解因果識别的策略是什麼)。許多實證研究可歸結為“A 導緻了B”,通常用某種回歸估計進行佐證。你要解釋你所看到的數據中的因果關系是如何被識别的。
1.要描述哪些經濟機制導緻了自變量(右邊變量)的差異。不過,上天賜給我們的真正的自然實驗是少之又少的。
2.要描述清楚殘差中包含了哪些經濟機制。除右邊變量(自變量)外,導緻左邊變量(因變量)變動的因素還有哪些?
3.因此,需要從經濟學的角度說明擾動項為何與右邊變量不相關。除非你做好了前面兩項,要不然你無法解釋清楚這一關鍵假設。
4.從經濟學的角度說明為何工具變量與右邊變量相關,但與擾動項不相關。
5.工具變量和控制變量之間的差異是什麼?将y 對x 回歸,何時z 應作為自變量加到右邊,何時z 應作為x 的工具變量?
6.對你所報告的每一個估計數字,要說明數據中哪些變量的差異導緻了估計結果。例如,加入固定效應之後,相應的解釋會截然不同。在回歸方程中加入公司固定效應後,每個公司内部的時變因素會影響回歸系數。若回歸方程中沒有加入公司固定效應,回歸系數往往取決于在某一時刻上各個公司之間的差異。
7.你确信你看到的是需求曲線,而不是供給曲線嗎?要想澄清這一問題,請自問“你在對誰的行為建模?”例如,你感興趣的是利率如何影響住房需求,并用新增貸款量對利率作回歸。但如果其他因素導緻住房需求變得很大時,住房抵押貸款需求(以及與住房抵押貸款需求相關的其它貸款需求)也會擡高利率。你的暗含假設是需求曲線是不變的,價格的提高會降低需求量。但數據可能是因為供給曲線不變而産生的,從而增加的需求會擡高價格,或者需求與價格交互攀升。你是在對房屋購買者的行為建模,還是在對儲蓄者的行為建模呢(儲蓄會如何對利率變動做出反應)?
8.你能肯定不會是y 導緻了x?或者z 同時導緻了y 和x?看看下面反向因果關系的例子吧。例如:前一個例子也是一種因果關系:究竟是利率變動導緻了住房需求的變動,還是住房需求的變動導緻了利率的變動呢(或者是整體宏觀經濟狀況同時導緻了利率和住房需求的變動)?
9.仔細斟酌自變量中應包括哪些變量,不應包括哪些變量。大多數論文中引入的自變量過多。大可不必把決定y 的所有因素都作為自變量。
a.R2較高通常是壞事—這意味着回歸方程是左腳的鞋子數量 = α β×右腳的鞋子數量 γ×價格 擾動項。右腳的鞋子數量不應該作為控制變量。
b.不要做這樣的回歸:工資 = a b×教育程度 c ×行業 擾動項。固然,加入行業變量是會提高R2,并且行業變量也是影響工資的重要因素(如果你做好了前述的第2 項,它應該在擾動項裡),但教育的主要目的是幫助人們進入更好的行業,而不是從助理漢堡師傅擢升為首席漢堡師傅。
隻報告估計值和p 值是不夠的,要說明數據中導緻估計結果的事實或規律。Fama 和French1996 年的論文《多因子解釋》(Multifactor explanations)便是一個很好的例子。按照過去的文獻慣例,隻需要報告一個數字:GRS 檢驗。Fama 和French 展示了每個投資組合的期望收益和β值,并說服讀者相信期望收益的規律與β 值的規律相吻合。雖然GRS 檢驗糟糕透頂,但該文提出了近15 年來最成功的因子模型!他們之所以成功了,是因為他們揭示了數據背後的固有規律。
務必闡明結果的經濟上的重要性。除了說明核心數字統計上的顯著性外,還應闡明它們在經濟上的重要性。特别是對大型面闆數據集,即便是極小的經濟效應,在統計上也會顯著。(對于大型面闆數據集,若t 統計量為2.10,估計出來的效應确實非常微小!)
當然,每個重要的估計值都要報告其标準誤。
,