分位數(quantile)是概率中的一個概念。對一個随機變量 X 和任意一個 0 到 1 之間的數 τ,如果 X 的取值 x 滿足 prob(X ≤ x) = τ,那麼 x 就是 X 的 τ 分位數。換句話說,τ 分位數說明:如果我們按該随機變量的分布産生足夠多的樣本點,那麼在這些樣本點的取值中,有 τ × 100% 個小于該分位數;有 (1 - τ) × 100% 個大于該分位數。最常見的分位數非中位數(median)莫屬,它是 50% 分位數 —— 在 X 的分布中,有一半比中位數小,一半比中位數大。
也許你仍覺着上面的定義抽象,但是你對下面的兒童成長圖(child growth chart)一定不陌生。它給出了兒童(這個表中是男孩)在不同年齡時身高和體重的不同分位數(3%、10%、25%、50%、75%、90% 以及 97%)曲線,這有助于兒醫和父母判斷寶寶成長過程中發育是否正常。如果一個娃的體重落在 90% 分位線上,說明他的體重比同齡的 90% 的小夥伴要高;如果一個娃的身高或體重在表外了(off the chart),那多半就說明他營養不良或過剩了。分位數在生活中作用很大。
上面這個圖說明兩點:
- 随着年齡的增加,低分位數和高分位數之間的間隔越來越大;
- 年齡變量的單位增量對身高(或體重)分布的右側(高分位數部分)的影響大于其對身高(或體重)分布的左側(低分位數數的部分)。
顯然,這兩點向我們展示了身高(或體重)與年齡在整個分布上的一些關系。試想一下,如果我們僅有年齡和平均身高(平均體重)的關系,我們是無法得到上面兩點結論的。分位數定量描述了中心趨勢和統計離散度,這有助于更我們全面地分析變量之間的關系。
如何得到如上圖中的分位數曲線呢?答案是分位數回歸(quantile regression)。
分位數回歸由 Koenker and Bassett, Jr. (1978) 提出,是一種回歸分析。在傳統回歸中,我們構建回歸模型由自變量求出因變量的條件期望;而在分位數回歸中,我們構建回歸模型由自變量求出因變量的條件分位數。
近年來,分位數回歸在計量經濟學中的應用越來越廣泛。利用分位數回歸,Saastamoinen (2008) 研究了芬蘭市場中的羊群效應;Alagidede and Panagiotidis (2012) 讨論了通貨膨脹和股票收益率之間的關系;Badshah (2012) 分析了美股中恐慌指數(VIX)和收益率分布之間的不對稱性。
本文簡要介紹分位數回歸,并通過一個簡單的例子說明它在量化投資中的潛在作用。
2 最優化視角下求解均值和中位數讓我們先把回歸問題放在一邊,僅僅考慮一個随機變量 Y 的一組樣本 {y1, y2, …, yn}。在本節中,我們從求解最優化問題的角度說明如何求出樣本均值和中位數。這對于後面介紹分位數回歸很有幫助。
我們都知道,這組樣本的均值就是這 n 個數的平均值。從最優化的角度來說,該樣本均值正是下列最小化殘差平方和問題的解:
最優的 μ 應滿足 df/dμ = 0。經過簡單的推導不難看出,最小化殘差平方和(即我們常說的最小二乘法)得到的解就是樣本均值
與之類似的,最小化殘差絕對值之和的解就是樣本的中位數(這裡的殘差是樣本點相對于中位數而言的),即這組樣本的樣本中位數 M 是如下最優化問題的解:
對 M 求導得:
可見,df/dM 等于 0 的必要條件是 s = n - s,其中 s 是小于 M 的樣本點的個數,而 n - s 是大于 M 的樣本點的個數。這意味着 M 的取值滿足在其兩側的樣本點個數相同,即 M 是中位數。
來看一個例子。
假設随機變量 Y 的一組樣本是 1 到 9 這 9 個數。按照上述最優化的思路,我們想找到 M 使得目标方程 f = Σi|yi - M| 最小。在 1 到 9 内遍曆 M 并求出 f 對應的值有:
可見,當 M = 5 時 f 的取值最小,因此這組樣本的中位數為 5。現在我們已經知道如何從求解最優化問題的角度找到樣本的均值和中位數(一個特殊的分位數 —— 50% 分位數),接下來就來看看如何将這個思路推廣到分位數回歸上。
3 分位數回歸推廣上一節的最優化思路引出分位數回歸十分簡單,僅需要兩步走。
第一步:引入回歸問題。在上一節中,為了簡化讨論,我們考慮的是随機變量 Y 自身。在(線性)回歸問題中,我們關注的是因變量 Y 和某些自變量 X 之間的(線性)關系。(這裡,X 可以代表一個自變量或者多個自變量組成的向量。下文中為了簡化讨論,假設自變量隻有一個。)
對于均值來說,我們将上一節中的标量 μ 變成自變量 X 的線性方程 μ(X, β) —— 其中 β 是 X 的系數,并将最優化問題轉化為(在這個問題中,求解的對象是 X 的系數 β):
求解得到 β 後,線性方程 μ(X, β) 就是因變量 Y 的條件期望方程 E[Y|X]。我們熟悉的求解線性回歸的最小二乘法正是如此找到 Y 和 X 的關系的,它得到的 Y 和 X 之間的關系正是 E[Y|X]。
對于中位數也可以做相同的推演。令上一節中的标量 M 變為自變量的線性方程 ξ(X, β)。因此該最優化問題轉化為:
求解得到 β 後,線性方程 ξ(X, β) 就是因變量 Y 的條件中位數方程。
第二步:将中位數推廣到一般分位數。在所有分位數中間,中位數 —— 又稱 50% 分位數 —— 比較特殊是在于在求解最優化問題中,其兩側樣本點的殘差是等權重的。把上述最小化殘差絕對值的問題推廣到一般的 τ 分位數時,隻需把 τ 分位數兩側的殘差賦予不同的權重即可。
具體的,對于 τ 分位數左側樣本點的殘差,賦予它們 1 - τ 的權重;對于 τ 分位數右側樣本點的殘差,賦予它們 τ 的權重。最優化問題由此變為(求解的對象為 τ 分位數對應的系數 β,記為 β_τ):
使用線性規劃求解這個最優化問題,得到最優解 β_τ 後,線性方程 ξ(X, β_τ) 就是因變量 Y 的條件 τ 分位數方程。對于不同的 τ 的取值(如 5%、10%、15%、……、85%、90%、95%),隻需要對每個 τ 分别求解上述最優化問題,就可以得到 Y 的不同條件 τ 分位數方程。
值得一提的是,如果我們僅有一個自變量 X,并用它來對 Y 進行分位數回歸,那麼任何一個 τ 分位數回歸方程都是一條直線(有截距項、斜率為 β_τ)。但是在第一節的兒童成長圖中,身高(體重)的條件 τ 分位數方程随年齡的變化明顯不是直線。這是因為在構建成長曲線時,通常對年齡先進行了某種非線性變化以更好的反應它和兒童的成長的關系。從分位數回歸的角度,我們做的依然是線性回歸,隻不過這時自變量已經從身高變成了身高的某個非線性函數而已。
在下文的第 4、5 節我們考慮兩個例子,在這兩個例子中我們都不會對自變量進行任何變換。因此這兩個例子中的條件 τ 分位數方程都是線性的。
4 收入和食物消費支出的關系先看一個生活中的例子。Engel (1857) 研究了家庭收入和家庭食物消費支出之間的關系。對該數據同時進行最小二乘法回歸(得到條件均值的方程)和分位數回歸(得到 10 個條件 τ 分位數方程,τ 的取值為 5%,15%,……,95%)如下圖所示。
從這個圖中可以觀察到以下結論:
- 食物消費支出随收入而增加;
- 食物消費的分布随收入增加變得越來越寬(高分位數和低分位數之間的間隔越來越大);
- 最小二乘法回歸對于低收入對應的觀測點的拟合度較差;從圖中可見,最小二乘法的紅色曲線處于很多低收入觀測點之上。
上述分位數回歸的結果說明,在食物消費支出分布的不同位置(不同分位數),家庭收入對其的影響是不同的。下圖展示了這一點。圖中橫坐标為食物消費支出的分位數,縱坐标為不同分位數回歸的系數 β_τ,它表示一個單位的家庭收入變化帶來多大的食物消費支出。對于最小二乘法(紅色)來說,它假設收入對食物消費支出的影響在整個分布上是恒定的;但是分位數回歸(黑色)正好得到不同的結論。顯然,分位數回歸提供了收入和食物支出之間更為豐富的關系。
5 分位數回歸在量化投資中的應用一例
最後通過一個簡單的例子介紹分位數回歸在量化投資中的應用。
具體的,我們關注風險和收益之間的關系。為此,需要給風險和收益各找一個代理指标。以上證指數(2005 年 1 月 1 日至 2017 年 7 月 31 日)為例,風險的代理指标為每周已實現波動率(日頻收益率的平方和)的變化率,記為 ΔVol;收益的代理指标為周收益率的絕對值,記為 |Rm|。對該數據同時進行最小二乘法回歸和分位數回歸如下圖所示。
可見,對于 ΔVol 的不同分位數,|Rm| 對其的影響不同。下圖是 τ 和系數 β_τ 的關系。當 ΔVol 處于低分位數通常意味着市場一般比較平穩,因此周波動率也比較穩定、ΔVol 較小。這時收益率的單位變化對 ΔVol 的影響為負,有助于進一步維持平穩的市場狀态。當 ΔVol 處于高分位數通常意味着市場一般比較震蕩,因此周波動率變化劇烈、ΔVol 較大。這時收益率的單位變化對 ΔVol 的影響為正,即它會進一步加劇市場的波動。
6 結語
對于金融投資中的很多變量,比如收益率,我們往往更關心它在分布尾部的特性。在這方面,分位數回歸是一個有力的工具,它讓我們研究收益率和不同的解釋變量在全分布上的相關性。
當變量的分布明顯偏離正态分布或者存在異常值(outliers)時,傳統的最小二乘法回歸就不那麼有效了。然而分位數回歸不受這些弊端的影響。此外,分位數回歸滿足單調變換不變性(invariant to monotonic transformations)。對于随機變量 Y 和它的單調變換 h(Y) —— 比如 log(Y),h(Y) 的分位數正好是 h(Q_τ(Y)),即對 Y 的分位數 Q_τ(Y) 直接做同樣的變換;而均值并不滿足類似的性質,即 E[h(Y)] ≠ h(E[Y])。投資品收益率的分布以不滿足正态性并存在很多異常值而聞名,因此上述優點使分位數回歸在分析收益率時有着廣闊的前景。
參考文獻
- Alagidede, P. and T. Panagiotidis (2012). Stock returns and Inflation: Evidence from Quantile Regressions. Discussion Paper Series, Department of Economics, University of Macedonia.
- Badshah, I. U. (2012). Quantile regression analysis of the asymmetric return-volatility relation. Journal of Futures Markets, Vol. 33(3), 235 – 265.
- Engel, E. (1857). Die Produktions- und Konsumptionverhaltnisse des Konigreichs Sachsen. Reprinted in “Die Lebenkosten Belgischer Arbeiter-Familien Fruher und Jetzt.” International Statistical Institute Bulletin. Vol. 9, 1 – 125.
- Koenker, R. and G. Bassett, Jr. (1978). Regression Quantiles. Econometrica, Vol. 46(1), 33 – 50.
- Saastamoinen, J. (2008). Quantile regression analysis of dispersion of stock returns – evidence of herding? Working paper, Joensuun yliopisto, Taloustieteet.
免責聲明:文章内容不可視為投資意見。市場有風險,入市需謹慎。
,