どうでもしか勝たん

格が違うので卍卍卍

何がわかっていて何がわからないのか、そして何がしたいのか

令和一発目のブログです。
少し気合の入った記事を書きました。

研究をしているとしばしばタイトルのような疑問を抱きます。
とはいえ3つ目の疑問に対する答えは明確です。
過去しか分からない金融データを用いて「少しでも精度の良い未来予測」がしたいのです。
そのためには1つ目の疑問と2つ目の疑問に真摯に向き合っていく必要があると思います。

さて、少し細かい話も含みますが本題に入っていきます。

目次

前提的なもの

金融市場において、T期からT+1期の価格変動を知ることは大きな意義があります。ここでいう「期」というのは任意の時間単位とします。
価格が過去のデータの関数で一意的に表されれば一番いいのですが、もちろんそんなことはありません。

しかし、「収益率がとある確率分布に従う」という仮定をおくことで、価格変動を確率変動する誤差項付きでモデリングすることができます。
以後、平均・分散・相関・独立・モーメント・検定など、統計学的な手法を用いて、金融市場の収益率が持つ性質について述べていきます。

収益率の時系列は互いに独立かどうか

時刻t-1からtと時刻tからt+1での収益率が互いに独立かという話はとても重要です。
これらが独立だと、収益率の列\{r_t\}が独立同分布から生成されているということが言えるようになります。
すると統計的に扱いやすくなり、後に述べる中心極限定理を適用できるようになります。

しかし、独立性の検定はなかなか厄介です。(単位根検定とかするらしいですけどよくわかんないです。勉強不足です。)
今回は簡易的にコレログラムを取ってみます。つまり、相関だけでも見てみようというわけです。
ii-da-ba-shi.hatenablog.com
この記事に実装まで書きました。

結論から言うと、収益率の時系列に相関は存在しません。
独立かどうかははっきりしませんが、無相関であることはわかりました。
(というか、実際上は収益率の系列に独立性を仮定して議論を進めちゃったりしてます。ええんかこれ)

ひとまずここまでをまとめると

  • 収益率の系列は無相関である

ことは分かっているが、

  • 収益率の系列が独立であるかは(少なくとも自分の知識では)はっきり分からない

というところでしょうか。

また、先ほどの記事からもう一箇所引っ張ってくると、

  • 収益率の2乗の系列には相関が存在する

言い換えると、

ということが言えます。この現象を分散不均一性とかボラティリティクラスタリングなどと言うのでした。

正規分布で仮定することは妥当なのか

続いて、収益率がどのような確率分布に従うのかを考えてみましょう。
はじめに断っておきますが、以後、収益率系列は独立であると仮定します。

収益率分布の仮定としてよく使われるのは正規分布です。なにせ数学的に扱いやすい。
しかし、数学的に扱いやすい点、実際のヒストグラムがベルカーブっぽく見える点以外に正規分布を採用する理由はありません。

例えば、ScholesやMartonを擁したヘッジファンドLTCMは、収益率を正規分布で見積もっていました。
結果から言うとこの見積もりは甘すぎたわけで、彼らは「10の24乗分の1」でしか起こらないはずの損失を起こして破綻したのです。
詳しくはこちらのサイトに載っています。
diamond.jp

分布の正規性の検定としてはAD検定やKS検定と呼ばれるものがあります。
アンダーソン–ダーリング検定 - Wikipedia
コルモゴロフ–スミルノフ検定 - Wikipedia

これらを用いることで、日次データに関する正規性はあっさり棄却されます。

しかし、月次データや年次データに対しては正規性を棄却できなかったりします。
一体どういうことなのでしょうか。数学的にこの話を考えてみましょう。
まず中心極限定理を復習します。

多くの場合(*1)、母集団の分布がどんな分布であっても、標本平均と母平均との誤差は標本の大きさを大きくしたとき近似的に正規分布に従う。

こんな感じの定理でした。
(*1)母集団の分布が有限の分散を持つことが前提としてあります。

別の言い方をするなら、

独立同分布に従う確率変数列の部分和を標準化すると、期待値 0, 分散 1 の正規分布 \mathcal{N}(0, 1) に分布収束する。

数学的に書き下すと、

確率変数列 X_1, X_2, \cdots に対し、n が十分大きいとき(*2)近似的に、部分和 S_n = X_1 + \cdots + X_n は平均 n\mu, 分散 n\sigma^2正規分布 \mathcal{N}(n\mu, n\sigma^2) に収束する。

これを金融時系列データに応用します。

例えば、収益率の日次データX_1,X_2,\cdotsに対して、適当に部分和を取ってY_1,Y_2,\cdotsに変換することを考えます。営業日ベースで考えると
Y_1 = X_1 + \cdots + X_5なら週次
Y_1 = X_1 + \cdots + X_{21}なら月次
Y_1 = X_1 + \cdots + X_{252}なら年次
という変換を意味しています。

ここで(*2)を見ていただきましょう。
nを十分大きく取れば収益率分布も正規分布に収束すると言っているわけです。

実証実験から言えることとしては、金融データでは月次・年次程度まで幅を取ればいいみたいです。
ここまでをまとめると、

  • 日次データは正規分布に従わない
  • 週次→月次→年次というようにデータの幅を大きくすると正規分布に従うようになる

が分かっています。

どんな分布が適切なのか

ここで正規分布でダメなら何を使えばいいのか、という疑問が出てきます。
これに対して正確な答えは出ていません。

しかし、Fat-tail性や分布の歪み(skewness)、尖り(kurtosis)に注目した様々な研究がなされています。

分布として、Skewed Generalized t distributionが用いられることが多いような気がします(そんな文献をいくつか見たことがあるだけ)。

いずれにしても、現時点では収益率分布に対して

  • 高次モーメントや裾の厚さも考慮する必要がある

ことが分かっている一方で、

  • 具体的な分布が判明している訳ではない

という現状があるというわけです。


ここまで、何が分かっていて何が分かっていないのかをある程度網羅的に記事にしてみました。
この辺をちゃんと理解してようやく研究のスタート地点なのかなとも思います。
令和は研究がんばるぞー