何がわかっていて何がわからないのか、そして何がしたいのか

令和一発目のブログです。
少し気合の入った記事を書きました。

研究をしているとしばしばタイトルのような疑問を抱きます。
とはいえ３つ目の疑問に対する答えは明確です。
過去しか分からない金融データを用いて「少しでも精度の良い未来予測」がしたいのです。
そのためには１つ目の疑問と２つ目の疑問に真摯に向き合っていく必要があると思います。

さて、少し細かい話も含みますが本題に入っていきます。

前提的なもの
収益率の時系列は互いに独立かどうか
正規分布で仮定することは妥当なのか
どんな分布が適切なのか

前提的なもの

金融市場において、 $T$ 期から $T+1$ 期の価格変動を知ることは大きな意義があります。ここでいう「期」というのは任意の時間単位とします。
価格が過去のデータの関数で一意的に表されれば一番いいのですが、もちろんそんなことはありません。

しかし、「収益率がとある確率分布に従う」という仮定をおくことで、価格変動を確率変動する誤差項付きでモデリングすることができます。
以後、平均・分散・相関・独立・モーメント・検定など、統計学的な手法を用いて、金融市場の収益率が持つ性質について述べていきます。

収益率の時系列は互いに独立かどうか

時刻 $t-1$ から $t$ と時刻 $t$ から $t+1$ での収益率が互いに独立かという話はとても重要です。
これらが独立だと、収益率の列 $\{r_t\}$ が独立同分布から生成されているということが言えるようになります。
すると統計的に扱いやすくなり、後に述べる中心極限定理を適用できるようになります。

しかし、独立性の検定はなかなか厄介です。（単位根検定とかするらしいですけどよくわかんないです。勉強不足です。）
今回は簡易的にコレログラムを取ってみます。つまり、相関だけでも見てみようというわけです。
ii-da-ba-shi.hatenablog.com
この記事に実装まで書きました。

結論から言うと、収益率の時系列に相関は存在しません。
独立かどうかははっきりしませんが、無相関であることはわかりました。
（というか、実際上は収益率の系列に独立性を仮定して議論を進めちゃったりしてます。ええんかこれ）

ひとまずここまでをまとめると

収益率の系列は無相関である

ことは分かっているが、

収益率の系列が独立であるかは（少なくとも自分の知識では）はっきり分からない

というところでしょうか。

また、先ほどの記事からもう一箇所引っ張ってくると、

収益率の２乗の系列には相関が存在する

言い換えると、

収益率のボラティリティには自己相関性が存在する

ということが言えます。この現象を分散不均一性とかボラティリティクラスタリングなどと言うのでした。

正規分布で仮定することは妥当なのか

続いて、収益率がどのような確率分布に従うのかを考えてみましょう。
はじめに断っておきますが、以後、収益率系列は独立であると仮定します。

収益率分布の仮定としてよく使われるのは正規分布です。なにせ数学的に扱いやすい。
しかし、数学的に扱いやすい点、実際のヒストグラムがベルカーブっぽく見える点以外に正規分布を採用する理由はありません。

例えば、ScholesやMartonを擁したヘッジファンド LTCMは、収益率を正規分布で見積もっていました。
結果から言うとこの見積もりは甘すぎたわけで、彼らは「10の24乗分の1」でしか起こらないはずの損失を起こして破綻したのです。
詳しくはこちらのサイトに載っています。
diamond.jp

分布の正規性の検定としてはAD検定やKS検定と呼ばれるものがあります。
アンダーソン–ダーリング検定 - Wikipedia
コルモゴロフ–スミルノフ検定 - Wikipedia

これらを用いることで、日次データに関する正規性はあっさり棄却されます。

しかし、月次データや年次データに対しては正規性を棄却できなかったりします。
一体どういうことなのでしょうか。数学的にこの話を考えてみましょう。
まず中心極限定理を復習します。

多くの場合(*1)、母集団の分布がどんな分布であっても、標本平均と母平均との誤差は標本の大きさを大きくしたとき近似的に正規分布に従う。

こんな感じの定理でした。
(*1)母集団の分布が有限の分散を持つことが前提としてあります。

別の言い方をするなら、

独立同分布に従う確率変数列の部分和を標準化すると、期待値 0, 分散 1 の正規分布 $\mathcal{N}(0, 1)$ に分布収束する。

数学的に書き下すと、

確率変数列 $X_1, X_2, \cdots$ に対し、 $n$ が十分大きいとき(*2)近似的に、部分和 $S_n = X_1 + \cdots + X_n$ は平均 $n\mu$ , 分散 $n\sigma^2$ の正規分布 $\mathcal{N}(n\mu, n\sigma^2)$ に収束する。

これを金融時系列データに応用します。

例えば、収益率の日次データ $X_1,X_2,\cdots$ に対して、適当に部分和を取って $Y_1,Y_2,\cdots$ に変換することを考えます。営業日ベースで考えると
$Y_1 = X_1 + \cdots + X_5$ なら週次
$Y_1 = X_1 + \cdots + X_{21}$ なら月次
$Y_1 = X_1 + \cdots + X_{252}$ なら年次
という変換を意味しています。