株価の時系列データをフーリエ解析してみた③ 〜相関係数〜
生徒:「2つの銘柄の株価データを比較して売り買いのタイミングを分析したいです」
先生:「そんな時は相関係数を求めればいいのだよ」
生徒:「いきなり言われてもそもそも相関係数って何?」
という方いらっしゃいませんでしょうか?
そこで、この記事では、
- ・相関係数って何かわからない
- ・大学で相関関係について学んだことはあるけど、あまり覚えていない、復習したい
- ・2つのデータを比較してどれくらい似ているかを知りたいけどその手法がわからない
- ・相関関係を計算できるようになりたい
初めに、リンクをクリックいただき、一票いただけると幸いです✨
にほんブログ村にほんブログ村
優しく解説していきますので、ご安心ください🙂
相関係数って何?
相関係数ってなんですか?2つのデータがどれくらい似ているか?を表しています。
似ているというのは文字通り顔がそっくりの時に使われるあの言葉と同じです。
マークザッカーバーグとサバンナの高橋茂雄も相関係数が高そうです😁
広瀬すずさんと土屋太鳳さんはどうでしょうかね?
ふむふむ👀
相関係数は高そうです😍
どうやるの?〜手計算で相関係数を計算してみる〜
相関係数rの定義式は下記で表されます。
$$\begin{align*}
r&=\frac{\sum (x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum (x_{i}-\bar{x})^2}\sqrt{\sum (y_{i}-\bar{y})^2}} \\
&=\frac{\sum (x_{i}-\bar{x})(y_{i}-\bar{y})/n}{\sqrt{\frac{\sum(x_{i}-\bar{x})^2}{n}}\sqrt{\frac{\sum(y_{i}-\bar{y})^2}{n}}} \\
&=\frac{V_{xy}}{\sigma_{x}\sigma_{y}} \\
\end{align*}$$
$$\begin{align*}
V_{xy}&: xとyの共分散 \\
\sigma_{x}&: xの標準偏差 \\
\sigma_{y}&: yの標準偏差 \\
\end{align*}$$
なんのこっちゃ?と感じられると思うので、順を追って説明していきます。
相関係数は下記4ステップで計算できます。
- 平均を計算する
- 標準偏差を計算する
- xとyの共分散(偏差の積の平均)を計算する
- 相関係数を計算する
具体的にxとyに下記データが入力されているとして計算してみます。
電卓で計算できるので、順を追って確かめてみてください。
$$\begin{align*}
x&=(1,2,3,4,5) \\
y&=(2,8,6,4,10)
\end{align*}$$
1. 平均を計算する
$$\begin{align*}
\bar{x}&=\frac{1+2+3+4+5}{5} =3 \\
\bar{y}&=\frac{2+8+6+4+10}{5} =6 \\
\end{align*}$$
2. 標準偏差(平均との偏差の二乗の平均の平方根)を計算する
偏差(平均との差)の二乗を計算
$$\begin{align*}
(x_{i}-\bar{x})^2&=((1-3)^2,(2-3)^2,(3-3)^2,(4-3)^2,(5-3)^2) \\
&=(4,1,0,1,4) \\
\end{align*}$$
$$\begin{align*}
(y_{i}-\bar{y})^2&=((2-6)^2,(8-6)^2,(6-6)^2,(4-6)^2,(10-6)^2) \\
&=(16,4,0,4,16) \\
\end{align*}$$
その平均の平方根を計算
$$\begin{align*}
\sigma_{x}&= \sqrt{\frac{4+1+0+1+4}{5}} \fallingdotseq 1.41 \\
\sigma_{y}&=\sqrt{\frac{16+4+0+4+16}{5}} \fallingdotseq 2.83 \\
\end{align*}$$
3. xとyの共分散(偏差の積の平均)を計算する
xとyそれぞれの偏差(平均との差)の掛け算を計算
$$\begin{align*}
(x_{i}-\bar{x})*(y_{i}-\bar{y})&=((1-3)(2-6),(2-3)(8-6),(3-3)(6-6),(4-3)(4-6),(5-3)(10-6)) \\
&=(8,-2,0,-2,8) \\
\end{align*}$$
その平均を計算 $$ V_{xy}= \frac{8-2+0-2+8}{5} =2.4 $$
4. 相関係数を計算する
$$\begin{align*}
r&=\frac{V_{xy}}{\sigma_{x}\sigma_{y}}=\frac{2.4}{1.41*2.83} \fallingdotseq 0.6 \\
\end{align*}$$
相関係数は0.6と求まりました。
相関係数は1に近いほど相関が高い(似ている)です。
ちなみにMatlabコードだと
参考にMatlabコードで相関係数を求める方法を示しておきます。
下記の通り非常にシンプルなコードで計算できます。
x=[1,2,3,4,5];
y=[2,8,6,4,10];
r=corrcoef(x,y)
注意点
最後に、相関は必ずしも因果を意味しないということを注意しておきたいと思います。
つまり、株価と経済指標の相関関係が高いからといって、株価が上がった理由は経済指標が上がったからとは限らないということです。
サバンナの高橋さんとマークザッカーバーグが似ているからって、サバンナの高橋さんがマークザッカーバーグのようなITセンスを持ち合わせているとは限りませんよね・・・・
なんのこっちゃ💦
冗談はさておき、詳しくはヨビノリさんの下記動画を参照ください。
つまりデータ分析は大切ですが、データの背後に隠れている要因を自分の頭で考えることも大切ということですね。
今後
次回はいよいよモデルを使った未来予測に一歩踏み込みたいと思います。
参考文献
本記事を書くにあたって下記文献を参考にしています。 基本的な内容が体系的に優しく書かれているので初学者におすすめの1冊です。
また、広瀬すずさんについて詳しく知りたい方は下記をご覧ください。
広瀬すず 10周年記念写真集 レジャー・トレジャー
最後まで読んでくださりありがとうございました😊
ひろき🐶