カテゴリー別アーカイブ: 統計学

Perl Data Language 統計編 #08 「系列相関とコレログラム」

データは↓の「第2章/本文/Salary.data」
http://www.tokyo-tosho.co.jp/download/DL02122.zip

系列相関の式を見るだけでは分かりづらいので、PDLで計算&グラフ描画です。

実行にも時間がかかるようになってきましたが、計算結果をハッシュとかでメモするなどの高速化の余地はあります。

統計検定のテキストによると、縦軸を系列相関、横軸を時間差にしたものをコレログラムというらしい。テキスト通り、6ヶ月差と12ヶ月差で周期性が見られました。

コレログラム

ちなみに、「PDL::Stats」のメソッドでやると↓のようになりました。系列相関係数の定義式が本によって違うんだけど、とりあえず統計検定2級のテキストに従っておけばいいのだろうか。

correlogram

Perl Data Language 統計編 #07 「標準化(Z)得点、偏差値(T)得点、変動係数、(やらしい)散布図、相関係数」

10人の2回の試験結果の分析です。

PLplotでどうやって散布図書くのかと思ったけど、PLOTTYPEをPOINTSに変えれば散布図になりました。使えるSYMBOLは「http://search.cpan.org/~dhunt/PDL-Graphics-PLplot-0.67/plplot.pd#SYMBOL」を参照。適当にハートマークのプロットの散布図にしてみました(謎)。

コードはループ中にavgメソッドがあったりとあまり効率よくなさそうですが、短く書くのを優先しました。(おそらく平均とかは別の変数に格納しておくほうが速いと思われる)

相関係数は「PDL::Stats」はN-1じゃないほうで計算しているけど、相関係数の定義式ではNでもN-1でも分母分子はNまたはN-1が割って1になるため、この違いは関係なくなります。

相関係数はおよそ0.6で、ぼちぼち相関ありって感じです。

散布図

Perl Data Language 統計編 #06 「時系列データの折れ線グラフ」

データ↓
http://www.tokyo-tosho.co.jp/download/DL02122.zip

問1.1の7)は平均気温の変化を時系列データとして折れ線グラフで描けという問題。これは瞬殺できる問題ですな。

時系列データの折れ線グラフ

Perl Data Language 統計編 #05 「四分位数と箱ひげ図」

データ↓
http://www.tokyo-tosho.co.jp/download/DL02122.zip

問1.1の6)です。

四分位数は、統計検定の試験とかで手計算でやるときは

  1. 昇順ソート
  2. 中央値(Q2)を求める
  3. 中央値点より小さいほうの中央値(Q1)を求める
  4. 中央値点より大きいほうの中央値(Q3)を求める

が一番楽かな。統計検定では四分位数の計算方法は定まっていないようなので、一番楽な計算方法でやりましょう。

コードは以下の通りですが、箱ひげ図はPLplotだと大変なのでRで描画しました。

出力:

箱ひげ図

Perl Data Language 統計編 #04 「平均、分散、標準偏差」

データ↓
http://www.tokyo-tosho.co.jp/download/DL02122.zip

問1.1の5)はPDL::Stats を使うと一撃。ですが、勉強にならないので一応普通に計算した場合も載せました。分散を計算するには平均を計算しないといけないので、そこで自由度が1減ると考えて不偏分散を使って計算しました。(統計検定2級のテキストを参照)