統計解析

1/2ページ

肺ガンデータセットに一般化線形モデルや一般化線形混合モデルを適用してみる

あけましておめでとうございます。新年1発目の投稿です。 今後の業務で一般化線形混合モデル(GLMM)や状態空間モデルを使うかもしれないということで、再び統計モデリングを勉強しています。 今まで担当してきた業務は自然言語処理やレコメンドなどの機械学習モデルを扱ったものばかりで、GLMMや状態空間モデルに関して実務で使うことはありませんでした。 今回は簡単ではありますがscikit-learnの肺ガン […]

切片が0の回帰モデルにおける決定係数の解釈

『Rで学ぶ確率統計学 多変量統計編』の「第3章 単回帰分析」を読んでいて、切片が0のとき(原点を通る)回帰モデルにおける決定係数について興味深い解釈がなされていたので、頭の整理としてまとめます。 なお、今回のテーマですが、残念ながら日本語の記事はほぼ存在しなかったものの、海外ではよく議論されているようです。 決定係数とは 決定係数は回帰モデルにおける当てはまりの良し悪しを判断するための指標で、以下 […]

多変量適応的回帰スプライン(MARS)をPythonで試してみる

先日、MediumでMARS(Multivariate Adaptive Regression Splines:多変量適応的回帰スプライン)に関する記事を読みました。 今回はこの記事で紹介されているpy-earth(PythonでMARSを実装したライブラリ)を試してみます。 コードはGitHubに上がっています。 多変量適応的回帰スプライン(MARS)とは 多変量適応的回帰スプライン(Multi […]

統計解析パッケージPingouinを使ってみる

Mediumを眺めていたらこんな記事を見かけました。 Pythonで利用できる統計解析ライブラリとしてはSciPyのstatsくらいしか知らなかったのですが、上の記事を読んでみるとPingouinがなかなか便利そうだなと感じました。 今回は実際にPingouinを使ってみた感想を述べたいと思います。 コードはGitHubにあげています。 Pingouinとは Pingouinは統計解析パッケージの […]

PythonでROC曲線における最適なカットオフ値を算出する方法

ROC曲線って、使わないとすぐに解釈の仕方を忘れてしまいます。 縦軸や横軸が何を表していて、何を基準にプロットしていくのか、毎回使うときにググってしまう今日この頃です。 ということで、今回は自分の記憶の整理をかねてROC曲線の可視化を実施し、最適なカットオフ値を算出するYouden index(Youden’s J statistic)を用いた方法も紹介します。 さらに、scikit- […]

カイ二乗検定が有意だった場合におこなう残差分析をPythonで実装する

『Rで学ぶ確率統計学 多変量統計編』を読んでいて、分割表の検定の章で残差分析という手法が出てきました。 カイ二乗検定の説明は市販の統計学の参考書で頻出しているものの、有意な検定結果を得られた後に実施する下位検定(post hoc test)の方法までを述べている本は少ないと思います。 今回はそんな下位検定の一つである残差分析を理解するために、その簡単な理論とともにPythonでの実装コードを紹介し […]

ランクがある2つのリストの相関係数の算出にAverage Precisionを導入する方法

最近、『A new rank correlation coefficient for information retrieval』という論文を読みました。 本論文では、ランクがある2つのリストにおける相関係数を算出するために、Average Precisionを利用することを提案しています。 従来、こういったランクがある2つのリストにおける相関係数としてはスピアマンの順位相関係数やケンドールの順位 […]

大学のテストや統計検定で頻出の確率分布のまとめ

統計検定の試験勉強がてら、テストで頻出する確率分布を一覧化してみました。 各々の確率分布の詳細に関しては、数理統計学をテーマにしている専門書や、webにアップされている大学の講義資料などで把握できますが、確率(密度)関数、期待値、分散、最尤推定量などが一箇所にまとまって整理されている書籍やwebページはありませんでした。 大学の数理統計学のテストや統計検定(特に統計検定1級など)の勉強や試験直前の […]

施策効果の測定にはベイジアンA/Bテストを使おう!

クライアント先のデータサイエンティストから、「施策検証といえば普通はA/Bテストだけど、ベイジアンA/Bテストというモダンな手法があって面白いよ!」と勧められたのでいろいろ調べてみました。 なるほど確かに、ベイジアンA/Bテストかなり使えます。 ということで、簡単にベイジアンA/Bテストを紹介しようと思います! (Pyhtonでの実装方法や便利ツールなどは他所に詳しいのでリンクを貼っておきます) […]

統計学と機械学習におけるマルチコ(多重共線性)に対する考えの相違

先日、デスマーチの末なんとか機械学習案件のリリースに漕ぎ着けました。 今回の案件に関わらないですが、要件や仕様はしっかり明文化しておくべきですね。 後から(特にリリース間近になって)言った言わないの議論になるのは双方にとってあまり気持ちのいいものではありません。 些細な仕様変更のため口頭で合意した内容でも、しっかりと資料化しておくことの重要さを再認識しました。 さて、今回はマルチコ(多重共線性)に […]