統計学と機械学習におけるマルチコ(多重共線性)に対する考えの相違

先日、デスマーチの末なんとか機械学習案件のリリースに漕ぎ着けました。 今回の案件に関わらないですが、要件や仕様はしっかり明文化しておくべきですね。 後から(特にリリース間近になって)言った言わないの議論になるのは双方にとってあまり気持ちのいいものではありません。 些細な仕様変更のため口頭で合意した内容でも、しっかりと資料化しておくことの重要さを再認識しました。 さて、今回はマルチコ(多重共線性)に […]

雪崩から生還〜山岳事故に巻き込まれるリスクを考える

割とショッキングな話ですが、つい先日、残雪が残る北アルプスに登山にいき、雪崩に巻き込まれました。 私たちのパーティ含め5〜7名が雪崩に巻き込まれましたが、全員の無事を確認でき大事に至ることはありませんでした。 こんな経験は人生で2度はしないだろうと思います。 今回の事故を風化させないため、ここでは雪崩(ひいては山岳事故)に巻き込まれる可能性が高まるリスクについて思うところを述べてみようと思います。 […]

『データは騙る: 改竄・捏造・不正を見抜く統計学』を読んだ感想

前から気になっていた『データは騙る』を買って読んでみました。 海外の著者の翻訳本のため、海外の研究・論文事例が多くて、私含めて日本人にとっては即座に理解しにくい箇所が多いです。 しかし、今後自分がデータ分析していくなかでの自戒であったり、第三者の分析結果を批判的にみるための良い契機となりました。 本書を読んで特に良いキーワード(自戒や他者の分析批判に活かせる事項)は以下になります。 自己選択バイア […]

学生のプロフィール情報とテスト結果の関係とは

気まぐれにKaggleのデータセットを眺めていたら面白そうなデータセットがあったのでサクッと分析してみました。 使ったデータセットは、「Students Performance in Exams」という学生のプロフィール情報(親の教育水準/人種/経済レベル/性別 etc)とテストの得点(数学/Writing/Reading)です。 Kaggleで紹介されているページはです。 また、出典となったデー […]

時系列データに対する特徴量エンジニアリング手法のまとめ

つい最近、『時系列データ分析』という時系列データ分析の超入門書を読んだのですが、実際に機械学習モデルを構築するためにはどうやって特徴量を生成するべきなのか良く分からなかったのでいろいろ調べてみました。 ちなみにこの本は、自己相関とは何かとか、ARCH、GARCHといった主要な統計モデリングの手法を理解するのには最適だと思います。ただ、機械学習モデルにどう特徴量として時系列データを組み込むのかは説明 […]

来月の商品の売上数を予測する〜Kaggle Predict Future Salesに挑む(その2)

前回の投稿からだいぶ経ってしまいましたが、Kaggleの「Predict Future Sales」に再度取り組んでみました。 タスクの概要については以下の記事をご参照ください。 今回は前回とは違い、一応機械学習モデルを入れています。 今回のポイントはマスタであるitem_categories(商品カテゴリ)とshops(店舗)から大分類的な情報を生成したことと、商品売上数と商品売上金額についてラ […]

『確率思考 不確かな未来から利益を生みだす』を読んだ感想

久々に書評を投稿します。 実はこの本が出版されてすぐ、本屋の平積みにあったのを気まぐれに買って読んでいたのですが、内容がサッパリ頭に入っておりませんでした。 今になってふともう一度読んでみようかと思って読み直してみると、なかなか良書でした。 タイトルはとっつきづらいですが、内容はそんなこと一切なく、今後の自分の人生におけるあらゆる意思決定の精度を向上できたり、また、後悔のない意思決定ができるように […]

来月の商品の売上数を予測する〜Kaggle Predict Future Salesに挑む(その1)

最近BI(Business Inteligence)関連とか、RPAツールをいじってばかりだったので、たまにはデータサイエンス系のことをやろうかと思ってKaggleを覗いたところ、簡単にSubmitできそうなタスクがありました。 試しにちょこっとやってsubmitしてみたので、ざっくりとどんなタスクなのか、どうやって提出したのかをまとめました。 なお、今回は機械学習を用いず、単純なルールベースで取 […]

ダイナミックプライシングとは何か?代表的な実装方法の紹介

あけましておめでとうございます。 本年1発目の投稿は、ダイナミックプライシング(dynamic pricing)についてです。 最近、ダイナミックプライシングに関する案件を担当することになったので、いろいろと勉強しています。 ただ、日本語でダイナミックプライシングを詳しく説明しているサイトや参考書籍はほとんど見つかりません。 論文や英語記事を読み漁るしか現時点でダイナミックプライシングを学ぶ術がな […]

対数変換が適さない場合がある!?対数変換すると結果が悪くなる例の紹介

前回に続き、変数変換のお話です。 KaggleのKernelや諸々のブログで紹介されている手法を見ていて(自分が使う手法も含めて)ふと疑問を感じたことがあってこの記事を書きました。 それは、数値変数(連続値をとる変数)が正規分布に従わない場合に、対数変換によって正規分布に擬似的に従わせたうえでモデルを作っていることです。 正規分布に従わない連続値を対数変換するとよくわからないけど正規分布に従うと信 […]

15