行動履歴をもとに協調フィルタリングとWord2Vecでレコメンドしてモデルの精度を評価する

レコメンド関連の勉強のために使えるデータを探していたところ、Kaggleで丁度良いデータセットがあったので、今回はユーザの行動履歴をもとにアイテムをレコメンドする方法とそのレコメンドモデルを評価する方法を説明します。 使用するアルゴリズムは古典的なアイテムベース協調フィルタリングと、割と新しい手法であるWord2Vec(アイテムを分散表現するのでitem2vecとも呼ばれます)です。 Word2V […]

『ビッグデータ探偵団』を読んだ感想

会社のマネージャーや同僚に勧められて読んでみました。 『ビッグデータ探偵団』というザ・ITワードには似つかない可愛らしいタイトルに遜色なく、データ分析に携わる方から現場の営業の方まで幅広く読むことができる本だと思いました。 ざっくりと内容を説明すると、Yahoo!ビッグデータレポートチームが自社サービスであるYahoo! JAPANで蓄積している膨大な検索データをもとに、老若男女問わず「なるほど〜 […]

ExploratoryでKaggleのHouse Priceをやってみる

前回の投稿でベイジアンA/Bテストを紹介しましたが、その際に参考にした記事でExploratoryというツールが用いられていました。 調べてみると、ExploratoryではベイジアンA/Bテストはもちろんのこと、データの可視化やモデル構築までできるとのこと。 Public版なら無料で使えるので、今回はKaggleのHouse Priceチュートリアルを題材に、Exploratoryでどういうこと […]

施策効果の測定にはベイジアンA/Bテストを使おう!

クライアント先のデータサイエンティストから、「施策検証といえば普通はA/Bテストだけど、ベイジアンA/Bテストというモダンな手法があって面白いよ!」と勧められたのでいろいろ調べてみました。 なるほど確かに、ベイジアンA/Bテストかなり使えます。 ということで、簡単にベイジアンA/Bテストを紹介しようと思います! (Pyhtonでの実装方法や便利ツールなどは他所に詳しいのでリンクを貼っておきます) […]

決定木アルゴリズムの重要度(importance)を正しく解釈しよう

機械学習案件で、どの特徴量がターゲットの分類で「重要」かを知るためにRandamForestやXGBoostなどの決定木系アルゴリズムの重要度(importance)を確認するということがよくあります。 ただ、この重要度がどのように計算されているのかを知らずに、なんとなく「重要」な特徴量をあぶり出してくれる便利なツールとして使われていまっているような印象があります。 確かに重要度はお手頃に求められ […]

Appleが公開している機械学習ライブラリTuri CreateでKaggle Titanicをやってみる

Twitterで呟いたり、Qiitaに投稿したりでブログがおろそかになっていました。。。 ということで、久々のブログ更新です。 今抱えている案件の一つにレコメンドシステム関連があって、業務に使えるいいネタはないかといろいろ調べ物をしていたところ、Mediumでcollaborative filtering(協調フィルタリング)に関するすご〜く良い記事を見つけました。 この記事では、協調フィルタリン […]

Tableauでカレンダー形式のダッシュボードを作成する方法

久々の投稿になります。 今期から新人の技術面でのメンターになり、とあるMLプロジェクトの精度検証などのモニタリング課題を新人と伴奏することになりました。 モニタリングはTableau Serverで行うことになったので、ただいま新人くんにTableauの使い方を伝授している真っ最中でございます。 さて、今回はTableauでカレンダー形式のダッシュボードを作成する方法をご紹介します。 上記はPea […]

統計学と機械学習におけるマルチコ(多重共線性)に対する考えの相違

先日、デスマーチの末なんとか機械学習案件のリリースに漕ぎ着けました。 今回の案件に関わらないですが、要件や仕様はしっかり明文化しておくべきですね。 後から(特にリリース間近になって)言った言わないの議論になるのは双方にとってあまり気持ちのいいものではありません。 些細な仕様変更のため口頭で合意した内容でも、しっかりと資料化しておくことの重要さを再認識しました。 さて、今回はマルチコ(多重共線性)に […]

雪崩から生還〜山岳事故に巻き込まれるリスクを考える

割とショッキングな話ですが、つい先日、残雪が残る北アルプスに登山にいき、雪崩に巻き込まれました。 私たちのパーティ含め5〜7名が雪崩に巻き込まれましたが、全員の無事を確認でき大事に至ることはありませんでした。 こんな経験は人生で2度はしないだろうと思います。 今回の事故を風化させないため、ここでは雪崩(ひいては山岳事故)に巻き込まれる可能性が高まるリスクについて思うところを述べてみようと思います。 […]

『データは騙る: 改竄・捏造・不正を見抜く統計学』を読んだ感想

前から気になっていた『データは騙る』を買って読んでみました。 海外の著者の翻訳本のため、海外の研究・論文事例が多くて、私含めて日本人にとっては即座に理解しにくい箇所が多いです。 しかし、今後自分がデータ分析していくなかでの自戒であったり、第三者の分析結果を批判的にみるための良い契機となりました。 本書を読んで特に良いキーワード(自戒や他者の分析批判に活かせる事項)は以下になります。 自己選択バイア […]