TableauのLOD表現をSQLで理解する

最近再びTableauを使い始めました。 Tableauを使うのは2年ぶりでしたが、操作方法の大枠は変わらないのでブランクがあっても難なく利用できています。 ※テーブルの結合周りでやや仕様が変わっていて、JOINしたと見せかけてリレーションになっていたことがありましたが…。 さて、だいぶ昔にTableauでのアドホック分析をSQLと対応づけて説明する記事を書きましたが、今回はもう一歩踏 […]

ランダムフォレストで近接グラフを可視化する方法

前回に引き続き決定木系のお話になりますが、今回は近接グラフ(proximity plot)を可視化する方法を紹介します。 近接グラフはランダムフォレスト(RandomForest)を構成する各決定木の終端ノードに属するデータに着目した、データ間の近さを可視化する手法です。 ※前回は特徴量の解釈には重要度だけでなく部分依存グラフも活用しようという記事を書きました。 近接グラフとは 近接グラフとは、学 […]

特徴量重要度だけで解釈するのはやめよう~部分依存グラフのすすめ

以前、決定木アルゴリズムの特徴量重要度(feature_importance)に関する記事を書きましたが、依然としてターゲット変数に寄与する特徴量を重要度だけで解釈するケースを良く見かけます。 データサイエンティスト同士で分析結果を共有するならば問題ないかもしれませんが、データサイエンティスト以外の方に特徴量重要度をもとにした分析結果を報告する際はあらぬ誤解を招く可能性があります。 ※データサイエ […]

LGBMRankerを使ってAmazonのレビューデータセットでランク学習してみる

最近会社で、ランク学習(Learing to Rank: LTR)について調べる機会がありました。 ランク学習はその名の通りランキング問題を解決するための教師あり学習、半教師あり学習、強化学習の1つです。 ランク学習は検索クエリ(情報検索なら検索ワード、レコメンドならユーザー)に対するアイテムのランク付けを目的としているため、情報検索やレコメンドにも活用されています。 ※ランク学習について知りたい […]

Azure Container InstanceをLogic Appsでスケジューリングする方法

最近Windows OSやAzureを触り始めました。 もともとLinuxやMacだったり、クラウドであればGCPやAWSを利用して開発していたのでなかなか慣れず、四苦八苦している今日この頃です。 さて、今回はAzureでDockerコンテナを定期実行する方法を紹介します。 クラウドでのDockerコンテナの定期実行は、AWSならCloud Watch、GCPならCloud Schedulerでノ […]

HiPlotで多次元の学習データを一気に可視化してみた

Mediumのtowards data scienceでこんな面白い記事を見かけました。 「Facebook社が公開しているHiPlotというライブラリで学習データを可視化してみた」という記事です。 HiPlotライブラリはもともと、NNベースのモデルのハイパーパラメータを可視化するためのツールですが、それを学習データの可視化に応用してみたんだとか。 ※ちなみに自分はHiPlotを使ったことがあり […]

『1分で話せ 世界のトップが絶賛した大事なことだけシンプルに伝える技術』を読んだ感想

久しぶりの書評になります。 今回紹介する本は、だいぶ前に買って積読だった『1分で話せ 世界のトップが絶賛した大事なことだけシンプルに伝える技術』です。 この本の著者は、Yahoo!アカデミアの学長としても有名な伊藤洋一さんです。 本書を読んで特に印象的だったのは、以下の言葉でした。 私が言うプレゼン力とは、人前で発表するスキルでも、話すスキルでもありません。人に「動いてもらう」力です。 この人に「 […]

肺ガンデータセットに一般化線形モデルや一般化線形混合モデルを適用してみる

あけましておめでとうございます。新年1発目の投稿です。 今後の業務で一般化線形混合モデル(GLMM)や状態空間モデルを使うかもしれないということで、再び統計モデリングを勉強しています。 今まで担当してきた業務は自然言語処理やレコメンドなどの機械学習モデルを扱ったものばかりで、GLMMや状態空間モデルに関して実務で使うことはありませんでした。 今回は簡単ではありますがscikit-learnの肺ガン […]

切片が0の回帰モデルにおける決定係数の解釈

『Rで学ぶ確率統計学 多変量統計編』の「第3章 単回帰分析」を読んでいて、切片が0のとき(原点を通る)回帰モデルにおける決定係数について興味深い解釈がなされていたので、頭の整理としてまとめます。 なお、今回のテーマですが、残念ながら日本語の記事はほぼ存在しなかったものの、海外ではよく議論されているようです。 決定係数とは 決定係数は回帰モデルにおける当てはまりの良し悪しを判断するための指標で、以下 […]

多変量適応的回帰スプライン(MARS)をPythonで試してみる

先日、MediumでMARS(Multivariate Adaptive Regression Splines:多変量適応的回帰スプライン)に関する記事を読みました。 今回はこの記事で紹介されているpy-earth(PythonでMARSを実装したライブラリ)を試してみます。 コードはGitHubに上がっています。 多変量適応的回帰スプライン(MARS)とは 多変量適応的回帰スプライン(Multi […]

112