『機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック』を読んだ感想

2021.09.05
書評

本の感想ではあるものの、久々にデータサイエンス系を投稿します。

今年に入ってから現場へのデータ活用推進やデータ整備を担当するようになったため、データサイエンス系の業務から長いこと離れていました。
とはいえ、頭の片隅ではデータサイエンス系の知識をキャッチアップできていない焦燥感みたいなものがありました。

そんな折、久々に書店に立ち寄った際に気になる本を見かけたので思わず本書をポチってしまいました。

以前、『はじめてのパターン認識』(通称:『はじパタ』)を参考に「部分依存グラフ」や「近接グラフ」の記事を書きましたが、『はじパタ』ではこの解釈手法以外についての詳しい記述はありませんでした。

キヨシの命題

特徴量重要度だけで解釈するのはやめよう～部分依存グラフのすすめ

https://yolo-kiyoshi.com/2021/02/12/post-2638

以前、決定木アルゴリズムの特徴量重要度(feature_importance)に関する記事を書きましたが、依然としてターゲット変数に寄与する特徴量を重要度だけで解釈するケースを良く見かけます。データサイエンティスト同士で分析結果を共有するならば問題ないかもしれませんが、データサイエンティスト以外の方に特徴量重要度をもとにした分析結果を報告する際はあらぬ誤解を招く可能性があります。※データサイエンティスト自身が特徴量重要度とは何かを把握せずに使っているケースもちらほらあります。特徴量重要度が大きいということは、その...

キヨシの命題

ランダムフォレストで近接グラフを可視化する方法

https://yolo-kiyoshi.com/2021/02/13/post-2674

前回に引き続き決定木系のお話になりますが、今回は近接グラフ(proximity plot)を可視化する方法を紹介します。近接グラフはランダムフォレスト(RandomForest)を構成する各決定木の終端ノードに属するデータに着目した、データ間の近さを可視化する手法です。※前回は特徴量の解釈には重要度だけでなく部分依存グラフも活用しようという記事を書きました。近接グラフとは近接グラフとは、学習データ間の近さを意味する近接行列を多次元尺度構成法(Multi-Dimensional Scaling:MDS)によって可視化したグラフのことです。以降では、近接グ...

一方、この『機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック』ではタイトル通り機械学習モデルの解釈手法に特化していて、体系的な説明がなされています。

本書で紹介している機械学習モデルの解釈手法であるPFI, PF, ICE, SHAPは、ニューラルネットや決定木ベースのアンサンブルといったあらゆるモデルに適用可能です。
「モデルの予測結果に対してどの特徴量が重要度なのか」といったマクロな視点から、「各サンプル単位でなぜモデルがその予測値を算出したのか」といったミクロな視点まで説明可能になります。

荒っぽく言えば、本書で紹介されている解釈手法を利用することで、ブラックボックスなモデルでも回帰モデルと同程度の解釈力・説明力を担保できるようになります。
説明力を担保するために予測精度を犠牲にするというトレードオフがなくなるわけです。

LightGBMなどの決定木ベースアンサンブルモデルは予測精度は高いけど説明力に欠けるから意思決定者にうまく説明できず、結局シンプルな回帰モデルしか利用できていないという方は一読の価値ある本だと思いました。

前の記事

TED TalksでTranscriptクリック時の再生タイミングを合わせる方法 2021.07.30
次の記事

『行動分析学マネジメント-人と組織を変える方法論』を読んだ感想 2021.09.20

『機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック』を読んだ感想

TED TalksでTranscriptクリック時の再生タイミングを合わせる方法 2021.07.30

『行動分析学マネジメント-人と組織を変える方法論』を読んだ感想 2021.09.20