LGBMRankerを使ってAmazonのレビューデータセットでランク学習してみる

最近会社で、ランク学習(Learing to Rank: LTR)について調べる機会がありました。 ランク学習はその名の通りランキング問題を解決するための教師あり学習、半教師あり学習、強化学習の1つです。 ランク学習は検索クエリ(情報検索なら検索ワード、レコメンドならユーザー)に対するアイテムのランク付けを目的としているため、情報検索やレコメンドにも活用されています。 ※ランク学習について知りたい […]

Azure Container InstanceをLogic Appsでスケジューリングする方法

最近Windows OSやAzureを触り始めました。 もともとLinuxやMacだったり、クラウドであればGCPやAWSを利用して開発していたのでなかなか慣れず、四苦八苦している今日この頃です。 さて、今回はAzureでDockerコンテナを定期実行する方法を紹介します。 クラウドでのDockerコンテナの定期実行は、AWSならCloud Watch、GCPならCloud Schedulerでノ […]

HiPlotで多次元の学習データを一気に可視化してみた

Mediumのtowards data scienceでこんな面白い記事を見かけました。 「Facebook社が公開しているHiPlotというライブラリで学習データを可視化してみた」という記事です。 HiPlotライブラリはもともと、NNベースのモデルのハイパーパラメータを可視化するためのツールですが、それを学習データの可視化に応用してみたんだとか。 ※ちなみに自分はHiPlotを使ったことがあり […]

『1分で話せ 世界のトップが絶賛した大事なことだけシンプルに伝える技術』を読んだ感想

久しぶりの書評になります。 今回紹介する本は、だいぶ前に買って積読だった『1分で話せ 世界のトップが絶賛した大事なことだけシンプルに伝える技術』です。 この本の著者は、Yahoo!アカデミアの学長としても有名な伊藤洋一さんです。 本書を読んで特に印象的だったのは、以下の言葉でした。 私が言うプレゼン力とは、人前で発表するスキルでも、話すスキルでもありません。人に「動いてもらう」力です。 この人に「 […]

肺ガンデータセットに一般化線形モデルや一般化線形混合モデルを適用してみる

あけましておめでとうございます。新年1発目の投稿です。 今後の業務で一般化線形混合モデル(GLMM)や状態空間モデルを使うかもしれないということで、再び統計モデリングを勉強しています。 今まで担当してきた業務は自然言語処理やレコメンドなどの機械学習モデルを扱ったものばかりで、GLMMや状態空間モデルに関して実務で使うことはありませんでした。 今回は簡単ではありますがscikit-learnの肺ガン […]

切片が0の回帰モデルにおける決定係数の解釈

『Rで学ぶ確率統計学 多変量統計編』の「第3章 単回帰分析」を読んでいて、切片が0のとき(原点を通る)回帰モデルにおける決定係数について興味深い解釈がなされていたので、頭の整理としてまとめます。 なお、今回のテーマですが、残念ながら日本語の記事はほぼ存在しなかったものの、海外ではよく議論されているようです。 決定係数とは 決定係数は回帰モデルにおける当てはまりの良し悪しを判断するための指標で、以下 […]

多変量適応的回帰スプライン(MARS)をPythonで試してみる

先日、MediumでMARS(Multivariate Adaptive Regression Splines:多変量適応的回帰スプライン)に関する記事を読みました。 今回はこの記事で紹介されているpy-earth(PythonでMARSを実装したライブラリ)を試してみます。 コードはGitHubに上がっています。 多変量適応的回帰スプライン(MARS)とは 多変量適応的回帰スプライン(Multi […]

PythonのSDVライブラリでリレーショナルなテーブルをモデリングしてみる

前回に引き続きSDVライブラリを扱います。 ※前回の記事ではSDVライブラリで時系列データをモデリングし、合成データを作ってみました。 ※20201218:弊社ブログにて『合成データがモデル構築をよりオープンにする〜MLタスクでのSDVによる合成データの有効性を検証する』という記事を掲載しています。 今回はSDVライブラリを使って複数のリレーショナルなテーブルをモデリングし、テーブル自体を生成して […]

PythonのSynthetic Data Vault (SDV)ライブラリで時系列データを生成してみる

Mediumの新着記事を眺めていたら気になるタイトルがありました。 Synthetic Data Vault(SDV)という、統計モデルや機械学習モデルを使ってデータセットをモデリングし、合成データを生成できるPythonライブラリがあるとのことです。 ということで、今回はこのSDVライブラリを試してみます。 公式のチュートリアルを参考に時系列データセットでモデリングし、合成データを生成します。 […]

『物流危機は終わらない――暮らしを支える労働のゆくえ』を読んだ感想

以前から物流業界に興味があり、たまたま気になるタイトルの本をAmazonのKindleストアで見かけたので読んでみました。 物流業界は労働集約型産業であり、文字通り業務の大半が人間による労働力で支えられています。 しかし、国内では労働力人口は今後も減少傾向(※1)で、そのうえ物流業界は3K(きつい、きたない、危険)な仕事という先入観があるために新しい働き手も減少(※2)しています。 (※1)厚生労 […]