機械学習

1/2ページ

パラメータの初期値を指定してOptunaで最適化してみる

2021.10.06
機械学習

OptunaはPFN社が公開しているオープンソースのハイパーパラメータ自動最適化フレームワークです。最適化したいパラメータの事前分布と目的関数を定義すれば、あとはベイズ最適化を用いて自動的にパラメータを探索してくれます。 (Optunaの一般的な使用方法はこちらの記事が詳しいです。) ただ、ある程度パラメータについてのドメイン知識があって、最適なパラメータはこのあたりだと検討がついている場合は初 […]

Py-Featでお手軽に表情認識をやってみた

2021.09.22
機械学習
Docker

Mediumのこちらの記事で、Py-Featというお手軽に表情表現(Facial Expression: FEX)を解析できるツールキットの存在を知ったのでさっそく試してみました。今回は公式チュートリアルのうちの、画像からの表情認識をやってみました。 Py-Featとは Py-Featは表情表現(Action Units、emotions、facial landmarks)を解析するための包括的 […]

ランダムフォレストで近接グラフを可視化する方法

2021.02.13
機械学習
決定木

前回に引き続き決定木系のお話になりますが、今回は近接グラフ(proximity plot)を可視化する方法を紹介します。近接グラフはランダムフォレスト(RandomForest)を構成する各決定木の終端ノードに属するデータに着目した、データ間の近さを可視化する手法です。 ※前回は特徴量の解釈には重要度だけでなく部分依存グラフも活用しようという記事を書きました。近接グラフとは近接グラフとは、学 […]

特徴量重要度だけで解釈するのはやめよう～部分依存グラフのすすめ

2021.02.12
機械学習
決定木

以前、決定木アルゴリズムの特徴量重要度(feature_importance)に関する記事を書きましたが、依然としてターゲット変数に寄与する特徴量を重要度だけで解釈するケースを良く見かけます。データサイエンティスト同士で分析結果を共有するならば問題ないかもしれませんが、データサイエンティスト以外の方に特徴量重要度をもとにした分析結果を報告する際はあらぬ誤解を招く可能性があります。 ※データサイエ […]

PythonのSDVライブラリでリレーショナルなテーブルをモデリングしてみる

2020.11.27
機械学習
SDV

前回に引き続きSDVライブラリを扱います。 ※前回の記事ではSDVライブラリで時系列データをモデリングし、合成データを作ってみました。 ※20201218:弊社ブログにて『合成データがモデル構築をよりオープンにする〜MLタスクでのSDVによる合成データの有効性を検証する』という記事を掲載しています。今回はSDVライブラリを使って複数のリレーショナルなテーブルをモデリングし、テーブル自体を生成して […]

PythonのSynthetic Data Vault (SDV)ライブラリで時系列データを生成してみる

2020.11.19
機械学習
SDV

Mediumの新着記事を眺めていたら気になるタイトルがありました。 Synthetic Data Vault(SDV)という、統計モデルや機械学習モデルを使ってデータセットをモデリングし、合成データを生成できるPythonライブラリがあるとのことです。ということで、今回はこのSDVライブラリを試してみます。公式のチュートリアルを参考に時系列データセットでモデリングし、合成データを生成します。 […]

機械学習

パラメータの初期値を指定してOptunaで最適化してみる

Py-Featでお手軽に表情認識をやってみた

ランダムフォレストで近接グラフを可視化する方法

特徴量重要度だけで解釈するのはやめよう～部分依存グラフのすすめ

PythonのSDVライブラリでリレーショナルなテーブルをモデリングしてみる

PythonのSynthetic Data Vault (SDV)ライブラリで時系列データを生成してみる

DistilBERTの推論速度がCPUとGPUでどれくらい変わるのか比較してみた

BPEでサブワード分割することでDistilBERTに未知語が入力されるのを防ぐ方法

SOTAなモデルを簡単に使えるktrainがテーブルデータに対応したので試してみた

自然言語処理ライブラリspaCyが日本語対応したので試してみた