対数変換が適さない場合がある!?対数変換すると結果が悪くなる例の紹介

前回に続き、変数変換のお話です。 KaggleのKernelや諸々のブログで紹介されている手法を見ていて(自分が使う手法も含めて)ふと疑問を感じたことがあってこの記事を書きました。 それは、数値変数(連続値をとる変数)が正規分布に従わない場合に、対数変換によって正規分布に擬似的に従わせたうえでモデルを作っていることです。 正規分布に従わない連続値を対数変換するとよくわからないけど正規分布に従うと信 […]

カテゴリカル変数はなんでもダミー変換すればよいのか?-アルゴリズムに応じたOne Hot EncodingとLabel Encodingの使い分け

KaggleのKernelを見ていると、カテゴリカル変数に対して特に理由もなくpandasのget_dummiesメソッドでOne Hot Encodingをしている場合が多いようです。 本人たちは理解してカテゴリカル変数をEncodingしていると思いますが、なぜそのEncodingなのかを説明しているKernelを私は見たことがありません。 そこで自分の頭の整理を兼ねて、カテゴリカル変数をEn […]

住宅価格を予測する〜Kaggle House Priceチュートリアルに挑む(その1)

日増しに寒くなってきました。 街ゆく人々は厚手のコートにマフラーと本気で防寒し始めているわけですが、著者はダイエットのためにあえて薄着で過ごしております。 さて、Kaggleの回帰問題のチュートリアルである、住宅価格の予測(House Prices: Advanced Regression Techniques)に挑戦しました。 Kaggleには2つチュートリアルがあって、回帰問題はHouse P […]

タイタニック号の乗客の生存予測〜80%以上の予測精度を超える方法(探索的データ解析編)

今さらですが、ついにKaggleのタイタニック チュートリアル(titanic tutorial)でAccuracy 80%を達成できました。 ※過去に3つほどtitanic tutorialについての記事を書いています。titanic tutorialって何?っていう方は以下に詳しくまとめていますのでご参照ください。 今回から2~3回にわたって、どうやってAccuracy 80%を超えられたのか […]

Tableauで始めるアドホック分析~SQLと関連づけてTableauの仕組みを理解する

今回はTableauの仕組みを理解する上で本質的と思われる項目に焦点を当て、SQLと対比しながらTableauの仕組みを説明していきます。 ちなみに筆者はTableau歴1年で、Jedi(ジェダイ)には及ばないものの不自由なくTableauを使いこなせるようになりました。 (ダッシュボード関連では細かいバグを見つけたりもしています) しかし、Tableauを使い始めたころは仕組みを理解せずになんと […]

RPAツールWinactorの導入における建前と本音

  • 2018.10.28
  • RPA

お久しぶりのブログ更新です。 今回はRPAツールの一つであるWinactorの導入にまつわる建前と本音を語ります。 ちなみに筆者は、Winactor導入プロジェクトの立ち上げに関わった経験があります。 定型化された業務(マニュアル化できるような業務)にかけられていた工数のほとんどをロボットに代替させることで、浮いた工数をより事業の利益に直結するタスクに振り分けられました。 (働き方改革で目指してい […]

RPAでルーチン業務とおさらば!?あなたの周りにもRPAを導入してみよう!

  • 2018.07.05
  • RPA

梅雨明けだというのになんていう湿度でしょう。 湿った風に吹かれると体の露出している部分が一気にベタつく感じがします。 北海道から本州に来て早8年ですが、夏だけは北海道に帰りたいと思っちゃいます。 さて、今回はたびたび本ブログの話題に挙がっているRPAについて、やや掘り下げた投稿をします。 というのも、職場で今期からRPAの導入が本格化し、業務の標準化やロボット実装をすべて私がやることになったからで […]

無料BIツールTableau Public版を使った川崎市施設別WiFiアクセス数の可視化

お久しぶりの投稿です。 業務的な忙しさに加えて他のことに興味が向いてしまっていたために、3ヶ月くらい当ブログを放置してしまいました。 ただ、こんなに放置していたのにも関わらず、定期的に見てくたださっている方がいらっしゃるようでした。 素直に嬉しい思いでした。 私が何かを発信する意義はゼロではないと思いますので、投稿再開いたします。 さて、今回はBI(Business Inteligence)ツール […]

レストランの来客数予測@Kaggle〜データ分析編①

3連休、もう終わりですね。 本来であればこの3連休は阿弥陀岳(南陵ルート)に挑む予定でした。 ですが、低気圧の通過で冬山としては最悪のコンディションが予想されたため延期になり、ぽっかりと連休の予定が空いてしまったのです。 ということで、この連休はKaggleのレストランの来客数予測をやっていました。 ※準備編ということで、以前投稿したやつの続きです。 まずはお題となっているデータを個別にみていこう […]

レストランの来客数予測@Kaggle〜準備編

最近の業務は、TableauというBI(Business Inteligence)ツールを使ったデータの可視化がメインです。 データを可視化することで、戦略的な課題のあぶり出しや、顧客のセグメンテーションに役立てたりしています。 ただ、データ分析による未来予測は、現在のミッションに入っていません。 向学のため、未来予測も勉強していかないとなぁと思い、Kaggleのコンペを見ていたら、こんなものがあ […]