タイタニック号の乗客の生存予測〜誰でも理解できる予測モデルの構築

明けましておめでとうございます。 今年初投稿です。 明日からいよいよ仕事が始まりますね。 今年の抱負は「できない理由ではなく、できる方法を探す!」です。 仕事でも趣味でも、新しい分野にどんどんチャレンジして、スキルや知見を貯めていかねば。 さて、今回はまたタイタニック号の乗客の生存予測に関してです。 前から投稿している内容とは異なり、中学数学レベルの内容で誰にでもわかるようなモデルを作って予測して […]

『アルゴリズム思考術:問題解決の最強ツール』を読んだ感想

本日で仕事納めでした。 課題山積みで、年明け早々ハードワークが強いられそうなので、しっかりとリフレッシュしなければ。。。 さて、やっとこの本を読了できましたのでサクッとレビューします! ざっくり内容をというと、「生きていく中で直面する諸問題を、アルゴリズム思考を利用して解決する」本です。 アルゴリズムを勉強したことがある人、数学・物理学を大学で学んだことがある人はもちろんのこと、文系の方にもおすす […]

忘年会で評価を下げられたくないあなた、酔ったときこそ頭を使おう!

街はすっかりクリスマスムードですね。 私はというと、先週から忘年会に次ぐ忘年会で、クリスマスを意識する間もなかったです。 (けっして強がりで言っているわけではありませんよ) 正直、忘年会は1度にまとめてほしいと思っちゃいます。 さて、今回はクリスマスではなくて、忘年会(広くは飲み会)について投稿してみます。 題して、「忘年会で評価を下げられたくないあなた、酔ったときこそ頭を使おう!」 忘年会あるあ […]

秘書問題をシミュレーションしてみた

無事に本社の忘年会が終わりました。 各部署の出し物のクオリティが全て高くて、「これ、忘年会の準備で業務に支障きたすレベルじゃね?(^^;)」って思ったり思わなかったり笑 さて、最近は『アルゴリズム思考術:問題解決の最強ツール』という本を読んでいます。 そこで、秘書問題という古典的な最適停止問題が取り上げられており、それがなかなか面白い内容だったので、今回は簡単なシミュレーションを交えて紹介します。 […]

『仕事は楽しいかね?』を読んだ感想

以前から気になっていた、『仕事は楽しいかね?』を読んでみました。 この本、Amazon Prime会員なら、Kindleを持っていれば、無料で読めちゃいます! さて、読んだ感想ですが、よくある自己啓発本とは一味違う、独特な成功哲学が語られているなぁと思いました。 本書では、コカ・コーラやリーバイスの誕生秘話など、偉大な成功にまつわるエピソードがたくさんでてきます。 でもその成功は、綿密な目標や計画 […]

モンティ・ホール問題をシミュレーションしてみた

いよいよ忘年会シーズン突入ですね。 私が所属する部署では、忘年会の余興として、全力で「翼をください」を合唱することになりました(当惑) 忘年会の出し物。昨年であれば、恋ダンス。今年ならブルゾンちえみでしょうか。 ダンスは絶望的に苦手なので、結構ホッとしています。 さて、今回はモンティ・ホール問題をシミュレーションしてみます。 数学科でも間違う方が多い問題ですが、なかなか面白いです。 また、こういっ […]

『グラフをつくる前に読む本 一瞬で伝わる表現はどのように生まれたのか』を読んだ感想

八重洲ブックセンターの統計解析コーナーに、こんな本が平積みされていたので買ってしまいました。 お堅い学術書が陳列される中で、蛍光色の表紙が際立ちます。 さて、本書では、グラフを利用した効果的なデータの見せ方をテーマとしています。 データ解析手法(回帰分析、クラスタリングなど)を解説した本は多々あるのですが、こういったデータの見せ方(グラフ表現)に焦点を当てた本は今まで見かけたことがありませんでした […]

『ビッグデータを活かすデータサイエンス -クロス集計から機械学習までのビジネス活用事例』を読んだ感想

新年度の事業戦略をデータ分析という観点から支援したいなぁと思っていた矢先、こんな本が書店の平積みにあったのでつい買って読んでしまいました。 フォントが大きく、余白が多いので、1日で読めました笑 ちなみにこの本の著者である里氏は、データサイエンティストの入門書として有名な以下の本の著者であったりもします。 さて、本書を読んだ感想ですが、とにかくわかりやすいです。 クロス集計から機械学習まで幅広い手法 […]

タイタニック号の乗客の生存予測~Kaggleに挑戦(その3)

3度目のチャレンジです。 今回は、ロジスティック回帰分析ではなく、機械学習の一つであるランダムフォレストを使ってタイタニック号の乗客の生存予測をします。 また、新たにFamilySize(家族数)とCabin(部屋番号)を説明変数に入れてモデルを作っています。 さて、スコアは伸びるのでしょうか? FamilySize(家族数)と生存の関係 推測ですが、タイタニック号の沈没事故において、家族は一緒に […]

タイタニック号の乗客の生存予測~Kaggleに挑戦(その2)

前回の投稿から1週間。 Kaggleのチュートリアルコンペであるタイタニック号の乗客の生存予測にリベンジしました。 ※前回の投稿はこちら 前回は、学習用データ、テストデータの変数であるAge(年齢)の欠損値を、単純に学習用データの中央値で補完しました。 今回は、乗客のName(名前)の敬称とAge(年齢)との関係性に着目して、Age(年齢)の欠損値をより正確に補完して予測しました。 2018年12 […]

11113