タイタニック号の乗客の生存予測~Kaggleに挑戦(その1)

タイタニック号の乗客の生存予測~Kaggleに挑戦(その1)


だんだん冬が近づいてきましたね。
そろそろシャツ1枚で外出するのは、世間体的に宜しくないシーズンとなってまいりました。

さて、今回はKaggleという統計学を学んだ者にとっては胸が熱くなるようなサービスがあったので、統計解析手法の復習もかねてチャレンジしてみようと思います!
(まずはKaggleにアプライすることをゴールにしています、、、)

お題はタイタニック号の乗客の生存予測です。

タイタニック号の沈没事故は皆さん映画で良くご存知だと思いますので、説明は省略します。

当時の乗客のデータを使って、どんな乗客なら生存し、または死亡したのかを解析し、予測モデルを構築していきます。
2018年12月追記:以下に最新のKaggle titanic tutorialへの取り組みをあげています。

※統計解析言語Rを使っています。

Kaggleとは

一言でいえば、世界中のデータサイエンティストたちが、課題のデータを分析し、いかに最適なモデルを作れるかを競い合うサービスです。

以下は、wikipediaからの引用です。

Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。

今回は、Kaggleの中でもチュートリアル的な課題である、タイタニック号の乗客の生存予測をやってみます!

タイタニック号の乗客データ

データの概要

以下から課題となっているタイタニックの乗客データをダウンロードできます。
ダウンロードできるデータは次の2つです。

  • 学習用データ(予測モデルの構築に使用。乗客の生存情報もあり。)
  • テストデータ(予測モデルの当てはめ用。乗客の生存情報なし。)

学習用データとしてKaggleで与えられている、タイタニック号の乗客のデータ項目は以下になります。

項目説明
PassengerID乗客ID(Kaggleが勝手につけたID)
Survived生存結果 (1: 生存, 2: 死亡)
Pclass乗客の階級(階級は1、2、3の順)
Name乗客の名前
Sex性別
Age年齢
SibSp兄弟、配偶者の数
Parch両親、子供の数
Ticketチケット番号
Fare 乗船料金
Cabin 部屋番号
Embarked 乗船した港(Cherbourg、Queenstown、Southampton)

Rで学習用データを読み込み、欠損値を確認してみましょう。
(ここでは、空白も欠損値としています。)
input:

出力結果は以下になりました。
output:

Age(年齢)、Cabin(部屋番号)にかなり欠損値が含まれていることがわかります。

データの加工

まずは乗客の生存に影響がなさそうな変数を除外していきましょう。
解析対象の変数が少ないほうがデータを見やすくなります。

以下の変数は乗客の生存に影響しなさそうなので除外します。

  • PassengerID(乗客ID)
  • Name(名前)
  • Ticket(チケット番号)
  • Cabin(部屋番号)

input:

output:

次に、Age(年齢)またはEmbarked(乗船した港)が欠損値となっているレコードを除外します。
(今回は欠損値を補完せず、単純に除外します。)
input:

これで、データからは欠損値が除外されました。

最後に、文字列をデータとしているSEX(性別)、Embarked(乗船した港)を数値に置き換えます。

これで一旦、データ加工は終了です。

乗客の生存と相関がありそうな変数

加工したデータの変数間の相関を見てましょう。
input:

output:

Survived(乗客の生存)との相関がありそうな変数は、Sex(性別)と、次いでPclass(乗客の階級)だと言えそうです。

映画『タイタニック』を観ていても、女性や階級の高い乗客が優先的に救命ボートに乗せられていましたし、感覚的には納得できます。

予測モデル構築

今回は、ロジスティック回帰分析によって予測モデルを構築してみます。
ロジスティック回帰は、予測したい変数が2値(成功or失敗、生存or死亡など)である場合に使われます。

以下はwikipediaからの引用です。

ロジスティック回帰(ロジスティックかいき、英: Logistic regression)は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。1958年に David Cox が発表した[1]。確率の回帰であり、統計学の分類に主に使われる。医学や社会科学でもよく使われる。

では、glm関数を使って予測モデルを構築します。

input:

output:

Parch(両親、子供の数)、Fare(乗船料金)、Embarked(乗船した港)は予測モデルの説明変数としては相応しくなさそうなので、除外して再度モデルを構築します。
input:

output:

更新したモデルは、更新前のモデルに比べてAIC(赤池情報量基準)がしっかり減少しているので、より最適な予測モデルになったと言えます。
\( p \) を生存する確率とすると、以下の予測モデル式となります。

$$ \log \frac{p}{1-p} = 5.59083 -1.31392 \times Pclass -2.61477 \times Sex \\
-0.04459 \times Age -0.37465 \times SibSp $$

予測結果

テストデータを読み込み、テストデータの欠損値を確認します。
input:

output:

予測モデルの説明変数であるAge(年齢)に、86も欠損値が含まれています。

しかし、学習データを加工したときとは異なり、Age(年齢)の欠損値を除外してはいけません。

Age(年齢)は予測モデルの説明変数であるため、何らかの数値で補完してあげる必要があります。

今回は簡単に、学習モデルにおけるAge(年齢)のMedian(中央値)を使います。
input:

output:

従って、学習データのAge(年齢)の中央値は28であり、この数値を使って、テストデータの欠損値を補完します。
input:

これで、テストデータのAge(年齢)の欠損値の補完ができました。
次に、学習データを加工した際と同様に、文字列をデータとしているSex(性別)を数値に置き換えます。
input:

テストデータの加工が完了したので、最後は学習データで構築した予測モデルをテストデータにあてはめ、生存を予測します。
input:

output:

以上が予測結果となります。

Kaggleへ予測結果を提出

タイタニック号の乗客の生存予測結果をKaggleへ提出します。

以下のページで、提出フォーマットを説明しています。

You should submit a csv file with exactly 418 entries plus a header row. Your submission will show an error if you have extra columns (beyond PassengerId and Survived) or rows.

The file should have exactly 2 columns:
・PassengerId (sorted in any order)
・Survived (contains your binary predictions: 1 for survived, 0 for deceased)


要は、csv形式で、ヘッダーにPassengerIdとSurvivedを入れて、418行のデータで提出しなさいということです。

Kaggleへログインすると「My Submission」タブが表示されるので、それをクリックし、csvファイルをアップロードします。

予測結果を提出フォーマットに整形し、Kaggleへ提出した結果。

正答率は74.162%で、9,207人中8,245位でした。

クソみたいな順位ですね笑

必要最低限の解析しかしていないから当然ではありますが。

ただ、ほんの0.1%でも正答率を改善することで格段に順位が上がります。

それだけ、上位はひしめき合っているということです。

まとめ

次回のチャレンジでは以下を改善すれば順位が上がるはずです。

  • Age(年齢)の欠損値補完に一工夫入れる(他の変量で予測できるはず)
  • 乗客の生存に影響がある因子を考慮した予測モデルを構築する
  • アンサンブル機械学習を導入する

今回のチャレンジを通して、Kaggleへのアプライの流れを理解できたので、次は本腰を入れてやってみようと思います!