田中TOMの めざせ Kaggle Master #4

Pocket

データ解析の道のり

kernelを眺める

執念を感じるtitanicのkernel
できる全てを詰め込んでいるのでは?
EDA To Prediction(DieTanic)

  1. Dataを眺める
  2. 特徴量をタイプ別に分類する
  3. 特徴量ごとにグラフや表を使って分析する
  4. 観察結果をまとめる
  5. 欠損データを埋める

視覚化ツール

seaborn
データ視覚化ツール
matplotlibのラッパーで、見た目と使いやすさが上がったもの

結果

上記のkernelの通りにデータの整形を行って予測を実行。
trainの方でpredictをした時の結果は89%なので過学習している?

機械学習アルゴリズムをランダムフォレスト系ではなく
別の手法にしたほうが良いだろうか?
Choosing the right estimator

xgb_model=xgb.XGBClassifier(n_estimators=30, max_depth=4)

で0.79904出た。上位16%くらい

Julia now

タイタニック

年齢について少し調べてみた。
年齢はNaN値が存在しているが、等級と性別である程度年齢の平均は推測できるのではと思った。

Gadfly+boxplot.ipynb

けど、順位はあがらず。最初にやった結果が偶然精度が良かった可能性が考えられる。

Julia で並列処理

Juliaで並列計算を試す

次はMxnet試したい

  • 前回のニュースで紹介してた Gluon(マイクロソフトとAmazonが組んだ機械学習ライブラリ) のラッパーされているライブラリ
  • 現状公式でJuliaサポートがされているライブラリ
  • Amazonが公式でサポートしており、今後データ処理が重くなりスケールアップしたい場合に、コードはそのままでAWSのGPUを使ったインスタンス上でコードが実行できそう。
  • MXNet とは – AWS

ニュース

Pocket

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です