田中TOMのめざせKaggleMaster #8 初コンペの結果発表 - YouTube
Kaggle kkbox 挑戦
kaggle アドベントカレンダー 2017 データサイエンティストを目指すための Kaggle チュートリアル
- まずは愚直に数字を出してみる
- そこから数値が良くなるにはを考える
データ処理でやったこと
- Date系はとりあえず年だけにしてみた
- 日付情報が入ると数値に直した時に飛び飛びの値になってしまう気がする
- trainデータのmsno(id)にTransactions Logs Members が全て対応しているわけではない
- test データに対応する場合は 「transactions logs members」と「transactions members」 と 「transactions」の3種類で学習を行いそれぞれ、予測をしていった
- データ処理を行ったものはcsvで再び保存しておいて次回から使えるようにしておく
今後の課題
- ローカルで重めのファイルを動かしながらだとPCが作業できなくなるのでAWS上でメインにしていきたい
- AWS上で作業するならデータをs3に入れてデータマウントするみたいな仕組みが必要そう。
- XGBoost と MXNet 使いこなせるようになりたい
- グラフ化するのが上手くできないところもあり、どこで区切ったりすれば良い結果になるのか判別できない
- 自分でカラムを作っていく必要がありそう
- 提出回数制限に無駄に引っかからないために、trainデータを更にtrainとtestに分割してやって手元でテストするのが良さそう
xgboost
1ヶ月ぐらい前から、julia 0.6 に対応し出した。
最近 Xgboost や MXNet をメンテナンスしている dmlc というグループが julia のメンテも積極的にしてくれてるようになってる。特に MXNet は活発に開発が進んでくる Gluon が julia で使えるようになる日も近いかもしれない。
xgboost の クロスバリデーション
News
Amazon Comprehend – 継続的に学習される自然言語処理