田中TOMのめざせKaggleMaster #11 主成分分析を使う

YouTube

House Prices

Kaggleの練習問題(Regression)を解いてKagglerになる - Qiita

Metabase

  • Heroku x BigQueryで動かしてみた

主成分分析

機械学習と主成分分析
– 機械学習では特徴ベクトルの次元(特徴変数の数)が増えるとパターンも増えてしまい、必要なデータも膨大になる
– 特徴ベクトルの次元数は少ない方が良い。
– 主成分分析PCAは次元の数を削減して「次元圧縮」や重回帰分析の前処理として特徴量同士を無相関にすることができる
– 元のデータの特徴の情報量をどれだけ持っているかを寄与率で表現して、累積率を見て上位を選択することで、次元を減らす

主成分分析の作業手順

  1. 外れ値を除去する
  2. 元データから教師ラベルを取り除く
  3. 主成分分析を行う
  4. 累積寄与率を吟味して、第何主成分まで利用するかを決める
  5. 教師ラベルを戻し教師データを作成する
  6. 学習
  7. 学習に用いなかった教師データを用いて学習成果を評価
  8. 新たに得られた未知データを識別・予測する

Julia でやってみた

PCA RandomForest 2018/01/13 2625/2949位

今週のニュース

田中TOMのめざせKaggleMaster #10 回帰問題へ挑戦

動画URL

田中TOMのめざせKaggleMaster #10 回帰問題へ挑戦 - YouTube

Next Competition

House Prices: Advanced Regression Techniques | Kaggle

  • 米国アイオワ州のエイムズという都市の物件価格を予測する問題
  • データは、”築年数”、”設備”、”広さ”、”エリア”、”ガレージに入る車の数”など79個の変数および物件価格による1460戸の学習データが与えられる
  • データをもとにモデルを作成し、1459戸の家の価格を予測する

参考記事

今週のニュース