田中TOMのめざせKaggleMaster #11 主成分分析を使う

Pocket

YouTube

House Prices

Kaggleの練習問題(Regression)を解いてKagglerになる - Qiita

Metabase

  • Heroku x BigQueryで動かしてみた

主成分分析

機械学習と主成分分析
– 機械学習では特徴ベクトルの次元(特徴変数の数)が増えるとパターンも増えてしまい、必要なデータも膨大になる
– 特徴ベクトルの次元数は少ない方が良い。
– 主成分分析PCAは次元の数を削減して「次元圧縮」や重回帰分析の前処理として特徴量同士を無相関にすることができる
– 元のデータの特徴の情報量をどれだけ持っているかを寄与率で表現して、累積率を見て上位を選択することで、次元を減らす

主成分分析の作業手順

  1. 外れ値を除去する
  2. 元データから教師ラベルを取り除く
  3. 主成分分析を行う
  4. 累積寄与率を吟味して、第何主成分まで利用するかを決める
  5. 教師ラベルを戻し教師データを作成する
  6. 学習
  7. 学習に用いなかった教師データを用いて学習成果を評価
  8. 新たに得られた未知データを識別・予測する

Julia でやってみた

PCA RandomForest 2018/01/13 2625/2949位

今週のニュース

Pocket

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です