FORGOT YOUR DETAILS?

実績データがあればお手軽に予測できるか?:欠損値の扱い

by / 火曜日, 22 4月 2014 / Published in データサイエンスコラム

店舗POSデータやERPから得られるデータに欠損値(あるいは異常値)があるのは、ごくごく普通のことです
では一般に予測トライアル(≒バックテスト)に使用するデータに異常値や欠損値がある場合、そのデータの適切な処理方法にはどのようなものがあるでしょうか?

  • 異常値や欠損値のあるデータは除外する
  • 異常値や欠損値を適切な値で補完する

が考えられます
もちろん前者の対応は注意しないと予測結果に影響するので危険ですが・・

次に、欠損値を補完する方法に関しては、その妥当性を検討する必要がありますが、よく知られた例を挙げると

  •  重回帰予測に使う説明変数、カテゴリー変数の場合
    • 最頻値を用いる、あるいは欠損値用のカテゴリーを追加する
  • 時系列データ
    • データ列の連続性を仮定して前回値、前後の平均値あるいは補間計算等を用いる
  •  回帰分析による補完
    • 欠損値以外の属性で補完対象を予測

上に例示したような、異常値や欠損値を補う単一代入法に対して、多重代入法もあります

ちなみに弊社のトレンドトラップ需要予測システムではデータを取り込む際に補完しています。

TOP