実績データがあればお手軽に予測できるか?:欠損値の扱い
店舗POSデータやERPから得られるデータに欠損値(あるいは異常値)があるのは、ごくごく普通のことです
では一般に予測トライアル(≒バックテスト)に使用するデータに異常値や欠損値がある場合、そのデータの適切な処理方法にはどのようなものがあるでしょうか?
- 異常値や欠損値のあるデータは除外する
- 異常値や欠損値を適切な値で補完する
が考えられます
もちろん前者の対応は注意しないと予測結果に影響するので危険ですが・・
次に、欠損値を補完する方法に関しては、その妥当性を検討する必要がありますが、よく知られた例を挙げると
- 重回帰予測に使う説明変数、カテゴリー変数の場合
- 最頻値を用いる、あるいは欠損値用のカテゴリーを追加する
- 時系列データ
- データ列の連続性を仮定して前回値、前後の平均値あるいは補間計算等を用いる
- 回帰分析による補完
- 欠損値以外の属性で補完対象を予測
上に例示したような、異常値や欠損値を補う単一代入法に対して、多重代入法もあります
ちなみに弊社のトレンドトラップ需要予測システムではデータを取り込む際に補完しています。
Recent Posts
製造現場で発生する異常や不良は発生頻度が低く、異常データを学習させることが難しいというが・・ほんとう?
故障予知といっても1年に2回もおきない事故データを統計学習させるには数年待たないと実務にのらな...トポロジー最適化を考える
先だって、日経新聞の記事で「マツダ、車体平均3%軽量化 「電脳」味方に設計改革 限界突破の設計...Microsoft AzureがSAP_HANAを「どこでも開発やテスト」可能にする
Microsoft AzureがSAP HANA, express editionのコンセプト...SAP HANAとRインテグレーション
SAP_HANAは単なるインメモリーデータベースではない ”R”をデータサイエンス・演算エンジ...数理最適化の展望:都市基盤安全工学国際研センター・オープンレクチャー:Edward Rothberg氏 / Robert Bixby氏 講義
最適化エンジン:Groubi生みの親Robert Bixby氏とEdward Rothberg...