実績データを使って予測精度を確認する簡単な方法：バックテストと予測モデルの選択

by ttakenouchi@trendtrap.com / 日曜日, 20 4月 2014 / Published in データサイエンスコラム

“Trendtrap”, our prediction engine, it is possible to verify prediction accuracy simply by back test using customers actual data.

【テーマ】欠品を防止して売上をもっと伸ばしたい→【目的例】売上（数量）を予測しよう
かなり大雑把な方針を定めましたが、まだ目的にすらなっていないレベル。作業にとりかかることができないレベルです

■【目的サンプル】１ヵ月後の売上を予測する
予測スパンが明確になったものの、かなり粗い目的です。とりあえず月末の販売予測から月初に仕入や生産計画とどうすればいいだろうというところまでは来ていますが、具体的に処理が行える段階ではありません

■【目的サンプル】過去１年間の売上の動きから１ヶ月後の販売予測する
準備できそうなデータをイメージして予測方針を一歩進めた目的例ですが・・・、明確な解析目的がハッキリしたかというと疑問です。このくらいの粗さの方針が決まれば、次のステップとして情報システムさんと相談して具体的にどんなデータが準備でき、どう統計予測していくかを決められそうです

■【目的が予測解析方針に近づくサンプル】過去１年間の販売実績の動きから、予測対象商品と季節、曜日、客数など連動する要因を抽出して、１ヵ月後の販売予測する
この目的で販売予測を実施した場合、すでにある実績データを使って過去を予測してみることができるでしょうが、予測結果が優れているか否かの判断が難しいでしょう。

※簡単なのに効率良い予測モデルを選択することがポイントです。100%の予測精度は”神の領域”です。弊社の予測エンジンは非常に複雑なモデルをもっていますが、時によっては特定の目的とデータの組み合わせにおいて非常に簡単なモデルが適用されることもあります

多くの例がありますが、ここでは以下モデルの例をご紹介します。

*不連続かつランダム：予測はゼロ行進のあとに確率的に検証された回数分だけバラツイた山をうみだしている
* 一年間の季節性: 予測は一年前に観測された値の近辺を正確になぞっている（それぞれ12ヶ月前、或いは53週間前）
*月末の一定期間に集中した山がある：高さがバラツイているのですが、毎月末に集中出荷の跡をなぞっている
* 一週間サイクル: 予測は一週間前に発生した実績値をほぼ正確になぞって、曜日パターンが合致する
* 年間平均横ばい: 予測は一様に昨年12ヶ月に渡り平均した需要を繰り返す

簡単なモデルはより高速計算します。より複雑なモデルを使用すべきなのか判断して、実際の処理時間も知ることが大切です。だからこそバックテストは重要なことなのです。

■【目的が予測解析方針になるサンプル】過去のパターンから、最適な予測モデルを選び、外部要因等の影響度を調査し、該当するエリア、商品の１ヶ月先の販売予測および予想される誤差を算出する。
-明確さとしてこれくらいは必要だと思います

しかし、一番重要なのは、現場で何が起きているかを知ることでしょう。そこを見誤ると、役に立つ予測分析など到底できません

POSデータを見て、週に7冊、ある本が売れるということがわかったとしましょう。データサイエンティストなら、おそらく1日1冊～2冊売れているのだろうと考えるでしょう。

ところが、実際には、ある特定の人が週末の勉強会の教材として特定の曜日に来て7冊まとめて買っていたりする。著者本人か親類縁者かはわかりません？

しかし現場担当者はちゃんとわかっていて、その人が来る曜日の前に在庫をチェックしているのです。そういう顧客は、もし、次に来たときに欲しい本がなければ、近隣の本屋に探しにいってしまうでしょう

データが増えると売上予測の精度を一気に上げることができます。
例えば、コンビニなどでは、「夏でも盆を過ぎると”おでん”が売れる」と言われるように、小売業界では、天気や気温は売上を左右する重要なファクターです。もし、何年分かの過去のデータが残っていれば、天気や気温が似通った日の売上データを参照でき、予測精度を一気に上げることができる、というわけです

それでも予測は売上を睨みつつタイムセールスをかけたり、レジ前のエンド商品の陳列を変えたりできるような現場に依存しています。その場で状況を判断して適切に動けるような”やる気”と”行動力”があるということが前提になります

FORGOT YOUR DETAILS?