########################################################## A unifying Framework for detecting Outliers and Change Points from Time Series 中西 ########################################################## 時系列データの外れ値と変化点の検出 検出するもの 外れ値や変化点が興味を引くものとなってきた これらが別々に捉えられてきた→統一的に検出したい 検出を2段階に分けて分離 単体での外れ度や移動平均の外れ度合いを計算する 従前 ARモデルは定常性を仮定してる→そもそも外れ値とかを捉えられない →ARモデルの分散に時間変化や最尤推定 変化点の数を前提や変化後の検出 →より適応性の高いものを Change point detection ・急激に変化するとこをChnge detectionとする ・1〜t-1までの点が得られたときの条件付きの分布 →変化点の前後で分布が変化する カルバック・ライブ ラー情報量で分布の類似度を測る→大きい方がかなり異なる →変化点では大きくなる これを逐次計算すればいいのか? 唯一の変化点と二つの分布の定常性を仮定しているので問題が解決されてない。 →二つのタイプの変化点を考える ・平均の変動 ・分散の変動 2段階学習 変化点と外れ値のそれぞれに対する確率密度関数が検出に用いられる 外れ値検出 対数損失と二次損失で評価する 確率密度の更新方法 ARモデルを導入する 変化点検出 外れ値検出の評価値を元に移動平均をつくる 変化点の前後で大きくなる 移動平均の幅が小さいと変化検出は早いが外れ値の峻別能力は大きい →逆も成立 シミュレーション 平均、分散を変化させたときのスコアをだす →権出力と検出速度によって評価する 従来手法より変化点検出の遅れが小さい 計算オーダーが従来手法より小さくリアルタイム分析に適している 質疑 ・何期前前までを考慮するか、周期性を持ったデータの扱いは? →周期性があると情報量基準が使えない。逐次的に計算していけばいい。周期性があると 崩れてしまう。 ・ARを使っている以上定常性がないといけない。 →結局定常性の緩和は割引率しかない。 ・周期が乱れたとかは評価できない? →難しいと思う。 ・外れ値の検出は? →実験的データだと外れ値のスコアXはそれほどおおきくないはず。 ・このスコアの利得は? →何か所で変化していてもいいこと。 ・後半の情報があまりいらないことがおもしろい。事後的にわかるというのが今まで。 なので検出がすぐできるということ。 →研究がそれほど進んでいない。オーソドックスなのは分布の比較。 事故の検出とかに使われている。 生データが取れるなら状態空間に強い 観測データではではなく指標など加工すると誤差項の扱いになってくる。 感知器データを平均すると慣らされている。 パラメータの変化がなにを意味をしているかはわからないが、変化はある。 状態空間だと誤差があるので。 ・復元力みたいなのはわかる? 震災後に生産力が落ちるが戻るとか? →もとに戻ったかは分布が完全であればわかる。基本的に平均分散の変化したときの 変化をみたい。震災とかの変化はどんなのか? ・震災だと急激に変化して緩やかに戻っていく →平均の変化。今回のだと分散の変化の方がよく検出できる。 ・混乱していたのが収まるというのは難しいということ →そのような混乱を分散ではなく平均の変化として表せる指標があればいける。 ・状態空間だと観測値をかなり信頼するが、今回のだとそれは関係ない。モデルにかまして 変化をみるといったことも可能。 ・周期性がまずいとあったが、取得時間間隔の取り方でやるといいかというようなことは あるのか。 →実データは数分で集計している。1分はある。幅は意外と広い。分野によってどれくらいの 間隔で知りたいとかがわかっているといいが、そうでないと現状では厳しく、色々試して みることが必要。 ・刻み幅の取り方は難しい。まとめてあげないと見えてこない。トラフィックカウンターで も実際に1分とかでやってみたことがあるがよくわからない。結局目で見てわかるようなとこ に落ち着いたりする。分析対象による。幅が変わると分布が変わるのでかなり難しい問題 だと思う。1秒でトラカンやるとその時点の通った通らないしかわからない。 交通量を議論するときはほとんど集計値。 ・変化点で分布が変化する。適応するモデル自体が変化することがあると思う。パラメータ 自体が。 →解けるかというのが重要で、でないと計算できない。設定はできると思うが。 ・歩行者の観測で、速度選択とかをモデルの遷移を表現できると思う。 →原理的には元データの方に入れなくてはいけない。モデルの遷移があったときの データの変化との比較をすればいけるかもしれないが、解けるかといわれるとわからない。