●井料:ビックデータワークショップに見るこれからの交通工学のデータ展望
■ビッグデータとは 定義:過去のデータベースシステムでは解析が難しい巨大なデータ群売り手側の定義では(IBMによると) 1巨大 エクサバイトくらい 2非構造化データ 3頻度とスピード 細かく分、秒単位でとっている 4正確さ 機械的にログをとっている これらの特徴をもっているとされているとされ、技術的な困難性があるものをビッグデータという ・どうやって使うのか 使い方が分からなければbig rubbishでしかも時間の無駄⇒使い方をうまく考えることが大事 ■交通工学とビックデータ 交通工学の分野においてビックデータとされるものは何か。先の4つの特徴をもとにすると→車両感知器のデータがそれになる。車両感知器データは2003年3月からという長期間、高い空間密度で1分~5分単位で取得、すなわち10年単位の歴史が蓄積されている。しかし大きければいいというものではない。 このデータからできるは以下のようになる ・QK図が書ける ・旅行時間がわかる ・旅行時間予測手法のパラメータを決められる ・自己データと合わせて予測モデルを作成 →交通流系の研究への適応は多様 具体例として可視化による分析をあげる。濃淡によって交通ピークがわかるグラフがある →ある時間帯の混雑が料金場を閉めているためであるとか日没の時間とピーク時間との関係が長期間取得したデータにより裏づけされたりとか東名の深夜割引によるピークがデータから読み取れるといったことがある このようにある現象に対する原因の推測が可能になる。しかし以下のような問題がある ・一方変動の原因は特定しきれないし、 ・観測される変数は限定されている ・ODや目的が不明でありreidentificationが困難 ・高速上のデータしか観測できない ・感知器間の交通流状態がわからない 伝統的アプローチでないので多くの批判を浴びることもしばしば 交通工学における他のデータベースには何があるか。ETC、コイン系ICカードなど。OD、目的は分からないし競合交通機関のデータ、経路選択の測定も難しい。しかしreidentificationはできることが最大のメリット。ひとりひとりの動きがわかる ・GPSデータ ODわかる、期間を問わず取得できる、経路選択も測定可能、しかし目的は不明 ・barabasiの論文 基地局のデータがわかる。limits of predictabitity、PPsurveyではほかにいろいろ聞くのに位置データしかつかっていない ■ビックデータに関して心がけるところ ・容量の自慢をする前に必要な情報があるのかどうか確認する→ない場合はどう補うか、モデルか別ソースからとってくるのか、GPS調査にアンケートをつけるとか ・結果の質が低いこともある程度許容する ・データのリサイクルを目指せ ビックデータはデータの再利用、使えないと切り捨てるのはいけない→ゴミを宝にするのが工学 big rubbishをbig dataに ■ビックであることの効用 ・サイズが大きいということは自分のほしい情報がはいっている可能性が高まる→データ飽和攻撃は一定の意義がある ■東日本大震災ワークショップ 今後の災害に備えて議論しサービスについて討論した。提供データとしては放送テキストデータ、ツイートデータ、音声書き起こしデータ頻出ワードランキング、混雑統計データ(250mメッシュ内の推定人口)などがありツイートデータが一番人気であった。これらデータの使用期限は限られておりワークショップ目的にのみ使われる 自主避難についてツイッターの避難報告と実際の避難のタイミングはずれがあるのでは→混雑統計とツイッターを比較してみる 混雑統計については使える夜間データをプロットしてみて暫定的にロジスティック曲線で補完して滞在人数変動曲線を推定する→3/15の減少レートが最大 ツイッターログを活用する。避難した報告の増加を見る、オリジナルツイートだけ。いわき関係者のIDを抽出(@いわきとか#いわきを一度でも使った人と仮定)。全部で206265あった。平常時のツイートもあればもっと精度よく推定できたと考えられる。避難フレーズとしては地名+避難した、します、していますなどである。 東北地方とそれ以外に分類すると(広域避難ととらえる)東北以外は15日を境に増加、東北は一定に増加→こららのことより混雑とツイートはずれがある ただロジスティック曲線の仮定や抽出方法も検討する必要がある。あるいは渋滞とかがあって混雑とツイートがずれた可能性がある。1ビット情報から多バイト情報で詳細を順次に把握した。 成果物おまけ 避難の後に続くフレーズの累積グラフ。15日から希望フレーズ(爆発で避難してくださいとか)がいっきに増えた こうしたビッグデータは分析の視点を定めた瞬間にゴミと化すものが大半。それでも十分な量、価値があり、大きさがものをいった(ツイートデータ2億個から避難報告を抽出すると1180まで減る) 量で勝負するだけでは独占的側面が、データへのアクセス可能性が問題。追試できない、検証に耐えうる。シュレディンガーの猫のビックデータ、あるのかないのかわからないと困る。情報工学の専門家と組めればいいが、そうでないと場合GBオーダーだとエクセルとかまったく役に立たないのでいかにデータハンドリングできるかが大事。必要なデータは自分でとってくることが大事でそれらを長期的にどうシステムに組み込むか考えなくてはいけない 中西:情報の専門家はなにをやっているのか。土木系の人はまず1ビット情報の簡単に判定でこるところからで土木系の人は多ビットから判定にかける。ツイッターデータにくいついたがなんにためにやっているのか。目的意識は土木系の方が高いのかもしれない、WSで役に立つかどうかはわからないが。ツイッターで情報提供するのも考えもの。 福田:これらは何に使えるのか。異常の検出か。大きいテーマになりうるのか。急に人がいなくなっているということがわかるだけでもいいこと。 羽藤:異常時は状況がたっているのでこういう分析を平常時にやることは難しいか。具体的なサービスを想像してアルゴリズムを考える、緊急時にどういうデータを取ってどういうふうにできるか考える。 ●伊藤:構造推定によるゾーン内回遊モデルの実装とその評価 ・研究の背景 データ融合型の交通管制・マイクロシミュレーションについて、マクロからミクロまでの様々なスケールのアクティビティモデルについて、対象ゾーン内でのネットワーク上の交通挙動の記述を今回は扱う。佐佐木(1965)も参考に、ネットワーク上で交通量と遷移確率の掛け合わせにより表現するアプローチを考える。 ・構造推定 構造推定アプローチは労働経済学・産業組織論の分野で近年取り上げられており、inputの説明変数とoutputの従属変数の間に理論モデルを仮定して、観測データにフィットするようにパラメータを推定する手法である。交通行動分析の分野でも、動学的な意思決定を分析した原・羽藤(2011)の例や、複数エージェントで互いの効用が入れ子になった均衡モデルについて出発時刻選択を扱う柳沼・福田(2008)や松村ら(2012)、不完全情報化での経路選択を扱った池田・宮城(2012)の例がある。 ・動学的離散選択モデルの定式化 意思決定の時点tを設定し、t期での最適選択はt+1期以降での最適選択を仮定した利得を表す価値関数Vによる再帰的表現で同一の枠組みで表すことができるというBellmanの最適性原理より、ベルマン方程式によってある時点での利得はその選択をとることで得られる効用と、次時点での期待効用を割引率で割り引いたものの和で表される。効用関数の確定項と誤差項の加法性や、誤差項に極値分布タイプIを仮定することで選択肢の選択確率が導出できる。 ・回遊行動の動学的に考える 歩行者行動の意思決定は過去の状態・先の状態を考慮して行われていると考えられる。時点間の利得を割引率を媒介して考えることで、均衡状態を仮定して説明変数の影響を考慮できること、空間的な接続の関係性を考慮できることが従前のモデルでできなかったことである。 ・時点tをどの間隔でとるか トリップごとに考えると、1日の行動を全体で捉えられるが、次にどこへ行くかの遷移の記述が困難で、滞在の定義も不明確である。ノードごとの選択では、ネットワーク上での行動を記述できるが、時点間のリンク距離の間隔が一定でないという問題がある。本研究では一定距離でトラジェクトリを分割して意思決定時点として定義。間隔設定の恣意性は残るが、状態変数の遷移を扱いやすい利点がある。 ・回遊をやめる/続けるをどう表現するか トリップ単位では、街路上での佇みやごく短時間での立ち寄りなどを考えると、回遊行動では移動滞在の判別に困難が伴う。Iryo et al.(2009)では回遊探索問題として不完全情報下で、これまで通過したノード中から行く場所を選ぶor探索を続けるの判断をしているが、訪問が1ヶ所という仮定があり、またどこまで行くかという起点からの移動圏域を分析するには適さない。そこで本研究では出発地からの最遠点を引き返し点として1日の回遊行動を全体として記述することを考えた。推定は往路のトラジェクトリのみを対象とする。 ・定式化 引き返す効用関数には小売従業員数と累積歩行距離、回遊継続の効用関数には商店街・3車線以上街路の分断と、年齢・性別・同行者の個人属性を入れた。状態変数は現在位置と累積歩行距離をとり、現在位置は神戸都心部を格子状分割のセルで表し、セル間遷移をデータ集計の遷移確率行列で定義。 ・結果 割引率βは0.90と推定され、次時点の利得を考慮する意思決定の存在が示された。また、商店街ダミー・分断ダミーがそれぞれ直感的感覚と正しい正負で有意で、それらの影響が周囲に減衰性をもって影響し「先の先」を見越す意思決定が考えられる。一方で距離による減衰の効果は、価値関数の形では線形に現れ、線形の関係を持つのか収束判定閾値が緩すぎたかは今後の検討。 ・課題 行動文脈や意思決定時点の取り方のさらなる検討、誤差を伴う位置の判別の扱いで測定方程式の導入、また計算負荷を軽減する推定法など。 福田:Rustではザッカーさんの個人モデルを作っている。伊藤君の研究でも個人モデルがつくれるのではないか 伊藤:作れると思う。潜在クラスなどと組み合わせてもいい。 福田:終端条件(いつ回遊をやめるか)の取り扱いが気になる。モデルではどう表現されているのか。土木計画学秋大会での経路選択行動のように日々の繰り返しではないので、習慣フリーなので難しいのではないか。また、逐次選択モデルとの相違点は何か。 伊藤:逐次選択との相違点は、先の効用も考慮して均衡性なども表現できている点がある。 福田:マルチエージェント問題を解くこと、最後は他者との関わりの影響も考えるのか。回遊行動も他者の影響を受けて行動を変化させていると考えられるので。混雑統計などと組み合わせるなどもある。 伊藤:考えてはいるが、回遊はそれほど他者との相互作用をうけない気もする。混雑を避けるという状況もあれば、逆に人が多くいるから楽しそうでさらに集まるという状況も考えられる。人がいっぱいいることをよいことととらえるか、嫌だととらえるかまちまちだし難しい。 羽藤:with whomで全然違う。同行者を考慮すればいろいろやれそう。 福田:時間選好率βについて、βは与件とされているものが大半。また、もし推定できるならば統計的検定が必要ではないか。 伊藤:経済学だと、年間の運用利子のように、時間割引の大きさが外生的に既に明示的になっているものが多いように思う。交通行動ではそうしたことがないので、ここも推定することが必要だと考えている。 福田:時点tのとり方について、ここでは50m単位でとっていたが、時点の間隔が一定ではないモデルもある。EconometricaのEngleのultra high frequencyではintervalの大きさを議論しているので、参考になれば。時間感覚が違うってことを前提としてモデルを推定する必要もある。どれくらいの間隔のデータには逆推定して行うとか、いろいろなかたちがありシステムの設計には重要。あがってきているデータは制度がそれぞれ違うが、バラバラにある状況と、アノニマスに掛け合わせる方針とをモデルをどう考えるかによって推定できれば。 ●毛利:道路交通情報プラットフォームを考える:センサスとPT ■前回調査からの変更点 ・平成17年まで5年毎に行われてきた道路交通センサスOD調査であるが、H17年の調査からの変更点としては、簡易調査票を導入したことがあげられる。簡易調査票はOD表の作成に必要な項目のみを記入するもので、将来交通需要推計など交通特性の把握に必要な項目は別途詳細調査で実施した。 ・オートロックマンションの増加、在宅率の低下などが課題となっていた。今回の調査では、北海道など訪問が困難な地域への調査員の派遣は負担が大きいこともあり、このような地域では郵送調査を実施することとなった。 ・京阪神圏では平成22年度京阪神圏PT調査のデータを利用し、調査の効率化、対象者の負担軽減を図った。 ・高速OD調査ではETCの普及に伴い、料金所での調査票配布という調査方法が困難になったため、webアンケート調査に移行した。 ・全220万台の調査台数で、回収率は48%ほど。 ■近年の自動車利用の動向 ・大きな特徴としては、全国的に交通量が減っているということと、トリップ数がここ数年で横ばいであることがあげられる。 ・目的別でみると、世帯ベースのトリップでは、業務トリップが減少し、私事トリップが増加している。 ・車種別にみると軽自動車の利用が1/3を占めており、特に西日本での軽自動車の割合が高い。 ・保有形態では、世帯あたりの平均保有台数はH22年現在も増加傾向にあるが、個人保有は減っており、個人専用車の主な運転者は50歳以上の人が約半分を占めている。複数保有の形態としては、普通車1台+軽自動車という利用の形が最も多い。 ■OD調査へのプローブ系情報の適用 ・近年、トヨタG-Bookやゼンリンデータコムなどの民間プローブデータがOD調査へ活用されることが期待されている。 ・トヨタG-Bookのプローブデータを元にODデータを作成し比較を行った。 ・プローブデータでは、対象となる車両の販売特性や購入者の属性の差異などに起因する取得サンプル率のばらつきが地域によって見られた。 ・通常のOD調査では1.97トリップ/台であるが、民間プローブでは3.48トリップ/台となり補足トリップの特性が異なる可能性がある。サンプルの出現数は、発生Bゾーンでは民間プローブがオーナーの96%をカバーしているが、ODペアでは59%程度となっている。 ・OD調査のトリップ数に対する民間プローブのサンプルトリップ数をサンプル率と定義したとき、東京都では23区を中心に多くのBゾーンでサンプル率が高く、一方九州地方ではサンプル率はゾーンによりばらつきが大きい。 ・プローブデータからODを物理的に把握することは可能だが、目的や車種といった項目を収集できていないという問題点も存在する。 ・民間プローブデータは短距離トリップの割合が高く、補足されているトリップ特性がOD調査と異なることも考えられる。 ●円山:熊本PT調査と連携したスマホ・アプリ型PP調査の結果速報 ■熊本PT調査とスマートフォンアプリ ・H24年の10~11月の間、熊本都市圏パーソントリップ調査を実施している。 ・標本数の決定式を用いて標本数を決定しているが、果たしてこの式で巨大サンプルの交通調査を続けてよいのか疑問は残る。 ・PT調査は基本的に郵送配布・郵送回収という形をとっている。通常回収率は25%程度であるが、速報では回収率が40%を超えるBゾーンも存在する。 ■スマートフォンアプリによるPP調査 ・円山先生と熊本大学の学生が作ったPPアプリが活用されている。 ・一般の紙によるPT調査は利用者への負担が大きく、また、調査には費用もかかる。それに対しアプリによるPP調査は利用者の負担が小さく、一度作ってしまえばコストはほとんどかからないという利点が存在する。 ・スマートフォンアプリの利点は、他にもGPS機器の費用を削減できることや、スマートフォンのユーザーであれば操作に慣れているということがあるが、逆に対象者がスマートフォン所持者に限られてしまい、サンプルが偏ってしまうことも考えられる。 ・今後の課題としてはOSの問題(iOS or Android)、データ取得方法、謝礼の支払いの有無(PT調査は謝礼なしなので、今回の調査は謝礼なしで行った)、バッテリーの持続時間、データの保管方法、プライバシー・被験者の安全の問題などがある。 ・詳細データが不要な場合もあるので、無駄にBigなデータをとらずに目的をはっきりさせる必要があるのではないか。 毛利:今回のようなスマートフォンの調査では、わざわざ自分たちでアプリを作るべきだったのか。それともNTTが開発しているようなものを購入してPP調査を行うべきなのか。どちらが大切か。 円山:大学の研究として必要であると考えている。データの使い方を学ぶという意味でも大切だし、コミュニティマネジメントにもつながると思っている。 毛利:データはオープンであるべきなのだろうか。個人情報は大丈夫か。 円山:個人が特定されない形であればよいのでは。ただ、自宅-職場の移動で個人が特定されてしまうことも考えられるので難しい。 毛利:調査のアプリと、情報提供するdocomoやgoogleと協力できればよいのではないかと感じた。 |