概要
都市生活学・ネットワーク行動学研究室では2008年6/25(木), 26(金)の2日間を利用して、PRML合宿2009と題し、Christopher M. Bishop 著 『Pattern Recognition and Machine Learning』日本語版(シュプリンガー・ジャパン, 2007, 2008)(朱鷺の杜サポートページ, Amazon:上巻, Amazon:下巻)の輪読会を行いました。こちらでは当日の内容とその後のまとめについてご報告しています。
データの時代,都市をみる力 羽藤英二
ロンドンのトラファルガー広場や,バルセロナのゴシック地区で繰り広げられる様々なドラマこそが都市の魅力そのものです.都市計画家なら,そこからどうやって,都市の問題の本質を見つけ出せばいいのかと悩むでしょうし,交通計画者であれば,問題を見極めた上で,魅力的な交通空間をデザインしたいと思うのではないでしょうか.それほどまでに,都市における人々の行動は動的であり,その規範は多様であるといえるでしょう.「人の行動を観測し分析する」
このことを都市計画や交通計画の出発点とすることは,都市を巡る問題の諸相の複雑化,多相化を考えた場合,比較的素直なアプローチのように思えます.もちろん,もっと「直感を重視した計画を」という言葉にも一理あるのは事実ですが,果たして複雑な問題に単純な解決を迫る,そうした知的無邪気さで都市における複雑な問題の解決は果たして可能なのでしょうか. 都市計画や交通計画の分野において,観測に基づいた定量的な計画手法がこうした分野を見通しのいいものにしていったことは間違いありません.1953年のDMATS,1954年のCATSと続いた都市総合交通計画における手廻し計算機を用いた四段階推定法の採用は,高度な確率的意思決定モデルへと発展し,サンフランシスコのBARTの需要予測は,実際の観測データと「確率的な」意思決定モデル(ロジットモデル)を用いて大きな成功を収めたことで,2000年のノーベル経済学賞を受賞しました.「確率モデルとその解法」
こうした方法の基礎は「確率モデルとその解法」にあります.一見すると複雑な理論のように思えますが,実際に意思決定構造の枠組みに何らかの仮定をおき,実際の観測データを使って,パラメータリゼーションを行い,因果関係を明らかにすることは寧ろ素直なアプローチだといえるでしょう. こうした技術は21世紀に入って,さらに劇的な進化を遂げます.その大きな理由は,digitize革命によるデータ爆発や,パターン認識(pattern recognition)や機械学習(machine leaning)といった理論の新展開にあります.センサー革命やネット環境の急速な普及が,現実空間の様々な諸相を急速にデジタルデータ化しており,そうしたテクノロジードリブンな環境が行動分析の下敷きとなる基礎理論の進化を急速に後押ししているのです. 広場に設置したカメラデータを用いれば,空間の利用形態や動線解析を行うことができますし,こうしたデータを用いることで空間設計へのフィードバックが可能になります.かつてはアンケートで訊ねたり,直感に基づいて行われきた私たちの分野の方法論に大きな転機が訪れているといってもいいでしょう. 人の行動観測における時間と空間の観測分解能はGPS携帯電話や画像処理技術,ウエブなどの技術によって飛躍的に高まりつつあります.オンラインでこうしたデータの入手が可能になるということは,高精度なデータを既存の理論に当てはめ,確率的な行動モデルの再現性の向上を図ることが可能になるとともに,高速道路のインセンティブ/プライシングのオンライン制御や空間マーケティングのようなデータオリエンテッドな方法論への期待が高まっているといえるでしょう. ここでは,特にガウス分布を中心とする確率論の基礎について,線形回帰モデルや次元の呪いといったデータ解析につきものの問題を通して学びます.確率モデルの推定法についてはベイズの方法を中心にした近似解法やカーネル法,MCMCにおける乱数の取り扱いなどは確率モデルによる実務や研究を進めていく上で必要不可欠といえるでしょう.さらにk-meansを中心に射影変換を基礎とした高度なクラスタリング/識別モデルの方法について,移動軌跡の識別に有効なパーティクルフィルタや潜在クラスモデルなどの技術を通して整理していきます.ニューラルネットワークやグラフィカルモデリングでは,n-GEV系モデルに通じる誤差伝播やネットワークプロパゲーションのための基礎を勉強します. データに潜むパターンを見つけ出すという問題はそもそも,長い歴史を持つものです.16世紀,ケプラーは膨大な天体観測データに基づいて天体に関する経験則を導き出しましたし,近年のバイオインフォマティクスの展開は,HMMなどの技術を下敷きにしたものであることは間違いありません.科学の進展には観測技術の進展が常としてあり,それに応じて理論が新しい展開を見せることで,私たちは見える世界は大きく広がってきたと言ってもいいでしょう.「今,私たちに何が見えるでしょうか」
十人一色といわれた高度経済成長時代の個人の行動パターンは,都市の進展と成熟により十人十色から一人十色に変化したといわれています.都市空間において多相化していく個人の行動パターンと向き合うとき私たちにいったい何が見えてくるでしょうか. 縮退の時代,地域の時代,地球環境の時代と,様々な言葉でまちづくりのフレーズは消費されていきます.そうした時代の移り変わりとともに,地域の文化や経済,人々の興味や行動の表出のしかた,顕在化の様相も大きく変化していくでしょう.そんな中でそうした見た目の変化に惑わされることなく,普遍的な人と都市との関係性を見つめることは容易ではありません.しかし,そんな中でも,私たちは都市における人々行動の諸相についてのよりよい理解を下敷きにした,善き都市計画や交通計画を考えていきたいと思うのです.この合宿を通じて,都市空間におけるデータ革命がもたらす計画論への大きな新展開について考えるための基礎理論を正しく学んでもらえたら嬉しいです.
参考文献
- ダービン,R., バイオインフォマティクス,医学出版, 2001.
- 佐佐木綱,交通流理論,1965.
時間割
基礎ゼミ
5月21日 | 第1章 | 序論 (前半) |
---|---|---|
5月28日 | 第1章 | 序論 (後半) |
6月 5日 | 第2章 | 確率分布 (前半) |
6月12日 | 第2章 | 確率分布 (後半) |
1日目(6月25日:木)
09:00-09:50 | 第3章 | 線形回帰モデル |
---|---|---|
10:00-10:50 | 第4章 | 線形識別モデル |
11:00-11:50 | 第5章 | ニューラルネットワーク |
12:00-13:00 | お昼休憩 | |
13:00-13:50 | 第6章 | カーネル法 |
14:00-14:50 | 第7章 | 疎な解を持つカーネルマシン |
15:00-15:50 | 第8章 | グラフィカルモデル |
2日目(6月26日:金)
09:00-09:50 | 第9章 | 混合モデルとEM |
---|---|---|
10:00-10:50 | 第10章 | 近似推論法 |
11:00-11:50 | 第11章 | サンプリング法 |
12:00-13:00 | お昼休憩 | |
13:00-13:50 | 第12章 | 連続潜在変数 |
14:00-14:50 | 第13章 | 系列データ |
15:00-15:50 | 第14章 | モデルの結合 |
■上巻
第1章: 序論
序論ではまずパターン認識の最も簡単な例として多項式曲線フィッティングを取り上げ、パターン認識・機械学習の基本的な枠組みを紹介する。そしてベイズの定理や統計量などの確率論の基礎を導入し、確率論の観点から再び曲線フィッティングを扱う。不確実性はパターン認識の分野における鍵となる概念であり、確率論はこれを定量的に取り扱うための一貫した手法を与えるため、この分野における基礎の中心を担っている点で重要である。
また、回帰・識別の実際の取り扱いに際して必要となる決定理論や、パターン認識・機械学習の理論において役立つ情報理論の導入についても行う。
発表資料はこちら(ppt)とこちら(ppt)。前半では多項式曲線フィッティングの例およびベイズ的確率を、後半では決定理論および情報理論を取り扱っている。
第2章: 確率分布
第2章では二項分布や多項分布、ガウス分布といった各種の確率分布について学ぶ。特にガウス分布は応用範囲が広く、後の章で度々扱われることになる。これらの多くは指数型分布族に属し、この章の後半では一般的な形で表されることになる。
この章において特に重要なのは、限られたデータ点から確率分布の形を推定する密度推定の手法である。頻度主義的立場からは尤度関数といった何らかの基準を最適化することで適切なパラメータの値を選ぶが、ベイズ主義的な立場では、パラメータに事前分布を導入し、観測データが与えられたときのパラメータの事後分布をベイズの定理を用いて計算することになる。ベイズ的アプローチでの密度推定に重要な逐次推定の考え方や共役事前分布の導出もここで行う。
また最後に、カーネル密度推定や最近傍法などのノンパラメトリック手法についても紹介する。
発表資料はこちら(ppt)とこちら(ppt)。前半では離散変数についての確率分布およびガウス分布の性質を、後半ではガウス分布に対するベイズ推論および指数型分布族を取り扱っている。
第3章: 線形回帰モデル
第3章では教師あり学習の双璧の一つである回帰問題、特に基底関数を線形結合することによって表されるモデルについて学ぶ。こうした回帰分析の目標は、観測値とそれに対応する目標値からなる訓練データ集合が与えられたときに、新たな観測に対する目標値の値を予測することである。
前半では基本的な線形回帰から始め、最尤推定と最小二乗法との関連、正則化された最小2乗法、バイアス-バリアンス分解等について議論する。そしてベイズ推定による方法に移り、このアプローチでは最尤推定によるアプローチの際に問題となる過学習が回避され、訓練データからモデルの複雑さが自動的に選択されることが示される。
発表資料はこちら(ppt)。線形回帰モデルに対する最尤推定法、過学習を避けるための正則化項の導入、バイアス-バリアンス分解によるモデルの精度検証、そしてパラメータに関する確率分布分布を導入したベイズ的な線形回帰モデルを取り扱っている。
第4章: 線形回帰モデル
第4章ではもう一つの重要な教師あり学習である識別問題、特に線形識別モデルについて学ぶ。ここでの目標は入力ベクトルをクラスに割り当てることであり、これは入力空間を決定境界(決定面)によって分割することである(このように決定境界によって分割された領域を決定境界と呼ぶ)。
したがってこの章でまず基本となるのは、フィッシャーの判別分析やパーセプトロンアルゴリズムであり、これらは入力ベクトルから直接クラスを推定するような識別関数の構築を行うモデルである。そして後半では、入力ベクトルとクラスとの同時分布をモデル化し、そこからクラス事後分布を求める「確率的生成モデル」およびクラス事後確率を直接求める「確率的識別モデル」という2つの観点から識別問題を確率的に取り扱い、ベイズ的手法についても紹介する。
発表資料はこちら(ppt)。線形識別モデルのうち、最小二乗による分類、フィッシャーの線形判別、パーセプトロンアルゴリズムといった識別関数モデルを主として取り扱っている。
第5章: ニューラルネットワーク
これまで学んできた基底関数の線形和で表されるモデルは解析や計算においては有用な性質を持つ一方で、次元数の増加に伴う計算量の増加という実用上の大きな問題のため、その応用可能性が限られていた。これに対するひとつの解決方法として考えられるのが第5章で紹介されるニューラルネットワークの手法である。
ニューラルネットワークは脳機能に見られるいくつかの特性を計算機上のシミュレーションによって表現することを目指した数学モデルであり、このような非線形最適化を効率的に解くための重要な枠組みとして誤差伝播法が導入される。
発表資料はこちら(ppt)。非線形回帰分析としてのニューラルネットワークの概念と誤差伝播法の仕組み、その正則化と不変性のための方策、そしてRによる実装を取り扱っている。
参考文献
下巻
第6章: カーネル法
第6章ではカーネル関数を用いた非線形なモデルについて学ぶ。これは非線形な問題に対して、それと双対な「非線形な関数(ここではカーネル関数)の線形結合」によって解く手法となっている。この他にも、高次元、あるいは非数値データへの適用が可能なこと、カーネル関数をモジュール化でき、問題を分割して解いていくことができるということなどがカーネル関数の利点として挙げられる。また、この章の内容は次章のSVM(サポートベクトルマシン)の考え方へと引き継がれていく点でも重要である。
カーネル関数は、直感的には「距離」としてイメージされる。ある問題をカーネル関数を用いた双対問題として表現(カーネル置換/カーネルトリック)することで、高次元の特徴ベクトルを明示的に考えなくとも、カーネル関数のみで元の問題を解くことが可能となる。
発表資料はこちら(ppt)。カーネル関数の概念と利点、カーネル関数を用いた双対問題としての表現、カーネル置換等によるカーネル関数の構成方法、RBFネットワークを取り扱っている。
参考文献
第7章: 疎な解を持つカーネルマシン
第7章では主にSVM(サポートベクトルマシン)について学ぶ。SVMは、マージン最大化の考え方をとることによって、分類予測時には訓練データ点のごく一部(疎な解)に対するカーネル関数の計算だけで済むという効率的なモデルとなっている。
まずマージン最大化の考えに基づいてSVMが導かれる。そしてこれがラグランジュ乗数法によって解けることを示し、SMO(逐次最小問題最適化法)などの効率的なアルゴリズムを導入する。章の後半ではSVMの様々な問題に対処したベイズ的学習手法としてのRVM(関連ベクトルマシン)についても紹介される。
発表資料はこちら(ppt)。SVMの概念と拡張方法、マージン最大化の概念からラグランジュ乗数法を用いたSVMの定式化、SVMを効率的に解くアルゴリズムとしての逐次最小問題最適化法を取り扱っている。
参考文献
第8章: グラフィカルモデル
第8章では確率的グラフィカルモデル、特に有向グラフィカルモデルであるベイジアンネットワークと無向グラフィカルモデルであるマルコフ確率場について学ぶ。グラフィカルモデルは、確率モデルの構造を視覚化することで新しいモデルの設計方針を決めるのに役立ったり、条件付き独立性などのモデルの性質に関する知見が得られること、精緻なモデルに伴う複雑な計算をグラフ上の操作として表現することができる、といった利点を持っている。
また、様々な推論がグラフィカルモデル上でのメッセージ伝播として表現されることが示され、これによって計算の効率化を可能にする積和アルゴリズムが紹介される。
発表資料はこちら(ppt)。グラフィカルモデルの特徴、これまでの学習事項のベイジアンネットワークによる表現、条件付き独立性と有向分離、マルコフ確率場による表現、グラフィカルモデルによる推論を取り扱っている。
第9章: 混合モデルとEM
第9章では混合モデルとEMアルゴリズムについて学ぶ。ここではまず非確率的クラスタリング手法の一つであるK-meansアルゴリズムについて触れたのち、潜在変数を用いた混合分布の解釈を導入する。このような潜在変数の導入によって、複雑な分布をより単純な分布から構成することが可能になる。
第2章で既に観たような混合ガウスモデルは離散潜在変数の観点から解釈でき、その最尤推定値を見いだすには一般にEM(expectation-maximization)アルゴリズムを用いる。このEMアルゴリズムは広汎な適用範囲を持つ強力な方法で、本書において多様なモデルの文脈で出会うことになる。また、K-meansアルゴリズムが混合ガウス分布に対するEMアルゴリズムの非確率的極限として解釈できることが示される。
発表資料はこちら(ppt)。K-meansアルゴリズムの手法、混合ガウス分布に対するEMアルゴリズムを用いた最尤推定を主に取り扱っている。
参考文献
第10章: 近似推論法
第10章では潜在変数間に複雑な関係がある場合の近似手法である変分ベイズ法などについて学ことになる。
前章で導入された最尤法としてのEMアルゴリズムでは、モデルの複雑さを自然に決定することができず過学習に陥ってしまうなどいくつかの問題が依然として残っている。そこでこのEMアルゴリズムをベイズ的に拡張することが考えられるが、実際の複雑な問題への適用では求めたい事後分布(あるいはその期待値)が求められないことも多い。このような場合の近似法のひとつとして変分ベイズ法が導入される。
変分ベイズ法は事後分布を解析的に近似する手法であり、後の章で論じるMCMC法が確率的近似であることと異なり決定論的な方法となっている。そのため計算資源が節約され、大規模な問題にも対応できるという利点を持っている。本章ではその回帰問題への適用についても紹介される。
発表資料はこちら(ppt)。変分推論による分布の分解、重要な役割を果たすKLダイバージェンスの概念を取り扱っている。
参考文献
- 『変分法(物理のかぎしっぽ)』
- 『自然言語処理のための変分ベイズ法』
- 『変分ベイズの理論』
- 『平均場近似,変分ベイズ法』
- 『上田修功,EMアルゴリズムの新展開:変分ベイズ法』
- 『上田修功,ベイズ学習法の最前線〜変分ベイズ法〜』
- 『上田修功,ベイズ学習[III]変分ベイズ学習の基礎』
- 『上田修功,ベイズ学習[IV・完]変分ベイズ学習の応用例』
第11章: サンプリング法
第11章では先ほどの決定論的近似手法に対して、モンテカルロサンプリングに基づく確率的な近似手法について学ぶ。
そもそも高次元空間でのサンプリングに対してはその効率的な手法が長らく求められ続けてきた。したがって、ここではまず最初に与えられた確率分布に従ってサンプリングする基本手法である棄却サンプリングや重点サンプリング、SIRなどの方法が紹介される。そしてその後、ギブスサンプリングやMetropolis-Hastings法などのMCMC(マルコフ連鎖モンテカルロ法)による確率的な近似手法が導入される。MCMCは提案分布がマルコフ性を持つという点でこれまでの手法と区別される。
発表資料はこちら(ppt)。MCMCでない従来のサンプリング法の概要、MCMCサンプリングの概念および利点とその定式化について取り扱っている。
参考文献
- 『計算統計 2 マルコフ連鎖モンテカルロ法とその周辺 (統計科学のフロンティア) 』伊庭 幸人 他,岩波書店,2005.
- 『ベイズ計量経済分析—マルコフ連鎖モンテカルロ法とその応用』和合 肇,東洋経済新報社, 2005.
- 『計算統計学の方法—ブートストラップ・EMアルゴリズム・MCMC』小西 貞則他,朝倉書店, 2008.
- 『入門ベイズ統計学 (ファイナンス・ライブラリー) 』中妻 照雄,朝倉書店,2007.
- 『ベイズ統計学のMCMCとの出会い』
- 『MCMC計算まわりでさまようRユーザー』
- 『マルコフ連鎖モンテカルロ法の最近の展開』
- 『マルコフ連鎖モンテカルロ法の実践』
- 『MCMCについて』
- 『MCMCの基礎と統計化学への応用』
- 『Rによる離散選択モデルの推定方法メモ』
第12章: 連続潜在変数
第12章では主成分分析の確率的な定式化について学ぶ。主成分分析は次元削減の代表的手法であり、この章ではまず従来の主成分分析の定式化を紹介し、次に確率的主成分分析を導入する。
確率的主成分分析を潜在変数モデルとして捉えることで、これまで学んできたEMアルゴリズムの適用やベイズ的定式化が可能となる。章の後半では因子分析やカーネル主成分分析といったその他の次元削減の手法や、非ガウス・非線形なモデルへの拡張などについても紹介される。
発表資料はこちら(ppt)。主成分分析の概念と応用、主成分分析の従来的な定式化、確率的主成分分析の概念を取り扱っている。
参考文献
第13章: 系列データ
第13章では隠れマルコフモデルと線形動的システムといった状態空間モデルによる系列データの扱いについて学ぶ。本章ではデータ集合が独立同分布に従うとしていたこれまでの仮定をはずし、その間の関連、とくに、マルコフ性をもつという仮定のもとでの潜在変数モデルについて議論することになる。
潜在変数が離散的であるような状態空間モデルにあたる隠れマルコフモデルについては、その推論手法であるViterbiアルゴリズムと、パラメータを推定する効率的な枠組みであるフォワード-バックワードアルゴリズムについて学ぶ。その後で、潜在変数が連続的である場合に用いられる線形動的システムとその学習・推論の方法、そして粒子フィルタが紹介される。
発表資料はこちら(ppt)。系列データの概念、マルコフモデルの概念、隠れマルコフモデルの定式化と、EMアルゴリズムによる最尤推定の際の効率的な方法であるフォワード-バックワードアルゴリズムの概要、線形動的システムを取り扱っている。
参考文献
第14章: モデルの結合
第14章ではモデルの結合の例としてブースティングや決定木といった技術について学ぶ。ブースティングは、複数の弱分類機を組み合わせ、これらの平均値を予測値として用いることで、高精度の学習機を構成する方法である。また、決定木によるモデルは入力空間を二分木のノードごとに矩形領域に分割していくモデルとなっている。
これらの結合モデルは、複数のモデルを何らかの方法で組み合わせることで、単一のモデルを独立に利用するよりも性能の改善が認められるという利点を持つ。
発表資料はこちら(ppt)。コミッティの代表的な手法としてのブースティング、決定木を取り扱っている。
このページについて
このページは2009年7月に村下が作成しました。なにか質問などある方は murashita [at] bin.t.u-tokyo.ac.jp まで連絡ください。参加メンバー全員がこの分野に対しては初学者であったため、間違いなども見受けられると思います。そういった指摘もどしどしお寄せください。