5/19理論談話会#2 Bayesian Inverse Reinforcement Learning 発表者 石井 筆者註:追えてない部分がかなりあるので話違う部分とか空白になってる部分がいくつかあると思います…. 質疑応答 飯塚:RLモデルの推定はこの枠組みに入れるとどうなるか 石井:次の日のデータを使って逐次更新をするみたいなことができるようになる 羽藤:避難訓練みたいなことはこうしたモデルで表現できる可能性もある.公共交通のルーティングで,今日はこれだけリターンを得たから次の日はこう変える,みたいな話 飯塚:モデルを改善していけるのはわかるが,実際にそういうことがあるのか 出原:28ページの最後はどういうことか 石井:Q-learningを使うときに,異なる環境で観測した状態遷移確率から,現在の環境の状態で状態遷移確率を求める時みたいな問題. 出原:エキスパートが方策を学習するときに,それがエキスパートの環境のことですよね.では,学習環境とはどこのこと? 石井:エキスパートは行動価値関数を知った上で行動している.ある行動をとってみて,予測した状態に行ってるかみたいなのを考慮した上で,Q値を計算させる.座標が同じで環境が変化したときに,計算されたエキスパートの行動履歴を見て,エージェントがその状態において学習する. 出原:行動価値関数を更新するときに,更新前の学習環境と違った場合だと,選択確率も変わっちゃうよねってことですか. 石井:そうですね. 飯塚:Pss'は状態遷移確率.これは行動モデルにはない.ネットワーク上であるノードにいて次のノードを決めれば状態遷移は確定的に決まるから.Pss'は行動モデルにはないので,環境は行動モデルだと関係ない.路面ツルツルの時のPss'があって,路面がコンクリの時の遷移確率を知りたいとき.「こっちいけると思ってたけど行けなかった」と言うときに使える. 石井:「行こうと思ったけど時間制約で行けない」と言うのを表現してるのはある. 原:環境が静的であることを仮定しているのでそう言うことは起こらないと言っているが,他者の選択結果が環境に影響を与える場合はある. 羽藤:1点ものなのでうーん,,,避難のときに 原:14枚目のスライドで,報酬の学習と徒弟学習との違いが逆強化学習の文脈だと分からない 石井:報酬の学習を通して徒弟学習もできる.しかし,例えば自動運転で,ドライバーが認識してる映像をインプット,行動をアウトプットとすると,報酬を求めずに,方策を出しちゃうってことはある 原:交通という文脈でどのようなときに使えるか? 羽藤:自動運転の制御とか 原:エキスパートが我々の文脈だとどういうものになるのかが分からない 原:エキスパートは「データがある」っていうことだよね.ならなおさら1で良いのでは? 石井:この論文でもそうなってる 原:通常の行動モデルとは何が違うのか? 石井: 飯塚:2が出てきた背景は,1の時に報酬関数の線形方程式が出てくるが,それが複雑になってきた時に,直接方策を推定する 月田:エキスパートが学習するのはどういうことか 石井: 前田:8ページ目のRとは? 石井:t+1でもらえる報酬 中研:逆強化学習は報酬関数を1つの分布で表現しているが,実際の報酬関数は人それぞれ違う.そういうのが問題にならないのかなぁ 羽藤:異質性の問題で,いくつか分布があるよみたいな仮定を置くとか,報酬の組み合わせ問題みたいなこともある 羽藤:データがかなりあれば個人の関数が作れるのではないかと思っている 中研:エキスパートは個人ごとのデータで推定することを想定しているのか 羽藤:プラス,データがない初見さんが入ってくる. 石井:行動モデルとの繋がりとかどうやって使えるのかなっていうことを考えて復習しようと思った 小林:sの環境のところをマクロな整合性が気になった.sの環境のところを,均衡を仮定して,とかになるのですかね.割振り方のルールみたいなのがあるのかな.状態がどうやって定義するのかが肝なのかな.