夏学期ゼミ#18 ■近藤 小林:計算時間は? >学習の計算時間は,エポック数が50のときは30分くらい,30のときは20分くらい 小林:エポック数を減らしても10分速くなっても正答率は変わらないと判断したということ? >30から50にしてもどちらもそんなに変わっていないし,試行回数が少ないので有意化分からないが,正答率は上がっているものと考えた. 羽藤:バギングとか考えなかった? >バギングとは? 羽藤:学習データを何分割かするやつ.アンサンプル平均みたいな.バギングじゃなくてもいいが,精度を上げるにはどうしたらいいと思う?アイデアが聞きたい >フィルタサイズを変えるとか?今回できなかったので 羽藤:モデル側をいじるか,データを変えるかという観点もあるので,そういうところも意識して他の人の発表を聞いたらいいのでは. ■村橋 小林:3pのグラフは分かりやすくてよい.ばらつきの話もあったので,エラーバーもつけるとより良い. フィルタサイズはその通りで,画像のどういった特徴を取り出したいかで変わってくる.今回はエッジの部分の形を取り出したいので結果のようになったのだと思う. 浦田:最初の出発点が近藤さんのときと違うのは,環境のせい? >環境構築に手間取っていて,いろいろいじっていたので,よく分からないが,自分はこうなった. 浦田:近藤さんはGoogle colaboでやった? 近藤:そう.水増しを2回した.初期設定のまま,もらったコードはいじっていない.エポック数50で初期正答率が65~70くらい >試しで回したときは高い数字が出たこともあったが… 浦田:小林さんか鈴木くんか,何か分かる? 小林:前の設定が残ってしまったのかな.60はないと思う >設定をいじってしまっていたかも. 小林:トレーディングデータのシャッフルが上手くいっていないのが残ってしまったとか? >データは,時間ないのととやり方が分からなかったので,そこに理由があったかも. ■小島 小林:「2」から始まる,初見データで正答率を出すコードがあったが,試してみた? 2_predict >やっていなかった 小林:試してみてください >自分がやったやつに条件を合わせてやればいいんですね 小林:それを試して,自分のモデルがどれくらい当たっているかを比較してみて 浦田:隠れ層を増やすことは考えた? >隠れ層のフィルタサイズをずらそうとは考えたがやり方が分からなくて,隠れ層を増やすことまでは出来なかった.減らす方はコメントアウトでできた. 浦田:増やしてみたかったけど,減らす方が簡単だからできなかったということですね ■望月 浦田:予想的には何が一番よさそうだと思ってた? >小林さんのモデルでも,バリデーションスコアが0.95くらいになってもテストのアキュラシーが低かったので,訓練データとテストデータに乖離があるのかと思った.作ったモデルは,バリデーションスコアが0.99になるものもあったが,アキュラシーが0.81くらいになったり. 転移学習はどうなんだろう…いいと聞くが,VGGみたいのもやってみたが精度が出なかった.濃淡を入れて,255のグレースケールにして見るともう少し精度が上がるのかも. 小林:訓練データとテストデータの乖離は確かにあるが,実問題にそういうところはある.それでも手書きでそれだけの学習の蓄積があるので,実際にあり得ること. 転移学習は私もやってみたが,そんなに良くならなかった.パラメータ数がシンプルに3倍になって(RGBなので)大変になっただけだった.他の問題なら有効かもしれないが,「字」の認識なら無理に色付きにしなくてよさそう パイトーチGPUは速いですね,自分も「GPUが速い」くらいの認識なので,また勉強します 浦田:GPUは,コードとしては特別なことはしていない.計算が速くなるだけ. 増田:転移学習のパラメータのフィッティングというのは,出力層に近い方は重くして,遠い方は軽くするファインチューニングみたいなの? >多分普通のバックプロパベーションしてる.出力層だけをジオラベルに対応しているものに変えて普通に学習しているのだと思う. 増田:速いんですね.時間かかりそうだけど >エポック数はResNetは20くらいで終わりにしているので,本当なら200秒くらいかかると思う. ■増橋 浦田:結局78.88? 最初にランダムに試した奴が78.0ね.一番低いのは? >最初の層が9*9のやつ.最初の層を小さくして,ドロップアウトありにすると,大分低くなる. 浦田:CNN10の(10,5,5)でも,ドロップアウトを0.25にするとだいぶ下がっている >ドロップアウト入れる場所がまずかったと思う. 近藤:CNN9,10,11とかあまり差がなさそうなのに,結果は結構違うんですね. レイヤーは奇数*奇数がスタンダードだと読んだが,自分が試した感じでは問題なさそうだった.中心がなくなるのが問題だそうだが,どういうことか?ノイズ発生すると書いてあった. 望月:畳み込みサイズが偶数だと純粋に左右非対称になることが問題だと思う.あとは片側にだけプーリングが影響してしまうとか. 浦田:中心がなくなるというのはそういうことだと思う.ここでは大きくは問題になっていない 小林:ドロップアウトとバッジノーマライゼーションを併用すると悪くなる文献を見ていた.ドロップアウト→バッジノーマライゼーションだと良くないが,バッジノーマライゼーション→ドロップアウトだと精度が上がるらしい,順番が大事ということ ■増田 小林:KMNISTの学習をFuture worksにしているが,自分のはKNISTの元画像を使っているので,データセットの数は増えない >KMNISTもいくつかある? 小林:そう.原本補正画像データというやつ. 浦田:一部しか持ってきていないから,使えないことはないのでは? 小林:そう.私が学習をやった時に比べるとデータは日に日に増えてはいる.IDが被っていたらエラーになるので増えてはいると思う.KNISTの原本は,撮影の段階で字をはっきりさせて判別しやすいよう加工してあるのだが,現実はそうでないことも多いので,テストデータとの乖離はあるし,KNISTはそういう特徴のあるデータ. >小林さんのは何のモデル? 小林:学習済みのモデルを使わず,自分で学習させたモデルを転移させてもう一度使った.全世界で使われているようなのではなく,オリジナルのモデルを使っている >望月,ラーニングレートはどれくらい? 望月:ウェブページには10^-3だったが,3*10^-4くらいに,自分は小さくしてやったら,就職が速かった. >自分はデフォルトから10倍くらいに大きくしてやった. 望月:学習はじめはその方がいいが,最後の方になるとそれだと大き過ぎてしまうと思う. 浦田:CPU?GPU? >GPUでやった. ■小島 論文紹介 小林:想定されている単一都市の構造がどういう条件であれば維持されるのかという枠組みだと思うが,これはまとめると,輸送コストが想定される都市構造を条件付けているということでいいか? >3,4章の証明が実例を検証すると実感できるという説明を5章でやっている.輸送コストは,証明の名kで人口等に影響を与えていたので出てきたのだと思う. 小林:元のモデルとは違ってこのモデルではこのモデルでも同様にそうであるということ? >このモデルはコンチューネンのを基にしていて,このモデルでも同様に輸送コストが影響を与えているということで合っている. 小林: >運んでいると傷んでくるというところも輸送コストに関わっている. 浦田:輸送コストと生産性の関係ですかね. 23枚目が一番重要. >全部は上げられなかったが,いくつか実例が紹介されていたので,この辺がメインだと思う. ■浦田先生のまとめの話 小林:将来効用に異質性を導入したのは,MPECになっているが,これは何? >制約条件式を解いて,代入して,を繰り返す計算をしているが,これを不等式に変換して解いたということ. Ωは,一般化するために0を含む集合に入っていると表している.実際にはこの式で解いている. 小林:オメガの設定があることは分かった. 状態を連続で確率的に表すというのは,動学モデルでは見ることもあるが,それとは違う?ランダムウォークみたいなのからそれ以降の状態を表している? >状態推移は基本的には,効用変数から確率的にしている.Ωは取り敢えずまとめているだけなので,本当のEVは知らないという仮定で計算するために,オメガの中にあるベクトルcですよと設定して,最適化計算して解いた. 厳密であれば等式にして,将来効用をきちんと把握してることを表現できる. 望月:来期以降の報酬の割引合算を今期の報酬に設定するのは、強化学習などでも同じですよね。浦田先生が試していた方法(=でなく<=とする方法)は他の分野で同様のアプローチはあるのですか? >強化学習と同じ.式は一緒.不等式にするのは強化学習側にあるのかは分からないが. ■ゼミまとめ 増田:復習が追い付いていないので,空いた時間に勉強しながら研究を進めたい.「最適化と偏分法」の本で勉強するつもり. 小林:東大の講座で開講されているので参考になるかも. 浦田:その本に書かれているのは基礎理論なので,それをいかに研究に応用するかが大事.ゼミでみんなで勉強してどういう研究がなされているかを知って,理解していく. また,社会人になってもインプットをし続けるというもの大事. 小林:自分自身も学びが多かった.初めて主体的に参加したので.過去の資料も含めて勉強できるし,今年の資料が将来入ってくる人の参考にもなる. ■チャット 12:32:09 開始 Risa KOBAYASHI : 近藤,村橋,小島,望月,増橋,増田 12:32:33 開始 増橋 佳菜 に Ayumi Maeda(プライベート) : 印刷物をとりに一瞬席を立ちますすぐに戻ります 12:35:18 開始 EIJI HATO : 71.41/75.29(30マ)→78.00(30ド)近藤 12:37:32 開始 EIJI HATO : バギングとか考えませんでした? 12:42:19 開始 EIJI HATO : 60.21/バラツキあり(30)村橋 12:43:54 開始 Ayumi Maeda : 今日の議事録は私がとります 12:45:57 開始 EIJI HATO : 暫定2位! 12:49:02 開始 EIJI HATO : 設定違うんでしょうね. 12:52:13 開始 takuma murahashi : PCが不吉な音を発し出したので一旦抜けます… 12:53:40 開始 EIJI HATO : ??90??(学習量8×隠れ層の数8) 12:55:26 開始 Yosuke Mochizuki : 2_Predictのことですかね 12:55:26 開始 Aiko Kondo : 2_Predictですね 13:00:34 開始 EIJI HATO : サンプル特性先に整理するのいいね. 13:05:11 開始 EIJI HATO : 82.6(望月) 13:05:25 開始 EIJI HATO : 暫定1位 13:07:30 開始 EIJI HATO : 比較の図化がわかりやすかったね. 13:17:44 開始 EIJI HATO : 78.88(ド無)マス橋 13:22:53 開始 EIJI HATO : https://medium.com/lsc-psd/機械学習エンジニアなら答えられて当然の4つの問題-畳み込み層編-659809195d2 13:24:11 開始 Aiko Kondo : GPUめっちゃ速いですね。。。さっきやってた30分の計算3分で終わりました 13:24:57 開始 EIJI HATO : ひどい.. 13:25:14 開始 EIJI HATO : もえる. 13:25:45 開始 EIJI HATO : おー 13:26:34 開始 EIJI HATO : まじか.. 13:29:22 開始 EIJI HATO : Future workの結果知りたい! 13:30:18 開始 EIJI HATO : !! 13:30:26 開始 Yosuke Mochizuki : 僕が転移学習したときは、LearningRateがだいぶ聴いてました。最適化手法とステップ幅変えると精度上がりそうです。 13:35:54 開始 Taiki Suzuki : 望月くんの話と関連して、学習率のスケジューリング(最初は大きく、徐々に小さく)みたいな技術もあったと思います 13:36:50 開始 Yosuke Mochizuki : 鈴木さんが言ってくれてるのがAdamだと思います。momentumも考慮する方法で僕はやっていました。 13:52:15 開始 EIJI HATO : リモート化で,都市構造の変化の記述ができそうだね. 14:42:58 開始 Yosuke Mochizuki : 来期以降の報酬の割引合算を今期の報酬に設定するのは、強化学習などでも同じですよね。浦田先生が試していた方法(=でなく<=とする方法)は他の分野で同様のアプローチはあるのですか? 14:47:13 開始 Yosuke Mochizuki : https://ocwx.ocw.u-tokyo.ac.jp/course_11412/ 14:47:20 開始 Yosuke Mochizuki : こういうやつですか? 14:47:31 開始 Risa KOBAYASHI : まさしくそれです!