- 羽藤:計算時間はWassersteinに対してどうして早くなったのか - 林:元の問題も凸計画問題なのでなぜか - 薬師神:解が疎ではなく密のほうが速い - 渡辺:収束判定 - 羽藤:正則化項がぼんやりした平野でうろうろ貝を探してしまうが、せいそくかこうをいれることで際立ったランドスケープになって収束しやすくなる→計算が速くなる - 林:αが実用上小さくても大丈夫ということを利用した結果早まったのでは - 解の候補を減らしている - 白井:Λを小さくすることで計算コストが変わっていくということだが、エントロピーをどれだけ小さくするか、適度に小さなΛが大きなΛよりも良いというのはどういうことか - 50くらいがちょうどいいとは言ってなくて、具体的な値は述べてないが、αが大きくなりすぎるとエントロピー校の作用が0に近づいてしまって元の最適輸送問題に近づいてしまう - 古橋:計算結果2枚目(p.25) EMDが厳密解だと思うが、λ=50ぐらいでEMDと近くなったから - なぜSinkhornの方がEMDよりもエラーが小さく優れるのか - 渡辺:正則化項はペナルティで最適輸送におけるオーバーフィットを防いでいる - 大山:実際EMDに一致するかわからないが - 動的なλの調整は議論されていたか? - ロジスティクスな最適輸送 - 機械学習の学習過程でやるなら動的にλを変化させるのもありでは? - 最初は粗く探しといて、最後は密に探すとイノもできるのでは - 小川:ラグランジュの未定乗数法だとλ自体の最適化も考えられるのでは - 数値計算上効率的にやるのが難しいのか、そこのアルゴリズムの発展の余地はありそう - 双対問題を周辺分布を一致させるようにサンプルしてくるのは難しい - 計算手続き場も - 問題の性質的にも - 羽藤:これは分布の距離?KLダイバージェンスは何の距離?パターンの距離は本当にこれで扱えているのか - ワッサースタインだとパターンの距離は扱えているのか - 大山:コストCを変えることでどんな距離でも扱える? - 砂を1単位運ぶのにかかるコスト - 学習過程で計算しやすいコストと実際のアウトプットとしての距離の類似性を図る指標といろいろある - 最適輸送に基づいて勾配とか計算するのか - 確率分布として書くと勾配とか計算しやすい - アウトプットの方で比較して利用しようとするのj化 - 重村:KLダイバージェンス、EMDと今回のアルゴリズムだとどういう部分で活用できるか - 小川:機械学習で低次元の埋め込みの話もあったと思うが、画像みたいな偏った分布で存在していて、本来のピクセルよりも低次元な分布に - 多様体仮説 - サポートがデータの次元より小さいので、モデルの学習をするときにモデルが持っているサポートとデータが持っているサポートが交差しない - その場合だとKLダイバージェンスだと学習できない - 今回だとエントロピー校を入れても距離の小売を満たせるという点が重要なのでは - なめらかさみたいなものを考慮しながら分布間の距離が測れる - λ=0で最適輸送距離に一致するので、低次元のサポートでの距離の良さが主に使われているが、エントロピーみたいな別の概念込みで距離を考えられるという考え方は面白い - エントロピー以外でもそういう構造を導入すると面白い - 増田:距離のマトリックスは所与というのはどういうことか - 犬や猫の類似度についてもコストに入れてもいいか - EMDに基づいて入れていると思うので、何らかの方法でそれを数値に変換しないといけない - 倉澤:カテゴリー数が多くなると限界になるがその場合はどうやって設定しているのか - この論文ではヒストグラムの話はあくまでも最適輸送問題の導入として暑かっただけ - 単語運搬距離というものも提案されている - 古橋:ペナルティ項を入れるのは面白い、動的にペナルティ項を入れると学習を調整できるという発展性がありそう - この論文がどう発展しているかも知りたい - 羽藤:このあとグロモフのWasserstein距離も出る - 異なる距離空間上を扱える、GNNと組み合わせ