Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み]

9月 7, 20187月 27, 2020

VQAタスクにおいて，文と画像のベクトルを統合する為の手法．

VQAのようなマルチモーダルなタスクだと，文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題．

https://pdfs.semanticscholar.org/presentation/4f0e/2685905ca4db75f08b6de8612b820cb4ea12.pdf?_ga=2.192352170.1804536074.1536303322-1385125109.1521159548
より

その問題をFFTを用いて圧縮を行い，コンパクトにすることで解決．
かなりイケてる手法らしい．

関連記事

論文サマリ

Posted by vastee

KerasがGPU版のTensorflowを使っているかを確認する方法[Keras][Tensorflow]

Pythonのsortで1の次に10がくる問題

ディスカッション

コメント一覧

まだ、コメントがありません

コメントをどうぞコメントをキャンセル

この記事のトラックバックURL