Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み]

7月 27, 2020

f:id:Vastee:20180907155748p:plain

VQAタスクにおいて,文と画像のベクトルを統合する為の手法.

VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題.

f:id:Vastee:20180907161221p:plain

https://pdfs.semanticscholar.org/presentation/4f0e/2685905ca4db75f08b6de8612b820cb4ea12.pdf?_ga=2.192352170.1804536074.1536303322-1385125109.1521159548
より

その問題をFFTを用いて圧縮を行い,コンパクトにすることで解決.
かなりイケてる手法らしい.

論文サマリ

Posted by vastee