Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み]
VQAタスクにおいて,文と画像のベクトルを統合する為の手法.
VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題.
その問題をFFTを用いて圧縮を行い,コンパクトにすることで解決.
かなりイケてる手法らしい.
画像処理や自然言語処理などのハマりどころをまとめます
VQAタスクにおいて,文と画像のベクトルを統合する為の手法.
VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題.
その問題をFFTを用いて圧縮を行い,コンパクトにすることで解決.
かなりイケてる手法らしい.
ディスカッション
コメント一覧
まだ、コメントがありません