閉じる

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み]

f:id:Vastee:20180907155748p:plain

VQAタスクにおいて,文と画像のベクトルを統合する為の手法.

VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題.

f:id:Vastee:20180907161221p:plain

https://pdfs.semanticscholar.org/presentation/4f0e/2685905ca4db75f08b6de8612b820cb4ea12.pdf?_ga=2.192352170.1804536074.1536303322-1385125109.1521159548
より

その問題をFFTを用いて圧縮を行い,コンパクトにすることで解決.
かなりイケてる手法らしい.

Pocket

コメントを残す

あなたのメールアドレスは公開されません。必須項目には印がついています *

© 2020 CV・NLP TIPS | WordPress Theme: Annina Free by CrestaProject.