f:id:Vastee:20180907155748p:plain

VQAタスクにおいて,文と画像のベクトルを統合する為の手法.

VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題.

f:id:Vastee:20180907161221p:plain

https://pdfs.semanticscholar.org/presentation/4f0e/2685905ca4db75f08b6de8612b820cb4ea12.pdf?_ga=2.192352170.1804536074.1536303322-1385125109.1521159548
より

その問題をFFTを用いて圧縮を行い,コンパクトにすることで解決.
かなりイケてる手法らしい.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です