VQAタスクにおいて,文と画像のベクトルを統合する為の手法.
VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題.
その問題をFFTを用いて圧縮を行い,コンパクトにすることで解決.
かなりイケてる手法らしい.
VQAタスクにおいて,文と画像のベクトルを統合する為の手法.
VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題.
その問題をFFTを用いて圧縮を行い,コンパクトにすることで解決.
かなりイケてる手法らしい.