論文サマリーまとめ 6月～

筆者が読んでまとめた一言サマリーを掲載します。本記事で掲載されている図は論文から引用したもので、各トピックの下の方にあるURLをクリックすると元の図を確認することができます。

Physics-based Iterative Projection Complex Neural Network for Phase Retrieval in Lensless Microscopy Imaging

位相検索のために、モデルベース代替投影法とディープニューラルネットの両方の利点を組み合わせ、ネットワークの解釈可能性と推論効果を同時に実現

https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Physics-Based_Iterative_Projection_Complex_Neural_Network_for_Phase_Retrieval_in_CVPR_2021_paper.pdf

Masked-attention Mask Transformer for Universal Image Segmentation

パノプティック、インスタンス、セマンティックセグメンテーションに対応できる新しいアーキテクチャMask2Formerを提案。工夫点は、予測されたマスク領域内でcross-attentionを拘束することにより（式２参照）、局所的な特徴を抽出するMasked attentionである。

2112.01527.pdf (arxiv.org)

VALHALLA: Visual Hallucination for Machine Translation

画像の補助入力を考慮した機械翻訳システムにおいて、推論時に原文のみを用い、代わりに幻覚化された視覚表現(Visual Hallucination)をマルチモーダル機械翻訳に用いる視覚的幻覚フレームワーク「VALHALLA」を提案

https://arxiv.org/pdf/2206.00100.pdf

http://www.svcl.ucsd.edu/projects/valhalla/

Thin-Plate Spline Motion Model for Image Animation

First Order Motion Modelの改良版

https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model

Neural Prompt Search

大規模ビジョンモデルに対して、下流データセットごとに最適なプロンプトモジュールの設計をNASで学習する新しいアプローチ、NOAH(Neural prOmpt seArcH) を提案

https://arxiv.org/abs/2206.04673

https://github.com/Davidzhangyuanhan/NOAH

Structural Characterization for Dialogue Disentanglement

チャットのように複数当事者の対話が錯綜する場面において、対話解離のための構造情報を以下の２つの側面からモデル化。1)メッセージの発信元を示す話者属性と、2)メッセージが誰を参照しているかを示す参照依存性

https://aclanthology.org/2022.acl-long.23.pdf

Generating Datasets of 3D Garments with Sewing Patterns

3D衣服デザインおよびその縫製パターンの合成データセット

https://arxiv.org/abs/2109.05633

LatentFormer: Multi-Agent Transformer-Based Interaction Modeling and Trajectory Prediction

シーン内の動的なオブジェクト間の相互作用をTransformerとVision Transformerでエンコード

https://arxiv.org/pdf/2203.01880.pdf

Dual-Shutter Optical Vibration Sensing

同時に演奏するそれぞれの楽器を一度に個別収録できるマイクシステム。音源に照射したスペックルパターンをローリングシャッターとグローバルシャッターで撮影することでハイスピードカメラなしに実現。

https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

SynWoodScape: Synthetic Surround-view Fisheye Camera Dataset for Autonomous Driving

魚眼カメラのサラウンドビューデータセットWoodScapeの構成に合わせたCARLAシミュレータにサラウンドビュー魚眼式幾何投影を実装し、SynWoodScapeを作成しました。この合成データセットの8万枚の画像と、10以上のタスクのアノテーションを公開（先にリアルのデータを公開し(ICCV19)その設定を活かしてシミュレーションデータを公開している）

2203.05056.pdf (arxiv.org)

Trajectron++: Dynamically-Feasible Trajectory Forecasting With Heterogeneous Data

歩行者の軌道予測には多くの手法が存在するが、その多くは動的制約が存在せず環境情報（地図など）を考慮しない。これを解決するため、エージェントの挙動と異種データを取り入れながら、一般的な数の多様なエージェントの軌道を予測するモジュール式のグラフ構造リカレントモデルであるTrajectron++を提案

2001.03093.pdf (arxiv.org)

Denoising Diffusion-based Generative Modeling: Foundations and Applications

DDPM(拡散確率モデル): ソース画像に複数回ノイズを加え、最終的にノイズのみになるガウス確率過程を考え、その逆過程を学習して遡ることで完全なノイズから画像生成を行うモデル

メモ: Probability Flow ODE Diffusion Models as Continuous Normalizing Flows Probability Flow ODE as Neural ODE or Continuous Normalizing Flow (CNF): How to solve the generative SDE or ODE in practice? !Momentum-based” diffusion Latent-space diffusion models Diffusion Autoencoders

https://cvpr2022-tutorial-diffusion-models.github.io/?utm_source=pocket_mylist