論文サマリーまとめ 6月~
筆者が読んでまとめた一言サマリーを掲載します。本記事で掲載されている図は論文から引用したもので、各トピックの下の方にあるURLをクリックすると元の図を確認することができます。
Physics-based Iterative Projection Complex Neural Network for Phase Retrieval in Lensless Microscopy Imaging [Zhang+, CVPR21]
位相検索のために、モデルベース代替投影法とディープニューラルネットの両方の利点を組み合わせ、ネットワークの解釈可能性と推論効果を同時に実現
Masked-attention Mask Transformer for Universal Image Segmentation [Cheng+, CVPR22]
パノプティック、インスタンス、セマンティックセグメンテーションに対応できる新しいアーキテクチャMask2Formerを提案。工夫点は、予測されたマスク領域内でcross-attentionを拘束することにより(式2参照)、局所的な特徴を抽出するMasked attentionである。
VALHALLA: Visual Hallucination for Machine Translation[Li+, CVPR22]
画像の補助入力を考慮した機械翻訳システムにおいて、推論時に原文のみを用い、代わりに幻覚化された視覚表現(Visual Hallucination)をマルチモーダル機械翻訳に用いる視覚的幻覚フレームワーク「VALHALLA」を提案
https://arxiv.org/pdf/2206.00100.pdf
http://www.svcl.ucsd.edu/projects/valhalla/
Thin-Plate Spline Motion Model for Image Animation [Zhao+, CVPR22]
First Order Motion Modelの改良版
https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model
Neural Prompt Search [Zhang+, 22]
大規模ビジョンモデルに対して、下流データセットごとに最適なプロンプトモジュールの設計をNASで学習する新しいアプローチ、NOAH(Neural prOmpt seArcH) を提案
https://arxiv.org/abs/2206.04673
https://github.com/Davidzhangyuanhan/NOAH
Structural Characterization for Dialogue Disentanglement [Ma+, ACL22 Long Paper]
チャットのように複数当事者の対話が錯綜する場面において、対話解離のための構造情報を以下の2つの側面からモデル化。1)メッセージの発信元を示す話者属性と、2)メッセージが誰を参照しているかを示す参照依存性
https://aclanthology.org/2022.acl-long.23.pdf
Generating Datasets of 3D Garments with Sewing Patterns [Korosteleva+, NeurIPS 2021 Datasets and Benchmarks Track]
3D衣服デザインおよびその縫製パターンの合成データセット
https://arxiv.org/abs/2109.05633
LatentFormer: Multi-Agent Transformer-Based Interaction Modeling and Trajectory Prediction[Amirloo+, 22]
シーン内の動的なオブジェクト間の相互作用をTransformerとVision Transformerでエンコード
https://arxiv.org/pdf/2203.01880.pdf
Dual-Shutter Optical Vibration Sensing[Sheinin+, CVPR22]
同時に演奏するそれぞれの楽器を一度に個別収録できるマイクシステム。音源に照射したスペックルパターンをローリングシャッターとグローバルシャッターで撮影することでハイスピードカメラなしに実現。
SynWoodScape: Synthetic Surround-view Fisheye Camera Dataset for Autonomous Driving
魚眼カメラのサラウンドビューデータセットWoodScapeの構成に合わせたCARLAシミュレータにサラウンドビュー魚眼式幾何投影を実装し、SynWoodScapeを作成しました。この合成データセットの8万枚の画像と、10以上のタスクのアノテーションを公開(先にリアルのデータを公開し(ICCV19)その設定を活かしてシミュレーションデータを公開している)
Trajectron++: Dynamically-Feasible Trajectory Forecasting With Heterogeneous Data [Salzmann+, 20]
歩行者の軌道予測には多くの手法が存在するが、その多くは動的制約が存在せず環境情報(地図など)を考慮しない。これを解決するため、エージェントの挙動と異種データを取り入れながら、一般的な数の多様なエージェントの軌道を予測するモジュール式のグラフ構造リカレントモデルであるTrajectron++を提案
Denoising Diffusion-based Generative Modeling: Foundations and Applications [CVPR22 Tutorial]
DDPM(拡散確率モデル): ソース画像に複数回ノイズを加え、最終的にノイズのみになるガウス確率過程を考え、その逆過程を学習して遡ることで完全なノイズから画像生成を行うモデル
メモ:
Probability Flow ODE Diffusion Models as Continuous Normalizing Flows
Probability Flow ODE as Neural ODE or Continuous Normalizing Flow (CNF):
How to solve the generative SDE or ODE in practice?
!Momentum-based” diffusion
Latent-space diffusion models
Diffusion Autoencoders
https://cvpr2022-tutorial-diffusion-models.github.io/?utm_source=pocket_mylist
ディスカッション
コメント一覧
まだ、コメントがありません