自動運転x自然言語ナビゲーション

TOUCHDOWN: Natural Language Navigation and Spatial Reasoning in Visual Street Environments CVPR19

TOUCHDOWN:視覚的街頭環境における自然言語ナビゲーションと空間推論

アブストの日本語訳

我々は、ナビゲーションと空間推論タスクを通して、言語と視覚に関する共同推論の問題を研究する。我々はTOUCHDOWNタスクとデータセットを紹介する。このタスクでは、エージェントはまず現実の視覚的都市環境におけるナビゲーション指示に従わなければならず、次に自然言語で記述された場所を特定して、ゴール位置にある隠れたオブジェクトを発見しなければならない。このデータには、9,326例の英語の指示と空間説明とデモが含まれている。実証分析では、このデータが既存の手法に対するオープンな挑戦であることを示し、定性的言語分析では、このデータが関連リソースと比較してより豊かな空間推論の使用を示していることを示しました1。

図1

タスクの説明図。エージェントは指示に従い、まず方向を変え(上図)、次に街中を移動する(中図2枚)。ゴール(下図)では、エージェントは空間記述(下線部)を使って熊のタッチダウンを探します。タッチダウンは推測が正しい場合にのみ表示される(右下の詳細参照)。

アーキテクチャはUNetベースでテキスト情報はBiLSTMでエンコードされている

下記は推論結果でテキストに対応する部分に赤や緑のハイライトがかかっている。パノラマ画像で推論可能。

上の日本語訳「道路の右側に白とグレーのバンが停まっていて、そのすぐ後ろの歩道には黒い消火栓があります。黒い消火栓に銀色の上部、タッチダウンは消火栓の銀色の部分です。」

下の日本語訳「黒い扉の右側は赤レンガ、左側は緑レンガでできています。」

https://arxiv.org/abs/1811.12354

Multimodal Text Style Transfer for Outdoor Vision-and-Language Navigation EACL21

Googleの人が入っているのでGoogle Mapを用いた手法となる

アブスト

自然言語処理(NLP)の中で最も難しいテーマの一つが、視覚に基づく言語理解・推論である。このようなタスクは、エージェントが自然言語の指示に従い、現実の都市環境をナビゲートするもので、屋外での視覚と言語によるナビゲーション(VLN)である。複雑な都市景観を示す人間の注釈付き指示がないため、屋外VLNは依然として解決困難なタスクである。本論文では、マルチモーダルテキストスタイル転送(MTST)学習アプローチを導入し、外部のマルチモーダルリソースを活用して、屋外ナビゲーションタスクにおけるデータ不足を軽減する。まず、Google Maps APIによって生成された指示のスタイルを転送することによってナビゲーションデータを充実させ、次に、充実した外部のアウトドアナビゲーションデータセットを用いてナビゲータを事前学習させる。実験結果は、我々のMTST学習アプローチがモデルに依存せず、屋外VLNタスクにおいてベースラインモデルを大幅に上回り、テストセットにおいてタスク完了率を相対的に8.7%向上させることを示している。1

https://arxiv.org/abs/2007.00229

Learning to Navigate in Cities Without a Map NeurIPS18

DeepMindの研究

この研究で作成されたデータセットの名前、"Streetlearn"が有名

非構造化環境におけるナビゲーションは、知的生物の基本的な能力であり、人工知能の研究開発において基本的な関心事である。長距離ナビゲーションは、認識可能なランドマークと頑健な視覚処理に基づく、空間の内部表現の開発に依存する複雑な認知タスクであり、連続的な自己位置特定(「私はここにいる」)と目標表現(「私はそこに行く」)を同時にサポートすることができる。迷路ナビゲーションの問題に深層強化学習を適用した最近の研究を基に、都市規模で適用可能なエンドツーエンドの深層強化学習アプローチを提示する。ナビゲーションの成功は、一般的な政策と地域特有の知識の統合に依存していることを認識し、我々は、地域特有の特徴をカプセル化し、かつ複数の都市に転送することを可能にするデュアルパスウェイアーキテクチャを提案する。本論文の主要な貢献は、Googleストリートビューの写真コンテンツと世界的なカバレッジを利用した対話型ナビゲーション環境である。ベースラインは、深層強化学習エージェントが複数の都市でのナビゲーションを学習し、数キロメートル離れた目的地まで移動できることを実証している。プロジェクトのウェブページ http://streetlearn.cc には、我々の研究を要約したビデオや、多様な都市環境での学習済みエージェントの様子、移動タスク、StreetLearn データセットのリクエストフォーム、その他のリソースへのリンクが掲載されています。StreetLearnの環境コードは、https://github.com/deepmind/streetlearn。

この研究はビデオをみると大体やっていることがわかる

ポスターもある

https://drive.google.com/file/d/151_f_ESdmmfisAJg7QGy7Sq8u1Ni7pfv/view

https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00003/070500038/

Talk2Car: Predicting Physical Trajectories for
Natural Language Commands IEEE Access 22

Talk2Carの拡張版で、テキストで指示された地点への移動軌跡を算出してくれる

アーキテクチャ

githubリポジトリをみるとかなり高い頻度で拡張、更新されていることがわかる

https://github.com/talk2car/Talk2Car

It is not the Journey but the Destination: Endpoint Conditioned Trajectory Prediction ECCV20

少し自然言語処理ナビゲーションから離れるが、Trajectory Predictionの論文を掲載

PECNetの名で知られている

アーキテクチャ

https://arxiv.org/pdf/2004.02025.pdf

Grounding Linguistic Commands to Navigable Regions

Talk2Carの拡張版。セグメンテーションラベルを追加したバージョン

INGRESS: Interactive visual grounding of referring expressions

https://journals.sagepub.com/doi/full/10.1177/0278364919897133