Vision-Language-Action Model

VLA modelは、交通シーンにおける複雑なインタラクションや

隠れた意味情報、さらに論理的推論を理解することができます。

これにより、複雑なシーンでも安定した運転パフォーマンスを発揮します。

高性能
処理速度が速く、複雑な交通シーンに効率的に対応し、運転の安全性を向上させます。
強い認知力
視覚、言語、動作情報を深く統合し、環境理解とタスク実行能力が強い。
人間並み
人類の運転行動をシミュレートし、運転体験を向上させます。
説明可能性
意思決定プロセスが透明で、システムの信頼性が高い。

End-to-end Model

認識、予測、計画等のモデルを統合したEnd-to-end Modelが、

従来のモデル間の情報伝達におけるロスを防ぎます。

センサー信号を入力し、直接制御アクションを出力する仕組みにより、

大量のデータを用いてシステムをトレーニングすることで、機械が自前的に

学習・思考・分析し、複雑な運転タスクに適切に対応できるようになります。



複数モジュールからEnd-to-end Modelへ進化
  • Localization

  • Mapping

  • Control

  • Planning

  • Decision

  • Prediction

  • Late fusion

  • Object tracking

  • Detection

  • Control

  • Multi-sensor fusion

  • Planning

  • Decision

  • Localization

  • Mapping

  • Prediction

  • Control

  • Prediction Planning Net

  • General Perception Net

  • Deploy VLA Model on consumer cars

  • Initial road test of end-to-end model

Rule-based

More engineering, adequate data

2017
2022
2023
2025

Learning-based

Less engineering, more data

Data loop

地図会社のサポートにより、データのラベリング、クリーニング、ラベル設定、分類、品質検査、モデルトレーニング、テスト検証などのプロセスを完備し、スマートドライビングシステムが持続的に進化していく。

Model training

Numerous data

Data mining