
视觉-语言-动作模型
通过VLA,元戎启⾏的智能驾驶系统可以连接视觉、语⾔、动作
理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理
具有⾼效的场景泛化能⼒和稳定的驾驶表现
通过VLA,元戎启⾏的智能驾驶系统可以连接视觉、语⾔、动作理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理,具有⾼效的场景泛化能⼒和稳定的驾驶表现。

高性能
处理速度快,能高效应对复杂交通场景,提升驾驶安全性

强认知
深度融合视觉、语言和动作信息,具备强大的环境理解和任务执行能力

超拟人
表现更拟人化,模拟人类驾驶行为,提升驾驶体验

可解释
决策过程透明,可解释性强,有助于故障排查和信任建立

端到端模型
基于端到端模型将感知、预测、规划等模型融为一体
避免了信息在不同模型间传递时所产生的减损
实现输入传感器信号后直接输出控制动作
再用海量数据训练系统,让机器拥有自主学习、思考和分析的能力
更好地处理复杂的驾驶任务。
基于端到端模型将感知、预测、规划等模型融为一体避免了信息在不同模型间传递时所产生的减损实现输入传感器信号后直接输出控制动作再用海量数据训练系统,让机器拥有自主学习、思考和分析的能力更好地处理复杂的驾驶任务。










从多模块走向端到端融合
-
检测
-
目标跟踪
-
后融合
-
预测
-
决策
-
规划
-
控制
-
地图
-
定位
-
预测
-
地图
-
定位
-
决策
-
规划
-
多传感器融合
-
控制
通用感知网络
预测规划网络
-
控制
端到端模型 开展道路测试
视觉-语言-动作(VLA) 模型部署上车
Rule-based
更多的工程 适量的数据
2017
2022
2023
2025
Learning-based
更少的工程 更多的数据
数据闭环
在图商支持下,具备数据标注、清洗、标签设定、分类、质检、模型训练、测试验证等流程,形成持续学习的数据闭环,使智能驾驶系统不断自动优化迭代。

模型训练

海量优质数据

数据挖掘