采用以强化学习为核心的控制模型设计及其训练技术,包括:1)累计收益连续化的值分布强化学习算法,利用分布式函数代替期望值,解决了Bellman算子迭代导致的决策过程值函数过高估计难题。与当前主流算法(如OpenAl的PPO算法、Deepmind的DDPG算法)相比累计收益提升16.0%,为全球性能第一;2)时空分离型的神经网络结构设计方法及其双阶段级联训练技术,破解了现有网络结构时空高度耦合导致推理精度差的难题。在国际基准Argoverse数据集实现了大幅性能提升,所有七项指标的六项排名第一。以上述技术为基础构建控制模型通用开发平台GOPS,实现了工业环境仿真、控制模型构建、模型训练求解、模型应用部署的完整功能链条。在该平台支持下将开发面向工业制造的智能机器人控制模型,主要是具备智能化质检和操作能力的汽车装配机器人控制器,并集成于智能制造机器人。
全部评论