毫米智行自动驾驶认知模型正式升级为DriveGPT,2月17日宣布将在2023年4月的HAOMO AI DAY上公布其最新的重要进展。

随着ChatGPT热播全网,它采用的Transformer大模型和ldquo;人类反馈强化学习(RLHF)rdquo,技术再次引起业界的关注。在自动运行领域,国内最早将Transformer大模型引入数据智能系统MANA。在2023年1月的HAOMO AI DAY上,Milliam智行CEO顾维灏进行了介绍。米里亚姆推出的驾驶监督认知大模型,参考ChatGPT的实现思路,采用RLHF(人反馈强化学习)技术,通过导入真实驾驶交接数据,持续优化自动驾驶认知决策模型。

毫米末的认知决策算法经历了三个阶段的进化。第一阶段是引入对个别场景的端到端模仿学习,使其直接适合于人的驾驶行为。第二阶段通过认知大模型,引入大量正常人驾驶数据,通过Prompt的方式实现认知决策的可控性,可解释。在第三阶段,即当前阶段,通过引入实际的继承数据,已经开始尝试在大模型中使用RLHF算法来学习人的继承数据。因此,毫米末构建为包含ldquo。旧战略、交接战略、人工label战略rdquo;中描述的场景,使用以下步骤创建明细表,以便在概念设计中分析体量的体积。基于该排序模型,毫米仪建立自动驾驶决策奖励模型(reward model),从而在各种计划场景下作出最佳决策。通过该大模型,在掉头、环岛等公认的困难场景中,场景通过率提高了30%以上。

2月17日,毫米末智行驾驶监督认知大模式正式升级为ldquo。DriveGPTrdquo;,这也是世界上第一个自动驾驶认知大模型。目前,毫米DriveGPT已经完成了模型构建和第一阶段数据的传递,并且参数规模可以对应于GPT-2的水平。接着,DriveGPT继续导入大规模的实际接收数据,通过人驾驶数据反馈的强化学习,不断提高评价效果,并且将DriveGPT作为云评价模型,用于评价车端小模型的驾驶效果。毫米DriveGPT最新的重要进展将在2023年4月举行的第8届HAOMO AI DAY上公布。