近日毫末智行方面宣布,其自动驾驶认知大模型正式升级为 “DriveGPT”,并将于2023年4月举行的第八届HAOMO AI DAY中公布重要进展。
随着ChatGPT的走红,其采用的Transformer大模型以及“人类反馈强化学习(RLHF)”技术也引发了大量关注。而在自动驾驶领域,毫末也是国内市场最早将Transformer大模型引入数据智能体系MANA中的企业。
此前毫末智行CEO顾维灏曾指出,毫末推出的人驾自监督认知大模型就借鉴了ChatGPT的实现思路,通过采用RLHF术、引入真实人驾接管数据,对自动驾驶认知决策模型进行持续优化。通过这一大模型,在掉头、环岛等公认的困难场景中,通过率提升了30%以上。
目前,毫末智行在认知驾驶决策算法的进化上分成了3个阶段。其中第一个阶段是引入了个别场景的端到端模仿学习,直接拟合人驾行为;第二个阶段是通过大模型,引入海量人驾数据,通过Prompt的方式实现认知决策的可控可解释;第三个阶段则是引入真实接管数据,并尝试使用“人类反馈强化学习(RLHF)”。
据了解,人类司机的每一次接管都是对自动驾驶策略的一次人为反馈(Human Feedback),而这个数据也可以被简单当成一个负样本来使用,就是自动驾驶决策被纠正的一次记录,也可以被当作改进认知决策的正样本来学习。为此毫末智行构建了一个“旧策略、接管策略、人工label策略”的pairwise排序模型,并将其称为人驾自监督认知大模型。
据悉,毫末智行的DriveGPT目前已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。接下来DriveGPT将持续引入大规模真实接管数据、通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的效果。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读:
盖世汽车网2023-02-19 18:1802-19 18:18
C114中国通信网2023-02-19 18:0602-19 18:06
TOM2023-02-19 15:4302-19 15:43