技术与资本的较量：大模型的出现对自动驾驶来说意味着什么？｜WAIC观

szb.snjbs.com | 2023-07-08 10:05 |发布：神农科技

界面新闻记者 | 伍洋宇

界面新闻编辑 |

ChatGPT出现之后，大模型在人工智能领域的地位进一步提升。众多AI应用方向都开始寻求与大模型的结合，以争取更高效率的产品落地进程，自动驾驶也不例外。

7月6日到8日，2023年世界人工智能大会在上海举办。在“AI与新一代车载智能感知融合创新论坛”上，大模型成为学界与业界人士的共同话题。

清华大学计算机系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东，从技术底层视角提出了大模型的“云-边-端”自动驾驶部署框架——以“ChatGPT/GPT”为云端，以垂域BEV（Birds-eye-view，鸟瞰图视角）多模态GPT为边缘端，以局部自主及传感执行为移动端。其中，云端理解为具备知识理解、预测以及决策能力的“大脑”，边缘端理解为进行动态感知与理解的视觉智能。

邓志东认为，整个过程中最大的挑战在于如何构建垂域多模态GPT。

对此，他表示可以将自动驾驶算法设定为一系列任务，包括感知、预测、决策/规控三大主任务，以及环境监测、在线建图、多轨迹预测、占用栅格预测等一级任务（顺序模块）。而解决这些任务可以通过三条路径：

第一条路径是设定多任务，进行联合预训练，但这条路径如果用弱人工智能的方式来操作，比如没有通过语言建模将这一系列的数据模块串联起来，就可能缺乏语言智能；

第二条路径是构建自己的多模态通用大模型。“但是我觉得这个事情挑战很大，因为我想我们中国现在最大的任务是怎么追赶上ChatGPT，做到我们自己的GPT 4.0。”他说，“这个就已经很了不起了，但这也是比较困难的，目标比较远大。”

第三条路径是利用已有的ChatGPT/GPT 4.0构建自己的垂域多模态GPT。邓志东表示，可以利用这种“还不是非常完美”的通用语言模型作为“骨头”，将其能力视为“云”，通过对通用语言模型进行微调（知识迁移）在云上做一个操作系统——这也是他认为比较现实的一条路。

邓志东认为后两条路径都利用了大模型和人类共有的语言智能，也正是这种语言智能可以将顺序模块进行一体化串联。“没有多模态的语言智能就没有灵魂。”他说。同时，他例举了大模型语言智能能够贯穿的各个环节，包括从多摄像头多帧输入到向量空间的3D感知等等。

此外，邓志东还例举了大模型将为自动驾驶带来的其他方面影响，包括基于大模型的人车语音自然交互和远程安全接管预测，以及自动驾驶生成式数据闭环和云边端AI算力需求。

“总之，对跨界的自动驾驶来说，我们应该更多去关注大模型的使用。”邓志东表示，“在进化史上，语言智能是人类与动物之间的根本区别，因此机器模拟并利用语言智能，就可以获得与人类观察与思维一致的感知、预测、决策及规控能力。与此同时，我们也可以利用人类驾驶经验去完成相应的行为对齐及反馈矫正。”

事实上，在ChatGPT爆火之前，大模型已经开始影响自动驾驶领域。

觉非科技创始人兼CEO李东旻表示，智能驾驶解决方案的第一阶段是各个小模型的堆叠，到第二阶段，以特斯拉为企业代表的大模型+大数据方案开始受到重视——特斯拉在自己的AI DAY上发布了transformer+BEV方案，并带动了行业趋势。

“当时所有人都在谈论BEV+transformer，行业从来没有如此达成共识过。”他说。

不过，站在企业视角，李东旻给出了非常切实的想法和建议。“大模型的落地非常非常难，大家真的不要低估这件事的技术难度和资金难度。”他展示了参考特斯拉做的数据对比，得到的结论是“大算力是基础，大数据是前提”。

“如果一台车辆不能收集大量数据，或者说你靠花很多钱才能收集大数据，（那就）别做了，踏踏实实把城市NOA/NGP功能做好，其实也是挺好的一件事。”他提到，做大模型的间接投入比小模型大上百倍。这里的间接投入指买云服务、买算力、买数据、买标注等难以像硬件成本一样清晰的费用。

“激光雷达一张照片要200元，但各位，训练大模型至少是一亿帧起步，没有一亿帧你连玩牌的资格都没有。”李东旻说，“所以大家不要低估这件事情——大模型的确是未来，也一定值得我们所有人投入，但是我们要怀着一个谦卑的心态来迎接它和应对它。”

技术与资本的较量：大模型的出现对自动驾驶来说意味着什么？｜WAIC观

最新报道

微媒专栏

阅读排行

滚动报道