华为、特斯拉带头,车企卷入「大模型」军备竞赛
2023-06-16 08:05:45来源:ZAKER科技
自动驾驶的进程,因为大模型又起波澜。
近几年,自动驾驶近年发展迅猛,硬件预埋软件持续迭代的风潮下,车载算力急剧增长快速普及,但软件端功能进化滞后于算力。人们似乎开始接受要经过很长时间才能发展到自动驾驶。
(相关资料图)
但 ChatGPT 的出现带给自动驾驶行业很大启示。
ChatGPT 作为大语言模型的代表,通过对海量多模态数据的大规模自监督学习,借助「预训练 + 微调」的方式,让 AI 可以完成各种复杂自然语言任务,甚至通过了图灵测试——自动驾驶,被认为是下一个可能实现突破的领域。
北京智源人工智能研究院院长黄铁军甚至预测,三年之内可以实现高级别自动驾驶。
目前,在产业界很多公司都在「大模型上车」上进行探索。一部分自建大模型,商汤发布的日日新大模型,毫末智行发布了自动驾驶生成式大模型 DriveGPT ——雪湖 · 海若;另一部分公司走联合路线,比如小鹏汽车联合阿里的大模型建立自动驾驶智算中心、斑马智行接入阿里大模型等。
「大模型上车」目前重点进展:
数据标注——特斯拉等公司,通过大模型优化数据标注,降低了人工标注比例和成本;
仿真优化——提升虚拟训练环境的真实性,优化虚拟训练数据;
优化感知——利用大模型能力,优化多个环节的小模型,提高感知效果;
端到端——利用生成式预训练大模型技术,让自动驾驶模拟类似人脑驾驶的能力。
大模型会如何影响智能驾驶?现在有哪些公司和团队,已经开始实践「大模型上车」了?它真的能让无人驾驶更快到来吗?
小模型 VS 大模型
智能驾驶行业,经历了一个模型「从小到大」的过程。
目前已量产的智能驾驶,绝大多数采用的是模块化架构。简而言之,模块化是将智能驾驶系统拆分为多个典型任务,并由专门的 AI 模型或模块处理。
现阶段的自动驾驶模型框架主要由感知、规划决策和执行三个部分组成。感知模块就像是人的眼睛和耳朵,负责对外部环境进行感知;控制模块就像人的双手和双脚,负责最终的加减速、转向等操作;而决策规划模块就像人的大脑,基于接收到的感知等信息进行行为决策和轨迹生成。
在此架构下,每个大模块可能包含多个小模型的组合。如感知模块可能包含分类、追踪和定位等不同 AI 模型,各司其职。
不过,随着软硬件升级与逐步深入,自动驾驶对于计算能力和海量数据处理能力的需求暴增,传统各个小模型「堆叠」的方案,已经无法满足城市自动驾驶的需求。比如,「堆叠」造成信息失真以及算力浪费,而每个小模型的技术「天花板」也会导致整体解决方案受限。
举个简单例子,小模型就像一个小孩,他非常擅长看图和听故事,可以快速地找到图片中的物品或者听懂一段故事的意思。但是,如果这个故事太长或者太复杂,他可能就会听不懂或者忘记了。
特斯拉自动驾驶技术架构 | 特斯拉这个时候,大模型开始进入业界视野。
2021 年 8 月,特斯拉的 AI 高级总监 Andrej Karpathy,在特斯拉 AI DAY 上展示了一项新技术——基于 Transformer 的 BEV ( 鸟瞰视角 ) 感知方案。相当于车辆正上方 10-20 米有一个直升机俯视车辆与周围环境,这是大模型技术首次应用于自动驾驶领域,也是特斯拉实现纯视觉智能驾驶方案的关键。
华为、百度 Apollo、蔚小理、毫末智行、商汤等一众厂商,甚至像地平线这样的芯片公司,也都在 BEV+Transformer 上有所布局。例如华为的 ADS 1.0,据称已实现基于 Transformer 的 BEV 架构,而最新发布的 ADS 2.0 进一步升级了 GOD 网络,类似于特斯拉的占用网络算法。
而大模型则可以比喻成一个大人,他非常聪明,可以同时处理许多信息,包括看图片、听故事和听音乐等。他可以处理很长的故事或音乐,同时处理多个任务。不过,他需要更多时间和精力学习和处理这些信息。
值得注意的是,Transformer 不等于大模型。它是模型的底座,大模型的架构可以基于 Transformer。
大模型时代的数据和算法
在特斯拉使用 Transformer 之后,大模型早已经不限于智能驾驶感知领域。
目前,智能驾驶已从仅使用模型进行图像感知,使用规则算法的方式,转变为感知、融合、预测全面使用模型。
其中,这是大模型在智能驾驶领域最先落地的几个场景。
数据标注
自动标注是大模型最直接的应用之一,可以大大降低数据标注成本。海量高效的数据标注是算法模型的基础。随着智能驾驶的发展,激光雷达 3D 点云信息和摄像头采集的 2D 图像信息增加,道路场景更丰富,自动驾驶的数据标注类型和数量不断增加。
然而,数据挖掘难度大,数据标注成本高。所以,智能驾驶厂商通过自动标注优化系统效率。例如,特斯拉从 2018 年以来不断发展自动标注技术,从 2D 人工标注转为 4D 空间自动标注。随着自动标注技术的成熟,特斯拉的人工标注团队规模不断缩小。2021 年该团队超过 1000 人,2022 年裁员超过 200 人。
毫末智行发布的自动驾驶生成式大模型 DriveGPT ——雪湖 · 海若 | 毫末智行小鹏汽车和毫末智行也相继推出自动标注工具。据毫末智行 CEO 顾维灏表示,目前获取车道线、交通参与者和红绿灯信息,人工标注成本约每张图 5 元,而毫末 DriveGPT 的成本仅 0.5 元。
优化仿真
除此之外,自动驾驶需要大量的数据支持,数据积累将长期内是自动驾驶的核心竞争点。目前,数据来源主要有真实数据、虚拟仿真和影子模式。
除真实数据外,仿真场景是弥补训练大模型数据不足的重要方式。虚拟仿真通过 AI 生成道路场景、车辆和行人等信息,对模型进行训练。可用于对行车采集的 corner case 进行反复模拟和训练,弥补现实场景采集信息不足的问题。
目前仿真场景主要由游戏引擎生成,基于现实世界数据保证仿真场景与真实场景的相似度,依靠交通要素的重新组合提高泛化能力。理论上,优质仿真可替代实车数据收集,降低算法搭建成本并提高迭代速率,但逼真的仿真环境构建和许多长尾场景的复现难度大。
大模型有望推动仿真场景大幅提升泛化能力,帮助主机厂提升仿真场景数据的应用比例,从而提高自动驾驶模型的迭代速度、缩短开发周期。
比如特斯拉基于虚幻 4 引擎渲染的仿真环境,测试自动驾驶系统在极端情况和复杂环境中的效果。毫末智行选择与阿里和德清政府合作,将真实交通流导入仿真引擎,用于路口场景的调试和验证。
优化小模型
除了数据层面,在模块化的算法部署模式下,感知算法和规控算法可通过大模型的加强实现感知精度和规控效果的提高。例如,大模型作为车端算法的「老师」,通过「蒸馏 ( 教授 ) 」帮助小模型实现优异的性能。所谓「蒸馏」,就像老师教学生,将大模型或多个模型集学到的知识迁移到另一个轻量级的模型上。
比如百度将文心大模型的能力与自动驾驶感知技术结合,提升车载端侧模型的感知能力百度利用半监督方法,充分利用 2D 和 3D 数据训练一个感知大模型。通过在多个环节对小模型进行蒸馏,提高小模型的性能,同时通过自动标注为小模型定制化训练。大模型可以增强远距离视觉 3D 感知能力、提高多模态感知模型的感知效果。
端到端一体化端到端的感知决策一体化算法被认为是自动驾驶算法终局,预测、规划、决策都在这个模型里。所谓「端到端」并不是自动驾驶领域独有的说法,本身是深度学习的一个概念,英文为「End-to-End ( E2E ) 」,简单说就是一个 AI 模型,只要输入原始数据就可以输出最终结果,与 ChatGPT 类似。
在智能驾驶领域,端到端并不是新概念,1988 年面世的 ALVINN 自动驾驶试验车基于端到端架构,在大学校园实现最高 70km/h 的自主行驶。目前,许多厂商研发端到端智能驾驶技术,除特斯拉外,还有英伟达和 comma.ai 等。
这一驾驶方案更接近真实人类驾驶,只需要一个人来开车,从眼睛看到双手转方向盘、脚踩刹车或制动板,整个过程一气呵成,关键因素是人类的大脑中枢神经系统,端到端大模型的作用类似于人类的大脑中枢神经系统。
毫末 DriveGPT 底层模型,同样采用 GPT 这种生成式预训练大模型技术,首先通过引入大规模驾驶数据进行预训练,然后使用奖励模型 ( Reward Model ) 与 RLHF ( 人类反馈强化学习 ) 技术对人驾数据进行强化学习,对自动驾驶认知决策模型进行持续优化。
端到端自动驾驶,只是实现自动驾驶的最理想技术方案,带有研究者的理想主义情感。目前,端到端大模型还存在许多痛点,最大的痛点是可解释性差。
从 PPT 到落地
然而,大模型和智能驾驶的融合并非一蹴而就。
理想汽车创始人、董事长兼 CEO 李想认为,大模型和智能驾驶可以分为三个阶段:
第一阶段是赋能,也就是智能辅助驾驶,赋能驾驶员,让驾驶更安全、便捷。这个阶段需要进行人机共驾的过程来训练大模型;
第二阶段是半机器人。随着越来越多的人使用辅助驾驶,智能驾驶会形成半机器人。它可以解决酒驾、疲劳驾驶等问题,相当于垂直领域的专家,可以看作是真正免费的司机;
第三阶段是 AGI(通用人工智能)。行为学习和认知学习会二合为一,大脑和小脑同时具备,机器可以独立获取信息,形成自主迭代。虽然无法预测这个阶段何时到来,但我们对此充满期待。
大模型发展时间线 | 网络不过,大型模型在智能驾驶领域面临着众多挑战:
多模态数据
主要体现在多模态数据、训练和部署等几个方面。比如,自动驾驶所需传感器数据包括激光雷达、毫米波雷达、超声波雷达,以及高清摄像头、IMU、GPS 以及 V2X 等。这些数据来自不同的坐标系,带有不同的触发时间戳,以及要考虑到硬件损坏等问题时;同时,需要大量的场景数据,比如交通标志线、交通流、行为模型等等。
算力 + 芯片难题
从部署方面看,大模型需要高规格的硬件配置,包含高性能计算能力、大容量内存和低时延等特点。但车载设备的硬件条件相对有限,无法提供足够的计算资源支撑大模型运行。
具体来说,大型模型需要超过 10 亿级的 GPU 计算能力,例如在自然语言处理领域的 GPT-3 模型就需要数万亿次浮点运算(Tops)的计算能力。这要求芯片的算力至少要在万级 Tops 以上才能够胜任大型模型的计算任务。但是,在车载部署场景下,芯片的算力往往只有数百 Tops 左右,远远达不到大型模型的要求。
同时,大型模型需要大量的内存来存储模型参数和中间状态。例如,在自然语言处理领域的 GPT-3 模型中,需要使用 350GB 的内存来存储模型参数。但是,在车载部署场景下,芯片的内存容量通常只有几十 GB。
时延问题
此外,大型模型的部署还需要考虑时延的问题。例如,在自动驾驶场景下,需要对海量数据进行实时处理和分析,因此需要保证模型的推理速度和响应时间。但是,在车载部署场景下,要求模型的推理时延要控制在 10ms 级别。
总的来说,大型模型在智能驾驶领域仍是一个初级探索阶段,需要进行算法优化和硬件进一步改进才能真正落地应用。但它给业界带来的期望也很大——有望在未来让自动驾驶成为真正的「老司机」。
一个邀请:
目前正在、或者计划将大模型与汽车行业进行结合的团队或个人,不论是否已有产品落地,欢迎联系本文作者 周永亮(Wechat:zhouxizi77),咱们一起聊聊「大模型上车」!
责任编辑:hnmd003
相关阅读
相关阅读
-
华为、特斯拉带头,车企卷入「大模型」军备竞赛
自动驾驶的进程,因为大模型又起波澜。近几年,自动驾驶近年发展迅猛,
-
环球快资讯丨小米第二!雷军分享《BrandZ 中国全球化品牌榜 2023》
【手机中国新闻】6月16日,手机中国注意到,小米创办人,董事长兼首席
-
钛媒体科股早知道:汽车巨头展示下一代辅助驾驶技术 GTP,该系统采用了这类硬件产品|每日头条
必读要闻一:汽车巨头展示下一代辅助驾驶技术GTP,该系统采用了这类硬
-
男生中考忘涂机读卡妈妈大哭!机读卡没涂满能不能识别?
男生中考忘涂机读卡妈妈大哭!母亲在考场外痛心的大哭,都是因为儿子考试犯下的错 6月15日,安徽...
-
子女继承父母房产需要交税吗?中华人民共和国印花税暂行条例第五条的内容是什么?
子女继承父母房产需要交税,包括0 05%的合同印花税、5元的权证印花税、房屋评估价2%的继承权公证费、10...
-
短线交易是什么意思?散户适合长线还是短线?
短线交易是什么意思?短线交易是快速买入卖出股票的行为,非常容易违反法律法规,为防止有关人员利用信息...
-
上升趋势是什么意思?上升趋势的股票买入点
上升趋势是什么意思?上升趋势,是经济学名词,主要用来表达市场趋向,用于技术分析。词语解释经济学名词...
-
逃废债是什么意思?逃废债名单后果严重吗?
逃废债是什么意思?逃废债是一种民事违约行为,不是所有的欠债不还都是逃废债,有履行能力而不尽力履行债...
-
中国银行利率2023年利率是多少?银行利率是由什么决定的?
中国银行利率2023年利率是多少?一、中国银行定期存款利率:1、整存整取定期存款:3个月利率1 35%;穗宴...
-
梅西看到儿子海报眼睛都瞪大了!梅西来中国参加什么比赛?
梅西看到儿子海报眼睛都瞪大了!14日晚,阿根廷队结束训练返回酒店,大批球迷等候高呼梅西名字。大巴车上...
-
扭转操作是什么意思?扭转操作为什么降低长期利率?
扭转操作是什么意思?扭转操作名词解释所谓扭转操作(Operation Twist,简称QT)被用来特指美联储在第二次...
-
信用卡可以转账吗?信用卡转账限额多少?
信用卡可以转账吗?信用卡不能转账给别人,不然容易被银行风控。不过信用卡可以进行提现,若是客户先将额...
-
什么是csgo开箱?csgo开箱靠谱吗?
在CSGO游戏中,很多玩家喜欢开箱。市面上有很多开箱平台,但质量还是比较差的。那么,什么是csgo开箱?cs...
-
威廉指标怎么看?威廉指标怎样设置最准?
威廉指标怎么看?当短期威廉指标向上穿过长期威廉指标时,形成金叉是买入信号,当短期威廉指标向下穿过长...
-
天天速递!最高续航600km 沃尔沃EV90/ES90或明年投产
最高续航600km沃尔沃EV90 ES90或明年投产日前,车质网从相关渠道获取了
-
加拿大或向大众电池厂额外补贴24亿加元-全球热资讯
加拿大或向大众电池厂额外补贴24亿加元盖世汽车讯据路透社报道,加拿大
-
或6月16日首发 新款路虎发现运动版官图发布
或6月16日首发新款路虎发现运动版官图发布日前,车质网获取到一组新款
-
环球看热讯:比亚迪海豹真的卖不出去吗?
比亚迪海豹真的卖不出去吗?自2022年8月上市以来,除了上市当月,之后
-
1 英寸 LYT900 领衔!索尼全新移动传感器光喻 LYTIA 新品公布-环球速递
去年索尼就发布了移动传感器新品牌——LYTIA(中文名:光喻)。近日,
-
ChatGPT 正式进入车载系统:梅奔车辆将测试 AI 语音助手|独家焦点
财联社6月16日讯(编辑赵昊)当地时间周四(6月15日),梅赛德斯-奔驰
-
美股收评:三大指数集体收涨,蔚来涨超 8%
钛媒体App6月16日消息,美股三大指数集体收涨,截至收盘,道指涨1 26%
-
哈佛医学院曝骇人案件:四人团伙偷尸体卖器官
本周,一起骇人听闻的团伙盗窃案件震惊了美国舆论。据报道,一个四人团
-
每日快讯!内容、人才、商业化,三大维度再看「综艺」价值
深响原创·作者|祖杨综艺市场终于热闹了起来。一边是经典综艺IP的强势
-
揭秘小米生态造车(一)——智米造车难产记
汽车十三行ID:wzhauto2023·苏峻这些天或许很痛苦。离不开的小米,等
-
新版 Steam 客户端上线 / 《死亡细胞》将制作同名动画 快看点
新版Steam客户端上线近期Steam正在不断优化客户端,继上个月修改商店页
-
十几年的命名推倒重来,英特尔酷睿这次在升级什么?
今年下半年准备买电脑的小伙伴们得注意了,英特尔要给处理器启用新的命
-
有多少中国人,正假冒俄罗斯人直播带货?
最近这几天,一位俄罗斯人保尔·柯察铁火了。有多火呢?仅2个月左右就
-
微软推出免费网课,为初学者普及 AI 知识
品玩6月15日讯,微软近日上线免费网络课程,对人工智能知识进行普及。
-
29.8 万起!蔚来 ET5 旅行版发布:打起「价格战」的蔚来有多强
开年之初,处在产品迭代「十字路口」的蔚来的确让人感到担忧。整个Q1季
-
又一爆款登顶,米哈游疯狂狙击腾讯网易
在《原神》之后,国内手游行业已经很久没有出现新爆款了——直到米哈游
精彩推荐
阅读排行
精彩推送
- 热头条丨就长这样了!小米 14 ...
- 车企做手机必要吗?我们体验了魅...
- 微速讯:杭州亚运会线上火炬传递...
- 百济神州动了谁的蛋糕?一年卖39...
- 当前动态:狂热球迷冲进场拥抱梅...
- 杭州亚运会形象宣传片《弄潮》
- vivo X90s/iQOO 11S 双旗舰亮...
- 国产自主 GPU 架构天狼星北京亮相
- 环球最新:华硕无畏 Pro16 202...
- 今麦郎董事长范现国:我们最有机...
- 充电10分钟续航1200公里!丰田押...
- “牛市旗手”爆发!券商股盘中大...
- 挤上618直播带货牌桌,客单价秒...
- 每日观察!意外险怎么办理报销?...
- 终生增额寿险怎么买?优点和缺点...
- 每日速读!高空意外险投保要求是...
- 平安百万医疗有哪些?怎么选?|...
- 全球时讯:什么是意外险?车祸属...
- 亚运,如何改变一座城
- 时讯:2023 Q1 全球液晶显示器...
- 2023 集微咨询显示周刊第 23 ...
- 华硕:不为裁员而改组,内部逾 ...
- 每日速读!今晚 8 点京东 618...
- 29.8 万起!全新蔚来 ET5 旅...
- 限制商业性拍摄、禁止自媒体直播...
- 今年首场演出风波冲上热搜:澳门...
- 金域医学携手南航物流,打造生物...
- 手握斯凯奇,“鞋王”上市11年首...
- 世界聚焦:星福家养老年金保险怎...
- 全球热资讯!脑梗属于重疾险范围...