爱芯元智:自动驾驶革命性进展与智驾芯片的演进
特斯拉多年来一直在尝试端到端技术的研发,并在去年11月发布了V12版本。与之前的智驾系统相比,V12版本具有强大的驾驶泛化能力以及拟人的驾驶风格。接管里程数也大幅提升,尤其是在城市场景总体比率已达到96%。
2024年10月15日,在2024第二届长城汽车智能汽车技术研讨会暨走进长城汽车技术展上,爱芯元智车载事业部技术副总裁逯建枫表示,端到端算法对于智驾芯片的关键需求主要有两个——高内存和多核大算力。聚焦爱芯的第五代NPU,逯建枫分享了技术方案和问题解决能力。总体而言,爱芯第五代NPU,能够支持端到端模型在大算力芯片上的规模化推理、数据高速传输、Transformer极致专项优化和高效部署。
爱芯元智车载事业部技术副总裁
以下为演讲内容整理:
特斯拉“端到端”技术的进展与影响
回溯至2023年,特斯拉对于“端到端”概念的持续探索已经历多年。尤其在去年10月及11月,随着V12版本的发布,特斯拉FSD在城市道路的进展尤为迅速。我们目睹了其性能的显著迭代与提升,这无疑对我们智驾领域的同仁们构成了极大的鼓舞。特斯拉的接管里程已达到极高水平,特别是在城市场景中,无关键接管比率持续上升,城市驾驶的无接管比例已高达96%,而完全无接管的比例也达到了70%。这表明该功能的可用性已相当出色,作为关键的驾驶辅助配置,其泛化能力亦颇为强大。
图源:爱芯元智
基于特斯拉的这项技术,我们将其映射至国内智驾领域。在零部件总成方面,我国已具备深厚基础,从5V的小域控到6-7V的中型域控,再到9-12V的大型控制器,我们均有所涉猎。然而,端到端技术本身对算力的需求极大,因此目前看来,其更适宜在高端大型域控制器上落地实施。尽管有人探讨是否可能将此技术映射至一体机零部件总成上,但经过深入讨论,我们认为这仍面临较大难度。因为一旦采用端到端驱动,我们如何对一体机进行功能化调整,便成为了棘手的问题。
国内智驾领域的现状与技术考量
回顾算法的发展历程,自2012年起,智驾领域广泛采用的算法架构为CNN。而近两年,算法迭代加速,逐渐转向Transformer架构。但我们认为,并非所有等级的零部件组成都需要这种转变。例如,在1VnR上,传统的CNN架构便已足够,甚至还可沿用部分传统CV算法。在规控端,我们继续基于RuleBased、基于MDB等进行开发,目前看来效率颇高。
对于6-7V的中型域控,我们有两种考量。一般情况下,从单摄到多摄,我们倾向于复制粘贴,即增加感知投入以应对多摄像头环境。然而,在多摄像头障碍物检测方面,如障碍物从一个摄像头穿越到另一个摄像头时,跨摄像头跟踪和检测精度仍有提升空间。因此,我们后来采用了BEV架构,通过俯视图实现360度环境监测,从而提高了监测精度和跨摄像头检测效果。我们认为,在6-7V的域控中,应大力推广BEV架构,以取得更佳效果。
至于规控方面,我们的ADAS 2.0系统仍基于传统Rule-Based方法构建。在ADAS 3.0阶段,我们已将OCC及相关算法部署上去,以在一定程度上替代激光雷达,并提升检测泛化的能力。同时,也有人开始尝试采用Rule-base的AI planner。随着技术的不断发展,我们逐渐迈入ADAS 4.0阶段。目前国内主流OEM厂商可能也在探索双段式端到端技术,即结合感知大模型和规控大模型来实现更高级别的自动驾驶功能。
端侧训练的要求并不严苛,主要集中于IDC的一次性训练。此番过程的费用及算力需求相对有限,同时仍能在一定程度上确保效果,此乃一显著优势。然而,若想进一步提升性能,例如降低接管率,或许仍需深入模型层面进行探索。
多年来,我们的自动驾驶研究如同人的小脑般,致力于构建一个快速响应的系统。我们强调实时性、高效性和公共安全。然而,在复杂路口或场景下,人们往往会放慢车速,进行思考。此时,大脑开始运转,评估场景并做出决策。这便需要引入“慢系统”。
我们意识到,以往智驾的长尾效应难以覆盖,而慢系统的加入或许能进一步降低接管率,使功能更为可用。当此功能真正可用后,从家到公司或反之,即便历经十数日乃至数月,亦能稳定运行而无需人工干预。此时,我们应更侧重于功能安全,而非过分担忧因自身失效引发的故障。因为,在功能尚不可用之时,将大量成本投入于防止自身失效,从商业角度来看并不划算。
未来,我们可能会面临生成式AI的整合。我个人更倾向于在舱内实现一个大型系统,以与人进行交互,从而真正成为车辆的智能助理。
从算法视角来看,当前大模型面临的主要挑战在于模型规模庞大、落地算力需求高以及功耗控制难。这些均构成了一系列工程实践的困难。回顾2012年,AlexNet模型的推出标志着CNN领域的崛起。此后,人们基于该模型进行各种训练和性能评估。经过一段时间的探索,人们逐渐摸清了CNN的性能极限。随后,便进入了第二阶段,即在保证性能不降低的前提下,如何减少算力、优化模型。此阶段涌现出了如MobileNet、ResNet等更高效的模型。
我们认为,大模型领域或许也会遵循这一发展路径。
早期,人们会追求更大的模型、更复杂的模型以提高性能。而到了第二阶段,则不得不考虑如何降低算力需求,进行极致的过程优化。对于我们这样专注于智驾量产芯片的企业来说,我们更看好在第二阶段发力。因为第一阶段的技术路线稳定性较差,而到了第二阶段,我们可以进行一些极致的优化工作,从而取得更为合适的效果。
目前,我们正在开发面向端到端大模型的NPU。从产品视角来看,它可能需要在大型赛事中进行营销部署。那么,它需要具备怎样的能力呢?经过摸索,我们总结出两点:一是算力要足够大;二是内存存储和带宽也要足够大。为了保证较高的算力,我们采用了异构多核的架构,尽量保证各个任务能够并行运行以提高效率。
同时,存储也是一个大问题。由于交付的数据量较大,我们设计了SDMA模块来进行精确计算,以提高性能。同时,我们也考虑到算力需求的弹性问题,即在不确定算力具体需求多少的情况下,芯片设计时需注重“偏见互联”这一理念。
具体而言,我们需要实现甚至超越PCIE的大规模互联技术,并在此基础上应用偏见互联的通信技术,以期获得更好的效果。这一思路类似于前几年高通8540加9000架构的考虑。在新技术发展的早期阶段,这种组合方式往往被视为一种较优的选择。
在此,我们有几个演示案例,均基于我们的NPU以及名为M76的芯片。M76是一款6V至7V的中型域控SoC,我们在其上运行了OCC的效果演示。尽管这只是我们自己制作的小规模演示,且我们并不专注于算法开发,仅进行了简单的草稿设计,数据量也相对有限,但结果仍显示出我们的方案能够弥补GOD检测能力的不足。
图源:爱芯元智
当前有许多使用我们M76芯片参与座舱系统开发的案例,其中需要 NPU加速器来支持大语言模型的需求。例如,系统能够响应“你能帮我做一个编程”的请求,并后续给出一个简单的编程案例。
最后一个案例是VLM的应用。在此系统中,最关键的是VLM框架。我们也为此制作了一个简单的演示,但后续我们将推出真正支持VLM系统的系列产品,以支撑这一技术的迭代趋势。
接下来,我们引入一个颇具争议的话题,即我们当前的技术路线是应专注于纯视觉还是应从算法角度采用多模态方案。从系统设计的角度来看,我们更倾向于融合方案,即结合摄像头和算法的方式,以实现更好的效果。正如马斯克所言,人类接触外界信息中,视觉识别占了70%。虽然这一理论在逻辑上是成立的,且该系统在终局阶段也应能发挥作用,但现实世界更为复杂。毕竟,人类大脑已经经历了数十万年的训练和迭代。而当前,我们直接采用计算平台和算法,即便专注于视觉,真正迭代计算平台和算法的时间也不过几年,其效果可能仍有限。
我们认为,我们的M76芯片在能力上,特别是在中阶域控具有显著优势。如果你支持端到端方案,那么可以稍微降低对多模态或融合的需求。但如果你采用的是非端到端的算法框架,基于传统的CNN开发,那么我们就需要走融合的路线。因此,M76芯片实际上是一个偏向融合的解决方案。
爱芯元速车载芯片全力支持ADAS演进
最后,简要介绍一下我们不同芯片以及不同NPU版本在不同芯片上的部署情况。我们有一款名为M55的芯片,它是用于一体机的。同时,由于该芯片也加入了AI ISP技术,因此其检测性能,尤其是在图像处理方面,会更加出色。
图源:爱芯元智
另一款芯片是M76,它本身在定义上更适合用于中阶高速NOA。我们是最早将BEV技术应用于此系列的,因为如前所述,多车跨摄像头跟踪检测是关键。因此,在这个系列上,我们看重其相对较大的算力。这是因为我们支持了第一个Transformer等算子的运行,而且由于其需要处理6V、7V的需求,所以对算力的要求会更高一些。
此外,我们正在研发一款名为M77的芯片,它目前部署的是我们第五代的NPU,此NPU目前也在开发中。
自2023年推向市场以来,这几年我们的芯片的量产节奏进展非常迅速。不仅在新兴势力和汽车企业中,包括在国内的一些OEM合作伙伴中,整个量产速度相当快。今年到2025年,我们的重点将是快速推进中阶域控方案。
我们的定位是专注于Tier2。我们不从事算法开发,而是专注于我们自己的芯片。
2023年,我们在国产一体机芯片领域出货量排名第二。大家应该能感受到,我们是一家由技术创新驱动的企业。因此,我们非常关注这些核心算法,并保持足够的敏感度,快速迭代我们的NPU。我们希望通过这种方式,能够更好地赋能整个产业,包括我们的主机厂合作伙伴和其他供应链企业。
声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。