VLA首发上车，理想汽车勇闯“技术无人区”

买车送私人司机”，正在由理想照进现实。

日前，理想汽车“五年磨一剑”的辅助驾驶新阶段性成果——VLA司机大模型，在其重磅新车i8产品发布会上正式出鞘。

i8上市当晚，知名相声演员岳云鹏（小岳岳）的一条“刁难”辅助驾驶系统的短片，实力破圈。只见其在发出“你快点、加速、慢一点”“环岛第二个路口出”“并线”“前边靠边停车”等语音指令后，车辆就立即理解并执行复杂动作。

发布会结束后，买理想送“司机”登上了微博热搜，最高位置去到榜单第16位。

那么，何为VLA？即视觉语言行动模型（Vision Language Action Model），它不仅具备思维、沟通、记忆，以及自主学习四大核心能力，还将带来防御驾驶、平稳舒适、三点掉头、连续任务、地库行驶五大体验升级。

“今年VLA上车之后，就会让大家有非常好的、安心的司机体验，有安全感，有舒适性，并且是越开越好。”理想汽车自动驾驶研发高级副总裁郎咸朋日前受访时指出，“再往后，有了VLA模型的加持，辅助驾驶会往更好的，一个移动空间的思路去发展，这个车它能在安心、安全的基础上，帮你去做其他的事情，我相信那天很快就会到来。”

从模仿到强化学习：做正确的事，不做容易的事

在国内辅助驾驶江湖上，理想汽车可以说是个“后起之秀”。但其仅用五年时间，便实现了硬件平台和技术的快速迭代，上演了“由追赶到超越”的戏码，如今又一举闯入“技术无人区”。

究其背后原因，与理想汽车在产品和技术研发过程中，始终秉持“第一性原理”有关。其强调回归事物的本质，以“解决问题”为导向实现创新，而不是盲目关注竞争、依赖现有的经验。

在以规则算法为核心的“人工时代”，理想汽车从最早的2D、3D感知开始研发，到BEV（鸟瞰图）、NPN（先验网络）、无图等技术架构，一步一个脚印，奋起直追。就像其董事长兼CEO李想所言“没有葵花宝典，我也不是吃第10个包子的人”。

基于“规则算法”的特点，人工时代辅助驾驶性能提升的核心，关键在于工程师的能力和经验。但在郎咸朋看来，人都有不足，很多场景需要“堆人”去研发才能解决；且很多场景是按下葫芦起来瓢，“把这个规则弄完了，那个规则又不行了”。

为了解决人工时代无法解决所有corner case极端场景的问题，理想汽车开启自研“端到端+VLM架构”之路，实现了从人工时代到AI时代的跨越。

“端到端+VLM架构”是理想汽车首次用AI的方式做辅助驾驶，也是两个时代的“分水岭”。这一架构的本质是“模仿学习”，指的是用人类驾驶数据训练模型，数据数量和质量决定性能。

但伴随技术研发的深入，理想汽车又看到了“端到端+VLM架构”面临的痛点。

比如当训练数据量到达一定水平时，端到端模型性能提升速度会变慢。理想在去年7月发布“端到端+VLM架构”时，MPI接管里程超过12公里。经过7个月的迭代，训练数据从100万Clips（视频片段）增长到1000万Clips，MPI接管里程超过120公里，性能提升速度实现10倍增长。但训练数据量达到1000万Clips后，今年5个月的时间，其模型MPI接管里程仅增长2倍左右。

再比如，端到端的模仿学习本身不具备深度的逻辑思维能力，这会导致三个问题：违反常理的行为；开车不够聪明，做决策时没有深度思考；安全感不足，不能根据场景做出预防性判断。

用李想的话来说，端到端模型像猴子开车，它能够学习人类行为，但并不理解物理世界。

延续“上一代技术能力的上限，是下一代技术能力的起点”这一原则，理想汽车开始自研VLA司机大模型。如今的VLA，本质是强化学习，用生成数据结合仿真环境训练模型。仿真迭代的效率决定性能，解决了端到端+VLM现存的挑战。

“做正确的事，不做容易的事。”这句话被写入理想汽车的行为准则，是其企业文化的内核。在上半场的电动化比拼中，理想汽车看到了补能设施不足、消费者续航焦虑的痛点，未随大流，也不惧争议，让增程式路线上演“真香定律”；基于对家庭用户需求的深入分析，理想从刚需出发，注重实际使用场景的需求，开创了“冰箱彩电大沙发”的产品形态，让其走向行业标配等。

迈入智能化下半场，理想汽车则在辅助驾驶技术演进道路上，走出了一条清晰的路径，以“生产一代、研制一代、预研一代、探索一代”的研发节奏，在辅助驾驶领域构建起难以逾越的竞争壁垒。

VLA司机大模型率先上车，将“梯队”拿掉

那么，VLA首发上车，将带来怎样的用户体验颠覆呢？

今年6月底，郎咸朋曾在微博上转发李想的言论“理想汽车牢牢站稳辅助驾驶等多方面的第一梯队”称，VLA司机大模型交付后，理想可以把“梯队”拿掉。

这番话背后的底气，源于VLA架构的技术能力，以及背后的体验提升。据悉，理想自研的VLA，拥有强大的3D空间理解能力、逻辑推理能力和行为生成能力，让车辆具备感知、思考和适应环境的能力。它让AI由信息工具、辅助工具，进化为交通领域的专业生产工具，真正让AI成为“司机”。

拆解VLA技术架构，主要分为几个部分。

首先是“V”，即空间智能（Spatial Intelligence），代表模型对空间的理解能力，例如远距空间感知和全局语义理解能力。各类传感器（主要是视觉传感器）以及导航信息输入模型，让模型具备精细化感知和理解空间的能力。

其次是“L”，即语言智能（Linguistic Intelligence），代表模型的思维能力和沟通与记忆能力。其指的是用语言生成对空间的理解，模型把在空间内感知到的所有内容，用高度压缩的编码表达出来，输出决策。模型不仅可以在内部通过CoT思维链生成决策，人类也可以在外界直接给模型决策。

最终来到“A”，即行为策略（Action Policy）。其根据对场景高度压缩的描述进行推理，并生成最终的行为。与端到端最大的不同是，VLA使用了Diffusion扩散模型规划轨迹。

VLA首发上车，理想汽车勇闯“技术无人区”

雅阁汽车更多>>

奥迪汽车更多>>

轩逸汽车更多>>

奔驰汽车更多>>

本田汽车更多>>

汽车新闻更多>>