CVPR2026上，很多人都关注到Ashok展示这页PPT，但只关注了数据，却忽

CVPR2026上，很多人都关注到Ashok展示这页PPT，但只关注了数据，却忽视了特斯拉想要表达什么：

特斯拉FSD的7路摄像头x36帧x500万像素x30秒历史，除以5x5的像素框，相当于输入20亿的token。再加上导航、100Hz的运动数据、48Hz的音频，最终模型只输出2个Token（转向+加速度）

这个过程也代表真实世界中，驾驶变量组合是指数级爆炸的。输出的两个Token可以是多种参数，到底哪两个才是最正确的？似乎没有标准答案。

特斯拉的解法，不是只靠仿真，只靠人去制造场景，而是通过规模化的车队数据，直接喂给AI，让它形成条件反射，让模型拥有举一反三的能力，这或许就是智能。

所以试驾过FSD V14的人，往往会提到一个词——“认知”，你会觉得它的驾驶决策和方式与人类一模一样，甚至会表现出优于人类的能力。

DC娱乐网