CVPR2026上,很多人都关注到Ashok展示这页PPT,但只关注了数据,却忽视了特斯拉想要表达什么:
特斯拉FSD的7路摄像头x36帧x500万像素x30秒历史,除以5x5的像素框,相当于输入20亿的token。再加上导航、100Hz的运动数据、48Hz的音频,最终模型只输出2个Token(转向+加速度)
这个过程也代表真实世界中,驾驶变量组合是指数级爆炸的。输出的两个Token可以是多种参数,到底哪两个才是最正确的?似乎没有标准答案。
特斯拉的解法,不是只靠仿真,只靠人去制造场景,而是通过规模化的车队数据,直接喂给AI,让它形成条件反射,让模型拥有举一反三的能力,这或许就是智能。
所以试驾过FSD V14的人,往往会提到一个词——“认知”,你会觉得它的驾驶决策和方式与人类一模一样,甚至会表现出优于人类的能力。
