7-8 18:15
1、纯视觉是否成本更低?
纯视觉用摄像头,硬件成本比激光雷达低一个数量级。从车端硬件来说,确实如此。不过这个说法忽略了一点,采用纯视觉的模型,由于缺少精确的距离信息,要从中推断和建模需要的大模型的训练成本很高。据说特斯拉的大模型算力24年底预计会达到100 EFlops。
不加硬件,则成本需要加在软件和算力上。增加硬件传感器,比如激光雷达能直接提供距离信息,需要的训练成本很有可能会低于纯视觉。
FSD目前的买断价格为1万美元,反馈到用户终端的价格确实不便宜,几乎是所有L2级厂商里面最贵的。有2种可能,一是是FSD的训练成本确实比较高,二是特斯拉的纯视觉方案成本并不高,价格高是在追求更高的毛利。以特斯拉多次降价的历史来看,比较大的还是第1种可能。
2、纯视觉是否通用性更好?
理论上纯视觉只需要摄像头,虽然传感器看起来是通用的,但实际上FSD v12并不支持HW3.0以下的硬件,
要让老旧车型也升级,除非更换推理模块的硬件,而且HW4.0和HW3.0硬件上也不兼容,已经安装HW3.0的车没法换装HW4.0。纯视觉方案向下的兼容性优势并不明显。
3、激光雷达的数据是否属于大模型训练的冗余数据?
并不是,激光雷达的作用在于给车的周边做建模,和纯视觉相比,类似于在平面地图上给出了等高线,这些深度信息,正是纯视觉用各种算法希望拟合得到的信息,只是由于算法、现实环境和物理硬件的局限,精度做不到很准确,激光雷达数据是视觉信息很好的补充。
4、纯视觉和融合感知哪个更难?
很难说。对于同样采用端到端架构的模型来说,融合方案在感知层更复杂。
纯视觉由于需要自己算深度信息,模型训练需要的数据量更大。
5、纯视觉和融合感知哪个效果更好?
从scaling law来说,模型的参数越多、训练数据越多、投入算力越大,模型的能力越强。在训练数据和算力足够的情况下,融合感知模型的能力大于纯视觉。
这里的问题在于,纯视觉的上限和融合感知的上限分别在哪儿,目前还不明确。
6、纯视觉方案的优势是什么?劣势是什么?
纯视觉传感器硬件成本低。劣势是单一传感器在恶劣环境的失效问题,而且这种失效并不能通过增加摄像头数量来弥补。
7、融合感知方案的优势是什么?劣势是什么?
雷达+视觉有更高的上限。劣势是传感器成本更高,复杂度高,以及比纯视觉的理论上限高出来的差距,是否能让用户愿意支付这部份的成本。
8、为啥特斯拉坚持纯视觉方案?
即使在智驾还不完善的2016年,特斯拉也敢于上线开启大规模用户测试。可见特斯拉并不太在意方案的完善度,一些边界条件和极端环境,等后面遇到了慢慢迭代就行,风格比较激进。
在美国特斯拉能对标的是Waymo,与其相比,特斯拉的纯视觉方案确实价格低,效果也不错,这也是特斯拉坚持纯视觉的底气。
如果纯视觉最终的上限能达到L3的要求,以特斯拉积累的数据,很可能是最快达到这个目标的车厂。
就目前的进度,FSD v12可能1-2年就会达到纯视觉的上限,就看这个上限能覆盖到L2、L3还是更高。
9、特斯拉是否还有能力走多传感器融合的路?
实际已经不存在这个可能。由于最初激光雷达成本高,特斯拉放弃了这条路线,现在已经没办法转向融合的方案,从头开始积累多传感器的数据了,只能纯视觉一条路走到底。
纯视觉用摄像头,硬件成本比激光雷达低一个数量级。从车端硬件来说,确实如此。不过这个说法忽略了一点,采用纯视觉的模型,由于缺少精确的距离信息,要从中推断和建模需要的大模型的训练成本很高。据说特斯拉的大模型算力24年底预计会达到100 EFlops。
不加硬件,则成本需要加在软件和算力上。增加硬件传感器,比如激光雷达能直接提供距离信息,需要的训练成本很有可能会低于纯视觉。
FSD目前的买断价格为1万美元,反馈到用户终端的价格确实不便宜,几乎是所有L2级厂商里面最贵的。有2种可能,一是是FSD的训练成本确实比较高,二是特斯拉的纯视觉方案成本并不高,价格高是在追求更高的毛利。以特斯拉多次降价的历史来看,比较大的还是第1种可能。
2、纯视觉是否通用性更好?
理论上纯视觉只需要摄像头,虽然传感器看起来是通用的,但实际上FSD v12并不支持HW3.0以下的硬件,
要让老旧车型也升级,除非更换推理模块的硬件,而且HW4.0和HW3.0硬件上也不兼容,已经安装HW3.0的车没法换装HW4.0。纯视觉方案向下的兼容性优势并不明显。
3、激光雷达的数据是否属于大模型训练的冗余数据?
并不是,激光雷达的作用在于给车的周边做建模,和纯视觉相比,类似于在平面地图上给出了等高线,这些深度信息,正是纯视觉用各种算法希望拟合得到的信息,只是由于算法、现实环境和物理硬件的局限,精度做不到很准确,激光雷达数据是视觉信息很好的补充。
4、纯视觉和融合感知哪个更难?
很难说。对于同样采用端到端架构的模型来说,融合方案在感知层更复杂。
纯视觉由于需要自己算深度信息,模型训练需要的数据量更大。
5、纯视觉和融合感知哪个效果更好?
从scaling law来说,模型的参数越多、训练数据越多、投入算力越大,模型的能力越强。在训练数据和算力足够的情况下,融合感知模型的能力大于纯视觉。
这里的问题在于,纯视觉的上限和融合感知的上限分别在哪儿,目前还不明确。
6、纯视觉方案的优势是什么?劣势是什么?
纯视觉传感器硬件成本低。劣势是单一传感器在恶劣环境的失效问题,而且这种失效并不能通过增加摄像头数量来弥补。
7、融合感知方案的优势是什么?劣势是什么?
雷达+视觉有更高的上限。劣势是传感器成本更高,复杂度高,以及比纯视觉的理论上限高出来的差距,是否能让用户愿意支付这部份的成本。
8、为啥特斯拉坚持纯视觉方案?
即使在智驾还不完善的2016年,特斯拉也敢于上线开启大规模用户测试。可见特斯拉并不太在意方案的完善度,一些边界条件和极端环境,等后面遇到了慢慢迭代就行,风格比较激进。
在美国特斯拉能对标的是Waymo,与其相比,特斯拉的纯视觉方案确实价格低,效果也不错,这也是特斯拉坚持纯视觉的底气。
如果纯视觉最终的上限能达到L3的要求,以特斯拉积累的数据,很可能是最快达到这个目标的车厂。
就目前的进度,FSD v12可能1-2年就会达到纯视觉的上限,就看这个上限能覆盖到L2、L3还是更高。
9、特斯拉是否还有能力走多传感器融合的路?
实际已经不存在这个可能。由于最初激光雷达成本高,特斯拉放弃了这条路线,现在已经没办法转向融合的方案,从头开始积累多传感器的数据了,只能纯视觉一条路走到底。
说两句