近日,佐思分析师群讨论了特斯拉汽车、AI和人形机器人。
争论源于这个话题:复杂的Occupancy Network可以在10毫秒中计算完毕,也就是说Tesla Occupancy Network的输出可以达到跟相机同样的36Hz,而目前绝大多数Lidar的采集频率只有10Hz————这个结论对吗?fsd视觉处理能超过30hz?
于是讨论开始了:
ZHOU:吹牛呗,某些人就是特粉,认为特斯拉天下无敌。LIDAR频率可调,5-30Hz都有。某些FLASH LIDAR,频率可轻松做到1000Hz。特斯拉HW3.0那个DRAM才16GB,带宽63.5GB/s,一个OCC模型至少20GB,根本装不下,以这个带宽,3Hz都做不到。要跑大模型,必须HBM,带宽至少TB/s级。
YU:大模型是否上车这事,严重不同意老周观点。我认为已经上车了,采用压缩处理方式。
ZHOU:这个大小是相对的,比如早期CNN模型参数只有几百万,那么几千万参数也可以说是大模型。但真正的大模型或者说主流的,参数都至少是1000亿起。
ZHU:基于AIday 的介绍,这一系列复杂计算可以在10ms内完成,意味着完全能跟上车载摄像头36帧的拍摄频率。
业界激光雷达的普遍水平为10Hz的扫描频率,而问界M9激光雷达的扫描频率高达20Hz,这意味着其能够更快地更新环境信息,提供更实时、更准确的感知数据。这有助于提升问界M9在智能驾驶中的表现,提高行驶的安全性和舒适性。
ZHOU:所谓知识蒸馏并不能压缩大模型,它只是训练方面无需太多的硬标签。超过100亿参数的大模型永远上不了车。因为必须用HBM,HBM太贵了,做HBM必须台积电2.5d或3D工艺,芯片价格不低于5000美元。多看几篇顶尖论文就知道了。
ZHU:千亿参数涌现智力,这个智力是人的较全面的智力。但如果处理专业方面的智力,的确是可以通过剪枝、知识蒸馏、量化等很多方法实现;现在三星、苹果已实现百亿模型压缩后在手机上流畅运行,今年有望实现千亿模型压缩后,在终端运行,带来很好的体验。
ZHOU:transformer和大模型一样,永远无法做骨干网,车载领域骨干网还是CNN。手机可以运行百亿参数,那个是语言模型,不需要实时性,人可以等1-3秒,就算流畅。车不一样,车要30Hz,高速60Hz,换句话说性能要是手机的100倍。
ZHU:其实驾驶并不需要多高的智力,也就是并不需要太复杂的信息处理,一个普通智力的人也能开好车,从宏观的角度看,基于transformer的FSD大概率已经实现了全自动驾驶了。我不是特粉,但客观地觉得特斯拉做到了。
ZHOU:特斯拉芯片远不如顶尖手机,像高通的gen 3
ZHU:在核心算法上,之前和几位业内人士沟通过,国内确实落后5-10年,甚至更大
ZHOU:不仅是算力,关键还是存储;核心算法,特斯拉也就是中等偏下。
ZHU:马斯克本来就是OPEN AI的股东,而且还有很强大的人形机器人业务;英伟达最早的AI服务器就是给了马斯克的。
ZHOU:特斯拉没有任何原创东西,骨干网regnet是facebook的,neck是谷歌的bi-fpn,head是谷歌的ViT-B做Bev transformer,至于OCC,它就没有。这可都是AI DAY写出来的。OCC只是个预测头,硬要说特斯拉有,那就是15年前就有的mlp。