首页 > 生活分享 > 免费教学 > 联发科推出全球首款3纳米汽车芯片CT-X1挑战高通SA8295

联发科推出全球首款3纳米汽车芯片CT-X1挑战高通SA8295

发布时间:2024-10-17 22:54:03来源: 13041198719
2024年10月9日,联发科正式推出两款芯片,一款是手机领域是天玑9400,另一款就是汽车座舱芯片CT-X1,这也是联发科与英伟达合作的首款芯片。
 
 
来源:网络
 
联发科在发布会上毫不掩饰,宣称性能超越高通SA8295有30%。不过联发科还是一贯风格,未透露太多CT-X1的细节。当然CT-X1是代号,型号可能是MT8678。
 
 
来源:网络
 
我们来将CT-X1即MT8678与高通SA8295做一个对比,当然这有些不公平,毕竟高通SA8295是大约2021年底推出的芯片,与CT-X1有着三年的时间差。
 
 
来源:佐思汽研
 
CPU方面,相差有18%,但联发科的CT-X1基础频率低不少,功耗比SA8295要降低不少。联发科的CT-X1与天玑9400的CPU配置基本没差别,天玑9400也是一个X925超大核、三个X4超大核、四个A720大核的全新架构。X925提升到3.62GHz,比天机9300最高频率提升了几乎400MHz,也就是大约11%。X4核心的频率从3.25GHz略微提高到3.3GHz,四个A720核心的频率从2.0GHz大幅提高到2.4GHz。X925、X4、A720核心分别搭配2MB、1MB、512KB二级缓存,与上一代相比,容量都翻了一倍。整体配备12MB三级缓存,容量增加50%,以及10MB系统缓存车规版大幅度降低频率,降低功耗。实际CPU性能可以轻松超过SA8295 30%。
 
 
 
 
来源:佐思汽研
 
对CPU来说最关键的数据有两个,一个是IPC也就是解码位宽,另一个就是cache容量,在被高通抛弃以及苹果步步紧逼下,ARM不再缓慢挤牙膏,一步到位推出了X925,解码位宽高达10位,是X1的两倍。Cache则是X1的10倍以上。足以媲美苹果的A18。
 
Cortex-X925实际就是Cortex-5
 
 
来源:Chips & Semi News
 
SA8295用的是ARM在2020年的架构,和联发科的CT-X1有着4年的差距。
 
X4与X925核心对比
 
 
来源:ARM
 
X925性能大幅度提升。
 
 
来源:ARM
 
后端方面
 
 
来源:ARM
 
X925做AI运算时与X4的对比
 
 
来源:ARM
 
目前,所有的AI大模型(即LLM,语言大模型)都是Transformer架构,Transformer架构保留了部分RNN串行计算的特征,尤其适合CPU运算,还有些矩阵矢量乘法运算,CPU效率远高于GPU,通常这些运算会退回到CPU中进行,与大多数人想象的不同,最高效率对应transformer架构的是CPU而非GPU,只不过CPU的核心数量很难像GPU那样做到数百乃至数千个,论到单个核心的算力,CPU远在GPU之上,这也是英伟达要做自己的CPU的主要原因。顺便说一句,英伟达也将在明年推出基于Cortex-X925的AI PC用CPU。
 
GPU方面推测和天玑9400一样采用了Immortalis-G925,还是12核心,在1612MHz下可以爆发4952GFLOPS的算力,几乎相当于中低档次桌面级独立显卡。用在车上,频率自燃要大幅度降低来降低功耗,3000GFLOPS的算力也是相当惊人的,与SA8295完全一个水平。
 
大模型时代,存储带宽比算力重要,存储带宽决定了大模型参数下限,这点联发科CT-X1有着压倒性优势,也是联发科敢于说支持130亿参数大模型的底气所在。
 
三星对GPT大模型workload分析
 
 
来源:三星
 
上图是三星对GPT大模型workload分析,在运算操作数量上,GEMV(General Matrix Vector Multiplication, 矩阵向量乘法)所占的比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV,GEMM(General Matrix Multiplication, 矩阵乘法)只占2.12%,非线性运算也就是神经元激活部分占的比例也远高于GEMM。
 
三星对GPU利用率的分析
 
 
来源:三星
 
从上图可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。还有如矩阵反转,严格地说没有任何运算,只是存储行列对调,完全是存储器和CPU在忙活。
 
AI芯片的性能是一个屋顶模型Roofline Model
 
 
来源:网络
 
Roofline Model可以看出平均带宽需求和峰值计算能力像天花板一样是整个系统计算的能力上限,以计算强度上限Imax为界,划分出AI芯片的两个瓶颈区域,即图中橘色的内存受限区(Memory Bound)和图中蓝色的计算受限区(Compute Bound)。存储决定了下限,计算决定了上限。因为 Decoding 阶段 Token 逐个处理,使用 KV Cache 之后, Multi-Head Attention 里的矩阵乘矩阵操作全部降级为矩阵乘向量即GEMV。此外,Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作,但 Token 之间不会交叉融合,也就是任何一个 Token 都可以独立计算,因此在 Decoding 阶段不用 Cache 之前的结果,但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。Prefill阶段则是GEMM,即矩阵与矩阵的乘法。GEMV是访存密集型操作,性能完全取决于存储带宽。
 
如果联发科CT-X1与天玑9400的存储系统一样,那么CT-X1应该支持LPDDR5X 10667Mbps,史上首次突破10Gbps大关,实际上这就是LPDDR6。
 
LPDDR6基础速率10.667Gbps,最高可达14.4Gbps。
 
 
来源:Synopsys
 
最后是NPU,这可能是联发科和英伟达合作的产物,算力高达46TOPS,比Mobileye的EyeQ6H还要高出12TOPS,做舱驾一体完全没问题。
 
座舱芯片卷出新高度,主要也是这么多年以来高通一直在吃老本,缺乏新产品支撑,但高通建立强大的生态系统和口碑,最重要的是消费者对高通品牌已经等同于高端先进的理解,联发科还需要在品牌宣传和生态系统方面多下功夫。 

免费教学更多>>

变革时代共塑未来,2025中国汽车重庆论坛盛大开幕 2025 款马自达 CX-5 SUV 车型上市:全系 2.0L 动力、新增黑曜选装包,12.58 万元起 2026 款沃尔沃 XC60 SUV 车型上市:升级 11.2 英寸悬浮式中控,39.69 万元起 家庭大六座SUV 深蓝S09对比问界M8 S09不是备选是首选! 新央企 新豪华 阿维塔 全球化加速布局 向着年销80万台目标迈进 阿维塔总裁陈卓:真正的世界级品牌都拥有原创设计 第七届棱镜MINI戏剧节颁奖晚会北京举办 甘肃小剧场戏剧《长相念》获“青年力量”奖 新款国产起亚赛图斯将于下半年发布,定位紧凑型SUV 包场宠粉,长安汽车“全家桶”强势亮相重庆车展 乘势而上 长安汽车以历史性发展机遇铸就全球竞争新优势 福特全顺拆车:卖的就是毛坯,买的也是看中了毛坯! 大众汽车全面拥抱新势力,所有电动汽车将基于Rivian R2技术研发 中国品牌巴西逆袭:比亚迪首超丰田位列第四 奇瑞取代日产进入前十 重庆车展|比亚迪海豹06EV上市,售价10.98万~12.98万 比亚迪李云飞称中国汽车出海无内卷,建议设出口门槛 杨学良:吉利永远不做卷王,永远不搞内卷式恶性竞争 时隔25年,奥迪再次上演“默片”广告,小心思震耳欲聋 特斯拉没造出来的车,小鹏先造出来了 武汉蔚来能源申请光伏储能系统相关专利,减少能量转换环节 卓驭(原大疆车载)被曝获北汽产投与广汽资本投资,合计数亿元 沃尔沃全新S90上市,限时售价30.09万元起 银河星耀8挤占插混式榜单第九!2025年第21周纯电动/插混/增程式/轿车/SUV/MPV车型TOP10出炉 从SUV王者到越野专家,长城把″聚焦″这个方法论贯彻始终 阿维塔将推百万级旗舰六座SUV 预计在2026年上市 松下小方盒mini剃须刀暗夜黑超值优惠 长安镇:人大代表聚力破解“飞线”难题 长安汽车:2025年底将在欧洲拓展至少10个市场 尊界S800上市:冲击新能源超豪华车“无人区” 擎动未来 逐鹿赣线!东风龙擎快递快运车型节能赛江西开赛 5月传统汽车品牌销量点评,大众、丰田掉队,比亚迪、吉利崛起