首页 > 生活分享 > 免费教学 > 联发科推出全球首款3纳米汽车芯片CT-X1挑战高通SA8295

联发科推出全球首款3纳米汽车芯片CT-X1挑战高通SA8295

发布时间:2024-10-17 22:54:03来源: 13041198719
2024年10月9日,联发科正式推出两款芯片,一款是手机领域是天玑9400,另一款就是汽车座舱芯片CT-X1,这也是联发科与英伟达合作的首款芯片。
 
 
来源:网络
 
联发科在发布会上毫不掩饰,宣称性能超越高通SA8295有30%。不过联发科还是一贯风格,未透露太多CT-X1的细节。当然CT-X1是代号,型号可能是MT8678。
 
 
来源:网络
 
我们来将CT-X1即MT8678与高通SA8295做一个对比,当然这有些不公平,毕竟高通SA8295是大约2021年底推出的芯片,与CT-X1有着三年的时间差。
 
 
来源:佐思汽研
 
CPU方面,相差有18%,但联发科的CT-X1基础频率低不少,功耗比SA8295要降低不少。联发科的CT-X1与天玑9400的CPU配置基本没差别,天玑9400也是一个X925超大核、三个X4超大核、四个A720大核的全新架构。X925提升到3.62GHz,比天机9300最高频率提升了几乎400MHz,也就是大约11%。X4核心的频率从3.25GHz略微提高到3.3GHz,四个A720核心的频率从2.0GHz大幅提高到2.4GHz。X925、X4、A720核心分别搭配2MB、1MB、512KB二级缓存,与上一代相比,容量都翻了一倍。整体配备12MB三级缓存,容量增加50%,以及10MB系统缓存车规版大幅度降低频率,降低功耗。实际CPU性能可以轻松超过SA8295 30%。
 
 
 
 
来源:佐思汽研
 
对CPU来说最关键的数据有两个,一个是IPC也就是解码位宽,另一个就是cache容量,在被高通抛弃以及苹果步步紧逼下,ARM不再缓慢挤牙膏,一步到位推出了X925,解码位宽高达10位,是X1的两倍。Cache则是X1的10倍以上。足以媲美苹果的A18。
 
Cortex-X925实际就是Cortex-5
 
 
来源:Chips & Semi News
 
SA8295用的是ARM在2020年的架构,和联发科的CT-X1有着4年的差距。
 
X4与X925核心对比
 
 
来源:ARM
 
X925性能大幅度提升。
 
 
来源:ARM
 
后端方面
 
 
来源:ARM
 
X925做AI运算时与X4的对比
 
 
来源:ARM
 
目前,所有的AI大模型(即LLM,语言大模型)都是Transformer架构,Transformer架构保留了部分RNN串行计算的特征,尤其适合CPU运算,还有些矩阵矢量乘法运算,CPU效率远高于GPU,通常这些运算会退回到CPU中进行,与大多数人想象的不同,最高效率对应transformer架构的是CPU而非GPU,只不过CPU的核心数量很难像GPU那样做到数百乃至数千个,论到单个核心的算力,CPU远在GPU之上,这也是英伟达要做自己的CPU的主要原因。顺便说一句,英伟达也将在明年推出基于Cortex-X925的AI PC用CPU。
 
GPU方面推测和天玑9400一样采用了Immortalis-G925,还是12核心,在1612MHz下可以爆发4952GFLOPS的算力,几乎相当于中低档次桌面级独立显卡。用在车上,频率自燃要大幅度降低来降低功耗,3000GFLOPS的算力也是相当惊人的,与SA8295完全一个水平。
 
大模型时代,存储带宽比算力重要,存储带宽决定了大模型参数下限,这点联发科CT-X1有着压倒性优势,也是联发科敢于说支持130亿参数大模型的底气所在。
 
三星对GPT大模型workload分析
 
 
来源:三星
 
上图是三星对GPT大模型workload分析,在运算操作数量上,GEMV(General Matrix Vector Multiplication, 矩阵向量乘法)所占的比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV,GEMM(General Matrix Multiplication, 矩阵乘法)只占2.12%,非线性运算也就是神经元激活部分占的比例也远高于GEMM。
 
三星对GPU利用率的分析
 
 
来源:三星
 
从上图可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。还有如矩阵反转,严格地说没有任何运算,只是存储行列对调,完全是存储器和CPU在忙活。
 
AI芯片的性能是一个屋顶模型Roofline Model
 
 
来源:网络
 
Roofline Model可以看出平均带宽需求和峰值计算能力像天花板一样是整个系统计算的能力上限,以计算强度上限Imax为界,划分出AI芯片的两个瓶颈区域,即图中橘色的内存受限区(Memory Bound)和图中蓝色的计算受限区(Compute Bound)。存储决定了下限,计算决定了上限。因为 Decoding 阶段 Token 逐个处理,使用 KV Cache 之后, Multi-Head Attention 里的矩阵乘矩阵操作全部降级为矩阵乘向量即GEMV。此外,Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作,但 Token 之间不会交叉融合,也就是任何一个 Token 都可以独立计算,因此在 Decoding 阶段不用 Cache 之前的结果,但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。Prefill阶段则是GEMM,即矩阵与矩阵的乘法。GEMV是访存密集型操作,性能完全取决于存储带宽。
 
如果联发科CT-X1与天玑9400的存储系统一样,那么CT-X1应该支持LPDDR5X 10667Mbps,史上首次突破10Gbps大关,实际上这就是LPDDR6。
 
LPDDR6基础速率10.667Gbps,最高可达14.4Gbps。
 
 
来源:Synopsys
 
最后是NPU,这可能是联发科和英伟达合作的产物,算力高达46TOPS,比Mobileye的EyeQ6H还要高出12TOPS,做舱驾一体完全没问题。
 
座舱芯片卷出新高度,主要也是这么多年以来高通一直在吃老本,缺乏新产品支撑,但高通建立强大的生态系统和口碑,最重要的是消费者对高通品牌已经等同于高端先进的理解,联发科还需要在品牌宣传和生态系统方面多下功夫。 

免费教学更多>>

新大洲本田2025款CB190TR上市,售价12980元,这次算醒悟吗? 终端优惠大,但销量略显拉胯,近距离体验广汽本田ZR-V致在 本田出手了,中型车跌至12.98万起,空间大又省油,家用挺划算! 选车还看可靠性!长安福特蒙迪欧、锐界L获评细分市场可靠性第一 月销50万辆再创纪录,比亚迪巨额研发投入迎来收获期 创纪录!比亚迪月销超50万辆,极氪冲刺3万俱乐部,新能源车10月销量“爆表”…… 日系车不行了?广汽丰田说“NO”!10月销量公布 全新SUV吉利缤越L实车到店,换新前脸,升级大彩电+魅族车机 连续七年参展 宝马集团携最新技术、产品亮相第七届进博会 豪华品牌五强榜:宝马挺进前三!BBA集体超越理想汽车 外形薄如刀锋,这台老款摩托罗拉智能机,少有的一代颜值先锋 真我直接掀桌子?数码大V点评真我GT7Pro,徐起广场:起立 刀法精湛,价格实惠!真我GT7 Pro是懂目标用户的 iQOO 13发布:骁龙8至尊版+自研芯片Q2,3999元起售 五菱这是又发现什么新大陆了吗?推出K-car,五菱之光EV曝光 锁定爆款?五菱宏光新车曝光,设计微调内饰升级 宝骏云光现身街头,大过比亚迪汉+灵眸智驾,配全景天幕+253马力 怎么选沉浸式体验北京现代全新胜达 长安电子电器事业部首台电机控制器下线 试驾新哈弗H9,记录一下感受 本田雅阁,2025款锐·T动260TURBO尊贵版,家用代步好选择 经典与挑战并存!本田全新“战神”149CC引擎,极速115公 暴跌14万,奔驰才是“价格屠夫”,2.0T+9AT四驱比宝马良心十倍! 比亚迪正抽调集团精英集中突破智能化,智驾未来下放入门车 进口车仍在“去库存”,销量前十仅雷克萨斯和丰田正增长 再聊奥迪A3,新款驾到,它的性价还高吗? 2024 年,国内中高端 MPV 怎么选才最稳? 沃尔沃 XC60 与斯巴鲁傲虎:谁更胜一筹? 6款国产神级SUV推荐,10年开不坏的选择 2025款速腾:购车与用车成本全解析,您需要知道的所有细节!