首页 > 生活分享 > 免费教学 > 联发科推出全球首款3纳米汽车芯片CT-X1挑战高通SA8295

联发科推出全球首款3纳米汽车芯片CT-X1挑战高通SA8295

发布时间:2024-10-17 22:54:03来源: 13041198719
2024年10月9日,联发科正式推出两款芯片,一款是手机领域是天玑9400,另一款就是汽车座舱芯片CT-X1,这也是联发科与英伟达合作的首款芯片。
 
 
来源:网络
 
联发科在发布会上毫不掩饰,宣称性能超越高通SA8295有30%。不过联发科还是一贯风格,未透露太多CT-X1的细节。当然CT-X1是代号,型号可能是MT8678。
 
 
来源:网络
 
我们来将CT-X1即MT8678与高通SA8295做一个对比,当然这有些不公平,毕竟高通SA8295是大约2021年底推出的芯片,与CT-X1有着三年的时间差。
 
 
来源:佐思汽研
 
CPU方面,相差有18%,但联发科的CT-X1基础频率低不少,功耗比SA8295要降低不少。联发科的CT-X1与天玑9400的CPU配置基本没差别,天玑9400也是一个X925超大核、三个X4超大核、四个A720大核的全新架构。X925提升到3.62GHz,比天机9300最高频率提升了几乎400MHz,也就是大约11%。X4核心的频率从3.25GHz略微提高到3.3GHz,四个A720核心的频率从2.0GHz大幅提高到2.4GHz。X925、X4、A720核心分别搭配2MB、1MB、512KB二级缓存,与上一代相比,容量都翻了一倍。整体配备12MB三级缓存,容量增加50%,以及10MB系统缓存车规版大幅度降低频率,降低功耗。实际CPU性能可以轻松超过SA8295 30%。
 
 
 
 
来源:佐思汽研
 
对CPU来说最关键的数据有两个,一个是IPC也就是解码位宽,另一个就是cache容量,在被高通抛弃以及苹果步步紧逼下,ARM不再缓慢挤牙膏,一步到位推出了X925,解码位宽高达10位,是X1的两倍。Cache则是X1的10倍以上。足以媲美苹果的A18。
 
Cortex-X925实际就是Cortex-5
 
 
来源:Chips & Semi News
 
SA8295用的是ARM在2020年的架构,和联发科的CT-X1有着4年的差距。
 
X4与X925核心对比
 
 
来源:ARM
 
X925性能大幅度提升。
 
 
来源:ARM
 
后端方面
 
 
来源:ARM
 
X925做AI运算时与X4的对比
 
 
来源:ARM
 
目前,所有的AI大模型(即LLM,语言大模型)都是Transformer架构,Transformer架构保留了部分RNN串行计算的特征,尤其适合CPU运算,还有些矩阵矢量乘法运算,CPU效率远高于GPU,通常这些运算会退回到CPU中进行,与大多数人想象的不同,最高效率对应transformer架构的是CPU而非GPU,只不过CPU的核心数量很难像GPU那样做到数百乃至数千个,论到单个核心的算力,CPU远在GPU之上,这也是英伟达要做自己的CPU的主要原因。顺便说一句,英伟达也将在明年推出基于Cortex-X925的AI PC用CPU。
 
GPU方面推测和天玑9400一样采用了Immortalis-G925,还是12核心,在1612MHz下可以爆发4952GFLOPS的算力,几乎相当于中低档次桌面级独立显卡。用在车上,频率自燃要大幅度降低来降低功耗,3000GFLOPS的算力也是相当惊人的,与SA8295完全一个水平。
 
大模型时代,存储带宽比算力重要,存储带宽决定了大模型参数下限,这点联发科CT-X1有着压倒性优势,也是联发科敢于说支持130亿参数大模型的底气所在。
 
三星对GPT大模型workload分析
 
 
来源:三星
 
上图是三星对GPT大模型workload分析,在运算操作数量上,GEMV(General Matrix Vector Multiplication, 矩阵向量乘法)所占的比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV,GEMM(General Matrix Multiplication, 矩阵乘法)只占2.12%,非线性运算也就是神经元激活部分占的比例也远高于GEMM。
 
三星对GPU利用率的分析
 
 
来源:三星
 
从上图可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。还有如矩阵反转,严格地说没有任何运算,只是存储行列对调,完全是存储器和CPU在忙活。
 
AI芯片的性能是一个屋顶模型Roofline Model
 
 
来源:网络
 
Roofline Model可以看出平均带宽需求和峰值计算能力像天花板一样是整个系统计算的能力上限,以计算强度上限Imax为界,划分出AI芯片的两个瓶颈区域,即图中橘色的内存受限区(Memory Bound)和图中蓝色的计算受限区(Compute Bound)。存储决定了下限,计算决定了上限。因为 Decoding 阶段 Token 逐个处理,使用 KV Cache 之后, Multi-Head Attention 里的矩阵乘矩阵操作全部降级为矩阵乘向量即GEMV。此外,Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作,但 Token 之间不会交叉融合,也就是任何一个 Token 都可以独立计算,因此在 Decoding 阶段不用 Cache 之前的结果,但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。Prefill阶段则是GEMM,即矩阵与矩阵的乘法。GEMV是访存密集型操作,性能完全取决于存储带宽。
 
如果联发科CT-X1与天玑9400的存储系统一样,那么CT-X1应该支持LPDDR5X 10667Mbps,史上首次突破10Gbps大关,实际上这就是LPDDR6。
 
LPDDR6基础速率10.667Gbps,最高可达14.4Gbps。
 
 
来源:Synopsys
 
最后是NPU,这可能是联发科和英伟达合作的产物,算力高达46TOPS,比Mobileye的EyeQ6H还要高出12TOPS,做舱驾一体完全没问题。
 
座舱芯片卷出新高度,主要也是这么多年以来高通一直在吃老本,缺乏新产品支撑,但高通建立强大的生态系统和口碑,最重要的是消费者对高通品牌已经等同于高端先进的理解,联发科还需要在品牌宣传和生态系统方面多下功夫。 

免费教学更多>>

2024年宁波市余姚市梨洲街道办事处招聘编外工作人员公告 2025年宁波市慈溪市选聘高层次和紧缺人才公告 2025年“浙里通衢·成就江来” 浙江省衢州市衢江区综合事业单位招聘优秀应届毕业生公告 2024年贵州省公安厅所属事业单位招聘工作人员方案 2024年绍兴市科学技术局招聘编外工作人员公告 2024年无锡市宜兴市工业和信息化局招聘编外工作人员公告 2024年电子科技大学电子科学与工程学院二级单位聘用人员招聘启事 2024年宜宾市长宁县事业单位招聘考试公告(22名) 2025年绍兴诸暨市卫生健康局下属事业单位赴杭州医学院、绍兴文理学院公开招聘普通高校医学类专业优秀应届毕业生公告 2024年河北省胸科医院招聘医疗、护理、医技岗位工作人员通知 2024年安顺市普定县精神病医院面向全县选调工作人员公告 2024年凉山西昌市人民医院招聘ICU、RICU、肿瘤科 临床护士公告 从LOGO改变!新能源淘汰赛,捷豹路虎要认真了 造车国家队硬核实力!岚图知音横扫10多项大奖 星纪元E08:中国埃尔法,奇瑞“新门面” 王楚钦采访逗笑全场 百雀羚旗舰店日销售额涨500% 圆明园考古又有新发现 王楚钦上演换手救球 谭松韵任嘉伦悼念蓝色狮 杨紫家业开机状态 尔滨中央大街通道扶手穿上大衣 杨子面对麦琳疑似失去所有力气和手段 当事人回应4500万买香蕉:打算吃了 相约乌镇峰会 共话“智能向善” “互联网发展报告”划重点 王楚钦复仇莫雷加德晋级四强 2024年马鞍山市卫生健康委员会校园招聘公告 2024年深圳市龙华区群团工作部下属事业单位面向市内选调职员的公告(2人) 2024年云南昆华医院投资管理有限公司(云南新昆华医院)劳务派遣人员招聘启事