2024年10月9日,联发科正式推出两款芯片,一款是手机领域是天玑9400,另一款就是汽车座舱芯片CT-X1,这也是联发科与英伟达合作的首款芯片。
来源:网络
联发科在发布会上毫不掩饰,宣称性能超越高通SA8295有30%。不过联发科还是一贯风格,未透露太多CT-X1的细节。当然CT-X1是代号,型号可能是MT8678。
来源:网络
我们来将CT-X1即MT8678与高通SA8295做一个对比,当然这有些不公平,毕竟高通SA8295是大约2021年底推出的芯片,与CT-X1有着三年的时间差。
来源:佐思汽研
CPU方面,相差有18%,但联发科的CT-X1基础频率低不少,功耗比SA8295要降低不少。联发科的CT-X1与天玑9400的CPU配置基本没差别,天玑9400也是一个X925超大核、三个X4超大核、四个A720大核的全新架构。X925提升到3.62GHz,比天机9300最高频率提升了几乎400MHz,也就是大约11%。X4核心的频率从3.25GHz略微提高到3.3GHz,四个A720核心的频率从2.0GHz大幅提高到2.4GHz。X925、X4、A720核心分别搭配2MB、1MB、512KB二级缓存,与上一代相比,容量都翻了一倍。整体配备12MB三级缓存,容量增加50%,以及10MB系统缓存车规版大幅度降低频率,降低功耗。实际CPU性能可以轻松超过SA8295 30%。
来源:佐思汽研
对CPU来说最关键的数据有两个,一个是IPC也就是解码位宽,另一个就是cache容量,在被高通抛弃以及苹果步步紧逼下,ARM不再缓慢挤牙膏,一步到位推出了X925,解码位宽高达10位,是X1的两倍。Cache则是X1的10倍以上。足以媲美苹果的A18。
Cortex-X925实际就是Cortex-5
来源:Chips & Semi News
SA8295用的是ARM在2020年的架构,和联发科的CT-X1有着4年的差距。
X4与X925核心对比
来源:ARM
X925性能大幅度提升。
来源:ARM
后端方面
来源:ARM
X925做AI运算时与X4的对比
来源:ARM
目前,所有的AI大模型(即LLM,语言大模型)都是Transformer架构,Transformer架构保留了部分RNN串行计算的特征,尤其适合CPU运算,还有些矩阵矢量乘法运算,CPU效率远高于GPU,通常这些运算会退回到CPU中进行,与大多数人想象的不同,最高效率对应transformer架构的是CPU而非GPU,只不过CPU的核心数量很难像GPU那样做到数百乃至数千个,论到单个核心的算力,CPU远在GPU之上,这也是英伟达要做自己的CPU的主要原因。顺便说一句,英伟达也将在明年推出基于Cortex-X925的AI PC用CPU。
GPU方面推测和天玑9400一样采用了Immortalis-G925,还是12核心,在1612MHz下可以爆发4952GFLOPS的算力,几乎相当于中低档次桌面级独立显卡。用在车上,频率自燃要大幅度降低来降低功耗,3000GFLOPS的算力也是相当惊人的,与SA8295完全一个水平。
大模型时代,存储带宽比算力重要,存储带宽决定了大模型参数下限,这点联发科CT-X1有着压倒性优势,也是联发科敢于说支持130亿参数大模型的底气所在。
三星对GPT大模型workload分析
来源:三星
上图是三星对GPT大模型workload分析,在运算操作数量上,GEMV(General Matrix Vector Multiplication, 矩阵向量乘法)所占的比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV,GEMM(General Matrix Multiplication, 矩阵乘法)只占2.12%,非线性运算也就是神经元激活部分占的比例也远高于GEMM。
三星对GPU利用率的分析
来源:三星
从上图可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。还有如矩阵反转,严格地说没有任何运算,只是存储行列对调,完全是存储器和CPU在忙活。
AI芯片的性能是一个屋顶模型Roofline Model
来源:网络
Roofline Model可以看出平均带宽需求和峰值计算能力像天花板一样是整个系统计算的能力上限,以计算强度上限Imax为界,划分出AI芯片的两个瓶颈区域,即图中橘色的内存受限区(Memory Bound)和图中蓝色的计算受限区(Compute Bound)。存储决定了下限,计算决定了上限。因为 Decoding 阶段 Token 逐个处理,使用 KV Cache 之后, Multi-Head Attention 里的矩阵乘矩阵操作全部降级为矩阵乘向量即GEMV。此外,Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作,但 Token 之间不会交叉融合,也就是任何一个 Token 都可以独立计算,因此在 Decoding 阶段不用 Cache 之前的结果,但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。Prefill阶段则是GEMM,即矩阵与矩阵的乘法。GEMV是访存密集型操作,性能完全取决于存储带宽。
如果联发科CT-X1与天玑9400的存储系统一样,那么CT-X1应该支持LPDDR5X 10667Mbps,史上首次突破10Gbps大关,实际上这就是LPDDR6。
LPDDR6基础速率10.667Gbps,最高可达14.4Gbps。
来源:Synopsys
最后是NPU,这可能是联发科和英伟达合作的产物,算力高达46TOPS,比Mobileye的EyeQ6H还要高出12TOPS,做舱驾一体完全没问题。
座舱芯片卷出新高度,主要也是这么多年以来高通一直在吃老本,缺乏新产品支撑,但高通建立强大的生态系统和口碑,最重要的是消费者对高通品牌已经等同于高端先进的理解,联发科还需要在品牌宣传和生态系统方面多下功夫。