当Arm、高通等企业首次提出在移动端实现生成式AI(GenAI)时,业界普遍质疑设备的算力是否足以支撑真实场景。如今,Arm推出的Lumex平台将改写这一认知。通过全新设计的CPU集群(C1-Ultra/C2-Pro)和升级的SME2(可扩展矩阵扩展)技术,该平台在未调用GPU或NPU的情况下,实现了Gemma模型5倍编码效率提升,Stable Audio生成速度提升3倍,展示出惊人的AI推理能力。

区别于传统云端AI方案,Lumex的本地化优势显著:用户无需忍受网络延迟(尤其是在移动场景中),避免敏感数据传输风险,且支持实时交互。Arm院士Geraint North指出,虽然GPU/NPU在某些数据类型上表现更优,但CPU的通用性使其能够处理所有操作,且省去异构计算带来的数据迁移开销。更重要的是,开发者无需针对不同硬件组合调整代码,基于Kleidi库的SME2加速已实现透明化调用。

从生态角度看,Lumex的CPU优先战略直击痛点。支付宝客户工程团队案例显示,其语音识别延迟降低近5倍。Meta和Android开发者的深度支持印证了这一路径的可行性。值得注意的是,Lumex还采用芯片组(Chiplet)架构并支持3nm工艺,为未来迭代预留空间。在生成式AI从云端向边缘迁移的浪潮中,Arm正试图重新定义移动AI的计算范式。