ARM introduce Lumex CSS, un sottosistema di calcolo che integra CPU ARMv9.3-A con SME2, GPU Mali G1-Ultra e stack software ottimizzato per l’AI. La piattaforma promette prestazioni fino a cinque volte superiori, supporto immediato ai framework più diffusi e un’adozione estesa in smartphone e PC a partire dal 2026.
La base della piattaforma Lumex CSS è costituita dai core ARMv9.3-A, dotati della seconda generazione di Scalable Matrix Extension (SME2). Questa estensione è progettata per accelerare i workload di intelligenza artificiale e machine learning, offrendo capacità di calcolo matriciale di gran lunga superiori rispetto alla generazione precedente. Le varianti della CPU – C1-Ultra, C1-Premium, C1-Pro e C1-Nano – coprono un ampio spettro di esigenze: dalle massime prestazioni necessarie per modelli AI complessi fino all’efficienza estrema richiesta nei dispositivi indossabili.
GPU Mali G1-Ultra: grafica e AI integrate
La GPU Mali G1-Ultra rappresenta un altro pilastro della piattaforma. Con l’introduzione della nuova Ray Tracing Unit v2, la GPU non solo raddoppia le prestazioni grafiche, ma aumenta anche del 20% l’efficienza nelle operazioni AI. Questo significa che il rendering in tempo reale e le applicazioni di realtà aumentata possono beneficiare di un’elaborazione più rapida e stabile, riducendo consumi ed estendendo l’autonomia dei dispositivi.
Sul fronte software, ARM ha sviluppato KleidiAI, una libreria che consente di sfruttare SME2 senza richiedere modifiche al codice. KleidiAI è già integrata con i principali framework come PyTorch ExecuTorch, Google LiteRT, Alibaba MNN e Microsoft ONNX Runtime. Questa compatibilità immediata rappresenta un vantaggio significativo per gli sviluppatori, che possono accelerare l’adozione dell’hardware senza costi di adattamento.
Prestazioni misurabili
Secondo ARM, la piattaforma Lumex CSS offre un miglioramento fino a cinque volte nei workload AI rispetto ai SoC precedenti. Nelle applicazioni vocali, la latenza viene drasticamente ridotta, permettendo traduzioni e interazioni in tempo reale. Anche la generazione audio beneficia di un incremento di quasi tre volte in termini di velocità. Sul fronte imaging, un singolo core SME2 è in grado di eseguire denoising su video Full HD a oltre 120 fps o su flussi 4K a 30 fps, aprendo la strada a un’elaborazione più sofisticata direttamente on-device.
Ecosistema e adozione
ARM ha annunciato che partner di primo piano, tra cui Samsung, Honor, vivo, Meta, Google, Alipay, Tencent e Alibaba, hanno già iniziato a testare la piattaforma. Questo ampio sostegno evidenzia il potenziale di Lumex CSS come standard de facto per l’AI on-device, sia nel mercato smartphone che nei PC di nuova generazione.
Secondo le stime, entro il 2030 le estensioni SME e SME2 forniranno oltre 10 miliardi di TOPS di potenza AI in più di 3 miliardi di dispositivi. Lumex CSS non si limita quindi a rappresentare un’evoluzione incrementale: costituisce un tassello fondamentale per l’affermazione di un modello computazionale distribuito, in cui l’AI non è più vincolata al cloud, ma diventa parte integrante dell’esperienza utente, con vantaggi in termini di privacy, reattività e affidabilità.
Focus tecnico: SME2 e la potenza di calcolo per l’AI on-device
La Scalable Matrix Extension 2 (SME2) rappresenta l’evoluzione dell’architettura ARM per workload AI. È stata progettata per ampliare le capacità SIMD e SVE (Scalable Vector Extension), con registri a lunghezza variabile fino a 2048 bit, adattabili in base al core e al nodo tecnologico.
SME2 permette di eseguire operazioni matriciali dense in modo molto più efficiente, accelerando reti neurali convoluzionali e transformer. Ogni core dotato di SME2 può raggiungere diversi TOPS (Tera Operazioni al Secondo), con un incremento complessivo fino a cinque volte superiore rispetto alla generazione SME1, grazie al supporto a operazioni FP16, BF16, INT8 e INT4.
L’estensione integra inoltre meccanismi di streaming mode per ridurre il collo di bottiglia nella gestione dei dati, ottimizzando la banda di memoria e mantenendo elevata la saturazione delle unità di calcolo. Questa caratteristica è particolarmente rilevante nei modelli generativi, dove i dataset sono più grandi e irregolari rispetto ai classici CNN.
Dal punto di vista del design, SME2 è pensata per sfruttare appieno i nodi a 3 nm e successivi, riducendo consumi per TOPS erogato e mantenendo l’efficienza come parametro cardine. ARM stima che, in configurazioni multi-core, un SoC basato su Lumex CSS possa superare agevolmente i 100 TOPS complessivi, rendendo i dispositivi mobile e PC pronti a gestire inferenza AI di nuova generazione senza dipendere dal cloud.