La piattaforma abilita modelli di intelligenza artificiale sul dispositivo con oltre un miliardo di parametri, ottenendo il supporto di leader del settore, tra cui AWS, Siemens e Renesas.
Da oggi la rivoluzione dell’intelligenza artificiale non è più limitata al cloud. Arm ha sviluppato il suo primo processore core per applicazioni embedded e Edge AI utilizzando il set di istruzioni ARMv9.
L’introduzione della piattaforma Edge AI Armv9 è una pietra miliare per un mondo sempre più connesso e intelligente, caratterizzata dalla nuova CPU Arm Cortex-A320 e dal principale acceleratore per Egde AI Arm, Ethos-U85 NPU, che consente l’esecuzione di modelli AI di oltre un miliardo di parametri sul dispositivo.
Per innovare e scalare, gli sviluppatori hanno bisogno della possibilità di eseguire i carichi di lavoro AI dove ha senso, di una sicurezza più solida e di una maggiore flessibilità software: la tecnologia Armv9 offre tutto questo su larga scala. La nuova piattaforma Arm riunisce una nuovissima CPU Armv9 ultra-efficiente, Cortex-A320, insieme alla NPU Ethos-U85 con supporto operatore per reti di trasformatori, creando la prima piattaforma AI edge Armv9 al mondo ottimizzata per IoT. La piattaforma offre un miglioramento di 8 volte nelle prestazioni di apprendimento automatico (ML) rispetto alla piattaforma basata su Cortex-M85 lanciata l’anno scorso.
I partner di Arm possono ora distribuire la potenza della tecnologia Armv9 nell’intero spettro, dal cloud all’edge. Dai partner del silicio che concedono in licenza questa tecnologia per costruire SoC, agli ODM e agli OEM che costruiscono i loro dispositivi di prossima generazione, questo sviluppo è stato accolto con favore dai principali partner del settore, tra cui AWS, Siemens, Renesas, Advantech ed Eurotech.
Cortex-A320 fornisce la base sicura per i dispositivi IoT intelligenti di prossima generazione
Il lancio di questa nuova piattaforma AI edge segna una pietra miliare significativa nell’evoluzione dell’edge computing. Cortex-A320 porta funzionalità AI avanzate e vantaggi per gli sviluppatori all’IoT, estendendo le funzionalità dell’architettura Armv9 per alimentare dispositivi efficienti, insieme a un supporto software completo.
Cortex-A320 è una CPU AArch64, basata sulla versione Armv9.2-A dell’architettura. La sua microarchitettura è stata derivata da Cortex-A520 ma è stata notevolmente ottimizzata per migliorare area e potenza.
Miglioramenti dell’efficienza di oltre il 50% rispetto al Cortex-A520 sono ottenuti tramite molteplici aggiornamenti della microarchitettura. Questi includono un datapath di fetch e decodifica stretto, cache L1 densamente raggruppate, un file di registro integer a porte ridotte e altre ottimizzazioni.
Importanti innovazioni nella microarchitettura, come efficienti predittori di diramazione e pre-fetcher, nonché miglioramenti del sistema di memoria, hanno inoltre aumentato le prestazioni scalari di Cortex-A320 di oltre il 30% in SPECINT2K6, rispetto al suo predecessore, Cortex-A35.
Ancora più importante, integrando i miglioramenti Armv9 nelle tecnologie di elaborazione vettoriale NEON e SVE2 (Scalable Vector Extension ), Cortex-A320 offre un aumento di elaborazione ML di più pieghe (10x) rispetto a Cortex-A35, come misurato in int8 General Matrix Multiplication (GEMM). Con il supporto per nuovi tipi di dati, come BF16 , e nuove istruzioni di prodotto scalare e moltiplicazione di matrici, Cortex-A320 raggiunge prestazioni ML fino a 6 volte superiori rispetto a Cortex-A53 , la CPU Armv8-A più popolare al mondo.
I significativi miglioramenti nelle capacità di ML, uniti all’elevata efficienza energetica e di area, qualificano Cortex-A320 come il core più efficiente nelle applicazioni ML tra tutte le CPU Arm Cortex-A.
Cortex-A320 porta anche un aumento multiplo delle prestazioni ML rispetto ai processori Arm Cortex-M, ad esempio, prestazioni GEMM fino a 8 volte superiori rispetto a Cortex-M85, la CPU Cortex-M più performante . Questo aumento delle prestazioni non è dovuto solo ai miglioramenti di Armv9 nell’elaborazione AI; deriva anche da prestazioni di accesso alla memoria notevolmente migliorate e frequenze aumentate in Cortex-A320.
Inoltre, grazie alla sua architettura A-profile, all’esecuzione multi-core e alla gestione flessibile della memoria, Cortex-A320 è un candidato idoneo per estendere le prestazioni ai microcontrollori Cortex-M ad alte prestazioni.
Cortex-A320 è una CPU single-issue, in-order, con recupero delle istruzioni a 32 bit, che implementa una pipeline ottimizzata a 8 stadi con una rete di inoltro compatta, per raggiungere punti di frequenza più elevati rispetto a Cortex-A520.
Cortex-A320 offre scalabilità all’interno di un cluster supportando configurazioni single-core e quad-core. È dotato di DSU-120T, una DynamIQ Shared Unit (DSU) semplificata, che consente cluster solo Cortex-A320. DSU-120T è un’implementazione DSU minima, che riduce significativamente complessità, area e consumo energetico, massimizzando così l’efficienza per i design basati su Cortex-A di fascia bassa.
Cortex-A320 supporta fino a 64 KB di cache L1 e fino a 512 KB di L2, e ha un’interfaccia AMBA5 AXI a 256 bit per la memoria esterna. La cache L2 e la L2 TLB possono essere condivise tra le CPU Cortex-A320, e l’unità di elaborazione vettoriale, che implementa le tecnologie NEON e SVE2 SIMD (Single Instruction, Multiple Data), può essere privata in un singolo complesso core o condivisa tra 2 core in un’implementazione dual-core o quad-core.
Cortex-A320 garantisce la compatibilità con dispositivi edge e infrastrutturali, offrendo al contempo efficienza e scalabilità. Beneficia dell’ampio supporto Linux open source, di un robusto ecosistema di sicurezza e, cosa più importante, dei principali progressi dell’architettura Armv9.
Oltre ai miglioramenti ML tramite gli aggiornamenti nelle tecnologie di elaborazione vettoriale NEON e SVE2, l’architettura Armv9 apporta significativi miglioramenti alla sicurezza, che è fondamentale per qualsiasi sistema IoT ed embedded. Cortex-A320 apporta importanti funzionalità di sicurezza al livello Cortex-A ultra-efficiente, come Memory Tagging Extension (MTE) che fornisce una maggiore sicurezza della memoria, così come Pointer Authentication (PAC) e Branch Target Identification (BTI) , che mitigano gli attacchi di programmazione orientati a jump e return.
Una delle principali funzionalità Armv9 adottate dal Cortex-A320 è Secure EL2 (Exception Level 2). Secure EL2 migliora l’isolamento del software in TrustZone, facilitando l’esecuzione sicura dei contenitori software sui dispositivi edge.
Cortex-A320 sfrutta tutti questi vantaggi in un’ampia gamma di applicazioni, da MPU di fascia bassa per uso generico, smart speaker e smart camera definite dal software, a veicoli autonomi da fabbrica, assistenti AI edge automatizzati, interfacce uomo-macchina abilitate dall’AI e controller di robot di utilità. Oltre alle applicazioni AI edge, anche altri segmenti di mercato chiave stanno beneficiando di Cortex-A320, come smartwatch e dispositivi indossabili intelligenti, nonché dispositivi infrastrutturali, come Baseboard Management Controller (BMC) per server.
Cortex-A320 può inoltre rivelarsi la soluzione ideale per applicazioni in cui tradizionalmente viene utilizzato un Cortex-M ad alte prestazioni, come i casi d’uso di MCU alimentati a batteria o le applicazioni che eseguono un sistema operativo in tempo reale (RTOS), che richiedono di aumentare le prestazioni tramite l’elaborazione multipla simmetrica, supportata immediatamente nell’architettura con profilo A.
Può anche essere un candidato adatto per applicazioni RTOS che richiedono funzionalità di gestione della memoria Cortex-A o di traduzione degli indirizzi, per una maggiore flessibilità del software. Ad esempio, Cortex-A320 può essere appropriato per casi d’uso che richiedono il download di app su un dispositivo MCU, quindi è necessaria un’unità di gestione della memoria (MMU) per la ricollocazione del codice attraverso la mappa di memoria.
Allo stesso tempo, grazie allo spazio di indirizzamento più ampio, Cortex-A320 può essere una soluzione efficiente per casi d’uso multicore eterogenei che combinano un grande Cortex-A con un core di classe microcontrollore. Cortex-A320 consente ai partner di Arm di utilizzare un piccolo core compatibile dal punto di vista architettonico insieme al processore Cortex-A più grande, in modo che l’architettura della memoria sia semplificata.
D’altro canto, grazie alle sue caratteristiche A-profile, Cortex-A320 può fornire supporto Linux out of the box e abilitare la portabilità del software per Android o qualsiasi sistema operativo avanzato esistente. Cortex-A320 offre livelli di flessibilità senza precedenti, per puntare a più segmenti di mercato, applicazioni e sistemi operativi.
Il driver Ethos-U85 è stato ora aggiornato in modo che Ethos-U85 possa essere pilotato direttamente da un Cortex-A320, senza la necessità di un’isola ML basata su Cortex-M. Questo aggiornamento migliora la latenza e consente ai partner Arm di eliminare il costo e la complessità dell’utilizzo di un Cortex-M per pilotare la NPU.
Inoltre, le prestazioni di accesso alla memoria e il sistema di memoria avanzato di Cortex-A320 consentono l’esecuzione di modelli ML più grandi, come i modelli di linguaggio di grandi dimensioni (LLM) con più di un miliardo di parametri, che non possono essere eseguiti in modo efficace sui sistemi basati su Cortex-M a causa dello spazio di memoria indirizzabile limitato.
Le NPU Ethos-U lavorano con tipi di dati quantizzati per soddisfare i requisiti di costo ed energia dei casi d’uso Edge AI più limitati. Tutti gli operatori ML e i tipi di dati non supportati da Ethos-U85 passeranno automaticamente a Cortex-A320, sfruttando il motore Neon/SVE2 per l’accelerazione.
Grazie ai significativi miglioramenti ML nell’architettura Armv9, un Cortex-A320 quad-core può eseguire fino a 256 GOPS, misurati in MAC/ciclo a 8 bit quando funziona a 2 GHz. Di conseguenza, Cortex-A320 può eseguire casi d’uso ML e AI avanzati direttamente sulla CPU, anche senza la necessità di un acceleratore esterno. Ciò può far risparmiare area di sistema, potenza e complessità, per dispositivi destinati a un’ampia gamma di applicazioni ML e AI, fino a 0,25 TOP.
Portando la sicurezza Armv9 e livelli di prestazioni AI senza precedenti nel livello Cortex-A ultra-efficiente, Cortex-A320 offre nuove possibilità agli sviluppatori software per sviluppare e distribuire casi d’uso sempre più impegnativi, aprendo una nuova era per i dispositivi AI edge. Combinando l’architettura A-profile e l’ecosistema software che la circonda, con efficienza e flessibilità, Cortex-A320 offre scalabilità e versatilità per puntare a più mercati nell’IoT e oltre.
Estensione di Arm Kleidi all’IoT
Uno degli ostacoli più significativi all’adozione dell’intelligenza artificiale edge è stata la complessità dello sviluppo e dell’implementazione del software. È qui che l’ecosistema software della piattaforma entra in gioco. Arm estende Arm Kleidi all’IoT, un set di librerie di elaborazione per sviluppatori di framework di intelligenza artificiale progettati per ottimizzare i carichi di lavoro di intelligenza artificiale e apprendimento automatico su CPU basate su Arm senza bisogno di ulteriore lavoro da parte degli sviluppatori. KleidiAI è già integrato in framework di intelligenza artificiale IoT popolari, come Llama.cpp ed ExecuTorch o LiteRT tramite XNNPACK, accelerando le prestazioni di modelli chiave, tra cui Meta Llama 3 e Phi-3. Ad esempio, Kleidi AI porta fino al 70% di prestazioni in più al nuovo Cortex-A320 quando esegue il dataset Tiny Stories di Microsoft su Llama.cpp.
Ciò è importante perché nell’attuale panorama tecnologico, il time-to-market può decretare il successo o il fallimento di un prodotto. La nuova piattaforma mantiene anche la compatibilità software con i processori Cortex-A ad alte prestazioni. Questa scalabilità garantisce che gli sviluppatori possano creare soluzioni che crescono e si adattano al variare dei requisiti. Con l’accesso al vasto ecosistema Armv9 e la compatibilità con sistemi operativi avanzati come Linux e sistemi operativi in tempo reale come Zephyr, gli sviluppatori hanno a disposizione una flessibilità senza precedenti, possono sfruttare strumenti e conoscenze esistenti e trarre vantaggio dal riutilizzo del software, riducendo il time-to-market e abbassando il costo totale di proprietà. Con oltre 20 milioni di sviluppatori Arm attivi in tutto il mondo, il potenziale di innovazione è immenso.
Guardando più avanti, è chiaro che il futuro dell’IA si sposterà verso l’edge e questa nuova piattaforma Arm sarà un catalizzatore per la prossima ondata di innovazione IoT. La combinazione di funzionalità dell’architettura Armv9, capacità di IA avanzate e supporto software completo crea nuove possibilità per OEM e sviluppatori.
La capacità della piattaforma di eseguire modelli linguistici di grandi dimensioni (LLM) e modelli linguistici di piccole dimensioni (SLM) ottimizzati per applicazioni AI basate su agenti apre categorie completamente nuove di casi d’uso edge. La tecnologia si sta muovendo verso un futuro in cui il processo decisionale intelligente avviene più vicino al punto di raccolta dei dati, riducendo la latenza e migliorando la privacy.
Non si tratta solo di un altro passo avanti incrementale, ma di un cambiamento fondamentale nel modo in cui si affronta l’edge computing e l’elaborazione AI. Per la prima volta, è disponibile una CPU Armv9 specificamente ottimizzata per applicazioni IoT, che unisce ultra-efficienza e capacità AI avanzate in un modo che non era stato possibile fino ad ora.
“La nuova piattaforma Edge AI Arm consentirà ai nostri clienti di eseguire nucleus lite, un runtime leggero per dispositivi di AWS IoT Greengrass per dispositivi edge limitati con esigenze di memoria minime, sulla tecnologia Armv9. Questa integrazione perfetta tra le due tecnologie fornisce una soluzione ottimizzata per gli sviluppatori per creare moderne applicazioni Edge AI come il rilevamento di anomalie nell’agricoltura di precisione, nella produzione intelligente e nei veicoli autonomi“, ha dichiarato Yasser Alsaied, Vice President of loT, AWS
“Renesas mira a servire i più ampi segmenti di mercato AIoT con casi d’uso diversificati e carichi di lavoro sempre più intelligenti su una piattaforma di elaborazione veramente scalabile. Siamo entusiasti dell’ultima CPU Armv9 Cortex-A320, che offre elevate prestazioni AI/ML e sicurezza migliorata con potenza ed efficienza di area. Ci consentirà di innovare a ritmo sostenuto e implementare l’efficienza con la scalabilità”, è il parere di Daryl Khoo, VP di Embedded Processing Product Group, Renesas
“Siemens si impegna a sbloccare la potenza dell’IA nelle applicazioni edge. La nuova piattaforma AI edge basata su Armv9 contribuirà ad ampliare il nostro portafoglio di innovazione AI sicuro, performante ed efficiente dal punto di vista energetico a tutti i nostri clienti, in una gamma di applicazioni industriali, infrastrutturali intelligenti e di mobilità” sostiene Herbert Taucher, VP Research and Predevelopment for IC and Electronics, Siemens AG.