mercoledì, Maggio 6, 2026
spot_imgspot_imgspot_imgspot_img
HomeAZIENDESintesi vocale: da Rutronik il sistema per la creazione di file vocali...

Sintesi vocale: da Rutronik il sistema per la creazione di file vocali ESPER2 di Epson

Questo ambiente di sviluppo basato su PC può essere utilizzato per creare file audio per un massimo di 12 lingue. La qualità è talmente elevata che è impossibile distinguere i file audio generati dalla parola naturale di un essere umano.

Parlare e ascoltare sono i modi più naturali con cui gli esseri umani comunicano tra loro: la scrittura è arrivata molto, molto più tardi. Con la comunicazione uomo-macchina, la tendenza sta tornando alle radici. Al giorno d’oggi, è possibile creare file audio di alta qualità in molte lingue con assoluta facilità.

Un dispositivo o una macchina in grado di parlare offre enormi vantaggi in un gran numero di applicazioni. Fornisce accessibilità alle persone con problemi di vista. Non è più necessario avere a portata di mano il dispositivo in questione, il che è un enorme aumento di sicurezza quando si guida un’auto, ad esempio. E può anche essere molto utile quando le persone si trovano in una stanza diversa, ad esempio quando gli infermieri di un ospedale vengono avvisati acusticamente di una situazione pericolosa, anche se al momento non sono effettivamente con il paziente. Avvisi simili possono essere utili anche negli impianti di produzione. L’output vocale può anche rendere molto più semplice il funzionamento di apparecchiature sempre più complicate.

Le applicazioni con comunicazione bidirezionale, ovvero quelle che non solo possono “parlare”, ma anche “ascoltare”, come Siri, Cortana e così via, fanno un ulteriore passo avanti, sebbene l’output vocale sia spesso del tutto adeguato.

Semplice generazione vocale da file di testo

In precedenza, il testo doveva essere registrato in ogni lingua desiderata per supportare l’output vocale. Ciò significava assumere uno studio di registrazione e un doppiatore professionista o creare il proprio studio, una soluzione costosa e dispendiosa in termini di tempo. Riducendo drasticamente i tempi e i costi di sviluppo, Epson ha sviluppato lo strumento PC per la creazione di dati vocali ESPER2. Questo ambiente di sviluppo basato su PC può essere utilizzato per creare file audio di alta qualità, attualmente per un massimo di 12 lingue.

Per fare ciò, le frasi preformulate possono essere importate nello strumento come file CSV o inserite direttamente in un modulo dell’editor. Lo strumento viene utilizzato per generare un file di lingua. ESPER2 analizza anche la struttura della frase del testo per ottenere una pronuncia e un’enfasi corretta e naturale e dispone anche di un ampio dizionario. La pronuncia di nomi di prodotti, nomi propri e parole inventate che non sono nel dizionario può essere definita a piacere utilizzando la funzione di modifica. Ciò rende possibile la generazione di file audio di una qualità tale che è difficile distinguerli dalla parola naturale di un essere umano.

Se sono già disponibili file vocali e audio in formato WAV, questi possono essere utilizzati anche con ESPER2. I file WAV possono essere facilmente importati nell’ambiente di sviluppo, dove vengono uniti ai file generati da ESPER2. Per ulteriori modifiche, le frasi possono essere esportate dal formato CSV dello strumento per l’uso in Excel.

Fatti capire ovunque nel mondo

ESPER2 attualmente supporta 12 lingue: inglese americano e britannico, francese, francese canadese, tedesco, italiano, russo, spagnolo europeo e spagnolo latinoamericano, cinese, giapponese e coreano. Per adattarsi a funzioni specifiche della lingua, è possibile regolare il tono e la velocità della voce.

Tuttavia, lo strumento non ha una funzione di traduzione, il che significa che il testo deve essere inserito in ESPER2 in ogni lingua desiderata.

Epson ha già annunciato una libreria contenente file audio con unità comuni come valute, pesi e valori simili, oltre a rumori di base che possono essere utilizzati per integrare il parlato.

Spazio di archiviazione minimo e alta qualità vocale

Per consentire un trasferimento e un’archiviazione efficienti, ESPER2 utilizza il formato codec EOV proprietario di Epson (Epson Own Voice). Rispetto al formato di compressione standard ADPCM (modulazione a codice di impulso differenziale adattivo), EOV riduce le dimensioni dei file fino al 66%, il tutto preservando un’eccellente qualità del parlato a bitrate da 16 kbit/s a 40 kbit/s.

Il file .eov è costituito da una tabella di ricerca combinata con i file audio. Per mantenere le innumerevoli frasi in più lingue, gli sviluppatori possono assegnare lo stesso ID nella tabella di ricerca a una frase in più lingue. Ciò significa che devono fare riferimento a un solo ID e la frase viene riprodotta in tutte le lingue.

Per risparmiare ancora più spazio di archiviazione, è possibile combinare le espressioni utilizzate di frequente con altre espressioni unendole con una barra (/). Ad esempio, i giorni della settimana possono essere codificati come segue:
Numero ID 1: “Oggi è/lunedì”.
Numero ID 2: “Oggi è/martedì”.
Numero ID 3: “Oggi è/mercoledì”.
Le unità vocali generate qui sono: “Oggi è” e “lunedì”, “martedì”, “mercoledì”, ecc.

Archiviazione e output vocale

Per archiviare ed emettere i file vocali generati, Epson offre una soluzione integrata e una discreta. La soluzione integrata comprende un microcontrollore ARM Cortex-M0+ a 32 bit con un processore hardware vocale e audio integrato che consente l’uscita simultanea dell’audio su due canali con una frequenza di campionamento di 15,625 kHz ciascuno.

Questa è attualmente l’unica soluzione integrata sul mercato in grado di produrre contemporaneamente testo e audio. In questo caso i singoli volumi possono essere regolati indipendentemente l’uno dall’altro. Questo può essere utilizzato, ad esempio, per ridurre il volume della musica non appena inizia l’emissione vocale. Il tono e la velocità della voce sono gestiti a livello hardware e la velocità può essere regolata con incrementi del 5% tra il 75% e il 125%.

Gli ID dei file audio e vocali generati vengono scritti in un registro nel processore, che quindi riproduce i file audio rilevanti. Ciò elimina la necessità di un codice di programma speciale per collegare i file audio. Una volta avviata l’uscita audio, non sono necessarie risorse CPU aggiuntive, liberando completamente la CPU per gestire altre attività o entrare in modalità di sospensione.

La soluzione  discreta

La soluzione discreta combina un modulo della gamma S1V30xxx di Epson con un microcontroller host esterno. Questo è l’ideale per i progetti esistenti in cui il microcontrollore non può o non deve essere sostituito. Qualsiasi microcontrollore con un’interfaccia seriale integrata è adatto per questo metodo.

Il primo modulo di questa serie, l’S1V3G340, ha un solo canale audio, il che significa che può emettere sia la voce che la musica. Secondo il produttore, tutti i nuovi circuiti integrati di uscita vocale dovrebbero essere dotati di due canali discreti, come le soluzioni integrate. Attualmente il microcontrollore S1C31D50 è disponibile con due canali; la funzione mix-play consente di mixarli insieme, ad esempio come uscita vocale con musica di sottofondo discreta. Il modello S1C31D51 offre anche un generatore di suoni per ottenere l’uscita vocale tramite un cicalino piezoelettrico o elettromagnetico. Applicazioni speciali basate su parole chiave da riconoscere possono essere supportate dai microcontrollori S1C31D50 o S1C31D51 in combinazione con un microfono collegato a un ingresso convertitore A/D.

Vari strumenti di valutazione di Epson possono essere utilizzati dagli sviluppatori per testare la qualità dell’uscita vocale, tramite un altoparlante utilizzando la scheda di valutazione S5U1C31D50T1200 e S5U1C31D51T1100 o utilizzando la scheda cicalino S5U1C31D51T2100 tramite un cicalino piezoelettrico o elettromagnetico insieme alla scheda di valutazione S5U1C31D51T1100. Tutti gli strumenti di valutazione offrono un ampio software di test disponibile in diverse lingue e la lingua desiderata può essere selezionata utilizzando un interruttore DIP. Una volta installato e concesso in licenza il software gratuito ESPER2, è anche possibile creare le proprie frasi, modificarle a proprio piacimento ed esportarle nella scheda di valutazione.

Tempi di sviluppo brevi grazie alla scheda adattatore Rutronik

Per tempi di sviluppo ancora più brevi per un output vocale di alta qualità, è particolarmente indicata la scheda RutAdaptBoard-TextToSpeech compatibile con Arduino (Arduino Shield) di Rutronik, che può essere collegata a qualsiasi kit di valutazione del microcontrollore standard con un’interfaccia Arduino. Tuttavia, è più conveniente se combinato con il RutDevKit Development Kit, perché i driver software appropriati sono già disponibili gratuitamente. In alternativa al driver software STM32L5, Rutronik ha sviluppato un driver per il microcontrollore Infineon/Cypress PSoC.

L’IC audio S1V3G340 di Epson è il cuore di RutAdaptBoard-TextToSpeech. È controllato dal microcontrollore host e può riprodurre il parlato precedentemente definito memorizzato nella memoria flash NOR esterna come dati binari. Il bridge da USB a SPI converte i dati dal protocollo USB in un protocollo seriale durante il processo di flash.

Il parlato viene prima generato come file ROM utilizzando lo strumento PC per la creazione di dati vocali ESPER2, prima di essere esportato nella memoria flash NOR esterna della scheda dell’adattatore. Rutronik ha sviluppato a tale scopo un apposito strumento software per PC che consente di testare tutti i dati vocali precedentemente generati emettendoli sul PC insieme al processo flash prima che vengano effettivamente scritti nella memoria flash.

Il parlato viene trasmesso a qualsiasi altoparlante esterno tramite un amplificatore audio e un jack da 3,5 mm. È possibile ottenere un’uscita audio ottimale con un altoparlante con un’impedenza di 8 Ohm o più.

RutAdaptBoard-TextToSpeech e RutDevKit sono disponibili su www.rutronik24.com.