Lo stato del riconoscimento vocale di Linux

Il riconoscimento vocale in Linux segue le piattaforme Windows e Mac perché sia Microsoft che Apple hanno investito molto tempo e denaro nell'aggiunta di software di comando vocale o assistente vocale nei loro sistemi operativi principali.

Sebbene la situazione non sia triste per Linux, come lo è con molte tecnologie all'avanguardia, l'universo gratuito e open source rimane un passo indietro, in particolare con gli strumenti di comando vocale.

Riconoscimento vocale nativo di Linux

Nessuna distribuzione Linux si concentra sul riconoscimento vocale. Tuttavia, le app che supportano la funzionalità di riconoscimento vocale si basano su una manciata di librerie open source tra cui Sphinx, Kaldi, Julius e Mozilla Deepspeech.

Negativespace / Mockup.Photos

Queste librerie si basano su un corpus vocale per offrire variazioni di suoni per addestrare l'IA e quindi tradurre correttamente il discorso in testo. Tuttavia, i progetti open-source sono meno sofisticati (perché godono di contributi minori per addestrare l'IA), il che significa che la maggior parte delle app di sintesi vocale per Linux spesso falliscono la conversione. Di solito, falliscono così a fondo che non è chiaro quale avrebbe potuto essere il discorso originale.

Opzioni per Linux Speech to Text

Usa uno dei cinque percorsi di soluzione.

Affidati alle app Linux native disponibili nei repository della tua distribuzione, se presenti.
Amazon ha reso disponibile Alexa per Linux, incluso per Raspberry Pi. Dovrai eseguire molte modifiche personalizzate per far funzionare questa disposizione, ma funzionerà.
Accedi all'API di Google Speech nel tuo browser tramite DictationIO. Questo servizio funziona solo per la dettatura; non puoi usarlo per il comando vocale. È alimentato dall'intelligenza artificiale di Google, quindi la qualità è buona.

Utilizza un servizio come Alexa o Google Assistant come utilità di comando vocale per Linux tramite il servizio Triggercmd. Triggercmd viene eseguito sul tuo computer; usalo per invocare Alexa o l'Assistente Google e fai in modo che questi strumenti eseguano script Bash specifici in base al tuo comando. Dì qualcosa come "Ok Google, chiedi al comando trigger per aprire la calcolatrice". L'Assistente Google funge da intermediario con Triggercmd per eseguire lo script Bash specificato dalla frase "apri la calcolatrice".
Usa Wine o una macchina virtuale con software per Windows come Dragon NaturallySpeaking. Con le giuste modifiche, puoi utilizzare il motore Dragon per la trascrizione, sebbene questa soluzione non funzioni per le applicazioni di comando vocale.

Pagine utili:

Informazioni sul formato .ico

Riconoscimento vocale nativo di Linux

Opzioni per Linux Speech to Text

Pagine utili:

Lascia un commento Annulla risposta