Come Alexa & Co capiscono il linguaggio parlato

Nella comunicazione attraverso la tecnologia vocale, l'analisi del "sentiment" deve ancora recuperare terreno. Soprattutto nel servizio clienti o nelle recensioni di prodotti, è fondamentale che gli assistenti vocali riconoscano e interpretino correttamente l'umore o la tonalità di ciò che viene detto.

Il riconoscimento vocale non è un argomento completamente nuovo. Già nel 1952, gli scienziati dei Bell Labs hanno introdotto "Audrey". Audrey, abbreviazione di "Automatic Digit Recognition", è stato in grado di riconoscere le cifre parlate con il 90% di certezza. Da allora sono successe molte cose. Viviamo in un'epoca in cui numerose applicazioni possono essere gestite in modo comodo e user-friendly tramite potenti interfacce vocali.

Più persone comunicano tramite Alexa, Siri & Co, maggiore è il numero di coloro che vogliono capire la tecnologia dietro un'applicazione vocale. Molti utenti si sono sicuramente chiesti: "Cosa succede al mio discorso quando viene raccolto dal microfono? La risposta semplificata a questo è: riconoscimento dei modelli. La parola parlata viene prima digitalizzata, convertita in linguaggio binario, per così dire. I singoli suoni, le parole e i contesti perdono allora il loro significato - almeno per gli umani. Le macchine usano questi componenti del linguaggio per confrontarli con i modelli digitali memorizzati. Questo confronto avviene a molti livelli - dal semplice riconoscimento di pattern di cifre per elaborare una selezione nella coda di una hotline al calcolo di reti semantiche altamente complesse in grado di riconoscere significati relazionali in testi continui. Un esempio di questo è la sentiment analysis.

Quando la sintassi diventa semantica

La sentiment analysis trasforma la sintassi in semantica. Il corretto collegamento delle singole unità linguistiche diventa una frase. In questo modo, una dichiarazione acquisisce significato attraverso la sua tonalità, il contesto, così come gli stati d'animo e i sentimenti. Applicazioni ad alte prestazioni, supportate da complessi modelli di apprendimento automatico, catturano il contesto delle dichiarazioni parlate o scritte per quantificare, tra le altre cose, le emozioni, la gentilezza, la veemenza e, naturalmente, il contenuto fattuale.

La maggior parte delle applicazioni restituisce una valutazione abbastanza semplice che consiste in parole chiave e un adeguato calcolo di probabilità. Questo può essere immediatamente elaborato algoritmicamente, salvato e utilizzato per altre applicazioni. Per questo, sia uno stato emotivo è determinato come polarità - per esempio gioia contro rabbia - e anche la rispettiva probabilità come un valore specifico tra zero e uno. Il ritorno "Joy: 0.78456", per esempio, indica che molto probabilmente si tratta di una dichiarazione felice e positiva dell'utente.

Le applicazioni di analisi del sentimento sono disponibili in diversi livelli di prestazioni. Le versioni più semplici del software cercano nei testi termini unici - le cosiddette "borse di parole" che possono senza dubbio essere assegnate a uno stato emotivo. "Oggi mi sento benissimo" o "Cavolo, che brutto tempo!" sono affermazioni facilmente quantificabili sulla base degli aggettivi che contengono. Diventa più complicato quando l'applicazione deve riconoscere l'intero significato di dichiarazioni o testi più lunghi e una tonalità che cambia all'interno di una dichiarazione. A questo scopo, si usano reti semantiche che comprendono le relazioni delle singole parole tra di loro. Per esempio, se un utente invia il comando vocale "Sto cercando un alloggio per me e le mie 100 galline", la tecnologia linguistica deve riconoscere che non si sta cercando un hotel, ma piuttosto una proprietà rurale.

Un ulteriore livello di complessità è rappresentato dalle cosiddette ontologie, che riconoscono i singoli termini come un insieme di proprietà, che a loro volta sono concettualmente collegate ad altri termini. L'affermazione: "È stato assolutamente sorprendente!" è un'illustrazione facilmente comprensibile di una tale ontologia: in relazione a un film del cinema, l'affermazione sarebbe positiva, ma nel contesto dell'uso di un'applicazione software, sarebbe negativa.

Sentiment Analysis nel contesto del marketing

Il valore aggiunto e i vantaggi della sentiment analysis per le aziende sono ovvi: dove gli esseri umani devono faticosamente leggere e interpretare testi lunghi, contorti o addirittura errati, il software valuta automaticamente le risorse testuali o il contenuto parlato. Tali applicazioni permettono di risparmiare tempo e denaro, soprattutto quando si tratta di monitorare i social media o di analizzare le recensioni dei clienti e i feedback dei servizi, come ad esempio: "Questo film era la cosa più noiosa che abbia mai visto. Risparmiati il biglietto d'ingresso!" o "Sono stato di nuovo in attesa per ore alla mia banca, probabilmente possono fare a meno di fare affari con me!"

Le aziende spesso usano la sentiment analysis per "opinion mining" o analisi delle opinioni. Per esempio, ogni rivenditore online o fornitore di servizi finanziari vuole sapere cosa viene scritto su di loro, i loro prodotti o il loro servizio nei social media, cosa vuole il loro gruppo target o qual è l'umore di un consumatore quando chiama il call center. Utilizzando interfacce vocali appositamente programmate per questi contesti - per Amazon Alexa o Google Home, ad esempio - è possibile convertire dichiarazioni di questo tipo tramite speech-to-text per valutarle con le API di Sentiment Analytics. Una tale applicazione è in grado di valutare l'emotività e la polarità di un'affermazione come "Il mio bambino ha avuto un'eruzione cutanea dai pannolini convenzionali, ma da quando è passato a una marca senza profumo, questo non è più necessario! Tuttavia: poiché gli assistenti vocali di solito "ascoltano" solo per pochi secondi durante l'elaborazione delle dichiarazioni, un'analisi più approfondita, come con un testo continuo, non è possibile. Tuttavia, essi sono particolarmente adatti per catturare brevi raccomandazioni o opinioni.

Daniel Fitzpatrick è Practice Leader

Daniel Fitzpatrick è Practice Leader "Voice Machine Interfaces" presso Reply e guida il team tecnologico di Triplesense Reply come Head of Experience Technology.

Utilizzando l'analisi del sentiment nelle applicazioni vocali, le aziende possono utilizzare le dichiarazioni parlate tramite Alexa & Co. per migliorare i loro prodotti o servizi, per esempio - uno sviluppo che porta i benefici della tecnologia vocale nel marketing a un nuovo livello.


Lascia un commento