La crescita di Alexa, diventa “adulta” grazie all’A.I.

Picture of Redazione Financial Panorama
Redazione Financial Panorama

Dave Limp è visibilmente emozionato, più emozionato di quanto lo abbiamo incontrato prima dell’estate a casa sua, nel quartier generale di Amazon a Seattle. Quella di oggi è la sua ultima presentazione in Amazon, in agosto ha annunciato che avrebbe lasciato l’azienda, ma è anche quella più importante perché la sua bambina, Alexa, diventa finalmente grande.

Durante l’evento annuale di lancio dei nuovi prodotti e servizi Amazon, Limp ripercorre le tappe di un viaggio che, negli ultimi due anni, è stato accelerato dal grosso boom dell'Intelligenza Artificiale (IA). Quando strumenti come Chat-GPT diventano di uso comune, è normale che tutti si chiedano come mai Alexa, Siri e gli altri assistenti intelligenti non siano intelligenti quanto i nuovi “chatbot” spinti dall’IA.

PUBBLICITÁ

Una domanda alla quale non è facile dare una risposta breve: Alexa non è un bot testuale, Alexa deve capire quello che le viene chiesto e capirlo da una richiesta vocale è più difficile che capirlo da una richiesta scritta, ma soprattutto Alexa non può sbagliare.

Alexa "vive" in casa, passateci il termine, ha instaurato un clima di fiducia tra lei e la famiglia che abita la casa, conosce la casa e oltre a rispondere deve anche aiutare chi la abita in questioni pratiche, come possono essere la gestione delle luci, la lista della spesa o semplicemente la comunicazione tra più stanze o più persone.

Insomma, tanti tasselli dovevano andare al loro posto e Amazon in questi anni, mentre l’Alexa che conosciamo migliorava anno dopo anno aggiungendo nuove funzioni e nuove skill, stava sviluppando una Alexa totalmente diversa, una Alexa che rispecchiava finalmente quella che sarebbe dovuta essere Alexa fin dall’inizio, ma che non poteva esserlo per i limiti tecnologici dei tempi. Oggi, dopo quasi 10 anni dal lancio del primo Echo, Amazon è finalmente riuscita a raggiungere quel traguardo che fino a pochi anni fa sembrava irraggiungibile: un assistente per la casa che si avvicina all’ideale che tutte le persone hanno di un vero assistente. Intelligente, reattivo, fidato ma soprattutto con i super poteri. Limp lo dice chiaramente: “Se nel 2014, quando abbiamo lanciato quel dispositivo a forma di lattina di Pringles, vi avessimo detto che questo dispositivo sarebbe diventato una piattaforma di computing totalmente nuova e diversa da quella che conosciamo oggi, una piattaforma accessibile con la voce e non con la tastiera e il mouse, una piattaforma che milioni di persone nel mondo usano senza sapere che sistema operativo abbia, mi avreste preso per pazzo”.

Oggi, dopo quasi dieci anni, sono quasi un miliardo i dispositivi che permettono di chiamare Alexa e Alexa sta per diventare uno dei prodotti più potenti che siano mai entrati nelle case. Il merito, ovviamente, è dell’intelligenza artificiale. Alexa, e ovviamente i dispositivi Echo, hanno sempre usato l’intelligenza artificiale come elemento base del loro funzionamento. Il riconoscimento degli intenti, ovvero delle parole chiave di una richiesta a voce, viene fatto tramite un modello AI e anche la sintesi vocale della risposta, che nel corso degli anni è migliorata arrivando quasi al livello di un vero linguaggio naturale, è frutto di un lungo allenamento, con centinaia di migliaia di campioni di voce diversa che vanno a smussare l’inflessione leggermente robotica dei normali sintetizzatori vocali.

Questo però non era sufficiente: Amazon negli ultimi anni ha iniziato ad usare diversi modelli Large Language Model: ne ha usati alcuni, come l’Alexa Teacher Model, per insegnare ad Alexa a fornire risposte più accurate e ne ha creato uno, totalmente nuovo e basato su miliardi di parametri, per insegnare ad Alexa come essere un assistente perfetto per la casa. Questo modello, ottimizzato per la voce, è basato su cinque differenti pilastri: ha le capacità di dialogo di un essere umano, capisce come un essere umano dal contesto del mondo esterno, è parte integrante della famiglia, ha una propria personalità e soprattutto è fidato.

Non è fantascienza, anche se ricorda molte esperienze viste nei film, è realtà, come dimostra la clip qui sotto. Perfezionabile, ovviamente, ma comunque impressionante. Come si può vedere ora si può tenere una vera conversazione. Non è più necessario ripetere ogni volta Alexa, l’assistente dopo la prima volta capisce quando si sta parlando con lui.

Raggiungere un obiettivo simile, spiega Limp dal palco, è tutt’altro che semplice. Amazon ha dovuto studiare i modi in cui le persone fanno conversazione e ha cercato di sfruttare l’hardware dei dispositivi Echo per cercare di offrire ad Alexa quello che ovviamente ad un assistente manca.

Tra due persone che dialogano c’è un gioco di sguardi e c’è una gestualità che diventa parte integrante del contesto, e Amazon ha usato i sensori del del dispositivo, videocamera inclusa, per cercare di abbattere questa barriera. Come possiamo rivolgerci ad una persona senza sapere il suo nome, e la persona capisce che stiamo cercando di iniziare una conversazione, allo stesso modo Alexa capisce se una richiesta è indirizzata a lui: lo fa utilizzando modelli acustici che analizzano la direzione della voce e soprattutto usando la computer vision, grazie alla quale capisce se qualcuno sta guardando lo schermo di un Echo Show.

C’è anche un problema di latenza: quando si dialoga con una persona ci si aspetta una risposta istantanea, e il nuovo modello LLM di Amazon riesce a farlo, anche tergiversando mentre prova a formulare una risposta.

Non solo: mentre oggi Alexa si aspetta che vengano usate parole specifiche, che ogni cosa venga pronunciata in modo abbastanza chiaro e soprattutto che non ci siano pause nella richiesta. Se aspettiamo qualche secondo per pensare, un dispositivo Echo inizia a elaborare la richiesta.

Il nuovo modello riesce ad estrarre il contesto anche da una frase detta veloce, magari poco chiara o da una frase spezzettata, con interruzioni all’interno. Secondo Amazon questo nuovo modello, allenato con miliardi di parametri e ore e ore di conversazioni, è il modello di riconoscimento vocale più avanzato mai fatto.

Cambia non solo il modo in cui Alexa capisce, ma anche il modo in cui Alexa parla. Se chiediamo oggi ad Alexa di raccontarci una barzelletta, è una delle richieste più diffuse, la sua barzelletta sarà piatta, priva di enfasi. Se chiediamo il risultato della squadra del cuore risponderà allo stesso modo sia che la squadra abbia vinto sia che la squadra abbia perso. Alexa oggi non conosce dialetti, non conosce emozioni, non sa cambiare tono di voce a seconda delle situazioni: grazie al nuovo modello Text-To-Speech la nuova Alexa sarà in grado di cambiare di tono e velocità per cercare di trasmettere emozioni durante la conversazione. Questo traguardo, notevole dal punto di vista tecnico, è stato raggiunto eliminando i classici passaggi che vengono usati oggi da Alexa: le richieste audio vengono prima convertite in testo, poi vengono estratte le parole chiave, vengono capite, viene generata una risposta testuale usando un modello LLM e questa risposta viene inviata all’Eco che, tramite il motore di text to speech, produce l’audio.

Il modello LLM su cui si basa la nuova Alexa unifica tutti questi task, ed è per questo che Amazon parla di speech to speech: si elimina la parte testuale e così facendo si tengono anche quelle informazioni che si perdevano con l’estrazione degli intenti, come il tono di una richiesta specifica. Alexa è basata poi sulle skill, e una skill è una piccola applicazione che spesso effettua chiamate verso servizi esterni.

Gestire una skill è un qualcosa di molto complesso, perché Amazon non può controllare la velocità nella risposta ad un comando specifico che viene inviato a server esterni, soprattutto se ad una azione, come una routine, corrispondono più chiamate api. Il nuovo modello di Alexa è in grado di interpretare correttamente il contesto traducendo automaticamente quella che può essere una richiesta poco precisa: con un generico “Accendi la luce” Alexa capisce che probabilmente l’utente si riferisce alla luce spenta dove si trova lui o dove è diretto.

Sempre nell’ambito del contesto, il nuovo Alexa, oltre ad essere in grado di rispondere a tantissime domande, esattamente come risponde oggi un modello LLM stile “chat-gpt”, può anche fornire informazioni in tempo reale su partite, concerti, notizie e tanto altro.

Tutto questo con la consapevolezza di quello che succede all’interno della famiglia: conosce i gusti personali, conosce gli appartamenti a calendario, conosce il posto in cui si trova e i servizi con cui ogni membro della famiglia è solito interagire. Il nuovo Alexa, volendo, può anche dare una sua opinione.

La nuova funzione Let's Chat di Alexa arriverà come tech preview al momento solo per gli utenti americani, e sarà fruibile su ogni Echo, anche sulla prima generazione.

Amazon non dovrebbe comunque metterci molto a estenderla anche ad altre lingue. Alcune funzioni mostrate qui a Washington non sono ancora pronte, e arriveranno solo a partire dal prossimo anno.

In questi dieci anni abbiamo seguito la crescita di Alexa da bambina ad adolescente. Ora, grazie all’IA, Alexa ha guadagnato di colpo dieci anni e si scopre adulta: serviranno ancora anni per perfezionarla, ma la differenza tra quello che c’è stato fino ad oggi e quello che Amazon ha annunciato oggi è davvero enorme.

Condividi questo articolo

Autore:

Redazione Financial Panorama

PUBBLICITÁ