Ascolta la versione audio dell'articolo

3' di lettura

Il salto evolutivo del chatbot di OpenAI è compiuto, diventando sempre più simile ad applicazioni di largo consumo come Siri di Apple o Alexa di Amazon. Come annunciato da OpenAI, ora è infatti possibile aggiungere input vocali alle conversazioni oltre che immagini, che il sistema userà per un’interazione ancora più naturale e efficace.

“Voce e immagine ti offrono più modi per utilizzare ChatGPT nella tua vita. Scatta una foto di un punto di riferimento mentre viaggi e intrattieni una conversazione dal vivo su ciò che è interessante. Quando sei a casa, scatta foto del tuo frigorifero e della dispensa per capire cosa c’è per cena (e fai domande di follow-up per una ricetta passo passo). Dopo cena, aiuta tuo figlio con un problema di matematica scattando una foto, cerchiando il problema impostato e chiedendogli di condividere suggerimenti con entrambi”, suggerisce OpenAI sull’articolo di presentazione delle nuove funzionalità.

Come funziona la nuova funzione

Le nuove capacità di ChatGPT sono già disponibili sull’app per Android e iPhone inizialmente solo in inglese, partendo dagli utenti che hanno sottoscritto piani Plus e Enterprise, con l’intento di allargare in futuro la platea anche ad altri utenti. L’ aggiornamento consentirà agli utenti di rivolgere a voce le proprie domande al chatbot e di sentirlo rispondere grazie a una funzione di sintesi vocale, con la possibilità di scegliere tra cinque voci differenti. Anche le interazioni sul fronte imagining e visivo sono semplici: caricando o scattando una foto da ChatGPT, l’app risponderà con una descrizione dell’immagine e informazioni di contesto, in modo simile a Google Lens.La versione aggiornata di ChatGPT presenta un’icona a forma di cuffie in alto a destra e icone che raffigurano una foto e una fotocamera in un menu che si apre in basso a sinistra. Le funzioni vocali e visive convertono le informazioni in ingresso in testo, utilizzando il riconoscimento vocale o delle immagini, permettendo al chatbot di generare una risposta. L’app risponde quindi con la voce o con il testo, a seconda della modalità scelta dall’utente.Per OpenAI, la nuova tecnologia di generazione vocale di ChatGPT apre a nuove opportunità per concedere in licenza ad altri l’uso della propria tecnologia. Spotify, per esempio, lo sta già utilizzando per una funzione che traduce i podcast in altre lingue (al momento solo in spagnolo e solo su alcuni podcast selezionati), imitando grazie all’intelligenza artificiale la voce umana.

Loading...

I dubbi sulla privacy e le altre criticità

L’introduzione di funzionalità audio e visive è il passo evolutivo auspicato dagli sviluppatori per creare un’intelligenza quanto più simile a quella umana, fornendo agli algoritmi informazioni audio e visive oltre che testuali. Questo, come molti altri recenti progressi dell’AI generativa, solleva legittime preoccupazioni riguardo a come OpenAI gestirà il flusso di dati vocali e di immagini proveniente dagli utenti.La società, che ha già raccolto una vasta quantità di dati testo-immagine dal web per addestrare i suoi modelli come ChatGPT e Dall-E, con l’arrivo imminente della mole sconfinata di richieste vocali e immagini inviate dagli utenti, comprese potenziali foto di volti, rimane aperto un quesito: la società utilizzerà foto e vocali per espandere il pool di dati su cui addestrare i suoi algoritmi? È presumibile di sì e OpenAI, mettendo le mani avanti, ha già dichiarato che gli utenti potranno scegliere di sottrarsi all’uso dei loro dati a scopi di addestramento attivando nell’app una apposita funzione.In generale, OpenAI si è impegnato a garantire un uso etico e sicuro delle sue tecnologie: “Crediamo nel rendere i nostri strumenti disponibili gradualmente, il che ci consente di apportare miglioramenti e affinare la mitigazione dei rischi nel tempo, preparandosi a sistemi più potenti in futuro. Una strategia che diventa ancora più importante con i modelli avanzati che coinvolgono voce e immagini”, ha dichiarato OpenAI.