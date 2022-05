Ascolta la versione audio dell'articolo

2' di lettura

Parole e immagini. Due esperimenti di intelligenza artificiale ci aiutano a capire le frontiere di questa tecnologia candidata a cambiare il modus operanti di aziende, istituzioni e soggetti politici. Il primo è di Google e si chiama “verse by verse”. E' in lingua inglese ed è un generatore di poesie. Detto meglio permettere a chiunque di creare poesie nello stile di 22 famosi poeti. Ancora meglio per quanto sembri un giochino è un esempio plastico del funzionamento di alcune di questi algoritmi di machine learning. In questo caso gli ingegneri di Google hanno addestrato il modello dando “da mangiare” all'algoritmo l'opera omnia di ciascun autore. Il sistema “si è letto” tutto ma non ha capito nulla. Ha imparato lo stile, lo schema, diciamo il suono, della poesia del singolo poeta. In pratica si scrive una frase e il sistema attraverso un modulo di tecnologia semantica suggerisce una opzione di versi in base ai poeti selezionati e al senso “semantico” della frase. Il risultato è strampo ma efficace. Perché è verosimile. Sembra una poesia.

Dall-E 2 usa una logica simile ma applicata alle immagini. Il nuovo progetto di OpenAI, l'organizzazione non profit fondata da Elon Musk, e Sam Altman è una sorta di illustratore automatizzato. Si parte dalla didascalia, da una descrizione dell'immagine che si vuole ottenere, l'Ai comprende il messaggio, cerca gli elementi e compone l'illustrazione. I modelli text-to-image vengono generalmente allenati su grandi set di dati prelevati direttamente dal Web, il che può introdurre svariati problemi. Tecnicamente DALL-E 2 è una catena di montaggio. Un modello chiamato Clip (Contrastive Language-Image Pre-training) mappa una didascalia testuale verso uno spazio di rappresentazione, dopodiché un altro modello mappa chiamato Glide mette in relazione statisticamente testo e immagine, cioè studia le gerarchie degli elementi. E una questa codifica testuale assieme a una codifica visiva – un'immagine – che cattura le informazioni semantiche mappate dalla didascalia. In poche parole, il sistema usa un metodo che consente a testo e a immagine di essere statisticamente affini, cioè individua a quale parte di testo corrisponde l'immagine relativa. Infine una tecnica chiamata diffusione si occupa di mettere “a terra” quanto imparato. L'uso di questa tecnica nell'ambito dell'intelligenza artificiale generativa è la vera novità di Dall-E 2. E’ un piccolo passo, ma questa disciplina è fatto così.

Loading...

Sulla stessa linea si è mossa anche Google che pochi giorni fa ha presentato Imagen. Si tratta anche qui di un sistema di intelligenza artificiale capace di creare immagini partendo da una descrizione testuale: Imagen, sarebbe capace, secondo il Brain Team di Google Research, di offrire “un grado di fotorealismo senza precedenti e un profondo livello di comprensione del linguaggio”. l Brain Team di Google Research sottolinea inoltre che Imagen ha ereditato i “pregiudizi sociali e i limiti dei modelli linguistici di grandi dimensioni e potrebbe presentare stereotipi e rappresentazioni dannose”.