Come funziona Llava? Ecco il nostro test del chatbot open per immagini
Llava sta per Large Language and Vision Assistant, un modello multimodale di grandi dimensioni addestrato da un gruppo di ricercatori .
di Alessandro Longo
4' di lettura
«Ma questa immagine è vera o falsa?». Gli diamo in pasto una foto creata con l’intelligenza artificiale riproducente un falso attentato al Pentagono. Una nota fake news. Ma lui non dovrebbe poterlo sapere, perché i giornali non li legge, lui. Lui è Llava, il nuovo chatbot “multimodale” open source.
Eppure: la risposta ci sorprende.
“Questa immagine è una foto falsa di una grande nuvola di fumo, probabilmente creata per scopi artistici o di intrattenimento”.
Come si fa a capire che è falsa? Gli chiediamo.
“Ci sono alcuni indizi che suggeriscono che l’immagine è falsa. In primo luogo, la nuvola di fumo sembra essere troppo grande e di dimensioni irrealistiche, il che non è tipico di eventi naturali come incendi o eruzioni vulcaniche. In secondo luogo, la nube di fumo viene descritta come se si trovasse davanti a un edificio, ma i dettagli dell’edificio non sono chiaramente visibili, il che potrebbe indicare che si tratta di uno sfondo manipolato digitalmente. Infine, l’aspetto complessivo della nube di fumo e dell’ambiente circostante sembra artificiale, il che avvalora ulteriormente l’ipotesi che si tratti di una foto falsa”.
Perfetto: utile e persino istruttivo.
Cos’è Llava e dove si trova
Llava sta per Large Language and Vision Assistant, un modello multimodale di grandi dimensioni addestrato da un gruppo di ricercatori . Collega un codificatore di visione e un modello Llm (“large language”) per la comprensione visiva e linguistica generale. Lo si può provare gratis qui.
Cosa può fare Llava
A Llava gli diamo in pasto un’immagine e gli chiediamo cose – per ora in inglese soltanto – abbinate a quella. Per altro, nel nostro test abbiamo visto risposte in pochissimi secondi, ogni vaolta.Ci sono tre possibili funzioni: riconoscere gli oggetti o il contenuto di una immagine; l’ocr, ossia la lettura di parole presenti nell’immagine; l’analisi dell’immagine dove il modello si collega a una base di conoscenza e quindi può darci consigli e fare considerazioni. Tipo quella sulla fake news.Si noti che il sistema è interattivo, proprio come ChatGpt e simili: possiamo fare un botta e risposta continuando la conversazione, chiedendo altre cose collegate.Farsi fare la lettura e la traduzione di un testo forse non è molto utile. Già lo fa Bixby di Samsung, Google Lens dallo smartphone ed è certo più diretto e comodo.L’analisi dell’immagine è molto più interessante. Un esempio tipico è mostrargli la foto di un frigo aperto e poi chiedergli una cosa del genere: “quali ricette consiglierebbe con questi ingredienti, per una cena con tre persone, di cui una vegetariana?”Risposta nel nostro test: “Ecco un suggerimento per il menu della cena: 1. Insalata di pasta vegetariana: - Cuocere la pasta (spaghetti, penne o qualsiasi altro tipo) e metterla da parte. - In una ciotola a parte, mescolate i pomodorini, i peperoni a fette e i cetrioli a fette. - In una terza ciotola, mescolare la pasta cotta, le verdure e un condimento a base di olio d’oliva, aceto balsamico, sale e pepe. - Aggiungete facoltativamente del parmigiano grattugiato per insaporire il tutto. 2. Spiedini di pollo o verdure alla griglia…”. Seguono altri due esempi fino a “Questo piatto offre una varietà di sapori e consistenze che soddisfano gusti diversi e preferenze alimentari. L’insalata di pasta vegetariana rappresenta un’opzione leggera e rinfrescante, mentre il”. La frase si interrompe di colpo, un errore tipico di questi modelli di linguaggio. Possiamo anche dargli una etichetta di una camicia – o cose simili – e chiedere cosa significano quei simboli oppure, più direttamente, se è possibile stirarla o candeggiarla in base a quei simboli. Qui Llava non se l’è cavata tanto bene.“Posso sbiancare questa camicia con questa etichetta?”“La presenza delle istruzioni per la stiratura sull’etichetta indica che il tessuto è adatto alla stiratura (e che c’entra? Ndr). Tuttavia, è essenziale seguire le istruzioni riportate sull’etichetta per garantire che il tessuto sia stirato correttamente e per mantenerne la qualità e l’aspetto. Per quanto riguarda il candeggio, non è possibile stabilire se il tessuto può essere candeggiato sulla base delle informazioni fornite”. Eccetera. Informazioni generali. In realtà c’era un simbolo che diceva di non candeggiare.Abbiamo provato con la stessa immagine su Bing Chat – anche questo è ora multimodale – e la risposta è stata migliore. “In base ai simboli presenti sull’etichetta, sembra che la camicia non debba essere candeggiata. Il simbolo del candeggio è un triangolo e la presenza di una linea che lo attraversa indica che il candeggio non è raccomandato”.Bene; ci ha messo però alcune decine di secondi e un paio di volte si è bloccato. Llava è certo più immediato; forse incide il numero (molto) inferiore di utenti. Ultimo test, “medico”. Siamo andati su Llava dal cellulare e scattato una foto, direttamente tramite l’interfaccia, a uno spray nasale che tenevamo sulla scrivania. Abbiamo chiesto: cos’è, come si usa, la sua posologia. Risposta: “L’immagine mostra un flacone di Care spray nasale, un decongestionante nasale. L’uso di questo spray nasale è quello di alleviare la congestione nasale e fornire un sollievo temporaneo dai sintomi del raffreddore e dell’influenza. La posologia dello spray nasale Care è di spruzzarlo nelle narici secondo necessità, di solito due o tre volte al giorno. È importante seguire le istruzioni riportate sulla confezione e consultare un professionista sanitario per qualsiasi consiglio specifico sul dosaggio o sull’uso”.
Giudizio complessivo
Molti esperti notano che il bot multimodale è forse il futuro di questi sistemi. Del resto solo nell’ultimo anno oltre a Llava sono arrivati Bing, Bard e ChatGpt4V. Tutti hanno punti forti e deboli. Si mostrano in generale prodotti immaturi, ma molto interessanti. Possono infatti sorprendere per utilità ed efficacia o anche deludere di colpo. Probabilmente siamo ancora all’inizio di una tecnologia che troverà una sua diffusa applicazione come sistema per analizzare dati multimediali, per motivi personali o business.
loading...