2' di lettura
Sapevamo che i dati erano il petrolio. Quante volte lo abbiamo letto? Lo sono ancora oggi ma sembra che tutto sia cambiato. Non si parla quasi più di Big data, non sembra più essere di moda. L'intelligenza artificiale nella sua declinazione più pop - l'Ai generativa - ha occupato tutti gli spazi dedicati all'innovazione. In realtà nessuno ha sostituito nessuno. L'economia dei dati non è sparita per lasciare il posto a quella delle parole o delle domande. C'è stata semplicemente una inversione dei fattori. La seconda discende dalla prima. I Big data sono alla basa del boom dell'intelligenza artificiale.
Proviamo a fare un passo indietro. Il primo sistema di intelligenza artificiale (Ai) era un topo robotico che poteva trovare la via d’uscita da un labirinto, costruito da Claude Shannon nel 1950. Poi subito dopo le prime reti neurali e più nulla per almeno vent’anni. Poi la convergenza tra la miniaturizzazione dei chip che ha portato a un aumento esponenziale della potenza di calcolo e l’introduzione delle tecnologie di rete hanno portato a un cambio di velocità della ricerca nell’Ai. La possibilità di allenare gli algoritmi su una grande mole di dati è stata il fattore che ha fatto la differenza. Tanto che oggi la domanda che ci poniamo più frequentemente quando interroghiamo un chatbot come ChatGpt è: chi te lo ha detto?
Già, chi te lo ha detto? Quanto sono autorevoli e corrette le informazioni da cui ha imparato i modelli di linguaggio di grandi dimensioni (Llm)? Un team di data scientist del Mit che hanno esaminato dieci dataset tra i più utilizzati per i test degli algoritmi di apprendimento automatico (machine learning) hanno scoperto che circa il 3,4% dei dati era impreciso o etichettato in modo errato, il che, hanno concluso, potrebbe causare problemi ai sistemi di intelligenza artificiale che utilizzano questi set di dati. Ce ne siamo accorti anche noi quando usiamo questi sistemi. Soprattutto all'inizio erano preda di quelle che tecnicamente sono definite allucinazioni. In altre parole in toni molto assertivi rispondevano in modo sbagliato.
Oggi dobbiamo interrogarci come e in quanto tempo riusciremo a correggere questi sistemi. Come si può migliorare la qualità dei dataset. Per i primi sei decenni, il calcolo dell’addestramento è aumentato in linea con la legge di Moore, raddoppiando all’incirca ogni 20 mesi. Dal 2010 circa questa crescita esponenziale è ulteriormente accelerata, fino a un tempo di raddoppio di circa 6 mesi. L'economia dei dati oggi più che mai ha bisogno di dati corretti e verificati.
Il business dei dati e del loro utilizzo
Sabato 27 Maggio 2023
12:15-13:30
Palazzo Geremia - Sala di Rappresentanza
PROTAGONISTI
Maurizio Ferraris, professore ordinario di Filosofia teoretica all'Università di Torino e Presidente del Labont, Marina Geymonat, head, Enterprise Data & AI – Capgemini Invent,
Andrea Mignanelli, ceo Cerved Group, Ferruccio Resta, presidente Presidente Fondazione Bruno Kessler, Luigi Riva, Presidente Fondatore di Strategic Management Partners
Maria Savona, professoressa, Luiss e SPRU, Sussex, Luca Tremolada,
Data Journalist Il Sole 24 Ore
loading...