Ai, Tech

Intelligenza artificiale, Minerva brucia le tappe: a giugno il quarto modello

Se è vero che chi guarda negli occhi la statua della Minerva nella sede della Sapienza verrà bocciato all’esame, si spera che per la famiglia di modelli di intelligenza artificiale dallo stesso nome, sviluppata proprio nell’università romana, gli auspici siano nettamente diversi. Proprio in queste ore è stata resa disponibile una public release della famiglia di Large language model italiani che sembra più avanti rispetto alle altre iniziative nel nostro Paese. Tutti possono quindi provare tre diversi modelli Minerva (da 350 milioni, 1 miliardo e 3 miliardi di parametri) addestrati da zero su contenuti in lingua italiana. I modelli americani sono lontani (Gpt4 lavora su trilioni di parametri, utilizzando un’enorme quantità di potenza di calcolo ed energia), ma la roadmap di Minerva prevede altre tappe, che arriveranno a breve.

A creare questa famiglia di Llm è stato il gruppo di ricerca Sapienza Natural Language Processing capitanato dal professore del Dipartimento di ingegneria informatica, Roberto Navigli (nell’immagine in evidenza). Il percorso dell’Llm va avanti nell’ambito del Fair (Future Artificial Intelligence Research), progetto di ricerca del Cnr finanziato dal Pnrr, e grazie alla capacità di calcolo del Cineca, il consorzio interuniversitario bolognese che ospita il supercomputer Leonardo.

La particolarità è quella di aver addestrato fonti ad accesso aperto da zero, e non utilizzando e adattando modelli precedenti, come Llama di Meta (che è stata utilizzata per Llamantino) o i modelli della francese Mistral (utilizzati per gli Llm di Dante a cui si sta lavorando sempre alla Sapienza) che comunque ha addestrato i suoi modelli grazie alla capacità di calcolo del supercomputer bolognese.

In tutto, le fonti utilizzate per l’addestramento di Minerva raggiungono 500 miliardi di parole, o 5 milioni di romanzi, un dato che è importante perché è un fattore moltiplicativo del numero di parametri, spiega Navigli a Fortune Italia: “Per ogni ‘valore’ di queste matrici devo decidere quante parole – o token – fornire come input”. Il risultato raggiunto da Minerva? Cinquecento miliardi di token, o parole, appunto: 250 in italiano e 250 in inglese.

La roadmap, la prima tappa: il benchmark

Il fatto che la fase di pre-addestramento sia stata fatta da zero va sottolineato, spiega Navigli: ci sono volute 40mila ore per arrivare ai primi modelli pre-addestrati con “controllo totale sui dati utilizzati”, ricavati da fonti aperte. “Le prossime tappe sono molto chiare: la prima è un benchmark di valutazione, un banco di prova dove verificare le prestazioni dei modelli rispetto a una serie di task”.

Questo primo benchmark ad ampio spettro in lingua italiana (e primo importante punto di contatto con i benchmark anglosassoni, visto che l’addestramento è stato effettuato anche in inglese), sarà rilasciato a giorni. I benchmark “esistono già in inglese, noi abbiamo addestrato Minerva ‘a metà’ proprio per avere un termine di paragone”. Verrà misurata l’attività di domanda e risposta, la risoluzione di ambiguità nel riferimento dei pronomi, la comprensione del linguaggio e altri fattori.

La seconda tappa: 7 miliardi di parametri

Finora il modello più potente di Minerva arriva a tre miliardi di parametri. Ma il team della Sapienza sta già lavorando a un quarto modello da 7 miliardi di parametri. “Sappiamo che siamo allo stato dell’arte per le dimensioni che abbiamo già raggiunto”, spiega Navigli. Ma i modelli a cui ci hanno abituato ChatGpt e i suoi rivali sono ancora lontani. “Ci sono due cose da considerare: più è grande il modello e migliori saranno le capacità di rispondere. Per avere prestazioni adeguate dovremo arrivare a 7 miliardi di parametri, e ora stiamo iniziando l’addestramento”.

La terza tappa: l’instruction fine tuning

L’altro fattore da considerare è che “il modello sia stato adattato per le istruzioni che gli si danno, ovvero che ci sia un ‘istruction fine tuning’: non l’abbiamo ancora fatto perché i modelli sono piccoli, ma solo così prepari un llm a rispondere a tutti i tipi di domande”. Per ora i modelli della Sapienza riescono a completare una frase con un input di partenza. Il che non vuol dire che non siano validi. “Questi modelli non vengono usati solo per la generazione di testo, ma anche per compiti di natural language processing come classificare un testo o fare riassunti automatici, o anche traduzioni: quando devo fare un singolo task anche i modelli più piccoli possono svolgerlo in maniera efficace e più flessibile”, riducendo le dimensioni del modello stesso fino a renderlo anche scaricabile su un singolo dispositivo.

Al di là di iperboliche risposte ‘italiane’ a ChatGpt – anche se con il fine-tuning il modello italiano sarà effettivamente pronto a conversare – tra i risultati principali del progetto c’è “l’aver sviluppato il know-how necessario sulla tecnologia dell’AI generativa. Questo è cruciale per sapere come si produce, capire quali sono i problemi, quali iper-parametri si possono modificare”, dice Navigli.

Una volta completate le tre tappe, verrà la parte difficile: bisognerà trovare la potenza di calcolo necessaria per arrivare all’obiettivo successivo (forse 13 miliardi di parametri) e il Cineca ha comunicato negli scorsi mesi di essere già sommerso di richieste per l’utilizzo del centro di supercalcolo. Una risorsa potrebbe essere un altro degli Hpc europei, o lo stesso Leonardo che nei prossimi mesi verrà potenziato attraverso l’installazione dell’upgrade ‘Lisa’.

Intanto, essere rapidi può essere fondamentale per sopravvivere nella corsa italiana della Gen AI: il Paese è alla ricerca dei suoi campioni italiani dell’intelligenza artificiale e di Llm nostrani da finanziare; e per lo sviluppo della Gen AI, come insegnano le Big Tech americane, servono fondi.