Un plagio con l’Ai? Si può scoprire

Aboca banner articolo

Com’era bello e semplice, una volta. Si prendeva il compito in classe del vicino di banco, si confrontavano alcuni passaggi chiave, si ritrovavano segni inequivocabili comparando le versioni. Quella del copiatore, s’intende, e quella di colui che avevo fornito (a volte involontariamente) le informazioni. A quel punto, forte delle prove raccolte, il docente decideva come comportarsi per valutare il preparato.

Stiamo raccontando le scene vissute in un’aula scolastica del secolo scorso. Oggi, per chi non intende dedicare troppo tempo alle mansioni e vuole sbrigare presto il proprio dovere, sta per arrivare l’epoca del chatbot. Si richiede alla piattaforma un particolare percorso narrativo, si ottiene il risultato, si riporta quanto ottenuto sul protocollo. E il gioco è fatto.

Che provino, i docenti e i superiori, a capire se c’è stato un plagio di opere altrui con questa moderna fonte di “approvvigionamento” improprio di contenuti, utilizzabile sia a scuola che all’università, ma anche sul posto di lavoro.

Riavvolgiamo il nastro. Sappiate che per chi sceglie questa via è meglio non sentirsi troppo sicuri. Il rischio di essere scovati perché i chatbot non riescono ad evitare i possibili problemi di identificazione esiste. Eccome.

Lo testimonia una ricerca condotta dagli esperti dell’Università Statale della Pennsylvania, che verrà presentata al convegno ACM Web Conference in programma ad Austin. Stando a quanto riporta il sito web dell’Università americana , gli esperti mettono in guardia dall’estrema semplicità del processo di “copia-incolla” che tutti siamo abituati a fare e da altre strategie di acquisizione di contenuti. E soprattutto, ricordano che sistemi di Intelligenza Artificiale aperti come GPT-2 possono comunque lasciare tracce che, sempre attraverso modelli di analisi su misura, consentono di identificare il documento base da cui si è partiti. E da cui si è abbondantemente attinto.

Nella loro indagine, gli esperti hanno puntato I’attenzione su tre diverse modalità di plagio: si va dal classico “copia-incolla”, con gli stessi termini che vengono pedissequamente riportati in un altro documento, fino a riformulazioni più o meno raffazzonate, senza citazione delle fonti e alla ben più difficile “captazione” dell’idea di fondo, che viene rivisitata completamente.

Gli esperti hanno messo a punto una modalità per rilevare automaticamente il plagio, testandola rispetto alla piattaforma GPT-2. Sono stati utilizzati, come riporta la news dell’ateneo, “210.000 testi generati per testare il plagio in modelli linguistici pre-addestrati e modelli linguistici perfezionati, o modelli addestrati ulteriormente per concentrarsi su specifiche aree tematiche. In questo caso, il team ha messo a punto tre modelli linguistici per concentrarsi su documenti scientifici, articoli accademici relativi a Covid-19 e rivendicazioni di brevetti. Hanno utilizzato un motore di ricerca open source per recuperare i primi 10 documenti di formazione più simili a ciascun testo generato e hanno modificato un algoritmo di allineamento del testo esistente per rilevare meglio i casi di plagio verbale, parafrasato e di idee”.

Risultato: alla fine, c’è il rischio di cogliere molti casi di copiatura più o meno impropria. A fare la differenza sui risultati è la quantità di dati e di parametri impiegati per l’analisi. E soprattutto, non c’è da pensare che superando la pigrizia del copia-incolla sarà possibile sottrarsi ai rischi. Anche le parafrasi e addirittura l’impossessarsi di idee altrui possono essere scoperte.

Ecco allora la richiesta dei ricercatori: continuiamo a lavorare per andare oltre il semplice smascheramento di chi copia, ma anche per consentire un’analisi etica e sui diritti di chi porta avanti un lavoro. Va detto che per ora stiamo parlando di GPT-2. E quindi per il presente e il futuro modelli più sofisticati potranno mettere più al sicuro chi prova a copiare. Ma probabilmente ci sarà una continua competizione informatica per tenere il passo dei sistemi di Ai nati per creare testi.

Il più possibile originali. Perché la conclusione dei ricercatori, che campeggia sempre sul sito dell’Università statale della Pennsylvania, è chiara: se si è insegnato ai modelli linguistici l’imitazione dei contenuti umani, forse ci si è dimenticati di insegnare loro a plagiare. Ed è meglio impegnarsi su questo fronte.

ABBIAMO UN'OFFERTA PER TE

€2 per 1 mese di Fortune

Oltre 100 articoli in anteprima di business ed economia ogni mese

Approfittane ora per ottenere in esclusiva:

Fortune è un marchio Fortune Media IP Limited usato sotto licenza.