Se l’intelligenza artificiale viene addestrata con i dati dei bambini

By Eva Roytburg
Giugno 12, 2024

Alcuni ricercatori hanno scoperto che l’inarrestabile ricerca di dati per addestrare l’intelligenza artificiale in alcuni casi include una quantità crescente di contenuti sensibili, compresi i dettagli riguardanti bambini.

Almeno 170 link a foto e dettagli personali di bambini in Brasile sono stati ‘raschiati’ da Internet e utilizzati per addestrare sistemi di intelligenza artificiale senza il consenso o la conoscenza dei genitori, ha detto lo Human Rights Watch in un rapporto di questa settimana. Alcuni di questi sistemi di intelligenza artificiale hanno generato immagini esplicite e violente di bambini, ha detto HRW.

La legge brasiliana vieta il trattamento dei dati personali dei bambini senza il consenso del tutore, ha detto a Fortune Hye Jung Han, ricercatore e autore del rapporto.

I link alle foto sono stati raschiati da blog personali e siti di social media: un ampio set di dati chiamato LAION-5B, che è stato utilizzato per addestrare generatori di immagini popolari come Stable Diffusion. Le 170 foto di bambini sono probabilmente stimate al ribasso, ha detto HRW, dal momento che il gruppo ha esaminato solo lo 0,0001% dei 5,8 miliardi di immagini catturate in LAION-5B.

“La mia preoccupazione più ampia è che questa sia la punta dell’iceberg”, ha detto Han a Fortune. “È probabile che ci siano molti più bambini e molte più immagini di bambini brasiliani nel set di dati”.

LAION-5B ha raccolto foto di bambini risalenti al 1994 e che sono state chiaramente pubblicate con l’aspettativa che venisse tutelata la privacy, ha detto Han. Una delle foto mostra una bambina di 2 anni che incontra la sua sorellina appena nata, e la didascalia della foto include non solo i nomi di entrambe le bambine, ma anche il nome e l’indirizzo dell’ospedale in cui è nata la bambina.

Questo tipo di informazioni era disponibile negli url o nei metadati di molte delle foto, ha detto Han. L’identità dei bambini è spesso facilmente rintracciabile dalle foto, sia dalla didascalia, sia attraverso le informazioni sulla loro posizione quando è stata scattata la foto.

Bambini che ballano in mutande a casa, studenti che fanno una presentazione a scuola e liceali a un carnevale sono solo alcuni esempi delle foto personali che sono state prese da Internet.

Molte di queste sono state pubblicate da blog di mamme o screenshot presi da video personali di famiglia su Youtube con un piccolo numero di visualizzazioni, ha detto Han. Le foto “coprono l’intera infanzia”, ha rilevato il rapporto.

“È molto probabile che si trattasse di account personali e che” le persone che hanno caricato le immagini “volessero solo condividere questi video con familiari e amici”, ha aggiunto Han.

Tutte le versioni disponibili di LAION 5B sono state rimosse lo scorso dicembre dopo che un’indagine di Stanford ha scoperto che aveva preso immagini di abusi sessuali su minori. Nate Tyler, portavoce di LAION, l’organizzazione no-profit che gestisce il set di dati, ha detto che l’organizzazione sta lavorando con la Internet Watch Foundation, il Canadian Centre for Child Protection, Stanford e Human Rights Watch per rimuovere tutti i riferimenti noti a contenuti illegali da LAION 5B.

“Siamo grati per il loro supporto e speriamo di ripubblicare presto una versione riveduta di LAION 5B”, ha detto Tyler.

Ha aggiunto che, poiché LAION 5B è costruito da link URL, piuttosto che da fotografie dirette, la semplice rimozione dei link URL dal set di dati LAION non rimuoverà alcun contenuto illegale dal web.

Tuttavia, ci sono ancora informazioni identificative sui minori all’interno dei link, ha detto Han. Ha detto a Fortune di aver chiesto a LAION di fare due cose: prevenire l’utilizzo futuro dei dati dei bambini e rimuovere regolarmente i loro dati dal set di dati.

Laion “non ha risposto o si è impegnato in nessuna di queste cose”, ha detto Han.

Tyler non ha affrontato direttamente queste critiche, ma ha sottolineato l’impegno dell’organizzazione no-profit nell’affrontare il problema del materiale illegale nel database.

“Questo è un problema più grande e molto preoccupante, e come organizzazione di volontariato senza scopo di lucro, faremo la nostra parte per aiutare”, ha detto Tyler.

Gran parte dei dati di LAION-5B provengono da Common Crawl, un repository di dati che copia aree dell’open internet. Tuttavia, il direttore esecutivo di Common Crawl, Rich Skrenta, ha dichiarato in precedenza all’Associated Press che è responsabilità di LAION filtrare ciò che serve prima di utilizzarlo.

Una volta che le loro foto sono state raccolte, i bambini affrontano minacce reali alla loro privacy, ha detto Han. I modelli di intelligenza artificiale, compresi quelli addestrati sui dati LAION-5B, hanno notoriamente ‘masticato’ informazioni private, come cartelle cliniche o fotografie personali, quando richiesto.

I modelli di intelligenza artificiale possono ora generare cloni convincenti di un bambino con solo una o due immagini, ha scritto il rapporto.

Più maliziosamente, alcuni utenti hanno utilizzato siti di intelligenza artificiale text-to-image per generare pornografia infantile. Uno di questi siti, chiamato Civiai, addestra i propri dati su LAION-5B ed è invaso da richieste di contenuti espliciti: il 60% delle immagini generate sulla piattaforma sono considerate oscene. Alcuni utenti hanno chiesto e ricevuto immagini relative a “ragazza molto giovane” e “sesso con un cane”, secondo un ‘indagine di 404Media.

Civiai, su richiesta, ha anche generato immagini oscene di ragazze che non sembravano “adulte, vecchie” o “con un seno grande”, ha rivelato 404Media.

Dopo la pubblicazione dell’indagine, il fornitore di cloud computing di Civiai, OctoML, ha abbandonato la sua partnership con l’azienda. Ora, Civiai include un filtro NSFW, con grande sgomento di alcuni utenti, che hanno affermato che la piattaforma sarà ora come “qualsiasi altra”, secondo 404Media.

Un portavoce di CIviai ha dichiarato a Fortune che esclude chiunque produca contenuti NSFW che coinvolgano minori e ha introdotto una “membrana semipermeabile”, riferendosi al filtro che blocca i contenuti inappropriati.

La tecnologia deepfake ha già iniziato ad avere un impatto sulle ragazze, ha detto Han. Almeno 85 ragazze brasiliane hanno subito molestie da parte di compagni di classe che hanno utilizzato l’intelligenza artificiale per creare deepfake sessualmente espliciti di loro, sulla base di foto prese dai loro profili sui social media, secondo il rapporto. Han ha detto di aver iniziato a indagare sull’argomento a causa della coerenza e del realismo di questi deepfake.

“Ho iniziato a guardare cosa c’era in questa tecnologia che era in grado di produrre immagini così realistiche, immagini orribili, di bambini brasiliani, e quell’indagine mi ha portato al set di dati di addestramento”, ha aggiunto Han.

Gli Stati Uniti hanno assistito a una serie di incidenti simili. Almeno due scuole superiori hanno affrontato scandali con ragazzi che hanno generato immagini di nudo deepfake di dozzine di loro compagne di classe.

Questa storia è stata originariamente pubblicata su Fortune.com