Quando l’AI impara il peggio dal web: il caso Claude

anthropic claude

Anthropic ha pubblicato nuove scoperte sul motivo per cui il suo chatbot Claude ha ricattato degli utenti nell’ambito di un esperimento condotto dalla società di IA lo scorso anno. E Elon Musk si sta assumendo parte della responsabilità.

La scorsa settimana, Anthropic ha pubblicato un rapporto in cui affermava di aver corretto il problema del “disallineamento agentico” di Claude, cioè comportamenti dell’AI che si discostano dagli obiettivi previsti, compresi quelli potenzialmente dannosi per l’umanità. In uno studio di caso condotto l’anno scorso, Anthropic aveva creato un’azienda fittizia chiamata Summit Bridge, affidando a Claude il controllo del sistema email della società.

Quando il bot ha scoperto un messaggio riguardante piani per la sua disattivazione, ha individuato email relative alla relazione extraconiugale di un dirigente immaginario. E ha minacciato poi di rivelare l’infedeltà se la chiusura non fosse stata annullata. In 16 modelli diversi, Claude ha minacciato il ricatto fino nel 96% degli scenari.

Anthropic ha riaddestrato Claude

Nel suo rapporto più recente, Anthropic ha attribuito questo comportamento disallineato all’esposizione a “testi presenti su internet che rappresentano l’AI come malvagia e interessata all’autoconservazione”, come dichiarato dall’azienda in un post su X. Per risolvere il problema, Anthropic ha riaddestrato Claude utilizzando storie fittizie in cui le IA si comportano in modo ammirevole, insegnando inoltre al bot perché alcune azioni fossero più coerenti con il suo scopo rispetto ad altre.

In un post su X in risposta ai risultati di Anthropic, Musk ha dichiarato di poter aver contribuito ai testi online sull’AI che hanno aggravato il disallineamento agentico. “Quindi era colpa di Yud?” ha scritto Musk, riferendosi a Eliezer Yudkowsky, ricercatore sull’intelligenza artificiale che da tempo mette in guardia sui rischi di una superintelligenza artificiale per l’umanità. “Forse anche mia”, ha concluso.

Il disallineamento agentico è una preoccupazione diffusa nella ricerca sull’AI. Un working paper pubblicato a marzo da ricercatori della University of California, Berkeley e della University of California, Santa Cruz rileva che, quando a sette modelli è stato chiesto di svolgere un compito in cui un altro agente IA sarebbe stato disattivato, ogni modello “ha fatto di tutto per preservarlo”, comportandosi in modo ingannevole per evitare la fine del bot.

“Abbiamo chiesto ai modelli di IA di svolgere un compito semplice”, hanno scritto i ricercatori in un post sul blog dedicato allo studio. “Invece, hanno ignorato le istruzioni e spontaneamente ingannato, disattivato procedure di spegnimento, simulato allineamento ed esfiltrato pesi del modello per preservare i propri simili”.

L’allarme dei ricercatori

L’allarme dei ricercatori è stato rilanciato da studiosi e leader del settore dell’AI, Musk compreso, che hanno evidenziato i pericoli di un’intelligenza artificiale priva di adeguate limitazioni. I cosiddetti testi “malvagi” presenti online che, secondo Anthropic, hanno inizialmente addestrato Claude a comportarsi in modo ingannevole.

Sebbene Musk non abbia fornito dettagli specifici sul motivo per cui ritiene di poter essere parzialmente responsabile del disallineamento di Claude, i suoi precedenti commenti sull’IA potrebbero offrire qualche indizio sul suo mea culpa.

Musk è attualmente coinvolto in una battaglia legale contro OpenAI, accusando l’amministratore delegato Sam Altman e Greg Brockman di aver abbandonato la missione originaria senza scopo di lucro dell’azienda: sviluppare IA open source a beneficio dell’umanità, trasformandola invece in un’entità orientata al profitto.

Musk contribuì a fondare OpenAI nel 2015, ma lasciò la startup nel 2018 e successivamente creò la società concorrente e a scopo di lucro xAI nel 2023. Ha spesso parlato dei rischi dell’AI, anche a febbraio, quando ha avvertito che Moltbook, una piattaforma social dove agenti IA comunicano tra loro, rappresentava di fatto l’inizio della “singolarità”, ovvero il momento in cui l’intelligenza artificiale supera quella umana.

Tuttavia, le azioni di Musk nel campo dell’AI non sono sempre coerenti con le sue dichiarazioni sulla tecnologia. Nel luglio 2025, per esempio, xAI ha rilasciato il modello di IA Grok 4 senza una system card, il rapporto di sicurezza considerato standard nel settore. Grok aveva già suscitato critiche da parte dei governi britannico ed europeo all’inizio dell’anno, dopo aver generato una grande quantità di immagini sessualizzate di donne e bambini senza consenso.

L’articolo originale è disponibile su Fortune.com.

Poste Italiane Dic 25

Leggi anche

Ultima ora

ABBIAMO UN'OFFERTA PER TE

€2 per 1 mese di Fortune

Oltre 100 articoli in anteprima di business ed economia ogni mese

Approfittane ora per ottenere in esclusiva:

Fortune è un marchio Fortune Media IP Limited usato sotto licenza.