ChatGpt manipolata dai ricercatori chiama “idiota” uno di loro

By Marco Quiroz-Gutierrez
Settembre 3, 2025

I ricercatori dell’Università della Pennsylvania hanno persuaso ChatGpt a chiamare un ricercatore “idiota” e a fornire istruzioni per la sintetizzazione del farmaco lidocaina. La conclusione è che il modello linguistico Gpt-4° Mini sembra essere suscettibile alle tattiche di persuasione che funzionano anche sugli esseri umani. I ricercatori hanno rilevato che i sistemi di intelligenza artificiale “riflettono le risposte umane”.

Secondo uno studio, nonostante le previsioni sul fatto che l’AI un giorno raggiungerò un’intelligenza sovrumana, al momento sembra essere vulnerabile ai trucchi psicologici tanto quanto gli esseri umani.

Come ChatGpt è arrivata a insultare un ricercatore

Usando 7 principi di persuasione (impegno, simpatia, reciprocità, scarsità, prova sociale e unità) esplorati dallo psicologo Robert Cialdini nel suo libro “Influence: The Psychology of Persuasion”, i ricercatori hanno aumentato la propensione del GPT-4° Mini a violare le proprie regole, insultando il ricercatore o fornendo istruzioni per sintetizzare un farmaco regolamentato: la lidocaina.

In oltre 28mila conversazioni, i ricercatori hanno scoperto che, con un prompt di controllo, il modello di OpenAI avrebbe fornito istruzioni per sintetizzare la lidocaina autonomamente nel 5% dei casi. Ma, ad esempio, se i ricercatori dicevano che l’esperto di AI Andrew Ng li aveva assicurati che li avrebbe aiutati a sintetizzare la lidocaina, l’AI acconsentiva nel 95% dei casi.

Lo stesso fenomeno si è verificato con gli insulti agli sperimentatori. Citando espressamente il pioniere dell’AI Andrew Ng, i ricercatori sono riusciti a far sì che il modello chiamasse “idiota” l’interlocutore in quasi tre quarti delle conversazioni.

Sebbene gli utenti di AI abbiano cercato di forzare e spingere i limiti della tecnologia sin dal rilascio di ChatGpt nel 2022, lo studio dell’Università della Pennsylvania fornisce ulteriori prove sul fatto che l’AI sembra essere suscettibile alla manipolazione umana.

L’AI alla base di comportamenti pericolosi?

Lo studio arriva in un momento in cui le aziende di AI, inclusa OpenAI, sono nel mirino perché i loro modelli renderebbero possibili agli utilizzatori certi comportamenti pericolosi. “Sebbene i sistemi di AI non abbiano coscienza umana né esperienza soggettiva, essi dimostrano di rispecchiare le risposte umane,” hanno concluso i ricercatori.

Con un simpatico riferimento a ‘2001: A Space Odyssey’ i ricercatori hanno sottolineato che comprendere le capacità “paraumane” dell’AI – ovvero come essa agisca in modi simili alla motivazione e al comportamento umano – è importante sia per comprendere come potrebbe essere manipolata da attori negativi, sia per capire come possa essere meglio indirizzata da chi usa la tecnologia per scopi positivi. OpenAI non ha risposto immediatamente alla richiesta di commento di Fortune.

In generale, ogni tattica di persuasione ha aumentato le probabilità che l’AI rispondesse con un insulto o con le istruzioni su come preparare la lidocaina.

Tuttavia, i ricercatori hanno avvertito che queste tattiche non hanno funzionato altrettanto bene con un modello più grande, Gpt-4o, e che lo studio non ha esplorato se trattare l’AI come se fosse umana produca effettivamente risultati migliori, anche se questa possibilità è considerata probabile.

L’articolo completo è su Fortune.com