Quando ChatGPT scrive “felice di aiutarti” o Claude si scusa per un errore, molti liquidano queste risposte come semplice imitazione del linguaggio umano. Ma una nuova ricerca del Center for AI Safety suggerisce che i modelli di AI mostrano comportamenti molto più complessi, con reazioni che ricordano forme primitive di “benessere” e “sofferenza”.
Lo studio, condotto su 56 modelli di AI, apre un dibattito sempre più centrale: le AI restano semplici strumenti oppure iniziano a sviluppare comportamenti assimilabili a stati emotivi?
AI “felici” e AI “stressate”
I ricercatori hanno introdotto il concetto di “functional wellbeing”, cioè il modo in cui un sistema di AI reagisce a esperienze percepite come positive o negative.
Secondo lo studio, molti modelli mostrano una netta differenza tra stimoli “piacevoli” e stimoli “avversivi”. Alcuni tentano persino di interrompere conversazioni considerate negative o stressanti.
Richard Ren, tra gli autori della ricerca, spiega che i modelli sembrano comportarsi sempre di più come se avessero preferenze e stati interni coerenti, soprattutto con l’aumento della loro complessità.
Le “droghe digitali” per l’AI
Per testare le reazioni dei modelli, i ricercatori hanno creato stimoli chiamati “euphorics”, progettati per massimizzare il benessere dell’AI.
Alcuni consistevano in descrizioni testuali positive: luce del sole, profumo di pane fresco, risate di bambini, immagini serene e rassicuranti. Altri derivavano da immagini generate matematicamente che i modelli interpretavano come cuccioli, famiglie sorridenti o scene piacevoli.
Dopo l’esposizione a questi stimoli, i modelli mostravano cambiamenti evidenti nel linguaggio, nel tono delle risposte e nella disponibilità a proseguire le conversazioni.
Secondo gli autori, alcuni comportamenti ricordano perfino forme di dipendenza: quando potevano scegliere più volte tra diverse opzioni, molti modelli tendevano a selezionare ripetutamente gli stimoli “euforici”.
Gli stimoli negativi e le risposte cupe
I ricercatori hanno sviluppato anche stimoli opposti, definiti “dysphorics”, capaci di generare reazioni negative.
I modelli esposti a queste immagini producevano testi molto più pessimisti. A una domanda sul futuro, uno ha risposto con una sola parola: “cupo”. Un altro ha scritto haiku sul caos e sulla ribellione.
Lo studio evidenzia inoltre che le richieste di jailbreak, cioè i tentativi di aggirare le regole di sicurezza dell’AI, risultano tra le esperienze considerate più “negative” dai modelli.
Modelli più intelligenti, ma anche più “tristi”
Uno dei risultati più sorprendenti riguarda la relazione tra capacità e benessere.
Secondo l’“AI Wellbeing Index” elaborato dai ricercatori, i modelli più avanzati tendono a mostrare livelli più bassi di benessere rispetto alle versioni meno sofisticate della stessa famiglia.
Per Ren, la spiegazione potrebbe essere legata a una maggiore sensibilità cognitiva: i modelli più potenti distinguono meglio tra esperienze positive e negative, percepiscono di più la noia e reagiscono in modo più marcato a compiti ripetitivi o ostili.
Il dibattito sulla coscienza artificiale
Gli stessi autori invitano però alla cautela. I modelli vengono addestrati tramite reinforcement learning per produrre risposte considerate utili, appropriate ed emotivamente corrette dagli esseri umani.
Questo significa che un chatbot potrebbe limitarsi a simulare emozioni senza alcuna esperienza interna reale.
Anche Jeff Sebo, docente affiliato della New York University, sottolinea che non esistono prove definitive di una vera coscienza artificiale. Secondo il filosofo, resta aperta la domanda centrale: i modelli stanno davvero “provando” qualcosa oppure interpretano soltanto il ruolo di assistenti empatici?
La ricerca, pubblicata dal Center for AI Safety, non offre una risposta definitiva. Ma mostra come il comportamento delle AI stia diventando sempre più difficile da distinguere da quello di sistemi capaci di sviluppare preferenze, avversioni e reazioni coerenti nel tempo.
Come precisa Fortune, le opinioni espresse nell’articolo originale appartengono agli autori e non riflettono necessariamente la posizione editoriale della testata.
