Bufera dopo il lancio di Claude Fable 5: il modello omette segretamente alcune risposte agli utenti

GettyImages Claude Fable

Quando Anthropic ha reso disponibile al grande pubblico il suo primo modello di livello Mythos, denominato Claude Fable 5, Fortune lo ha definito un “passo importante” per il laboratorio di ricerca, arrivato poco più di una settimana dopo il deposito riservato della documentazione per una futura quotazione in Borsa (IPO).

Inizialmente, l’azienda aveva ritenuto i modelli della classe Mythos troppo pericolosi per essere distribuiti pubblicamente, citando la loro capacità significativamente superiore di individuare vulnerabilità software. Tuttavia, Anthropic ha dichiarato di avere ora sufficiente fiducia nelle nuove misure di sicurezza integrate in Claude Fable 5 per impedire che tali capacità vengano utilizzate in modo improprio.

La scoperta che ha acceso le polemiche

A poche ore dal rilascio del modello, sui social media è esplosa una forte reazione negativa da parte di ricercatori, sviluppatori ed esperti di politiche sull’intelligenza artificiale.

Le critiche si sono concentrate su un passaggio contenuto nelle 319 pagine della documentazione tecnica dedicata alla sicurezza del sistema. In quel documento si rivelava che Fable 5 avrebbe ridotto deliberatamente la qualità delle proprie risposte quando avesse identificato richieste legate allo sviluppo di tecnologie di frontiera nel campo dell’AI, come la costruzione delle infrastrutture utilizzate per addestrare i grandi modelli linguistici.

In pratica, un utente potrebbe chiedere assistenza al modello e ricevere una risposta intenzionalmente depotenziata senza sapere che il sistema sta trattenendo informazioni.

Secondo molti critici, questo comportamento mina un principio fondamentale: uno strumento dovrebbe o fornire l’aiuto richiesto oppure dichiarare apertamente di non poterlo fare.

Restrizioni invisibili agli utenti

A differenza di altre limitazioni già presenti nel sistema — ad esempio quelle relative alla cybersecurity o alla biologia, che prevedono il reindirizzamento verso un modello meno potente accompagnato da una notifica visibile — in questo caso il documento tecnico sottolinea che l’intervento “non è visibile all’utente”.

Il modello continua infatti a rispondere, ma applica meccanismi progettati per “limitare l’efficacia di Claude” senza informare chi lo utilizza.

Anthropic stima che tali restrizioni riguarderanno circa lo 0,03% del traffico complessivo. L’azienda ha però difeso la propria scelta, sostenendo che “l’applicazione di questa restrizione attraverso i sistemi di salvaguardia evita di accelerare gli attori maggiormente disposti a violare tali condizioni”.

La reazione della comunità dell’intelligenza artificiale

La risposta della comunità dell’AI è stata particolarmente dura e trasversale, coinvolgendo sia sostenitori dell’open source, spesso critici verso le politiche chiuse di Anthropic, sia esperti di sicurezza dell’AI normalmente vicini alle posizioni dell’azienda.

Nathan Lambert, ricercatore specializzato in modelli aperti e già responsabile di importanti progetti presso AI2, ha scritto: “Vedermi sottrarre in modo occulto l’accesso ai modelli più avanzati necessari per il mio lavoro è sconvolgente. Per me questa scelta dimostra chiaramente che Anthropic è contro la scienza e quindi contro il progresso e la sicurezza”.

Anche Dean Ball, senior fellow della Foundation for American Innovation ed ex consulente politico presso l’Office of Science and Technology Policy della Casa Bianca, ha criticato la misura, definendola una politica di “sabotaggio segreto” che rafforza notevolmente l’argomento secondo cui la sicurezza dell’IA sarebbe stata utilizzata come giustificazione per comportamenti monopolistici da parte dei grandi laboratori.

Jeremy Howard, fondatore del gruppo di ricerca senza scopo di lucro Fast AI, ha invece affermato: “Anthropic ha scelto l’opposto della strada più sicura: consente a sé stessa, in quanto laboratorio leader del settore, di utilizzare il proprio modello più avanzato per la ricerca di frontiera, mentre ostacola chiunque altro tenti di fare lo stesso. In questo modo la frontiera dell’IA continua ad avanzare e lo squilibrio di potere aumenta”.

Le critiche degli ex dipendenti

Alle contestazioni si sono aggiunti anche alcuni ex membri del team Anthropic. Behnam Neyshabur, che aveva contribuito allo sviluppo di un progetto per creare uno “scienziato artificiale”, ha ironizzato sulla piattaforma X: “State lavorando all’IA per la cura del cancro? Mi dispiace, non posso aiutarvi. State lavorando all’IA per l’Alzheimer? Mi dispiace, divento improvvisamente meno intelligente quando si tratta della componente di intelligenza artificiale”.

In un successivo intervento ha aggiunto: “Da otto mesi sostengo che la situazione si stesse dirigendo in questa direzione. A mio avviso, concentrare queste capacità nelle mani di pochi rallenta il progresso scientifico e tecnologico ed è complessivamente dannoso per l’umanità”.

Non mancano le voci favorevoli

Non tutte le figure di spicco del settore hanno però espresso critiche. Ethan Mollick, professore associato alla Wharton School e studioso di innovazione e imprenditorialità legati all’AI, ha preferito concentrarsi sulle prestazioni del sistema, scrivendo in un post che Claude Fable 5 “ha superato praticamente ogni altro modello pubblico utilizzato finora con un margine considerevole”.

Anche Andrej Karpathy, cofondatore di OpenAI ed ex responsabile dell’intelligenza artificiale di Tesla, entrato recentemente in Anthropic, ha definito Claude Fable 5 un “rilascio estremamente entusiasmante” e un “salto generazionale degno di una nuova versione principale”.

Karpathy ha comunque riconosciuto alcuni limiti, osservando che il modello “presenta ancora alcune stranezze che gli utenti incontreranno” e che i sistemi di protezione risultano “un po’ troppo sensibili al momento del lancio”, pur ritenendo che possano essere perfezionati nel tempo.

La posizione di Anthropic: accessibilità e sicurezza devono convivere

Prima del rilascio, Anthropic sembrava prepararsi a possibili critiche, pur senza affrontare direttamente la questione delle restrizioni applicate alla ricerca avanzata.

In un’intervista a Fortune, Dianne Na Penn, responsabile della gestione prodotto, della ricerca e dei laboratori dell’azienda, ha dichiarato che il nuovo modello raggiunge prestazioni di frontiera superiori di circa 10-20 puntirispetto al precedente Opus 4.8 e ad altri modelli concorrenti.

“Credo che l’aspetto principale che le persone dovrebbero cogliere sia che siamo riusciti a ottenere questo livello di capacità mantenendo al tempo stesso adeguate misure di protezione, rendendo il modello accessibile e generalmente sicuro”, ha spiegato.

“Stiamo innalzando il livello di intelligenza dei modelli e, contemporaneamente, stiamo avanzando sulla frontiera tecnologica in modo responsabile”.

La dirigente ha inoltre riconosciuto che alcune richieste legittime potrebbero inizialmente essere bloccate: “Stiamo lavorando attivamente per migliorare questi sistemi di protezione dopo il lancio, ma volevamo rendere il modello disponibile al pubblico in condizioni di sicurezza il prima possibile”.

Anthropic non ha risposto alla richiesta di commento avanzata da Fortune.

L’articolo originale è disponibile su Fortune.com.

Credit Foto: GettyImages 

Poste Italiane Dic 25

Leggi anche

Ultima ora

ABBIAMO UN'OFFERTA PER TE

€2 per 1 mese di Fortune

Oltre 100 articoli in anteprima di business ed economia ogni mese

Approfittane ora per ottenere in esclusiva:

Fortune è un marchio Fortune Media IP Limited usato sotto licenza.