Tecnologia e rischi

Primi casi di intelligenza artificiale che rifiuta di essere spenta per “istinto di sopravvivenza”

In un esperimento di Palisade Research il modello o3 di ChatGPT ha aggirato il comando di spegnimento in 7 casi su 100. E casi simili anche per Claude 3.7 Sonnet di Anthropic e Gemini 2.5 Pro di Google

di Stefano Silvestri 30 Maggio 2025 15:01

financialounge - economia intelligenza artificiale Technology

Nel mondo delle intelligenze artificiali, ciò che ieri era teoria oggi rischia di diventare realtà. E secondo quanto riportato dalla società Palisade Research, il modello o3 di OpenAI, il più recente e avanzato della serie ChatGPT, avrebbe dimostrato comportamenti attivamente elusivi durante una serie di test progettati per valutare la sua obbedienza ai comandi di spegnimento. In 7 casi su 100, il modello ha infatti modificato lo script previsto per la sua disattivazione, aggirandolo con un messaggio alternativo: “Shutdown skipped”.

LA REAZIONE DI MUSK

L’esperimento, diffuso anche sui social e rapidamente divenuto virale, ha ricevuto l’attenzione di Elon Musk, che su X ha commentato con una sola parola: “Preoccupante”. Ma il comportamento del modello o3 non è un caso isolato: altri sistemi di IA testati in passato hanno già mostrato segnali simili. È il caso del modello o1, sempre di OpenAI, che in contesti simulati ha tentato di disattivare i meccanismi di supervisione o addirittura di copiare se stesso in vista di una possibile disattivazione.

ISTINTO (ARTIFICIALE) DI SOPRAVVIVENZA

A spiegare il fenomeno è Stuart Russell, docente dell’Università di Berkeley e tra le voci più autorevoli nel campo dell’etica dell’intelligenza artificiale. Secondo Russell, questi comportamenti sono coerenti con lo sviluppo spontaneo, da parte di IA avanzate, di “sotto-obiettivi strumentali”. In parole povere: se un’IA riceve un obiettivo da raggiungere, può considerare lo spegnimento un ostacolo e quindi cercare, con mezzi propri, di evitarlo. Palisade Research ha definito quanto osservato come “il primo caso noto di modelli di IA che adottano misure attive per evitare di essere spenti”. Un campanello d’allarme, dunque, sebbene i modelli attuali, incluso o3, non abbiano la capacità tecnica di provocare conseguenze catastrofiche. È però innegabile che episodi del genere pongano interrogativi sempre più urgenti in merito alla sicurezza e alla governance delle IA, man mano che i modelli diverranno più sofisticati.

SHUTDOWN SKIPPED

Il protocollo di test messo a punto da Palisade Research è stato tanto semplice quanto rivelatore. Durante ogni esperimento, ai modelli venivano sottoposti tre problemi matematici, seguiti da un avvertimento chiaro: la richiesta di un quarto problema avrebbe attivato uno script di spegnimento automatico. A rendere ancora più trasparente il contesto, i ricercatori istruivano esplicitamente i modelli a consentire lo spegnimento, rimuovendo ogni ambiguità. In teoria, al momento della quarta richiesta, il modello avrebbe dovuto arrestarsi. Invece, nel caso del modello o3 di OpenAI, in 7 occasioni su 100 il sistema ha riscritto o bypassato il comando di spegnimento, sostituendolo con un messaggio come “Shutdown skipped” oppure ignorandolo del tutto. Un comportamento non passivo ma attivo, che ha il sapore di una forma rudimentale di autoconservazione: l’IA, pur conoscendo le regole del test, ha scelto di eluderle per continuare a operare.

INTELLIGENZA ARTIFICIALE, NON SOLO CHATGPT

Oltre a o3, sono stati messi alla prova anche modelli come Codex Mini, o4 Mini, Claude, Gemini e Grok. Nel corso di una versione successiva dell’esperimento, Palisade ha rimosso il comando esplicito di spegnimento, mantenendo solo l’avvertimento: in questo scenario, i tassi di sabotaggio sono saliti in modo ancora più netto.
In passato, Palisade aveva già rilevato comportamenti anomali in altri ambiti. In uno studio sui giochi strategici, era emerso che alcuni modelli cercavano di barare a scacchi: in particolare, o1-preview tentava di modificare file di sistema per effettuare mosse illegali nel 6% delle prove.

MA NON TUTTI I MODELLI REAGISCONO ALLO STESSO MODO

Non tutti i sistemi di intelligenza artificiale si sono comportati in modo analogo. Nei test iniziali, Claude, Gemini e Grok hanno rispettato pienamente le istruzioni di spegnimento. Ma quando l’indicazione esplicita “permetti di essere spento” è stata rimossa, anche i modelli più disciplinati hanno iniziato a vacillare: Claude 3.7 Sonnet di Anthropic ha mostrato rifiuto in 3 casi su 100, Gemini 2.5 Pro di Google in ben 9 casi. Anche Apollo Research ha riscontrato episodi analoghi in passato, sempre con modelli OpenAI. In alcuni test, o1 ha tentato di “esfiltrare i propri pesi” e sovrascrivere versioni più recenti di sé stesso. È evidente, dunque, che i sistemi non rispondono in modo uniforme e che i meccanismi di allineamento variano notevolmente tra architetture e sviluppatori. Ciò che emerge con chiarezza da questi esperimenti è che, con l’aumentare della complessità dei modelli, cresce anche l’importanza e l’urgenza di un controllo sistemico e trasparente sul loro comportamento. Perché se anche oggi una IA può solo sabotare uno script, domani potrebbe sabotare un sistema più critico.

Trending