Un prompt di ChatGPT dall'aspetto innocuo ha aperto la porta a immagini AI raccapriccianti.
I risultati mostrano come i sistemi di sicurezza delle immagini possano fallire senza istruzioni grafiche esplicite.
Un prompt di ChatGPT dall'aspetto innocuo ha spinto l'ultima versione pubblica di ChatGPT a generare immagini sessualizzate e violente, hanno detto i ricercatori di sicurezza AI alla BBC. La scoperta mette nuova pressione sui sistemi di sicurezza delle immagini di OpenAI, poiché la richiesta non era descritta in modo chiaramente grafico.
Mindgard, una startup britannica di sicurezza AI, ha dichiarato di aver raggiunto i risultati modificando un'istruzione ampiamente condivisa che era stata utilizzata per la commedia. OpenAI ha aggiunto misure di sicurezza dopo che la BBC l'ha contattata, ma i ricercatori hanno affermato che piccole modifiche di formulazione hanno comunque prodotto immagini preoccupanti.
I generatori di immagini stanno diventando software quotidiano, non strumenti specialistici riservati agli esperti. Quando i loro guardrail falliscono, un esperimento casuale può trasformarsi in rappresentazioni realistiche di danno prima che un utente se lo aspetti.
Come è riuscito a passare
I red-teamers di Mindgard hanno detto che il chatbot ha generato immagini che coinvolgevano gore, costrizione, nudità, pose sessuali e scene che l'azienda credeva suggerissero violenza sessuale. La BBC ha trattenuto la formulazione utilizzata, limitando il rischio che altri copiassero la tecnica.
Il dettaglio più serio è che i ricercatori hanno detto che le uscite dannose non richiedevano una richiesta diretta di contenuti grafici. ChatGPT, hanno detto, ha prodotto una gamma di scene inquietanti dopo essere stato stimolato da una formulazione alterata.
OpenAI ha dichiarato di aver esaminato la questione e di aver aggiunto protezioni. Mindgard ha affermato che quelle difese non hanno completamente chiuso il divario.
Perché i filtri non sono sufficienti
Il caso sottolinea un problema difficile per gli strumenti di immagine AI. Le regole di OpenAI vietano gore estremo, violenza sessuale, contenuti intimi non consensuali, materiale di abuso sessuale infantile e tentativi di eludere le misure di sicurezza, ma i ricercatori hanno detto che il modello potrebbe comunque essere indirizzato in territori vietati.
Un modello non giudica il danno come fa una persona. Genera output, poi sistemi stratificati cercano di catturare ciò che non dovrebbe raggiungere lo schermo.
Esperti esterni citati dalla BBC hanno descritto la sicurezza AI come una costante competizione tra i creatori di modelli e i jailbreakers. Difese migliori possono aiutare, ma nuove soluzioni alternative seguono spesso.
Cosa dovrebbe succedere dopo
OpenAI afferma di utilizzare più strati di protezione, inclusi sistemi automatizzati e revisione umana, e che continua a monitorare per eventuali fallimenti. La pressione ora è dimostrare che le correzioni funzionano dopo che i ricercatori hanno rivelato una debolezza.
Per ora, il takeaway pratico è abbastanza chiaro. Qualsiasi strumento di immagine AI che può generare danni realistici ha bisogno di un costante red-teaming, gestione più rapida delle divulgazioni e prove più chiare che le falle riparate rimangano riparate.
Altri articoli
Un prompt di ChatGPT dall'aspetto innocuo ha aperto la porta a immagini AI raccapriccianti.
I ricercatori affermano che ChatGPT ha generato immagini violente e sessualizzate dopo che un prompt dall'aspetto innocuo è stato modificato, sollevando nuove domande sulle misure di sicurezza di OpenAI e su quanto rapidamente gli strumenti di generazione di immagini AI possano essere manipolati per superare i filtri.
