Un prompt di ChatGPT dall'aspetto innocuo ha aperto la porta a immagini AI raccapriccianti.

      I risultati mostrano come i sistemi di sicurezza delle immagini possano fallire senza istruzioni grafiche esplicite.

      Un prompt di ChatGPT dall'aspetto innocuo ha spinto l'ultima versione pubblica di ChatGPT a generare immagini sessualizzate e violente, hanno detto i ricercatori di sicurezza AI alla BBC. La scoperta mette nuova pressione sui sistemi di sicurezza delle immagini di OpenAI, poiché la richiesta non era descritta in modo chiaramente grafico.

      Mindgard, una startup britannica di sicurezza AI, ha dichiarato di aver raggiunto i risultati modificando un'istruzione ampiamente condivisa che era stata utilizzata per la commedia. OpenAI ha aggiunto misure di sicurezza dopo che la BBC l'ha contattata, ma i ricercatori hanno affermato che piccole modifiche di formulazione hanno comunque prodotto immagini preoccupanti.

      I generatori di immagini stanno diventando software quotidiano, non strumenti specialistici riservati agli esperti. Quando i loro guardrail falliscono, un esperimento casuale può trasformarsi in rappresentazioni realistiche di danno prima che un utente se lo aspetti.

      Come è riuscito a passare

      I red-teamers di Mindgard hanno detto che il chatbot ha generato immagini che coinvolgevano gore, costrizione, nudità, pose sessuali e scene che l'azienda credeva suggerissero violenza sessuale. La BBC ha trattenuto la formulazione utilizzata, limitando il rischio che altri copiassero la tecnica.

      Il dettaglio più serio è che i ricercatori hanno detto che le uscite dannose non richiedevano una richiesta diretta di contenuti grafici. ChatGPT, hanno detto, ha prodotto una gamma di scene inquietanti dopo essere stato stimolato da una formulazione alterata.

      OpenAI ha dichiarato di aver esaminato la questione e di aver aggiunto protezioni. Mindgard ha affermato che quelle difese non hanno completamente chiuso il divario.

      Perché i filtri non sono sufficienti

      Il caso sottolinea un problema difficile per gli strumenti di immagine AI. Le regole di OpenAI vietano gore estremo, violenza sessuale, contenuti intimi non consensuali, materiale di abuso sessuale infantile e tentativi di eludere le misure di sicurezza, ma i ricercatori hanno detto che il modello potrebbe comunque essere indirizzato in territori vietati.

      Un modello non giudica il danno come fa una persona. Genera output, poi sistemi stratificati cercano di catturare ciò che non dovrebbe raggiungere lo schermo.

      Esperti esterni citati dalla BBC hanno descritto la sicurezza AI come una costante competizione tra i creatori di modelli e i jailbreakers. Difese migliori possono aiutare, ma nuove soluzioni alternative seguono spesso.

      Cosa dovrebbe succedere dopo

      OpenAI afferma di utilizzare più strati di protezione, inclusi sistemi automatizzati e revisione umana, e che continua a monitorare per eventuali fallimenti. La pressione ora è dimostrare che le correzioni funzionano dopo che i ricercatori hanno rivelato una debolezza.

      Per ora, il takeaway pratico è abbastanza chiaro. Qualsiasi strumento di immagine AI che può generare danni realistici ha bisogno di un costante red-teaming, gestione più rapida delle divulgazioni e prove più chiare che le falle riparate rimangano riparate.

Altri articoli

Uno stato degli Stati Uniti vuole vietare gli occhiali smart mentre si guida, e potrebbe aprire la scatola di Pandora. Gli occhiali smart si stanno rapidamente evolvendo da gadget di nicchia a tecnologia di consumo mainstream. I dispositivi di aziende come Meta, Google, Apple e Snap sono sempre più capaci di visualizzare notifiche, fornire navigazione, registrare video e persino eseguire assistenti alimentati da intelligenza artificiale direttamente nel campo visivo dell'utente. Ma uno stato degli Stati Uniti sta già ponendo una domanda importante: Dovrebbe […]

I tracker di fitness e le app per smartphone aiutano i pazienti con malattie cardiache a rimanere attivi, rivela uno studio. Una nuova revisione dell'American Heart Association ha scoperto che le app per smartphone e i tracker indossabili hanno aiutato i pazienti affetti da malattie cardiache a camminare di più e ad aumentare l'attività quotidiana.

L'editor di immagini AI di Google Foto si espande in più regioni, ma solo per gli utenti Android. Google ha ampliato Edit con Ask Photos, il suo strumento di editing conversazionale alimentato dall'IA, a cinque nuovi mercati. La funzione è in fase di distribuzione per gli utenti Android in Germania, Regno Unito, Francia, Spagna e Italia, ma il supporto per iOS non è stato confermato per le nuove regioni.

L'UE sta per dichiarare AWS e Azure gatekeeper ai sensi del Digital Markets Act. La Commissione Europea svelerà la prossima settimana i risultati preliminari secondo cui AWS e Azure soddisfano la soglia di gatekeeper del DMA. Seguiranno misure per l'interoperabilità e per limitare il lock-in.

Google sta dando a Pixel Screenshots un potenziamento dell'IA cloud mantenendo i tuoi dati privati. L'app Screenshot di Google Pixel sta guadagnando l'elaborazione AI basata su cloud con il suo ultimo aggiornamento, dando alla funzione maggiore potere per cercare e analizzare i tuoi screenshot mantenendo i dati in un ambiente sicuro a livello hardware.

Dentro la rivolta nell'unità di AI applicata di Meta L'unità di Applied AI di Meta, composta da 6.500 persone, è in aperta rivolta, con ingegneri d'élite reclutati per etichettare dati e persino il CTO che definisce la riorganizzazione 'atroce'.

Un prompt di ChatGPT dall'aspetto innocuo ha aperto la porta a immagini AI raccapriccianti.

I ricercatori affermano che ChatGPT ha generato immagini violente e sessualizzate dopo che un prompt dall'aspetto innocuo è stato modificato, sollevando nuove domande sulle misure di sicurezza di OpenAI e su quanto rapidamente gli strumenti di generazione di immagini AI possano essere manipolati per superare i filtri.