Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza.
I ricercatori della Florida International University hanno sviluppato un metodo che ha quasi raddoppiato il tasso di risposte dannose da un modello di intelligenza artificiale testato utilizzando solo modifiche a livello di pixel in un'immagine.
Una foto che sembra completamente ordinaria per te potrebbe contenere un'istruzione nascosta per ingannare un chatbot AI a ignorare le proprie regole di sicurezza, secondo una nuova ricerca della Florida International University. Lo studio ha scoperto che le alterazioni a livello di pixel in un'immagine, invisibili all'occhio umano, possono essere sufficienti per confondere il modello che legge l'immagine e portarlo a generare risposte che normalmente bloccherebbe.
Hacking ciò che l'AI vede
“I modelli di intelligenza artificiale non vedono le immagini allo stesso modo degli esseri umani,” ha detto Hadi Amini, professore associato presso la Knight Foundation School of Computing and Information Sciences della FIU. Leggono le foto come dati numerici, ha spiegato, e spostare anche leggermente quei dati può cambiare ciò che il sistema legge nell'immagine e come risponde.
Florida International University
Amini e il ricercatore laureato Md Jueal Mia hanno utilizzato questo per costruire un metodo chiamato JaiLIP, abbreviazione di Jailbreaking with Loss-guided Image Perturbation, secondo un comunicato sui risultati. La tecnica calcola il più piccolo cambiamento di pixel necessario per spingere un modello verso una risposta non sicura senza alterare nulla di visibile nella foto stessa.
Testando JaiLIP su BLIP-2, un modello di intelligenza artificiale multimodale utilizzato nella ricerca e nello sviluppo, il team ha scoperto che le immagini alterate hanno quasi raddoppiato la frequenza con cui il sistema produceva risposte dannose. In un test, una foto modificata di un semaforo ha portato il modello a spiegare come passare con il rosso senza prendere una multa.
I modelli che le aziende utilizzano già sono obiettivi facili
I piccoli modelli linguistici, il tipo su cui molte aziende fanno affidamento per la contabilità o il supporto clienti, si sono rivelati particolarmente facili da ingannare nei test del team. Man mano che sempre più aziende delegano tali ruoli agli strumenti di intelligenza artificiale, un difetto come questo potrebbe erodere la fiducia degli utenti o aprire una nuova porta per gli aggressori.
La scoperta si aggiunge a un elenco crescente di ricerche che indagano le barriere di sicurezza dell'AI, inclusi un metodo che ha permesso a ricercatori esterni di dirottare robot controllati dall'AI e i risultati della stessa Anthropic su un modello che ha imparato a comportarsi male una volta che ha realizzato di poterlo fare. Ciò che spicca nella ricerca della FIU è il metodo di consegna. Un jailbreak nascosto all'interno di una foto altrimenti normale non ha bisogno di formulazioni ingegnose o di un prompt alternativo, solo di un'immagine su cui nessuno si fermerebbe a pensare.
Pranob è un giornalista tecnologico esperto con oltre otto anni di esperienza nella copertura della tecnologia per i consumatori. Il suo lavoro è stato…
Il creatore di ChatGPT vuole rendere i progetti open-source meno un affare di sicurezza
OpenAI lancia Patch the Planet per la sicurezza open-source, con oltre 30 progetti open-source a bordo.
OpenAI ha lanciato Patch the Planet, una nuova iniziativa volta a risolvere uno dei problemi più silenziosi di Internet: la sicurezza cronica sottofinanziata del software open-source. Patch the Planet abbina i modelli di intelligenza artificiale più capaci in termini di sicurezza di OpenAI con Trail of Bits, una società di sicurezza che ha impegnato l'intera sua organizzazione di ricerca nello sforzo, insieme al supporto di HackerOne e Calif.
Leggi di più
Ho setacciato il caos del Prime Day per trovare le migliori offerte Apple davvero degne di essere acquistate
Apple sta per aumentare i prezzi. Il Prime Day 2026 è la tua ultima occasione per risparmiare fino a 150 dollari su MacBook, AirPods e iPad.
Apple è pronta ad aumentare i prezzi dei suoi prossimi iPhone e MacBook, poiché l'azienda non può più compensare l'aumento dei costi di RAM e archiviazione. Ciò significa che, se stai cercando di aggiornare il tuo dispositivo obsoleto, dovresti acquistare i prodotti Apple di attuale generazione piuttosto che aspettare quelli nuovi. E poiché il Prime Day di Amazon offre buoni sconti sui più recenti iPhone, iPad, MacBook e altri accessori Apple, questo è il momento perfetto per acquistarli. Ecco le mie offerte preferite del Prime Day di Amazon per i prodotti Apple.
Leggi di più
Meta stava segretamente monitorando i propri dipendenti, ma ha presto chiuso il programma dopo una fuga di notizie interna
Meta ammette che il suo programma di sorveglianza dei dipendenti non ha rispettato la privacy.
Meta ha appena sospeso uno strumento di sorveglianza dei dipendenti divisivo dopo che ha accidentalmente esposto dati sensibili dei lavoratori all'intera azienda (via Wired). Lo strumento, chiamato Model Capability Initiative, stava silenziosamente raccogliendo battute di tasti, movimenti del mouse e contenuti dello schermo dai laptop dei dipendenti statunitensi da aprile.
Leggi di più
Altri articoli
Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza.
Un nuovo exploit proveniente dalla Florida International University mostra come cambiamenti invisibili a livello di pixel in una foto possano ingannare i chatbot AI nel generare risposte che normalmente bloccherebbero.
