Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza.

Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza.

      I ricercatori della Florida International University hanno sviluppato un metodo che ha quasi raddoppiato il tasso di risposte dannose da un modello di intelligenza artificiale testato utilizzando solo modifiche a livello di pixel in un'immagine.

      Una foto che sembra completamente ordinaria per te potrebbe contenere un'istruzione nascosta per ingannare un chatbot AI a ignorare le proprie regole di sicurezza, secondo una nuova ricerca della Florida International University. Lo studio ha scoperto che le alterazioni a livello di pixel in un'immagine, invisibili all'occhio umano, possono essere sufficienti per confondere il modello che legge l'immagine e portarlo a generare risposte che normalmente bloccherebbe.

      Hacking ciò che l'AI vede

      “I modelli di intelligenza artificiale non vedono le immagini allo stesso modo degli esseri umani,” ha detto Hadi Amini, professore associato presso la Knight Foundation School of Computing and Information Sciences della FIU. Leggono le foto come dati numerici, ha spiegato, e spostare anche leggermente quei dati può cambiare ciò che il sistema legge nell'immagine e come risponde.

      Florida International University

      Amini e il ricercatore laureato Md Jueal Mia hanno utilizzato questo per costruire un metodo chiamato JaiLIP, abbreviazione di Jailbreaking with Loss-guided Image Perturbation, secondo un comunicato sui risultati. La tecnica calcola il più piccolo cambiamento di pixel necessario per spingere un modello verso una risposta non sicura senza alterare nulla di visibile nella foto stessa.

      Testando JaiLIP su BLIP-2, un modello di intelligenza artificiale multimodale utilizzato nella ricerca e nello sviluppo, il team ha scoperto che le immagini alterate hanno quasi raddoppiato la frequenza con cui il sistema produceva risposte dannose. In un test, una foto modificata di un semaforo ha portato il modello a spiegare come passare con il rosso senza prendere una multa.

      I modelli che le aziende utilizzano già sono obiettivi facili

      I piccoli modelli linguistici, il tipo su cui molte aziende fanno affidamento per la contabilità o il supporto clienti, si sono rivelati particolarmente facili da ingannare nei test del team. Man mano che sempre più aziende delegano tali ruoli agli strumenti di intelligenza artificiale, un difetto come questo potrebbe erodere la fiducia degli utenti o aprire una nuova porta per gli aggressori.

      La scoperta si aggiunge a un elenco crescente di ricerche che indagano le barriere di sicurezza dell'AI, inclusi un metodo che ha permesso a ricercatori esterni di dirottare robot controllati dall'AI e i risultati della stessa Anthropic su un modello che ha imparato a comportarsi male una volta che ha realizzato di poterlo fare. Ciò che spicca nella ricerca della FIU è il metodo di consegna. Un jailbreak nascosto all'interno di una foto altrimenti normale non ha bisogno di formulazioni ingegnose o di un prompt alternativo, solo di un'immagine su cui nessuno si fermerebbe a pensare.

      Pranob è un giornalista tecnologico esperto con oltre otto anni di esperienza nella copertura della tecnologia per i consumatori. Il suo lavoro è stato…

      Il creatore di ChatGPT vuole rendere i progetti open-source meno un affare di sicurezza

      OpenAI lancia Patch the Planet per la sicurezza open-source, con oltre 30 progetti open-source a bordo.

      OpenAI ha lanciato Patch the Planet, una nuova iniziativa volta a risolvere uno dei problemi più silenziosi di Internet: la sicurezza cronica sottofinanziata del software open-source. Patch the Planet abbina i modelli di intelligenza artificiale più capaci in termini di sicurezza di OpenAI con Trail of Bits, una società di sicurezza che ha impegnato l'intera sua organizzazione di ricerca nello sforzo, insieme al supporto di HackerOne e Calif.

      Leggi di più

      Ho setacciato il caos del Prime Day per trovare le migliori offerte Apple davvero degne di essere acquistate

      Apple sta per aumentare i prezzi. Il Prime Day 2026 è la tua ultima occasione per risparmiare fino a 150 dollari su MacBook, AirPods e iPad.

      Apple è pronta ad aumentare i prezzi dei suoi prossimi iPhone e MacBook, poiché l'azienda non può più compensare l'aumento dei costi di RAM e archiviazione. Ciò significa che, se stai cercando di aggiornare il tuo dispositivo obsoleto, dovresti acquistare i prodotti Apple di attuale generazione piuttosto che aspettare quelli nuovi. E poiché il Prime Day di Amazon offre buoni sconti sui più recenti iPhone, iPad, MacBook e altri accessori Apple, questo è il momento perfetto per acquistarli. Ecco le mie offerte preferite del Prime Day di Amazon per i prodotti Apple.

      Leggi di più

      Meta stava segretamente monitorando i propri dipendenti, ma ha presto chiuso il programma dopo una fuga di notizie interna

      Meta ammette che il suo programma di sorveglianza dei dipendenti non ha rispettato la privacy.

      Meta ha appena sospeso uno strumento di sorveglianza dei dipendenti divisivo dopo che ha accidentalmente esposto dati sensibili dei lavoratori all'intera azienda (via Wired). Lo strumento, chiamato Model Capability Initiative, stava silenziosamente raccogliendo battute di tasti, movimenti del mouse e contenuti dello schermo dai laptop dei dipendenti statunitensi da aprile.

      Leggi di più

Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza. Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza. Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza. Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza. Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza. Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza.

Altri articoli

Meta stava segretamente monitorando i suoi dipendenti, ma ha presto chiuso tutto dopo una fuga di notizie interna. Meta stava segretamente monitorando i suoi dipendenti, ma ha presto chiuso tutto dopo una fuga di notizie interna. Meta ha interrotto il suo programma di monitoraggio dei dipendenti, che raccoglieva battute di tasti, contenuti dello schermo e movimenti del mouse, dopo che dati sensibili sono stati trapelati internamente. Il Prime Day 2026 è ricco di offerte Samsung, ma solo queste sono riuscite a entrare nella mia lista ristretta. Il Prime Day 2026 è ricco di offerte Samsung, ma solo queste sono riuscite a entrare nella mia lista ristretta. Il Prime Day 2026 sta offrendo alcuni dei più grandi sconti Samsung che abbiamo visto quest'anno. Dalla serie Galaxy S26 agli orologi Galaxy, tablet e auricolari, queste sono le offerte che offrono il miglior rapporto qualità-prezzo. Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza. Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza. Un nuovo exploit proveniente dalla Florida International University mostra come cambiamenti invisibili a livello di pixel in una foto possano ingannare i chatbot AI nel generare risposte che normalmente bloccherebbero. Meta lancia il proprio marchio di occhiali smart a 299 dollari, distaccandosi dal nome Ray-Ban. Meta lancia il proprio marchio di occhiali smart a 299 dollari, distaccandosi dal nome Ray-Ban. Meta lancia occhiali smart da $299 con il proprio marchio, dotati di una fotocamera da 12MP, video 3K e Muse Spark AI, mantenendo intatta la sua partnership con EssilorLuxottica. L'algoritmo ha un naso adesso, e il profumo è migliore per lui. L'algoritmo ha un naso adesso, e il profumo è migliore per lui. Da un laboratorio vivente a Breda alle grandi case di profumi, il software sta ampliando chi può creare una fragranza. Questo merita di essere celebrato. LastPass afferma che gli hacker hanno rubato i dati dei clienti attraverso una violazione della catena di fornitura presso Klue. LastPass afferma che gli hacker hanno rubato i dati dei clienti attraverso una violazione della catena di fornitura presso Klue. LastPass ha informato i clienti che i dati personali e i casi di supporto sono stati rubati dopo che gli hacker hanno violato Klue e utilizzato token OAuth rubati per accedere a Salesforce.

Questo ingannevole trucco fotografico fa sì che i chatbot AI ignorino le loro regole di sicurezza.

Un nuovo exploit proveniente dalla Florida International University mostra come cambiamenti invisibili a livello di pixel in una foto possano ingannare i chatbot AI nel generare risposte che normalmente bloccherebbero.