
ChatGPT ora interpreta le foto meglio di un critico d'arte e di un investigatore messi insieme
Le recenti capacità di generazione di immagini di ChatGPT hanno sfidato la nostra precedente sottovalutazione dei media generati dall'IA. Il modello GPT-4o recentemente annunciato dimostra notevoli capacità di interpretare le immagini con elevata precisione e ricrearle con effetti virali, come quello ispirato allo Studio Ghibli. Padroneggia persino il testo nelle immagini generate dall'IA, cosa che in precedenza era difficile per l'IA. E ora, sta lanciando due nuovi modelli in grado di sezionare le immagini per spunti per raccogliere molte più informazioni che potrebbero anche fallire uno sguardo umano.
OpenAI ha annunciato due nuovi modelli all'inizio di questa settimana che portano le capacità di pensiero di ChatGPT su una tacca. Il suo nuovo modello o3, che OpenAI chiama il suo “modello di ragionamento più potente” migliora le capacità di interpretazione e percezione esistenti, migliorando “codifica, matematica, scienza, percezione visiva e altro”, afferma l'organizzazione. Nel frattempo, l'o4-mini è un modello più piccolo e più veloce per “ragionamento economico” nelle stesse strade. La notizia segue il recente lancio di OpenAI della classe di modelli GPT-4.1, che porta un'elaborazione più veloce e un contesto più profondo.
ChatGPT è ora "pensare con le immagini"
Con miglioramenti alle loro capacità di ragionare, entrambi i modelli possono ora incorporare immagini nel loro processo di ragionamento, il che li rende capaci di “pensare con le immagini”, proclama OpenAI. Con questo cambiamento, entrambi i modelli possono integrare le immagini nella loro catena di pensiero. Andando oltre l'analisi di base delle immagini, i modelli o3 e o4-mini possono indagare le immagini più da vicino e persino manipolarle attraverso azioni come ritaglio, zoom, capovolgimento o arricchimento dei dettagli per recuperare eventuali segnali visivi dalle immagini che potrebbero potenzialmente migliorare la capacità di ChatGPT di fornire soluzioni.
L'introduzione di OpenAI o3 e o4-mini-i nostri modelli più intelligenti e più capaci fino ad oggi.Per la prima volta, i nostri modelli di ragionamento possono utilizzare e combinare tutti gli strumenti all'interno di ChatGPT, tra cui ricerca sul Web, Python, analisi delle immagini, interpretazione dei file e generazione di immagini. pic.twitter.com/rDaqV0x0wE-OpenAI (@OpenAI) 16 aprile 2025
Con l'annuncio, si dice che i modelli si fondono ragionamento visivo e testuale, che può essere integrato con altre funzionalità ChatGPT come la ricerca sul web, l'analisi dei dati, e la generazione di codice, e si prevede di diventare la base per una più avanzata agenti AI con analisi multimodale.
Tra le altre applicazioni pratiche, ci si può aspettare di includere le immagini di una moltitudine di elementi, tali diagrammi di flusso o scarabocchiare da note scritte a mano alle immagini di oggetti del mondo reale, e si aspettano ChatGPT di avere una comprensione più profonda per un output migliore, anche senza un prompt di testo descrittivo. Con questo, OpenAI si sta avvicinando a Gemini di Google, che offre l'impressionante capacità di interpretare il mondo reale attraverso video dal vivo.
Nonostante le affermazioni audaci, OpenAI sta limitando l'accesso solo ai membri a pagamento, presumibilmente per evitare che le sue GPU si “fondano” di nuovo, in quanto fatica a mantenere la domanda di calcolo per nuove funzionalità di ragionamento. A partire da ora, i modelli o3, o4-mini e o4-mini-high saranno disponibili esclusivamente per i membri di ChatGPT Plus, Pro e Team mentre gli utenti di livello Enterprise e Education lo riceveranno in una settimana. Nel frattempo, gli utenti gratuiti saranno in grado di limitare l'accesso a o4-mini quando selezionano il pulsante “Pensa” nella barra dei prompt.
Altri articoli






ChatGPT ora interpreta le foto meglio di un critico d'arte e di un investigatore messi insieme
Le recenti capacità di generazione di immagini di ChatGPT hanno sfidato la nostra precedente sottovalutazione dei media generati dall'IA. Il modello GPT-4o recentemente annunciato dimostra notevoli capacità di interpretare le immagini con elevata precisione e ricrearle con effetti virali, come quello ispirato allo Studio Ghibli. Padroneggia persino il testo nelle immagini generate dall'IA, cosa che in precedenza era difficile per l'IA. E […]