ChatGPT ora interpreta le foto meglio di un critico d'arte e di un investigatore messi insieme

      Le recenti capacità di generazione di immagini di ChatGPT hanno sfidato la nostra precedente sottovalutazione dei media generati dall'IA. Il modello GPT-4o recentemente annunciato dimostra notevoli capacità di interpretare le immagini con elevata precisione e ricrearle con effetti virali, come quello ispirato allo Studio Ghibli. Padroneggia persino il testo nelle immagini generate dall'IA, cosa che in precedenza era difficile per l'IA. E ora, sta lanciando due nuovi modelli in grado di sezionare le immagini per spunti per raccogliere molte più informazioni che potrebbero anche fallire uno sguardo umano.

      OpenAI ha annunciato due nuovi modelli all'inizio di questa settimana che portano le capacità di pensiero di ChatGPT su una tacca. Il suo nuovo modello o3, che OpenAI chiama il suo “modello di ragionamento più potente” migliora le capacità di interpretazione e percezione esistenti, migliorando “codifica, matematica, scienza, percezione visiva e altro”, afferma l'organizzazione. Nel frattempo, l'o4-mini è un modello più piccolo e più veloce per “ragionamento economico” nelle stesse strade. La notizia segue il recente lancio di OpenAI della classe di modelli GPT-4.1, che porta un'elaborazione più veloce e un contesto più profondo.

      ChatGPT è ora "pensare con le immagini"

      Con miglioramenti alle loro capacità di ragionare, entrambi i modelli possono ora incorporare immagini nel loro processo di ragionamento, il che li rende capaci di “pensare con le immagini”, proclama OpenAI. Con questo cambiamento, entrambi i modelli possono integrare le immagini nella loro catena di pensiero. Andando oltre l'analisi di base delle immagini, i modelli o3 e o4-mini possono indagare le immagini più da vicino e persino manipolarle attraverso azioni come ritaglio, zoom, capovolgimento o arricchimento dei dettagli per recuperare eventuali segnali visivi dalle immagini che potrebbero potenzialmente migliorare la capacità di ChatGPT di fornire soluzioni.



      L'introduzione di OpenAI o3 e o4-mini-i nostri modelli più intelligenti e più capaci fino ad oggi.Per la prima volta, i nostri modelli di ragionamento possono utilizzare e combinare tutti gli strumenti all'interno di ChatGPT, tra cui ricerca sul Web, Python, analisi delle immagini, interpretazione dei file e generazione di immagini. pic.twitter.com/rDaqV0x0wE-OpenAI (@OpenAI) 16 aprile 2025



      Con l'annuncio, si dice che i modelli si fondono ragionamento visivo e testuale, che può essere integrato con altre funzionalità ChatGPT come la ricerca sul web, l'analisi dei dati, e la generazione di codice, e si prevede di diventare la base per una più avanzata agenti AI con analisi multimodale.

      Tra le altre applicazioni pratiche, ci si può aspettare di includere le immagini di una moltitudine di elementi, tali diagrammi di flusso o scarabocchiare da note scritte a mano alle immagini di oggetti del mondo reale, e si aspettano ChatGPT di avere una comprensione più profonda per un output migliore, anche senza un prompt di testo descrittivo. Con questo, OpenAI si sta avvicinando a Gemini di Google, che offre l'impressionante capacità di interpretare il mondo reale attraverso video dal vivo.

      Nonostante le affermazioni audaci, OpenAI sta limitando l'accesso solo ai membri a pagamento, presumibilmente per evitare che le sue GPU si “fondano” di nuovo, in quanto fatica a mantenere la domanda di calcolo per nuove funzionalità di ragionamento. A partire da ora, i modelli o3, o4-mini e o4-mini-high saranno disponibili esclusivamente per i membri di ChatGPT Plus, Pro e Team mentre gli utenti di livello Enterprise e Education lo riceveranno in una settimana. Nel frattempo, gli utenti gratuiti saranno in grado di limitare l'accesso a o4-mini quando selezionano il pulsante “Pensa” nella barra dei prompt.

Altri articoli

Lost Records: Bloom and Rage: il punk rock non muore mai Lost Records: Bloom e Rage reinventano la formula di Life is Strange per creare una storia di formazione profondamente commovente degli anni ' 90.

Potrebbe questo esopianeta essere 'brulicante di vita'? Cenni di vita al di fuori del sistema solare Una scoperta intrigante indica la possibilità di vita al di fuori del nostro sistema solare.

Regno Unito scatena drone-zapping microonde arma in mezzo difesa tech drive L'esercito britannico ha neutralizzato sciami di droni con il "RapidDestroyer", una nuova arma tecnologica di difesa che utilizza microonde ad alta frequenza.

Startup contest cerca soluzioni sostenibili alle esigenze energetiche dell'IA L'Energy Innovation for AI Startup Challenge si concluderà con un live pitch contest alla TNW Conference il 19 giugno.

NYT Cruciverba: risposte per giovedì 17 aprile Il cruciverba del New York Times può essere difficile, anche se non è il numero di domenica! Se sei bloccato, siamo qui per aiutarti con gli indizi e le risposte di oggi.

Nuovo iPhone 17 Pro render ci tiene indovinare sul design finale È apparso un nuovo rendering dell'iPhone 17 Pro, sostenendo l'idea che non avrà una parte posteriore bicolore.