ChatGPT ora interpreta le foto meglio di un critico d'arte e di un investigatore messi insieme

ChatGPT ora interpreta le foto meglio di un critico d'arte e di un investigatore messi insieme

      Le recenti capacità di generazione di immagini di ChatGPT hanno sfidato la nostra precedente sottovalutazione dei media generati dall'IA. Il modello GPT-4o recentemente annunciato dimostra notevoli capacità di interpretare le immagini con elevata precisione e ricrearle con effetti virali, come quello ispirato allo Studio Ghibli. Padroneggia persino il testo nelle immagini generate dall'IA, cosa che in precedenza era difficile per l'IA. E ora, sta lanciando due nuovi modelli in grado di sezionare le immagini per spunti per raccogliere molte più informazioni che potrebbero anche fallire uno sguardo umano.

      OpenAI ha annunciato due nuovi modelli all'inizio di questa settimana che portano le capacità di pensiero di ChatGPT su una tacca. Il suo nuovo modello o3, che OpenAI chiama il suo “modello di ragionamento più potente” migliora le capacità di interpretazione e percezione esistenti, migliorando “codifica, matematica, scienza, percezione visiva e altro”, afferma l'organizzazione. Nel frattempo, l'o4-mini è un modello più piccolo e più veloce per “ragionamento economico” nelle stesse strade. La notizia segue il recente lancio di OpenAI della classe di modelli GPT-4.1, che porta un'elaborazione più veloce e un contesto più profondo.

      ChatGPT è ora "pensare con le immagini"

      Con miglioramenti alle loro capacità di ragionare, entrambi i modelli possono ora incorporare immagini nel loro processo di ragionamento, il che li rende capaci di “pensare con le immagini”, proclama OpenAI. Con questo cambiamento, entrambi i modelli possono integrare le immagini nella loro catena di pensiero. Andando oltre l'analisi di base delle immagini, i modelli o3 e o4-mini possono indagare le immagini più da vicino e persino manipolarle attraverso azioni come ritaglio, zoom, capovolgimento o arricchimento dei dettagli per recuperare eventuali segnali visivi dalle immagini che potrebbero potenzialmente migliorare la capacità di ChatGPT di fornire soluzioni.

      

      L'introduzione di OpenAI o3 e o4-mini-i nostri modelli più intelligenti e più capaci fino ad oggi.Per la prima volta, i nostri modelli di ragionamento possono utilizzare e combinare tutti gli strumenti all'interno di ChatGPT, tra cui ricerca sul Web, Python, analisi delle immagini, interpretazione dei file e generazione di immagini. pic.twitter.com/rDaqV0x0wE-OpenAI (@OpenAI) 16 aprile 2025

      

      Con l'annuncio, si dice che i modelli si fondono ragionamento visivo e testuale, che può essere integrato con altre funzionalità ChatGPT come la ricerca sul web, l'analisi dei dati, e la generazione di codice, e si prevede di diventare la base per una più avanzata agenti AI con analisi multimodale.

      Tra le altre applicazioni pratiche, ci si può aspettare di includere le immagini di una moltitudine di elementi, tali diagrammi di flusso o scarabocchiare da note scritte a mano alle immagini di oggetti del mondo reale, e si aspettano ChatGPT di avere una comprensione più profonda per un output migliore, anche senza un prompt di testo descrittivo. Con questo, OpenAI si sta avvicinando a Gemini di Google, che offre l'impressionante capacità di interpretare il mondo reale attraverso video dal vivo.

      Nonostante le affermazioni audaci, OpenAI sta limitando l'accesso solo ai membri a pagamento, presumibilmente per evitare che le sue GPU si “fondano” di nuovo, in quanto fatica a mantenere la domanda di calcolo per nuove funzionalità di ragionamento. A partire da ora, i modelli o3, o4-mini e o4-mini-high saranno disponibili esclusivamente per i membri di ChatGPT Plus, Pro e Team mentre gli utenti di livello Enterprise e Education lo riceveranno in una settimana. Nel frattempo, gli utenti gratuiti saranno in grado di limitare l'accesso a o4-mini quando selezionano il pulsante “Pensa” nella barra dei prompt.

Altri articoli

Potrebbe questo esopianeta essere 'brulicante di vita'? Cenni di vita al di fuori del sistema solare Potrebbe questo esopianeta essere 'brulicante di vita'? Cenni di vita al di fuori del sistema solare Una scoperta intrigante indica la possibilità di vita al di fuori del nostro sistema solare. Paebbl apre il primo impianto dimostrativo al mondo che trasforma la CO2 in polvere Paebbl apre il primo impianto dimostrativo al mondo che trasforma la CO2 in polvere Paebbl, la startup che trasforma la CO2 in polvere, ha aperto il suo primo impianto dimostrativo a Rotterdam, nei Paesi Bassi. Regno Unito scatena drone-zapping microonde arma in mezzo difesa tech drive Regno Unito scatena drone-zapping microonde arma in mezzo difesa tech drive L'esercito britannico ha neutralizzato sciami di droni con il "RapidDestroyer", una nuova arma tecnologica di difesa che utilizza microonde ad alta frequenza. Copilot Vision AI di Microsoft è ora gratuito, ma solo per questi 9 siti Copilot Vision AI di Microsoft è ora gratuito, ma solo per questi 9 siti Copilot AI di Microsoft può ora guardare il tuo schermo mentre navighi in modo da poter porre domande su ciò che stai facendo. Cose divertenti da chiedere a ChatGPT ora che ricorda tutto Cose divertenti da chiedere a ChatGPT ora che ricorda tutto ChatGPT può ricordare tutto ciò di cui hai mai parlato, il che significa che ti conosce meglio che mai. Ecco alcuni modi divertenti per usarlo. Mercury: meglio di una banca, è il sistema operativo finanziario della tua startup Mercury: meglio di una banca, è il sistema operativo finanziario della tua startup Chiedi a qualsiasi fondatore e ti diranno: il settore bancario è solo la superficie della finanza di avvio. Mantenere il flusso di cassa, raccogliere capitali quando conta e non essere sepolti nella routine di back-office sono i risultati di cui hai bisogno. Mercury lo capisce. In realtà, è stato costruito per questo. Piuttosto che un altro prodotto SaaS con [[]

ChatGPT ora interpreta le foto meglio di un critico d'arte e di un investigatore messi insieme

Le recenti capacità di generazione di immagini di ChatGPT hanno sfidato la nostra precedente sottovalutazione dei media generati dall'IA. Il modello GPT-4o recentemente annunciato dimostra notevoli capacità di interpretare le immagini con elevata precisione e ricrearle con effetti virali, come quello ispirato allo Studio Ghibli. Padroneggia persino il testo nelle immagini generate dall'IA, cosa che in precedenza era difficile per l'IA. E […]