La visione dell'IA sta diventando troppo affamata, e questo metodo la mette a dieta.

      I ricercatori del KAIST affermano che Upsample Anything affina i dati visivi compressi riducendo al contempo le esigenze di memoria della GPU fino a 16 volte.

      I ricercatori del KAIST hanno sviluppato un metodo di visione AI progettato per un problema che i produttori di telefoni non possono ignorare per sempre. Upsample Anything ricostruisce caratteristiche visive ad alta risoluzione a partire da dati di immagine compressi, con l'obiettivo di rendere l'AI on-device più nitida senza richiedere un budget di memoria molto più grande.

      I telefoni già si basano sulla compressione per mantenere l'intelligenza basata su fotocamera in movimento rapidamente. Il compromesso è che piccoli oggetti, bordi sottili e difetti sottili possono essere rimossi prima che un sistema di visione abbia abbastanza dettagli con cui lavorare.

      Il numero principale del team guidato dal KAIST è difficile da perdere. Dice che Upsample Anything può ripristinare informazioni visive vicine all'immagine originale migliorando l'efficienza della memoria GPU fino a 16 volte.

      KAIST

      Come vede di più con meno

      Upsample Anything non costringe l'intero pipeline di visione a funzionare ad alta risoluzione fin dall'inizio. Lavora con mappe di caratteristiche a bassa risoluzione, quindi utilizza i bordi e la struttura dell'immagine di input per ricostruire caratteristiche ad alta risoluzione.

      Il diagramma di flusso a pagina 4 mostra il percorso del metodo. Un'immagine ad alta risoluzione viene ridotta, ricostruita attraverso l'ottimizzazione in tempo di test e utilizzata per apprendere i kernel di ripristino che possono sollevare le mappe di caratteristiche a bassa risoluzione verso dettagli più fini.

      È anche privo di addestramento, quindi non ha bisogno di un nuovo ciclo di addestramento del modello prima di essere applicato a nuovi dati. Questo gli offre un percorso più pulito in ambienti vari rispetto agli approcci che si basano su riaddestramento o ottimizzazione più pesante.

      Perché i telefoni sono il punto di pressione

      Gli smartphone non hanno il margine termico o di memoria dell'hardware AI più grande, ma l'AI visiva si sta avvicinando al dispositivo. Le funzionalità della fotocamera, gli strumenti di riconoscimento e i compiti di percezione locale esercitano tutti pressione sui chip che non possono semplicemente bruciare più memoria GPU ogni volta che i dettagli diventano sottili.

      Il KAIST ha testato il metodo utilizzando un'immagine 224 x 224, una dimensione comune nella ricerca AI, e ha riportato un tempo di calcolo di circa 0,4 secondi. Questo non prova prestazioni pronte per il telefono, ma fornisce alla ricerca un marcatore di efficienza concreto invece di una promessa vaga.

      Aerps / Unsplash

      Cosa deve ancora funzionare

      Upsample Anything è ancora ricerca, non una funzionalità pronta per essere integrata in un'app della fotocamera del telefono. Il lavoro è stato pubblicato su arXiv ed è stato accettato al CVPR 2026, dove ha ricevuto riconoscimenti per l'efficienza computazionale e la trasparenza della ricerca.

      Il prossimo test è il dispiegamento pratico. I produttori di telefoni e gli sviluppatori di app dovranno dimostrare che una visione locale più nitida non crea nuovi problemi di batteria, calore o latenza su hardware mobile reale.

      Paulo Vargas è un laureato in inglese diventato reporter e poi scrittore tecnico, con una carriera che è sempre tornata a…

      Il bizzarro brevetto di Samsung mostra un telefono pieghevole che si piega da solo in una scatola

      Il brevetto di design più insolito di Samsung finora protegge l'aspetto di un dispositivo che si arrotola in un mattone rettangolare.

      Samsung ha ottenuto un brevetto di design statunitense per quello che potrebbe essere il suo concetto di display più insolito fino ad oggi. Il brevetto è per un dispositivo che, quando piegato, assomiglia a un lungo mattone rettangolare e può dispiegarsi per formare uno schermo molto più grande. È stato presentato a gennaio 2023 ed è stato concesso solo questo mese.

      Leggi di più

      Pixi vuole sostituire i tuoi noiosi messaggi di testo con personaggi AR che reagiscono a te

      Gli utenti di iMessage possono ora inviare divertenti personaggi AI come un gatto o un robot ai loro amici.

      Dimentica adesivi e GIF, una nuova app chiamata Pixi Garden vuole che tu invii personaggi interattivi in realtà aumentata tramite iMessage invece. Pixi Platforms ha lanciato oggi l'app nativa di messaggistica, consentendoti di creare e inviare un "pixi" — un personaggio AR intelligente che prende vita attraverso la fotocamera del telefono del tuo amico e reagisce a ciò che sta realmente accadendo intorno a loro.

      Leggi di più

      L'editor di immagini AI di Google Photos si espande in più regioni, ma solo per utenti Android

      Modifica con Ask Photos, che ti consente di apportare modifiche descrivendo ciò che desideri, è ora disponibile per gli utenti Android in Germania, Regno Unito, Francia, Spagna e Italia.

      Google ha introdotto una funzionalità di editing potenziata dall'AI in Google Photos chiamata "Modifica con Ask Photos" lo scorso anno, consentendo agli utenti di apportare regolazioni fotografiche utilizzando comandi in linguaggio naturale. È stata inizialmente lanciata in un numero limitato di paesi, ma Google sta ora espandendo il supporto a cinque nuovi mercati. Da quattro paesi a nove

      Leggi di più

Altri articoli

I robotaxi di Waymo continuano a trovare nuove cose in cui guidare, e le zone di costruzione sono le ultime. I robotaxi di Waymo hanno attraversato zone di costruzione autostradale 13 volte prima che l'azienda ritirasse l'intera flotta dalle operazioni autostradali.

L'orologio Watch 6 di Honor offre una durata della batteria che gli utenti di Apple Watch sognano. Honor Watch 6 viene lanciato a livello globale con un'autonomia della batteria di 35 giorni, un display luminoso, controlli a tocco bagnato e modalità di tracciamento dedicate per il calcio e il badminton.

Dentro SURBL, la lista nera delle email che controlla i tuoi link, non il tuo IP SURBL segnala gli URL all'interno delle tue email piuttosto che il tuo IP di mittente. Un singolo link a un dominio segnalato può disabilitare silenziosamente ogni link in un messaggio consegnato, e la maggior parte dei mittenti non si rende mai conto che è successo.

Questo nuovo editor video consente a Claude di organizzare, generare e modificare direttamente sulla tua timeline. Palmier Pro è un editor video open-source che consente agli assistenti AI come Claude di organizzare, generare e modificare contenuti direttamente all'interno di una timeline di progetto.

Architect Labs raccoglie 24 milioni di dollari per la progettazione di chip personalizzati per l'IA Architect Labs ha raccolto 24 milioni di dollari in un round di finanziamento iniziale guidato da Kindred Ventures per costruire un'IA che progetta e verifica chip personalizzati, sfidando Broadcom e Marvell.

General Intuition raccoglie 300 milioni di dollari per l'IA addestrata su dati di gioco La startup ha rifiutato l'offerta di 500 milioni di dollari di OpenAI per i suoi dati video sui giochi. Ora sta raccogliendo 300 milioni di dollari a una valutazione di 2 miliardi di dollari per addestrare agenti AI su 2 miliardi di clip di videogiochi all'anno.

La visione dell'IA sta diventando troppo affamata, e questo metodo la mette a dieta.

L'Upsample Anything di KAIST affronta il problema della memoria dietro una visione AI più nitida sui dispositivi, ripristinando le caratteristiche visive ad alta risoluzione dai dati delle immagini compresse senza costringere gli smartphone a elaborare tutto a piena risoluzione prima.