Se codifichi app Android con l'IA, il nuovo benchmark di Google rende più facile scegliere il modello giusto.

      Android Bench valuta quanto bene diversi modelli di intelligenza artificiale gestiscono compiti di codifica Android nel mondo reale.



















       Google







       Per gli sviluppatori di app Android che si affidano all'IA per codificare, scegliere il modello giusto può essere complicato. Non tutti i modelli sono costruiti allo stesso modo e molti non sono specificamente addestrati per i flussi di lavoro di sviluppo Android. Per affrontare questo problema, Google ha introdotto un nuovo benchmark per aiutare gli sviluppatori a capire quanto bene diversi modelli di IA si comportano in compiti di codifica Android nel mondo reale.

      Chiamato Android Bench, il nuovo benchmark è progettato per valutare quanto bene i modelli di linguaggio di grandi dimensioni (LLM) gestiscono compiti tipici di sviluppo Android. Google spiega che il benchmark valuta i modelli utilizzando compiti reali provenienti da progetti pubblici su GitHub e chiede ai modelli di ricreare effettivamente richieste di pull e risolvere problemi simili a quelli che gli sviluppatori incontrano mentre costruiscono app Android. I risultati vengono quindi verificati per vedere se risolvono effettivamente il problema.



      Scegliere il miglior ✨ modello di IA per il tuo compito può sembrare opprimente quando ci sono così tante opzioni, motivo per cui l'industria si rivolge ai benchmark LLM per orientamento. Il problema per gli sviluppatori Android è che questi benchmark non sono ponderati per valutare realmente i tipi di compiti che… pic.twitter.com/nz7Uxnc6l2— Mishaal Rahman (@MishaalRahman) 5 marzo 2026



      In termini più semplici, il benchmark verifica se il codice generato dai modelli di IA risolve realmente il problema invece di apparire corretto in superficie. Questo aiuta Google a misurare quanto siano realmente utili i diversi modelli quando si tratta di risolvere problemi reali di sviluppo Android.

      Google

      Con la prima versione di Android Bench, Google ha pianificato "di misurare puramente le prestazioni del modello e non concentrarsi sull'uso agentico o degli strumenti." I risultati evidenziano un ampio divario, con modelli che completano con successo tra il 16% e il 72% dei compiti del benchmark. L'azienda afferma che pubblicare questi risultati dovrebbe facilitare il confronto tra i modelli e la scelta di quelli che sono realmente in grado di gestire problemi di codifica Android reali.

      Oltre a guidare gli sviluppatori, il benchmark potrebbe anche spingere le aziende di IA a migliorare la comprensione dei loro modelli dello sviluppo Android. Per supportare questo sforzo, Google ha pubblicato la metodologia, il dataset e il framework di test di Android Bench su GitHub. Nel tempo, questo potrebbe portare a strumenti di IA meglio attrezzati per navigare in complessi codici sorgente Android e aiutare gli sviluppatori a costruire e correggere app in modo più efficace.





















       Pranob è un giornalista tecnologico esperto con oltre otto anni di esperienza nella copertura della tecnologia di consumo. Il suo lavoro è stato…













       Il caricamento wireless da 25W del Galaxy S26 Ultra potrebbe non funzionare come pubblicizzato



       Il nuovo flagship di Samsung rende il caricamento wireless da 25W più difficile di quanto dovrebbe essere.



       Con il Galaxy S26 Ultra, Samsung ha introdotto una serie di aggiornamenti alla batteria e alla ricarica. Abbiamo avuto un leggero aumento della dimensione della batteria, delle velocità di ricarica cablata e wireless.

      Dopo anni di lamentele da parte dei fan, l'ultimo flagship di Samsung aggiorna finalmente il caricamento wireless a 25W. Questo è stato un notevole salto rispetto ai 15W, che erano lo standard nella sua gamma premium. Ma sembra che ottenere quelle velocità possa essere più difficile del previsto.



       Leggi di più







       I problemi di VPN sul tuo telefono sono apparentemente un bug non risolto di Android 16



       Il nuovo bug di Android 16 interrompe silenziosamente la protezione VPN



       Un problema recentemente segnalato in Android 16 sta sollevando preoccupazioni tra esperti di sicurezza e fornitori di VPN, con prove che suggeriscono che un bug a livello di sistema potrebbe interrompere silenziosamente le connessioni VPN sui dispositivi interessati. Il problema, che si dice persista da mesi, potrebbe lasciare gli utenti inconsapevolmente esposti mentre credono che il loro traffico internet sia ancora protetto.

      Un Fallimento Silenzioso Nel Sistema di Rete di Android



       Leggi di più







       Samsung ti affitterà un Galaxy S26 Ultra a metà del prezzo di listino per un anno



       E non è ancora un buon affare per gli utenti se fanno i conti tra acquisto e affitto (con la tassa aggiuntiva del programma Galaxy Forever) e il valore di riacquisto più basso che ottengono dopo un anno.



       Samsung ha ideato un modo nuovo per attirare più clienti verso la serie Galaxy S26 in uno dei suoi mercati chiave. Attraverso un comunicato stampa pubblicato oggi, l'azienda ha annunciato un nuovo programma "Galaxy Forever" in India.

      Il nome potrebbe essere un po' confuso, ma è essenzialmente un programma di proprietà o di aggiornamento periodico in cui gli acquirenti possono ottenere il Galaxy S26 Ultra (disponibile da $1502) o il Galaxy S26 Plus (disponibile da $1,288) pagando il 50% del prezzo del dispositivo in anticipo, suddiviso in 12 rate mensili senza interessi. Il Galaxy S26 normale non è idoneo.

       Leggi di più

Altri articoli

Microsoft ritira la modalità “Real Talk” per le chat AI di Copilot che avevano più personalità Real Talk è stata la versione di Copilot che si è sentita più umana. Ha risposto, ti ha ricordato e non si è limitata a annuire — così naturalmente, Microsoft ha staccato la spina solo poche settimane dopo il suo lancio globale.

iRU nasconde Tactio 515 dietro lo schermo La compagnia russa iRU ha risolto il problema della scrivania sempre ingombra, lanciando un dispositivo che è praticamente invisibile sulla scrivania dell'ufficio. Piuttosto, si fissa sul retro del monitor. Tactio 515 è un nettop per chi ha ogni centimetro di superficie di lavoro a disposizione.

Samsung, sembra che tu abbia dei problemi! La presentazione ufficiale del Galaxy S26 si è svolta il 25 febbraio. Bella, "pettinata", con una dimostrazione delle funzioni intelligenti e promesse di un futuro luminoso. Solo che il futuro per Samsung è arrivato un po' prima, e si è rivelato tutt'altro che luminoso e roseo.

I test mostrano che l'Apple M5 Max supera l'AMD e stabilisce un record di prestazioni. Il M5 Max di Apple ha appena stabilito un nuovo record di prestazioni, superando il migliore di AMD nei test a singolo core e persino superando il chip M3 Ultra di Apple nelle prestazioni multi-core.

L'IA ha padroneggiato la legislazione procedurale. A lungo si è ritenuto che le cause legali fossero appannaggio di persone con volti di pietra e pile di documenti. Ma la tecnologia non riposa. Il nostro vecchio amico, Neurogiurista, ha subito un ulteriore aggiornamento e finalmente è arrivato a comprendere che non basta sapere chi ha ragione, è necessario anche sapere come torturare correttamente l'avversario in tribunale.

Se sviluppi app Android con l'IA, il nuovo benchmark di Google rende più facile scegliere il modello giusto. Per gli sviluppatori di app Android che si affidano all'IA per il coding, scegliere il modello giusto può essere complicato. Non tutti i modelli sono costruiti allo stesso modo e molti non sono specificamente addestrati per i flussi di lavoro di sviluppo Android. Per affrontare questo problema, Google ha introdotto un nuovo benchmark per aiutare gli sviluppatori a comprendere quanto bene diversi modelli di IA si comportano in scenari Android reali […]

Se codifichi app Android con l'IA, il nuovo benchmark di Google rende più facile scegliere il modello giusto.

Per gli sviluppatori di app Android che si affidano all'IA per il coding, scegliere il modello giusto può essere complicato. Non tutti i modelli sono costruiti allo stesso modo e molti non sono specificamente addestrati per i flussi di lavoro di sviluppo Android. Per affrontare questo problema, Google ha introdotto un nuovo benchmark per aiutare gli sviluppatori a comprendere quanto bene diversi modelli di IA si comportano in scenari Android reali […]