
Ho testato l'avatar di comprensione del mondo di Gemini dal vivo. E stato scioccante
È un po ' snervante sentire un'IA parlare con un tono stranamente amichevole e dirmi di ripulire il disordine sulla mia workstation. Ne sono un po ' orgoglioso, ma credo che sia il momento di impilare i gadget sparsi a casaccio e riordinare il pasticcio del filo.
Anche mia sorella sarebbe d'accordo. Ma saltare in azione dopo che un'IA "vede" il mio tavolo, riconosce il disordine e distribuisce i consigli della casalinga è il quadro più ampio. Il chatbot Gemini AI di Google può ora farlo. E molto di più.
La salsa segreta qui è un recente aggiornamento di funzionalità chiamato Project Astra. È stato in sviluppo per anni e finalmente ha iniziato a uscire all'inizio di questo mese. L'idea generale è quella di servire un'intelligenza artificiale onniveggente, onnicomprensiva e apertamente intelligente sul tuo telefono.
Google falchi questi superpoteri sotto un nome piuttosto poco interessante: Gemini Vivere con la fotocamera e la condivisione dello schermo. Sviluppato presso l'unità DeepMind dell'azienda, l'azienda ha iniziato il suo sviluppo come " assistente universale AI."È un peccato che il nome finale non sia così ambizioso.
Nadeem Sarwar / Tendenze digitali.
Iniziamo con la situazione di accesso. La funzionalità è ora disponibile per gli utenti di Pixel 9 e Galaxy S25. Ma se si dispone di un telefono Android con un abbonamento Gemini Advanced per andare con esso, è possibile accedere al nuovo toolkit.
Che sarebbe un month 20 al mese, tra l'altro. L'ho provato sui due telefoni suddetti e ora è pronto a rotolare anche sul mio OnePlus 13. La parte più bella? Non è necessario passare attraverso alcun cerchio tecnico per accedervi.
Una combinazione di pulsanti di accensione / volume o uno swipe nell'angolo dello schermo per evocare Gemini è tutto ciò di cui hai bisogno. Non importa quale applicazione si sta eseguendo, è possibile accedere alla nuova fotocamera e braciole di condivisione dello schermo come una sovrapposizione in ogni angolo del sistema operativo.
Dare un senso al mondo intorno a te
Ho iniziato puntando la fotocamera su un dipinto e ho chiesto a riguardo. Gemini Live è stato in grado di rilevarlo con precisione come un dipinto in stile Madhubani, decodificando l'uso audace dei colori e la rappresentazione degli animali.
Nadeem Sarwar / Tendenze digitali.
Si è poi proceduto a darmi una breve lezione di storia e le variazioni che si sono sviluppate nel corso degli anni. Le informazioni erano accurate, fino al livello più granulare. Per fortuna, puoi anche scegliere di avere un avanti e indietro basato sul testo con Gemini, se ti trovi in un luogo in cui le conversazioni vocali potrebbero essere scomode.
Quello che mi piace di più della nuova fotocamera di Gemini Live e dell'avatar di condivisione dello schermo è che non è eccessivamente loquace. Puoi interromperlo in qualsiasi momento, il che aggiunge solo l'appeal “naturale” delle conversazioni.
Ho provato Gemini in una varietà di scenari. Non ero preparato per questo.
Le risposte che fornisce sono di solito succinte, come se volesse darti la possibilità (o addirittura spingerti) di porre una domanda di follow-up invece di dare una risposta schiacciante e lunga. Eccelle in tutta una serie di argomenti e scenari visivi, ma ci sono alcune insidie.
Nadeem Sarwar / Tendenze digitali.
Non può ancora utilizzare Google Lens, il che significa che Gemini non può confrontare le immagini che vede sullo schermo del telefono con i risultati corrispondenti sul web. Inoltre, non può accedere alle informazioni in tempo reale se chiedi a Gemini di cercare gli ultimi sviluppi su un argomento o una personalità.
L'ho chiesto di specie vegetali, elenchi di ristoranti, raccogliendo dati da bacheche e dando un senso alla mia prescrizione medica per un recente attacco di influenza. Gemini è andato abbastanza bene, più di quanto abbia mai sperimentato il chatbot AI finora.
Sbloccare una banca della conoscenza
Successivamente, ho spinto Gemini a dare un senso a materiale accademico complesso. Ho messo un libro sull'apprendimento automatico nella cornice della fotocamera. Gemini Live non solo lo ha riconosciuto, ma ha anche proceduto a darmi una panoramica dei contenuti del libro e dei suoi argomenti principali.
Nadeem Sarwar / Tendenze digitali.
Curiosamente, ho iniziato a sfogliare le pagine e sono atterrato nella lista dei capitoli. L'IA ha riconosciuto i progressi, ha smesso di parlare e mi ha chiesto se ero interessato a un capitolo particolare ora che stavo controllando l'elenco degli argomenti.
Sono stato colto di sorpresa in questo momento.
Ho chiesto di abbattere alcuni argomenti complessi, e l'IA ha fatto un lavoro rispettabile, anche andando oltre la portata del materiale on-page e tirando le informazioni dalla sua banca di conoscenza espansiva.
Ad esempio, quando ho chiesto il contenuto della pagina introduttiva sul romanzo seminale di Bhisham Sahni, Tamas,l'IA ha correttamente raccolto la menzione del Premio Sahitya Akademi. Ha poi continuato a menzionare dettagli che non erano nemmeno elencati sulla pagina, come l'anno in cui ha vinto il prestigioso onore letterario e di cosa parla il libro.
Il rovescio della medaglia, la lettura in lingua hindi di Gemini Live è stata orribile. Non era solo il povero accento, ma il fatto che Gemini pronunciava ripetutamente parole senza senso e senza parole. Durante il tentativo di leggere l'urdu, il persiano e l'arabo, ha fatto un lavoro considerevolmente migliore, ma spesso ha mescolato parole da linee casuali.
Nadeem Sarwar / Tendenze digitali.
Al mio primo tentativo con la poesia urdu, ha riconosciuto non solo il testo urdu, ma ha anche dato un riassunto accurato del poema. La sfida più grande, ancora una volta, è stata la narrazione. Sentire una versione anglicizzata dell'urdu mi ha davvero fatto male alle orecchie.
Eccelle in luoghi sorprendenti
AI è un fantastico strumento di problem-solving, e ci sono numerosi parametri di riferimento per dimostrarlo. L'ho testato contro problemi di fisica che si occupano di termodinamica, equazioni elettrochimiche e problemi statistici che appaiono in un quaderno scritto a mano. Gemini Live ha fatto un lavoro fantastico in tali compiti.
Eccelle anche nelle faccende creative. Mia sorella, che è una stilista di moda, ha presentato uno dei suoi schizzi nella vista della telecamera e ha chiesto feedback e miglioramenti. Gemini Live ha iniziato lodando il design, ha tracciato paralleli con l'ideologia del design di alcuni marchi di moda e ha fatto una manciata di raccomandazioni.
Nadeem Sarwar / Tendenze digitali.
Quando spinto ulteriormente, l'IA ha anche consigliato a mia sorella i migliori strumenti per convertire schizzi disegnati a mano in concetti digitali. Ha seguito quelle parole di guida fornendo informazioni utili sullo stack software e dove si poteva trovare materiale didattico.
Quando ho messo un paio di batterie Duracell nella vista della fotocamera, non solo le ha riconosciute con precisione, ma mi ha anche detto le piattaforme di e-commerce iperlocali che possono consegnarmele in pochi minuti.
I servizi – denominati Blinkit e Swiggy Instamart-sono disponibili solo in India e per lo più riservati alle località urbane. Anche in una stanza scarsamente illuminata, è stato in grado di identificare un paio di auricolari cablati nel primo tentativo.
La consapevolezza della situazione è il suo forte.
Rispetto alla tua solita chat Gemini o a ciò che trovi nella sezione Panoramica AI di Google Search, le conversazioni in diretta Gemini adottano un approccio più cauto per distribuire la conoscenza, specialmente se è di natura sensibile. Ho notato che argomenti come le raccomandazioni alimentari e le cure mediche sono trattati con un approccio sempre più cauto e gli utenti sono spesso spinti a trovare la giusta risorsa esperta.
Alcune insidie familiari
Nadeem Sarwar / Tendenze digitali.
Il mio travolgente takeaway è che il makeover “Project Astra” di Gemini è davvero impressionante. È uno sguardo al futuro di ciò che gli smartphone possono raggiungere. Con alcuni miglioramenti, integrazioni e flussi di lavoro cross-app, può rendere la ricerca di Google come una reliquia obsoleta. Ma per ora, ci sono alcuni difetti evidenti.
In alcune occasioni, ho notato che il sistema di memoria va in tilt. Quando è stato chiesto all'IA di identificare una fascia fitness nella vista della fotocamera, l'ha correttamente riconosciuta come Samsung Galaxy Fit 3. Ma quando ho spinto una domanda di follow-up, erroneamente percepito il dispositivo come una fascia di fitness da Huawei.
Può anche mentire palesemente. E abbastanza fiducioso, potrei dire. Ad esempio, quando gli ho detto di riassumere la mia recensione del dispositivo indossabile, l'IA ha risposto che Digital Trends non l'ha ancora rivista. In realtà, l'articolo è stato pubblicato una settimana fa.
Successivamente, gli ho chiesto di passare attraverso alcuni articoli sulla mia pagina dell'autore dopo aver abilitato la condivisione dello schermo. Gemini ha fatto un lavoro decente a spiegare le storie, ma di tanto in tanto inciampato a comprensione contestuale. Ad esempio, ha erroneamente menzionato che solo Intel e AMD possono creare NPU che si qualificano per il badge Copilot+.
Nadeem Sarwar / Tendenze digitali.
L'articolo, d'altra parte, menziona chiaramente che Qualcomm è stata la prima a soddisfare tali criteri, prima della concorrenza. E che era solo alla fine dell'anno scorso che AMD e Intel potevano finalmente salire di livello e soddisfare quella base di chip AI con un nuovo portafoglio di processori.
A metà della conversazione su un articolo, si è imbattuto di nuovo in un problema di memoria. Invece di riassumere la storia che veniva discussa, è tornato a parlare del primo articolo che ha visto tramite la condivisione dello schermo. Quando l'ho interrotto a metà della narrazione, Gemini ha risolto il suo errore.
Un altro problema che ho notato con la narrazione di lingue non inglesi è che Gemini Live ha cambiato casualmente la voce e il ritmo a metà della narrazione. Era piuttosto stridente, e la pronuncia era assolutamente meccanica, molto diversa dalle sue capacità conversazionali inglesi simili a quelle umane.
Nadeem Sarwar / Tendenze digitali.
Le lotte di visione artificiale sono anche evidenti contro i caratteri stilistici. In alcune occasioni, ha sputato con sicurezza informazioni sbagliate e, quando gli è stato chiesto di correggersi, l'IA ha espresso l'incapacità di trovare le ultime informazioni su quell'argomento. Questi scenari sono rari, ma gli errori Gemini sono qui per rimanere.
Per riassumere tutto, penso che Gemini Live con la fotocamera e la condivisione dello schermo sia uno dei più grandi salti che l'IA abbia fatto finora. È una delle implementazioni più praticamente gratificanti dell'IA generativa finora. Tutto ciò di cui ha bisogno è un pizzico di diversità e una correzione per la sua sindrome da “bugiardo fiducioso”.
Le cose sono sicuramente sulla strada giusta ora, e in modo schiacciante, ma ancora alcune pietre miliari cruciali lontano dall'essere il perfetto compagno di intelligenza artificiale dei sogni techno-futuristici.









Altri articoli






Ho testato l'avatar di comprensione del mondo di Gemini dal vivo. E stato scioccante
Ho provato il Gemini Live di nuova generazione con funzionalità di condivisione della fotocamera e dello schermo per alcuni giorni. Ha cambiato per sempre le mie aspettative quotidiane.