
Probé el avatar de Géminis que comprende el mundo en vivo. Fue impactante
Es algo desconcertante escuchar a una IA hablando en un tono extrañamente amigable y diciéndome que limpie el desorden en mi estación de trabajo. Estoy algo orgulloso de ello, pero supongo que es hora de apilar los dispositivos dispersos al azar y ordenar el desorden de cables.
Mi hermana también estaría de acuerdo. Pero entrar en acción después de que una IA "ve" mi mesa, reconoce el desorden y reparte consejos de ama de casa es el panorama general. El chatbot Gemini AI de Google ahora puede hacer eso. Y mucho más.
La salsa secreta aquí es una actualización reciente de funciones llamada Project Astra. Ha estado en desarrollo durante años y finalmente comenzó a implementarse a principios de este mes. La idea general es ofrecer una IA que todo lo ve, todo lo oye y abiertamente inteligente en su teléfono.
Google promociona estos superpoderes bajo un nombre bastante poco inspirador: Géminis en vivo con cámara y pantalla compartida. Desarrollada en la unidad DeepMind de la compañía,la compañía comenzó su desarrollo como un " asistente universal de IA."Es una pena que el nombre final no sea tan aspiracional.
Nadeem Sarwar / Tendencias digitales.
Comencemos con la situación de acceso. La capacidad ahora está disponible para usuarios de Pixel 9 y Galaxy S25. Pero si tiene un teléfono Android con una suscripción Gemini Advanced, puede acceder al nuevo kit de herramientas.
Eso serían 20 dólares al mes, por cierto. Lo probé en los dos teléfonos mencionados anteriormente y ahora también lo tengo listo para usar en mi OnePlus 13. ¿La parte más bonita? No tiene que pasar por ningún obstáculo técnico para acceder a él.
Todo lo que necesitas es una combinación de botones de encendido/volumen o deslizar el dedo por la esquina de la pantalla para invocar a Géminis. No importa qué aplicación esté ejecutando, puede acceder a la nueva cámara y a las funciones para compartir pantalla como una superposición en todos los rincones del sistema operativo.
Dar sentido al mundo que te rodea
Comencé apuntando con la cámara a una pintura y pregunté al respecto. Gemini Live pudo detectarlo con precisión como una pintura de estilo Madhubani, decodificando el uso audaz de los colores y la representación de los animales.
Nadeem Sarwar / Tendencias digitales.
Luego procedió a darme una breve lección de historia y las variaciones que se han desarrollado a lo largo de los años. La información era precisa, hasta el nivel más granular. Afortunadamente, también puedes optar por tener un intercambio de mensajes de texto con Géminis, si te encuentras en un lugar donde las conversaciones de voz pueden resultar incómodas.
Lo que más me gusta del nuevo avatar de cámara y pantalla compartida de Gemini Live es que no es excesivamente conversador. Puede interrumpirlo en cualquier momento, lo que solo aumenta el atractivo "natural" de las conversaciones.
Probé Géminis en una variedad de escenarios. No estaba preparada para ello.
Las respuestas que proporciona suelen ser sucintas, como si quisiera darte la oportunidad (o incluso un empujón) de hacer una pregunta de seguimiento en lugar de dar una respuesta abrumadoramente larga. Sobresale en una amplia gama de temas y escenarios visuales, pero hay algunas trampas.
Nadeem Sarwar / Tendencias digitales.
Todavía no puede usar Google Lens, lo que significa que Gemini no puede comparar las imágenes que ve en la pantalla de su teléfono con los resultados coincidentes en la web. Además, no puede acceder a la información en tiempo real si le pides a Géminis que busque los últimos desarrollos sobre un tema o personalidad.
Le pregunté sobre especies de plantas, listados de restaurantes, recogiendo datos de los tablones de anuncios y dando sentido a mi receta médica para un reciente ataque de gripe. A Gemini le fue bastante bien, más de lo que he experimentado hasta ahora con el desempeño del chatbot de IA.
Desbloqueando un banco de conocimiento
Luego, presioné a Géminis para que le diera sentido a material académico complejo. Puse un libro sobre Aprendizaje automático en el marco de la cámara. Gemini Live no solo lo reconoció, sino que también procedió a darme una descripción general del contenido del libro y sus temas centrales.
Nadeem Sarwar / Tendencias digitales.
Curiosamente, comencé a hojear las páginas y llegué a la lista de capítulos. La IA reconoció el progreso, dejó de hablar y me preguntó si estaba interesado en algún capítulo en particular ahora que estaba revisando la lista de temas.
Me sorprendió por sorpresa en este momento.
Le pedí que desglosara algunos temas complejos, y la IA hizo un trabajo respetable, incluso yendo más allá del alcance del material en la página y extrayendo información de su amplio banco de conocimiento.
Por ejemplo, cuando le pregunté sobre el contenido de la página introductoria de la novela seminal de Bhisham Sahni, Tamas,la IA recogió correctamente la mención del Premio Sahitya Akademi. Luego pasó a mencionar detalles que ni siquiera figuraban en la página, como el año en que ganó el prestigioso honor literario y de qué trata el libro.
Por otro lado, la lectura en hindi de Gemini Live fue horrible. No era solo el acento pobre, sino el hecho de que Géminis estaba pronunciando galimatías puras y sin palabras repetidamente. Mientras intentaba leer urdu, persa y árabe, hizo un trabajo considerablemente mejor, pero a menudo mezclaba palabras de líneas aleatorias.
Nadeem Sarwar / Tendencias digitales.
En mi primer intento con poesía urdu, reconoció no solo el texto en urdu, sino que también dio un resumen preciso del poema. El mayor desafío, una vez más, fue la narración. Escuchar una versión anglicanizada del urdu realmente me dolió los oídos.
Sobresale en lugares sorprendentes
La IA es una herramienta fantástica para resolver problemas, y existen numerosos puntos de referencia que lo demuestran. Lo probé con problemas de física relacionados con termodinámica, ecuaciones electroquímicas y problemas estadísticos que aparecían en un cuaderno escrito a mano. Gemini Live hizo un trabajo fantástico en tales tareas.
Incluso se destacó en las tareas creativas, también. Mi hermana, que es diseñadora de moda, presentó uno de sus bocetos a la vista de la cámara y solicitó comentarios y mejoras. Gemini Live comenzó elogiando el diseño, trazó paralelismos con la ideología de diseño de algunas marcas de moda e hizo un puñado de recomendaciones.
Nadeem Sarwar / Tendencias digitales.
Cuando se le presionó más, la IA también aconsejó a mi hermana sobre las mejores herramientas para convertir bocetos dibujados a mano en conceptos digitales. Siguió esas palabras de orientación al proporcionar información útil sobre la pila de software y dónde se podía encontrar material de aprendizaje.
Cuando puse un par de baterías Duracell en la vista de la cámara, no solo las reconoció con precisión, sino que también me dijo las plataformas de comercio electrónico hiperlocales que pueden entregármelas en cuestión de minutos.
Los servicios, llamados Blinkit y Swiggy Instamart, solo están disponibles en India y en su mayoría están reservados para entornos urbanos. Incluso en una habitación con poca luz, pudo identificar un par de auriculares con cable en el primer intento.
La conciencia de la situación es su punto fuerte.
En comparación con su chat habitual de Gemini o lo que encuentra en la sección Descripciones generales de IA de la búsqueda de Google, las conversaciones en vivo de Gemini adoptan un enfoque más cauteloso para distribuir conocimientos, especialmente si son de naturaleza sensible. Noté que temas como las recomendaciones alimentarias y el tratamiento médico se manejan con un enfoque cada vez más cauteloso, y que a menudo se insta a los usuarios a encontrar el recurso experto adecuado.
Algunas trampas familiares
Nadeem Sarwar / Tendencias digitales.
Mi conclusión abrumadora es que el cambio de imagen del "Proyecto Astra" de Géminis es increíblemente impresionante. Es un vistazo al futuro de lo que los teléfonos inteligentes pueden lograr. Con algunas mejoras, integraciones y flujos de trabajo entre aplicaciones, puede hacer que la búsqueda de Google se sienta como una reliquia obsoleta. Pero por ahora, hay algunos defectos evidentes.
En algunas ocasiones, noté que el sistema de memoria se vuelve loco. Cuando se le pidió a la IA que identificara una banda de ejercicios en la vista de la cámara, la reconoció correctamente como el Samsung Galaxy Fit 3. Pero cuando hice una pregunta de seguimiento, percibió erróneamente el dispositivo como una banda de fitness de Huawei.
También puede mentir descaradamente. Y con bastante confianza, podría decir. Por ejemplo, cuando le dije que resumiera mi revisión del dispositivo portátil, la IA respondió que Digital Trends aún no lo había revisado. En realidad, el artículo fue publicado hace una semana.
A continuación, le pedí que revisara algunos artículos en mi página de autor después de habilitar el uso compartido de la pantalla. Géminis hizo un trabajo decente al explicar las historias, pero ocasionalmente tropezó con la comprensión contextual. Por ejemplo, mencionó incorrectamente que solo Intel y AMD pueden fabricar NPU que califiquen para la insignia Copilot+.
Nadeem Sarwar / Tendencias digitales.
El artículo, por otro lado, menciona claramente que Qualcomm fue el primero en cumplir con ese criterio, por delante de la competencia. Y que solo a fines del año pasado AMD e Intel finalmente pudieron subir de nivel y cumplir con esa línea de base de chips de IA con una nueva cartera de procesadores.
A mitad de la conversación sobre un artículo, nuevamente se topó con un problema de memoria. En lugar de resumir la historia que se estaba discutiendo, volvió a hablar sobre el primer artículo que vio a través de la pantalla compartida. Cuando lo interrumpí a mitad de la narración, Géminis corrigió su error.
Otro problema que noté con la narración de idiomas distintos al inglés es que Gemini Live cambió aleatoriamente la voz y el ritmo a mitad de la narración. Era bastante discordante, y la pronunciación era absolutamente mecánica, muy diferente de sus habilidades de conversación en inglés similares a las humanas.
Nadeem Sarwar / Tendencias digitales.
Las luchas de la visión artificial también son evidentes contra las fuentes estilísticas. En algunas ocasiones, escupió con confianza información incorrecta y, cuando se le pidió que se corrigiera, la IA expresó su incapacidad para encontrar la información más reciente sobre ese tema. Esos escenarios son raros, pero los errores de Géminis llegaron para quedarse.
Para resumir todo, creo que Gemini Live con cámara y pantalla compartida es uno de los mayores saltos que ha dado la IA hasta ahora. Es una de las implementaciones de IA generativa más gratificantes en la práctica hasta ahora. Todo lo que necesita es una pizca de diversidad y una solución para su síndrome de" mentiroso confiado".
Las cosas definitivamente están en el camino correcto ahora, y abrumadoramente, pero aún quedan algunos hitos cruciales para ser el compañero perfecto de IA de los sueños tecno-futuristas.









Otros artículos






Probé el avatar de Géminis que comprende el mundo en vivo. Fue impactante
Probé Gemini Live de próxima generación con capacidades para compartir cámara y pantalla durante unos días. Cambió mis expectativas diarias de IA para siempre.