Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе

Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе

      Немного нервирует, когда ИИ говорит пугающе дружелюбным тоном и просит меня навести порядок на моем рабочем месте. Я в какой-то степени горжусь этим, но, думаю, пришло время собрать беспорядочно разбросанные гаджеты и навести порядок с проводами. 

      Моя сестра тоже согласилась бы с этим. Но если ИИ “увидит” мой стол, заметит беспорядок и раздаст советы по ведению домашнего хозяйства, то начнет действовать в более широком плане. Чат-бот Google Gemini AI теперь может это делать. И многое другое. 

      Секретным дополнением к этому является недавнее обновление функций под названием Project Astra. Оно разрабатывалось в течение многих лет и, наконец, было запущено в начале этого месяца. Главная идея заключается в том, чтобы предоставить вашему телефону всевидящий, всеслышащий и откровенно интеллектуальный искусственный интеллект. 

      Google представляет эти сверхспособности под довольно скучным названием: Gemini Live с возможностью совместного использования камеры и экрана. Разработанный в подразделении DeepMind, компания начала свою разработку как “универсальный помощник с искусственным интеллектом”. Жаль, что окончательное название не столь привлекательно. 

      Надим Сарвар / Digital Trends.

      Давайте начнем с ситуации с доступом. Эта возможность теперь доступна для пользователей Pixel 9 и Galaxy S25. Но если у вас есть Android-телефон с расширенной подпиской Gemini, вы можете получить доступ к новому набору инструментов. 

      Кстати, это будет стоить 20 долларов в месяц. Я попробовал это на двух вышеупомянутых телефонах, а теперь оно готово и на моем OnePlus 13. Что самое приятное? Вам не нужно проходить какие-либо технические процедуры, чтобы получить к нему доступ. 

      Все, что вам нужно, это нажать комбинацию кнопок включения / регулировки громкости или провести пальцем по экрану, чтобы вызвать Gemini. Независимо от того, какое приложение у вас запущено, вы можете получить доступ к новой камере и функциям совместного использования экрана в виде наложения в любом уголке операционной системы.

      Осмысление окружающего мира 

      Я начал с того, что навел камеру на картину и спросил о ней. Gemini Live смогла безошибочно определить, что это картина в стиле мадхубани, благодаря смелому использованию цветов и изображению животных. 

      Надим Сарвар / Digital Trends.

      Затем она дала мне краткий урок истории и рассказала о вариациях, которые развивались на протяжении многих лет. Информация была точной, вплоть до мельчайших деталей. К счастью, вы также можете выбрать текстовую переписку с Gemini, если находитесь в месте, где общение голосом может быть затруднительным. 

      Что мне больше всего нравится в новой аватарке Gemini Live для совместного использования камеры и экрана, так это то, что она не слишком разговорчива. Вы можете прервать ее в любой момент, что только добавляет “естественности” разговорам. 

      

      Я пробовал Gemini в различных сценариях. Я не был к этому готов.

      

      Ответы, которые он дает, обычно краткие, как будто он хочет дать вам шанс (или даже подтолкнуть) задать уточняющий вопрос вместо того, чтобы давать слишком длинный ответ. Он превосходен по целому ряду тем и визуальных сценариев, но есть несколько подводных камней.

      Надим Сарвар / Digital Trends.

      Он пока не может использовать Google Lens, что означает, что Gemini не может сравнивать изображения, которые он видит на экране вашего телефона, с результатами поиска в Интернете. Более того, он не сможет получить доступ к информации в режиме реального времени, если вы попросите Gemini ознакомиться с последними событиями, связанными с какой-либо темой или личностью.

      Я спрашивал его о видах растений, списках ресторанов, собирал данные с досок объявлений и объяснял, почему мне выписали лекарство от недавнего приступа гриппа. У Gemini все получилось довольно хорошо, лучше, чем у чат-бота с искусственным интеллектом, я еще никогда не видел. 

      Открытие банка знаний

      Затем я попросил Gemini разобраться в сложном учебном материале. Я поместил книгу о машинном обучении в поле зрения камеры. Gemini Live не только признала это, но и рассказала мне о содержании книги и ее основных темах. 

      Надим Сарвар / Digital Trends.

      С любопытством я начал листать страницы и наткнулся на список глав. Искусственный интеллект оценил прогресс, замолчал и спросил меня, интересует ли меня какая-либо конкретная глава, когда я просматривал список тем. 

      

      В этот момент я был застигнут врасплох.

      

      Я попросил его разобраться в нескольких сложных темах, и ИИ проделал достойную работу, даже выйдя за рамки материалов на странице и извлекая информацию из своего обширного банка знаний. 

      Например, когда я спросил его о содержании вступительной страницы к основополагающему роману Бхишама Сахни "Тамас", ИИ правильно уловил упоминание о премии Сахитья Академи. Далее упоминались детали, которые даже не были указаны на странице, например, год, когда книга была удостоена престижной литературной премии, и о чем вообще эта книга. 

      С другой стороны, чтение на хинди в Gemini Live было ужасным. Дело было не только в плохом акценте, но и в том факте, что Джемини постоянно произносил чистую тарабарщину без слов. Когда он пытался читать на урду, персидском и арабском, у него получалось значительно лучше, но он часто путал слова в случайных строках. 

      Надим Сарвар (Nadeem Sarwar) / Digital Trends.

       При моей первой попытке использовать Urdu poetry программа распознала не только текст на урду, но и дала точное краткое содержание стихотворения. Самой сложной задачей, как и прежде, было повествование. У меня заболели уши, когда я услышал англизированную версию урду. 

      Он выделяется в неожиданных местах 

      Искусственный интеллект - фантастический инструмент для решения проблем, и существует множество тестов, подтверждающих это. Я протестировал его на задачах по физике, связанных с термодинамикой, электрохимическими уравнениями и статистическими задачами, записанными в рукописной тетради. Gemini Live отлично справлялся с такими задачами. 

      Он даже преуспел в творческой работе. Моя сестра, модельер, представила один из своих эскизов в поле зрения камеры и попросила поделиться отзывами и улучшениями. Gemini Live начала с похвалы дизайну, провела параллели с дизайнерской идеологией нескольких модных брендов и дала несколько рекомендаций. 

      Надим Сарвар (Nadeem Sarwar) / Digital Trends.

      После дальнейших указаний ИИ также посоветовал моей сестре лучшие инструменты для преобразования нарисованных от руки эскизов в цифровые концепции. После этих указаний он предоставил полезную информацию о программном обеспечении и о том, где можно найти учебные материалы.  

      Когда я поместил пару батареек Duracell в поле зрения камеры, она не только точно распознала их, но и сообщила мне о гиперлокальных платформах электронной коммерции, которые могут доставить их мне в течение нескольких минут.

      Сервисы, названные Blinkit и Swiggy Instamart, доступны только в Индии и в основном предназначены для городских жителей. Даже в плохо освещенной комнате с первой попытки можно было распознать пару проводных наушников.

      

      Его сильная сторона - осведомленность о ситуации. 

      

      По сравнению с вашим обычным чатом Gemini или тем, что вы находите в разделе обзоров искусственного интеллекта в поиске Google, в разговорах Gemini Live используется более осторожный подход к распространению знаний, особенно если они носят деликатный характер. Я заметил, что к таким темам, как рекомендации по питанию и лечению, относятся все более осторожно, и пользователей часто подталкивают к поиску подходящего экспертного ресурса.

      Несколько знакомых подводных камней 

      Надим Сарвар / Digital Trends.

      Я считаю, что обновление Gemini “Project Astra” впечатляет. Это возможность заглянуть в будущее и увидеть, чего могут достичь смартфоны. Благодаря нескольким улучшениям, интеграции и работе с несколькими приложениями поиск в Google может показаться устаревшим пережитком. Но на данный момент есть несколько явных недостатков.

      В некоторых случаях я замечал, что система памяти выходит из строя. Когда искусственный интеллект попросили определить фитнес-браслет в поле зрения камеры, он правильно распознал его как Samsung Galaxy Fit 3. Но когда я задал уточняющий вопрос, он ошибочно принял устройство за фитнес-браслет от Huawei. 

      Он также может откровенно врать. И, я бы сказал, довольно уверенно. Например, когда я попросил его подвести итоги моего обзора носимого устройства, ИИ ответил, что Digital Trends его еще не рассматривала. На самом деле статья была опубликована неделю назад. 

      Затем я попросил его просмотреть несколько статей на моей авторской странице после того, как я включил общий доступ к экранам. Gemini проделала достойную работу по объяснению историй, но иногда затруднялась с пониманием контекста. Например, в статье неверно указано, что только Intel и AMD могут создавать процессоры, которые соответствуют требованиям к значку Copilot+.  

      Надим Сарвар / Digital Trends.

      В статье, с другой стороны, четко указано, что Qualcomm первой выполнила этот критерий, опередив конкурентов. И только в конце прошлого года AMD и Intel смогли, наконец, выйти на новый уровень и удовлетворить требования к чипам искусственного интеллекта, выпустив новую линейку процессоров. 

      В середине обсуждения статьи снова возникла проблема с памятью. Вместо того, чтобы кратко изложить историю, которая обсуждалась, Gemini вернулась к обсуждению первой статьи, которую она увидела в разделе "Скриншоты". Когда я прервал ее на середине повествования, Gemini исправила свою ошибку. 

      Еще одна проблема, которую я заметил при написании текстов на неанглоязычных языках, заключается в том, что Gemini Live случайно меняли голос и темп в середине повествования. Это было довольно неприятно, а произношение было абсолютно механическим, что сильно отличалось от их разговорных навыков, присущих человеку. 

      Надим Сарвар (Nadeem Sarwar) / Digital Trends.

      Проблемы машинного зрения также проявляются и в отношении стилистических шрифтов. В нескольких случаях ИИ уверенно выдавал неверную информацию, а когда его просили исправить ошибку, он выражал неспособность найти самую свежую информацию по этой теме. Подобные сценарии редки, но ошибки Gemini никуда не делись. 

      Подводя итог, я думаю, что Gemini Live с возможностью совместного использования камеры и экрана - это один из самых больших прорывов, которые до сих пор совершал искусственный интеллект. Это одна из самых полезных реализаций генеративного ИИ на сегодняшний день. Все, что ему нужно, - это немного разнообразия и избавление от синдрома “уверенного в себе лжеца”. 

      Сейчас все определенно идет по правильному пути, и в подавляющем большинстве случаев так оно и есть, но до того, чтобы ИИ стал идеальным спутником техно-футуристических мечтаний, еще несколько важных этапов.

Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе

Другие статьи

Что случилось с первым запуском Amazon Project Kuiper? Что случилось с первым запуском Amazon Project Kuiper? Все немного затихло с тех пор, как ULA отменила запуск 27 интернет-спутников на прошлой неделе. TECH5: 5 лучших игроков DACH попали в "Лигу чемпионов технологий" TECH5: 5 лучших игроков DACH попали в "Лигу чемпионов технологий" Пять быстрорастущих компаний из региона ДАЧ прошли квалификацию на TECH5 - “Лигу чемпионов в области технологий”. В замедленной съемке видно, как спутники Starlink излучают свет в космосе В замедленной съемке видно, как спутники Starlink излучают свет в космосе Астронавт космической станции Дон Петтит поделился видеороликом, на котором показаны полосы света, создаваемые спутниками Starlink компании SpaceX. RTX 5060 Ti от Nvidia может быть на 20% быстрее, чем RTX 4060 Ti RTX 5060 Ti от Nvidia может быть на 20% быстрее, чем RTX 4060 Ti Ожидается, что новый графический процессор среднего класса от Nvidia поступит в продажу в этом месяце Дизайн OnePlus 13T просачивается наружу, и в нем чувствуются серьезные особенности iPhone Дизайн OnePlus 13T просачивается наружу, и в нем чувствуются серьезные особенности iPhone Информация о дизайне OnePlus 13T неоднократно появлялась на китайском сайте микроблогов Weibo. Я отказался от Chrome ради браузера Vivaldi, и это потрясающе Я отказался от Chrome ради браузера Vivaldi, и это потрясающе Еще несколько недель назад я почти ничего не знала о Вивальди, но после того, как я немного им попользовалась, я полностью прониклась.

Я протестировал вживую аватарку Gemini, способную понять мир. Это было шокирующе

В течение нескольких дней я пробовал Gemini Live нового поколения с возможностью совместного использования камеры и экрана. Это навсегда изменило мои повседневные представления об искусственном интеллекте.