Мероприятие Google Made by Google официально завершилось, на котором компания представила новейшую линейку своих флагманских смартфонов серии Pixel. Слухи об этом активно циркулировали в течение последних нескольких недель, и многие из них наконец-то стали реальностью. Более того, как и ожидалось, на мероприятии также было немало — ну, на самом деле, довольно много — упоминаний об ИИ.
Среди прочего, ИИ, одним из важных анонсов стал запуск Gemini Live. Google анонсировала Gemini Live на своей конференции I/O в начале этого года. Наконец-то он доступен подписчикам Gemini Advanced на Android на английском языке, а вскоре появится и на других языках и iOS (через приложение Google).
С Gemini Live Gemini теперь может поддерживать более естественные двусторонние разговоры. Вы также можете прервать его в середине ответа, как и в любом естественном разговоре. Вы можете зайти в приложение Gemini на Android, чтобы пообщаться с чат-ботом.
Это похоже на опыт расширенного голосового режима в приложении ChatGPT, который сейчас выпускается в ограниченной альфа-версии для пользователей ChatGPT Plus. На этот раз Google обогнал OpenAI по срокам выпуска, начав более широкое развертывание.
Gemini Live также доступен в режиме громкой связи, поэтому вы можете разговаривать с Gemini в фоновом режиме или даже когда ваш телефон заблокирован. Вы также можете прерывать разговоры и возвращаться к ним позже.
Google запускает Gemini Live с 10 новыми голосами, чтобы ваше общение с ИИ было еще более реалистичным; вы можете выбрать голос и тон, которые вам больше всего подходят.
Примечательно, что Gemini Live не может имитировать никакой другой голос, кроме 10 голосов, доступных в приложении, возможно, чтобы избежать проблем с авторскими правами. ChatGPT-4o следует той же политике. Есть одна область, в которой Gemini Live отличается от голосового режима ChatGPT-4o. Первый не может понять ваши эмоции по вашему тону, что OpenAI продемонстрировала, когда их чат-бот мог делать.
Более того, есть еще одна возможность Gemini Live, которую Google продемонстрировала на конференции I/O, которая не будет доступна при запуске. Да, мы говорим о мультимодальных входах. Если вы не знаете, что это такое, не волнуйтесь. Вот краткий обзор: с помощью мультимодальных входов Gemini Live может принимать входы с камеры вашего телефона (как фотографии, так и видео) в режиме реального времени и отвечать на любые вопросы или помогать вам идентифицировать объекты, на которые вы указываете. Например, вы можете направить его на какое-то диджейское оборудование и попросить его идентифицировать название детали или вы можете направить его на свой экран и спросить, что делает определенная часть кода.
Но мультимодальные возможности пока отложены, и Google только сказал, что они появятся позже в этом году, без каких-либо подробностей. Интересно, что расширенный голосовой режим ChatGPT-4o также должен иметь схожие возможности, но они также не были запущены с ограниченным альфа-выпуском.
Примечательно, что Gemini Live — это шаг на пути Google к реализации проекта Astra.
Иногда гораздо удобнее разговаривать с чат-ботом, чем что-то печатать, особенно когда вы хотите провести мозговой штурм. А с Gemini Live общение может быть гораздо более плавным. Или, если судить по живым демонстрациям с мероприятия Made by Google, достаточно плавным. (Похоже, чат-бот галлюцинировал во время живой демонстрации, и возникли некоторые трудности при тестировании функции «прервать Gemini посередине»). Давайте посмотрим, как это покажет себя в реальном мире, а? Приготовьтесь протестировать Gemini Live на своих Pixel, Samsung или других устройствах Android в течение следующих недель, начиная с сегодняшнего дня.
Добавить комментарий