Google запускает Gemini Live, ответ компании на расширенный голосовой режим ChatGPT

Мероприятие Google Made by Google официально завершилось, на котором компания представила новейшую линейку своих флагманских смартфонов серии Pixel. Слухи об этом активно циркулировали в течение последних нескольких недель, и многие из них наконец-то стали реальностью. Более того, как и ожидалось, на мероприятии также было немало — ну, на самом деле, довольно много — упоминаний об ИИ.

Среди прочего, ИИ, одним из важных анонсов стал запуск Gemini Live. Google анонсировала Gemini Live на своей конференции I/O в начале этого года. Наконец-то он доступен подписчикам Gemini Advanced на Android на английском языке, а вскоре появится и на других языках и iOS (через приложение Google).

С Gemini Live Gemini теперь может поддерживать более естественные двусторонние разговоры. Вы также можете прервать его в середине ответа, как и в любом естественном разговоре. Вы можете зайти в приложение Gemini на Android, чтобы пообщаться с чат-ботом.

Это похоже на опыт расширенного голосового режима в приложении ChatGPT, который сейчас выпускается в ограниченной альфа-версии для пользователей ChatGPT Plus. На этот раз Google обогнал OpenAI по срокам выпуска, начав более широкое развертывание.

Gemini Live также доступен в режиме громкой связи, поэтому вы можете разговаривать с Gemini в фоновом режиме или даже когда ваш телефон заблокирован. Вы также можете прерывать разговоры и возвращаться к ним позже.

Google запускает Gemini Live с 10 новыми голосами, чтобы ваше общение с ИИ было еще более реалистичным; вы можете выбрать голос и тон, которые вам больше всего подходят.

Примечательно, что Gemini Live не может имитировать никакой другой голос, кроме 10 голосов, доступных в приложении, возможно, чтобы избежать проблем с авторскими правами. ChatGPT-4o следует той же политике. Есть одна область, в которой Gemini Live отличается от голосового режима ChatGPT-4o. Первый не может понять ваши эмоции по вашему тону, что OpenAI продемонстрировала, когда их чат-бот мог делать.

Более того, есть еще одна возможность Gemini Live, которую Google продемонстрировала на конференции I/O, которая не будет доступна при запуске. Да, мы говорим о мультимодальных входах. Если вы не знаете, что это такое, не волнуйтесь. Вот краткий обзор: с помощью мультимодальных входов Gemini Live может принимать входы с камеры вашего телефона (как фотографии, так и видео) в режиме реального времени и отвечать на любые вопросы или помогать вам идентифицировать объекты, на которые вы указываете. Например, вы можете направить его на какое-то диджейское оборудование и попросить его идентифицировать название детали или вы можете направить его на свой экран и спросить, что делает определенная часть кода.

Но мультимодальные возможности пока отложены, и Google только сказал, что они появятся позже в этом году, без каких-либо подробностей. Интересно, что расширенный голосовой режим ChatGPT-4o также должен иметь схожие возможности, но они также не были запущены с ограниченным альфа-выпуском.

Примечательно, что Gemini Live — это шаг на пути Google к реализации проекта Astra.

Иногда гораздо удобнее разговаривать с чат-ботом, чем что-то печатать, особенно когда вы хотите провести мозговой штурм. А с Gemini Live общение может быть гораздо более плавным. Или, если судить по живым демонстрациям с мероприятия Made by Google, достаточно плавным. (Похоже, чат-бот галлюцинировал во время живой демонстрации, и возникли некоторые трудности при тестировании функции «прервать Gemini посередине»). Давайте посмотрим, как это покажет себя в реальном мире, а? Приготовьтесь протестировать Gemini Live на своих Pixel, Samsung или других устройствах Android в течение следующих недель, начиная с сегодняшнего дня.