Недавно Google анонсировала множество обновлений своей модели Gemini AI, включая несколько обновлений и новых моделей. Среди них большое внимание привлекла Gemini Live, мультимодальная модель искусственного интеллекта с возможностями видео и голоса.
С тех пор, как в феврале Bard был переименован в Gemini, модель искусственного интеллекта стала заменой Google Assistant на устройствах Android. Однако в настоящее время его возможности весьма ограничены. С помощью Gemini Live Google стремится изменить эту ситуацию, предложив более мощную и универсальную модель искусственного интеллекта.
Что такое Близнецы Live?
Чтобы предоставить пользователям улучшенный опыт работы с искусственным интеллектом и использовать усовершенствованный ChatGPT OpenAI GPT-4o, Google недавно анонсировала Gemini Live на своей конференции разработчиков ввода-вывода. Gemini Live позволит пользователям вести с ним естественные и персонализированные разговоры в режиме реального времени посредством голоса, а затем и видео.
Новая модель искусственного интеллекта является частью проекта Google Project Astra, который представляет собой попытку поискового гиганта создать универсального помощника искусственного интеллекта, который может использовать различные типы входных данных из повседневной жизни для оказания помощи. Например, Gemini Live может использовать текст, изображения с камеры вашего смартфона и ваш голос для ответа на вопросы.
По мнению Google, новая модель естественного языка не только поможет пользователям решать проблемы и выполнять различные действия, но и чувствовать себя совершенно естественно во время взаимодействия. Пользователи смогут запустить Gemini Live, коснувшись значка голоса на своем телефоне, который отобразит ИИ в полноэкранном режиме с эффектом звуковой волны.
После этого вы сможете общаться с ИИ так же, как с настоящим личным помощником. Отличным примером того, как обновленная модель ИИ может вам помочь, является ситуация, когда вы просите ее помочь вам с подготовкой к собеседованию. Gemini Live предложит навыки, которые вы можете подчеркнуть, даст советы по публичным выступлениям и многое другое.
Функции
Gemini Live имеет несколько функций, которые делают его гораздо лучшим помощником по искусственному интеллекту, чем Google Assistant, Siri от Apple или Alexa от Amazon.
Двусторонние голосовые разговоры
Gemini Live позволяет вам общаться с ним и обеспечивает вербальные ответы, подобные человеческим, что приводит к увлекательному и интуитивно понятному общению. Например, вы можете спросить его о погоде, и он предоставит вам точную и краткую информацию.
Возможности интеллектуального помощника
Модель искусственного интеллекта может служить умным помощником и выполнять такие задачи, как обобщение информации из электронных писем и обновление календаря. Например, вы можете сфотографировать афишу концерта, и Gemini добавит событие в ваш календарь.
Визуальные возможности
Используя камеру вашего смартфона, Gemini Live может снимать видео в режиме реального времени. Это позволяет ему идентифицировать объекты и отвечать на вопросы, касающиеся их. Например, если вы направите камеру своего смартфона на динамик и попросите Gemini идентифицировать его, он скажет вам, что это такое, и даже определит его марку и модель.
Как работает Gemini Live?
Project Astra может сочетать речевые и визуальные данные, что упрощает их понимание моделью ИИ. Затем он может отреагировать на информацию и оказать необходимую помощь. Как и ChatGPT OpenAI на базе GPT-4o, Gemini Live представляет собой мультимодальный ИИ и не полагается исключительно на текст в качестве входных данных.
Хотя изначально Gemini Live будет использовать голосовой ввод для сбора и анализа данных, в ближайшие месяцы он будет обновлен, чтобы также обрабатывать и анализировать видео, разбивая их покадрово для лучшего понимания и взаимодействия.
ИИ может адаптироваться к скорости, с которой говорят разные пользователи, и вы даже можете прерывать его, чтобы попросить разъяснений или предоставить дополнительную информацию. Его способность имитировать человеческий диалог может обеспечить более увлекательное взаимодействие. Таким образом, вы можете вести с ним двусторонний разговор, как с помощником-человеком. Кроме того, вы сможете выбирать один из десяти разных голосов ИИ.
GPT-4o против. Близнецы в прямом эфире
Хотя и GPT-4o, и Gemini Live являются мультимодальными моделями искусственного интеллекта, сейчас трудно понять, какая из них работает лучше в реальной жизни, тем более что ни одна из них на данный момент не является общедоступной.
Однако, в отличие от ChatGPT, Gemini Live использует другие модели искусственного интеллекта, такие как Google Veo и Imagen 3, для предоставления вывода в виде видео и изображений. Несмотря на это, в демонстрациях, продемонстрированных OpenAI и Google, ChatGPT казался более естественным, а новая модель GPT-4o могла даже обнаруживать и имитировать человеческие эмоции посредством голосовых тонов.
Кроме того, он может адаптироваться к тому, как вы хотите, чтобы он отвечал, чего Gemini Live не может сделать, по крайней мере, в его текущем состоянии.
Доступность Gemini Live
Gemini Live будет доступен подписчикам Gemini Advanced — платной версии чат-бота с искусственным интеллектом. Он будет запущен в ближайшие месяцы и, как ожидается, станет широко доступен к концу года.
Такие приложения, как Google Messages, смогут в полной мере использовать преимущества Gemini Live, позволяя пользователям взаимодействовать с искусственным интеллектом непосредственно в приложении для обмена сообщениями.
Gemini Live может стать следующим крупным обновлением чат-бота Google с искусственным интеллектом и именно тем, что ему нужно, чтобы противостоять таким конкурентам, как ChatGPT от OpenAI. Благодаря мультимодальной функциональности и мощным речевым возможностям обновленная модель может помочь Google добиться успеха в создании универсального и надежного цифрового помощника.
На данный момент Google только объявил, что представит новую модель искусственного интеллекта платным подписчикам. Хотя это не учитывает бесплатных пользователей, которые составляют огромную часть пользовательской базы Google, мы очень надеемся, что Google изменит свою позицию и решит расширить доступность Gemini Live.
Добавить комментарий