Если бы вы с нетерпением ждали последнего весеннего обновления от OpenAI для ChatGPT и надеялись, что компания выпустит GPT-5, вы бы разочаровались в этом отношении. Но то, что вместо этого выпустил OpenAI, с лихвой компенсирует это.
Недавно компания представила свою новейшую флагманскую модель – GPT-4o – и это шедевр человеческих инноваций. Буква «o» в GPT-4o означает «omni», и это удачный намек на новейшие вездесущие возможности ChatGPT. Хотя в области интеллекта и рассуждений особых улучшений по сравнению с моделью GPT-4 нет, новая модель отличается радикальными улучшениями в скорости и мультимодальности.
Что это значит? GPT-4o имеет улучшенные возможности в области текста, голоса и изображения. Он может лучше понимать и обсуждать изображения. Но самое интересное в обновлении — это возможность общаться с вами в режиме реального времени посредством аудио и видео, открывая нам будущее взаимодействия человека и машины. Большинство из нас только представляли себе это научно-фантастическое взаимодействие с искусственным интеллектом. Но оно здесь, и это волнующе.
Мира Мурати, технический директор OpenAI, вместе с двумя руководителями исследований продемонстрировала новые возможности GPT-40.
Голосовая модель обладает невероятной индивидуальностью и тональностью, способной заставить вас забыть (на время), что вы взаимодействуете с ИИ. Это пугающе интересно. Реакции гораздо более естественны, он даже смеется и притворяется, что краснеет, как человек.
Демо также продемонстрировало диапазон эмоций, которые ChatGPT может отображать, когда его явно об этом спрашивают: рассказывая историю, ChatGPT впитал в свой голос больше эмоций и драматизма, переключился на звук робота и даже пел, как в мюзикле, и он это сделал. все без проблем.
Многие пользователи говорят, что голос напоминает им искусственный интеллект Скарлетт Йоханссон из фильма «Она», но, что примечательно, это тот же голос, который был у ChatGPT в прошлом. Вся разница заключается в изменениях тональности и удачном смехе.
Когда вы сочетаете его с его способностями видеть и реагировать на контент на экране, это просто ошеломляет. Благодаря своим новым возможностям видения ChatGPT мог не только понимать такие вещи, как линейные уравнения, но и отлично справлялся с интерпретацией окружения, а также эмоций на лице человека, показываемых ему с помощью камеры. Теперь вы даже можете сыграть в «камень-ножницы-бумага» и попросить ChatGPT выступить в роли рефери или продвинуть подготовку к собеседованию с ChatGPT на шаг дальше, попросив его раскритиковать ваш наряд, и он не будет замалчивать любой плохой выбор, который вы сделаете.
В целом, эффект замечательный и почти заставляет вас поверить, что вы общаетесь с реальным человеком посредством видеозвонка (то есть, если другой человек все время держал камеру выключенной).
https://www.youtube.com/watch?v=DQacCB9tDaw
Модель голоса также в целом лучше, чем та, которая доступна в настоящее время. Диалог больше похож на естественный разговор: вы можете прервать его посередине, он может понимать и различать несколько голосов и фоновые шумы, а также тон голоса.
На техническом уровне это происходит потому, что GPT-4o изначально может делать все, что до сих пор требовало трех разных моделей: транскрипции, интеллекта и преобразования текста в речь. Эти улучшения обеспечивают пользователю более захватывающий опыт совместной работы вместо задержек, как в предыдущих моделях.
Хотя доступ к GPT-4o уже начинает предоставляться как бесплатно, так и пользователям Plus в веб-приложении, новый голосовой режим с GPT-4o будет запущен в альфа-версии только для пользователей ChatGPT Plus в ближайшие недели. Также выпускается новое приложение ChatGPT для macOS, доступ к которому развертывается итеративно, начиная с пользователей ChatGPT Plus.
Хотя демо-версия была весьма впечатляющей, нам придется подождать, чтобы увидеть, будет ли реальное приложение работать так же гладко, когда модель наконец будет выпущена.
Добавить комментарий