Обзор расширенного голосового режима ChatGPT: развлекательный и впечатляющий, но все же способный изменить правила игры

В мае демонстрация расширенного голосового режима OpenAI захватила аудиторию, вызвав волну восторга. Однако этот первоначальный восторг быстро сменился разочарованием, когда выяснилось, что эта функция будет доступна только в конце этого года.

Прошло несколько месяцев, и OpenAI развернула Advanced Voice Mode для всех пользователей ChatGPT, включая как бесплатных, так и платных подписчиков. Теперь, когда технология доступна для более широкого использования, пришло время оценить ее производительность и посмотреть, соответствует ли она высоким ожиданиям, установленным первоначальной демонстрацией.

Оценка возможностей и ограничений

Ощутимое чувство разочарования возникло у пользователей, которые ожидали, что Advanced Voice Mode будет отражать впечатляющие функции, показанные в более ранней демонстрации. Ключевые функции, такие как мультимодальность, подключение к Интернету и возможности загрузки файлов, заметно отсутствуют. Несмотря на развертывание ChatGPT Search, голосовой режим по-прежнему не имеет доступа к Интернету в реальном времени и обновлений.

Более того, невозможность продолжить голосовые разговоры из предыдущих текстовых взаимодействий ограничивает его практичность. Этот недостаток резко контрастирует с многообещающими возможностями, подчеркнутыми во время демонстрации, побуждая пользователей желать функций, которые остаются нереализованными.

Улучшения в разговорном потоке

Несмотря на свои ограничения, расширенный голосовой режим демонстрирует заметные улучшения по сравнению с предшественником. Разговоры кажутся более органичными, и пользователи могут прерывать их, не дожидаясь, пока ИИ «подумает», создавая более увлекательный опыт.

Пока некоторые рассуждают о внутренних процессах нового голосового режима, мой опыт показывает, что задержка между говорением и получением ответа минимальна. Эта непосредственность способствует ощущению диалога, похожего на человеческий разговор.

Возможность переключения между языками, включая хинди, пенджаби, английский и французский, также заслуживает похвалы. Однако иногда возникают трудности с различением хинди и пенджаби, а голосовой режим мог бы выиграть от функции транскрипции в реальном времени для изучения языка.

Разнообразные и увлекательные голосовые возможности

Выбор голосов ChatGPT улучшает пользовательский опыт. В настоящее время он предлагает следующие голоса:

Arbor (M) – Спокойный и универсальный
Вейл (Ж) – Яркий и любознательный
Бриз (М) – Оживленный и серьезный
Соль (Ж) – Разумный и расслабленный
Клен (Ж) – Веселый и искренний
Бухта (М) – Сдержанный и прямой
Эмбер (М) – Уверенный и оптимистичный
Можжевельник (Ж) – Открытый и оптимистичный
Ель (М) – Спокойный и утверждающий

Живой характер этих голосов делает общение гораздо более приятным по сравнению с тем, что предлагают такие конкуренты, как Gemini Live и Copilot, которым не хватает подобной плавности разговора.

Проблемы с ограничениями

Хотя голосовой режим может эффективно передавать эмоциональные нюансы повествования, он не дотягивает из-за слишком строгих ограничений. В более ранней демоверсии пользователи имели более широкий спектр возможностей, включая возможность петь, которая была удалена, чтобы избежать потенциальных нарушений авторских прав.

К сожалению, эти ограничения портят общее впечатление. Пользователи могут столкнуться с отказами в ответ на разумные запросы, такие как создание диалогов для актерской практики, что создает разочарование. Расширенный голосовой режим иногда может выполнять некоторые творческие запросы с небольшим подсказыванием, но часто кажется, что непоследовательность мешает его использованию.

Возможности памяти и понимание контекста

Примечательной особенностью Advanced Voice Mode является его способность вызывать информацию. Однако он не позволяет отслеживать голосовые разговоры в существующих чатах, содержащих текст или изображения, что является существенным ограничением.

Для сравнения, Gemini Live поддерживает постоянный диалог независимо от предыдущих контекстов чата, указывая на область, в которой OpenAI, возможно, необходимо улучшиться, чтобы эффективно конкурировать.

Быстрое время реагирования

Хотя быстрые ответы улучшают динамику разговора, иногда они могут нарушить течение диалога. ИИ имеет тенденцию неправильно интерпретировать паузы как приглашение к ответу, что приводит к прерываниям, которые могут сбить ход мыслей пользователя.

Функция, позволяющая пользователям сигнализировать о более длительных паузах, аналогичная кнопке «Удерживать», значительно повысила бы естественность этих взаимодействий.

Случайные незначительные сбои

Большинство взаимодействий с Advanced Voice Mode проходят гладко, но пользователи могут иногда сталкиваться с небольшими сбоями, такими как кратковременные помехи или неожиданные изменения голоса. Хотя эти проблемы, как правило, незначительны, они могут иногда нарушать пользовательский опыт.

Соображения стоимости и доступности

Расширенный голосовой режим доступен на бесплатном плане ChatGPT примерно 15 минут в месяц, но для полного доступа требуется подписка. Это контрастирует с конкурентами, такими как Copilot и Gemini Live, которые предлагают свои голосовые функции бесплатно для пользователей.

Абонентская плата, а также отсутствие таких функций, как доступ в Интернет, которые есть в других моделях, вызывают вопросы о ценности услуги, особенно для пользователей, которых интересуют исключительно голосовые возможности.

Окончательная оценка

Хотя Advanced Voice Mode, несомненно, может похвастаться впечатляющими технологическими достижениями, в настоящее время он не может предоставить все, что было обещано в демоверсии. Его практическое применение ограничено, и без существенных улучшений он служит скорее новинкой, чем необходимым инструментом.

Для тех, кто уже подписался на ChatGPT для таких функций, как Canvas, Search или reasoning model, Advanced Voice Mode может послужить приятным дополнением. Однако он может не оправдать подписку сам по себе.

Источник и изображения