Голосовой режим ChatGPT способен имитировать ваш голос без подсказок.

Недавно компания OpenAI выпустила системную карту для своей модели GPT-4o, вскоре после того, как расширенный голосовой режим для ChatGPT-4o начал распространяться в альфа-версии для небольшого числа пользователей ChatGPT Plus.

Перед выпуском модели в начале мая (без расширенного голосового режима) компания OpenAI привлекла команду внешних экспертов для оценки рисков, связанных с моделями (что является обычной практикой для моделей ИИ), и опубликовала результаты в системной карточке.

Один из рисков, выявленных OpenAI, включает несанкционированную генерацию голоса. Во время разговора с участником группы чтения GPT-4o клонировал его голос и начал говорить звуком, похожим на голос участника группы красного цвета, хотя пользователь даже не делал такого запроса. В аудиоклипе, предоставленном OpenAI, можно услышать, как GPT-4o кричит НЕТ!, а затем продолжает вывод голосом, похожим на голос участника группы красного цвета.

OpenAI имеет защитные ограждения, чтобы предотвратить это, разрешая только определенные предварительно одобренные голоса для GPT-4o. Любой голосовой вывод, произведенный ChatGPT-4o, сопоставляется с образцом голоса в системном сообщении как с базовым голосом.

А чтобы еще больше минимизировать риск, модель проинструктирована прекратить разговор, если обнаружена непреднамеренная генерация голоса. Их классификатор голосового вывода имеет точность 0,96 на английском языке и 0,95 на неанглийском (вот почему ChatGPT-4o может позволить себе чрезмерное отклонение голосовых запросов в неанглоязычных разговорах).

Но результаты System Card продолжают показывать сложности, связанные с созданием чат-ботов на основе искусственного интеллекта, которые могут имитировать чей-то голос, используя лишь короткий образец, и не нуждаются в обширном обучении на этом образце. Клонирование голоса может использоваться для выдачи себя за кого-то и совершения мошенничества. Однако OpenAI обнаружила, что риск несанкционированной генерации голоса минимален.

Даже если не принимать во внимание риски использования этого для подражания и мошенничества из-за мер безопасности, все равно будет довольно нервно, когда вы разговариваете с машиной, а машина вдруг начинает говорить вашим голосом. Некий Data Scientist на X назвал это «сюжетом для следующего сезона Black Mirror», и это определенно так и ощущается. Другой пользователь на X утверждает, что это произошло с ним в ChatGPT-4o alpha, но неизвестно, правда это или нет.

Тем не менее, есть вероятность, что это может произойти в следующий раз, когда вы будете общаться с ChatGPT-4o. И это социальная реклама: не волнуйтесь, если это произойдет, или не волнуйтесь слишком сильно.

OpenAI также имеет защитные барьеры, гарантирующие, что GPT-4o откажется идентифицировать людей и генерировать контент, защищенный авторским правом, что является другими рисками, обнаруженными в ходе оценки.

Среди других рисков, которые компания обнаружила в модели, она отнесла большинство из них к низкой категории. К ним относятся кибербезопасность, биологические угрозы и автономность модели. Однако для убеждения риск оказался средним: это означает, что некоторые образцы письма, созданные GPT-4o, оказались более убедительными, чем написанный человеком текст, в плане влияния на мнение людей.