Более продвинутые разговорные разговоры приходят в ChatGPT
Далеко от роботизированного голоса, который люди привыкли слышать от цифровых помощников вроде Alexa или Siri, продвинутый голосовой режим ChatGPT звучит поразительно реалистично. Он отвечает в режиме реального времени, может подстраиваться под прерывания, издавать смешки, когда пользователь шутит, и определять эмоциональное состояние говорящего по тону голоса. (На начальном демо он также подозрительно напоминал Скарлетт Йоханссон).
Начиная со вторника, продвинутый голосовой режим — который работает с самой мощной версией чат-бота, ChatGPT-4o — начнет распространяться среди платных пользователей. Продвинутый голосовой режим начнет распространяться среди небольшой группы подписчиков на приложение «Плюс», с целью сделать его доступным для всех пользователей «Плюс» к осени.
У ChatGPT уже есть менее продвинутый голосовой режим. Но выход более продвинутого голосового режима может стать поворотным моментом для OpenAI, превратив уже значительного AI-чат-бота в нечто большее, похожее на виртуального личного помощника, с которым пользователи могут общаться в естественных, устных беседах так же, как они общаются с другом. Легкость общения с продвинутым голосовым режимом ChatGPT может побудить пользователей чаще использовать инструмент и составить конкуренцию виртуальным ассистентам-ветеранам, таким как Apple и Amazon.
Но выход более продвинутого голосового режима для ChatGPT также поднимает большие вопросы: будет ли инструмент надежно понимать, что пытаются сказать пользователи, даже если у них есть речевые различия? И будут ли пользователи больше склонны слепо доверять человекообразному AI-помощнику, даже когда он ошибается?
OpenAI изначально планировало начать выпуск продвинутого голосового режима в июне, но сказало, что ему нужно «еще один месяц, чтобы достичь нашего уровня запуска», чтобы протестировать безопасность инструмента и гарантировать, что он может использоваться миллионами людей, сохраняя при этом реальное время отклика.
Компания заявила, что в последние месяцы испытывала возможности AI-модели по голосу с более чем 100 тестировщиками, чтобы выявить потенциальные слабые места, «которые в совокупности говорят на 45 разных языках и представляют 29 разных географий», согласно заявлению во вторник.
В числе мер безопасности компания заявила, что голосовой режим не сможет использовать голоса, кроме четырех предварительно установленных опций, созданных в сотрудничестве с актерами голоса — чтобы избежать подражания — и также будет блокировать определенные запросы, направленные на генерацию музыки или другой защищенной авторским правом аудио. OpenAI заявляет, что инструмент также будет иметь те же защиты, что и текстовый режим ChatGPT, чтобы предотвратить генерацию незаконного или «вредного» контента.
Продвинутый голосовой режим также будет иметь одно существенное отличие от демо, которое OpenAI показало в мае: пользователи больше не смогут получить доступ к голосу, который многие (включая саму актрису) считали похожим на Йоханссон. Хотя OpenAI утверждало, что голос никогда не был задуман как похожий на Йоханссон и был создан с помощью другого актера, оно приостановило использование голоса «из уважения» после жалобы актрисы.
Выход продвинутого голосового режима ChatGPT происходит после того, как OpenAI в прошлом неделе объявило, что тестирует поисковую систему, использующую свою технологию AI, по мере того, как компания продолжает расширять свой портфель потребительских AI-инструментов. Поисковая система OpenAI в конечном итоге может составить серьезную конкуренцию доминированию Google в онлайн-поиске.
Выпуск продвинутого голосового режима ChatGPT-4 может принести больше бизнеса OpenAI, превращая чат-бота в виртуального помощника для естественных бесед. Однако надежность понимания речи пользователей с различиями и доверие к AI-помощнику, который ошибается, являются серьезными проблемами.