Conversazioni parlate più avanzate stanno arrivando a ChatGPT
Lontano dal tipo di voce robotica che le persone hanno imparato ad associare con gli assistenti digitali come Alexa o Siri, la modalità vocale avanzata di ChatGPT suona straordinariamente naturale. Risposta in tempo reale, può adattarsi alle interruzioni, può fare rumori di risata quando un utente fa una battuta e può giudicare lo stato emotivo di un parlante in base al tono di voce. (Durante la demo iniziale, ha anche sospettosamente suonato come Scarlett Johansson).
A partire da martedì, la modalità vocale avanzata - che funziona con la versione più potente del chatbot, ChatGPT-4o - inizierà a essere distribuita agli utenti a pagamento. La modalità vocale avanzata inizierà a essere distribuita a un piccolo gruppo di abbonati alla modalità "Plus" dell'app, con l'obiettivo di renderla disponibile a tutti gli utenti Plus entro l'autunno.
ChatGPT ha già una modalità vocale meno sofisticata. Ma il lancio di una modalità vocale più avanzata potrebbe segnare un importante punto di svolta per OpenAI, trasformando ciò che era già un significativo chatbot AI in qualcosa di più simile a un assistente personale virtuale con cui gli utenti possono intrattenere conversazioni naturali e parlate allo stesso modo in cui chiacchiererebbero con un amico. La facilità di conversare con la modalità vocale avanzata di ChatGPT potrebbe incoraggiare gli utenti a interagire con lo strumento più spesso e rappresentare una sfida per i concorrenti degli assistenti virtuali come Apple e Amazon.
Ma introdurre una modalità vocale più avanzata per ChatGPT solleva anche grandi domande: il tool comprenderà affidabilmente ciò che gli utenti cercano di dire, anche se hanno diversità del linguaggio? E gli utenti saranno più inclini a fidarsi ciecamente di un assistente AI che sembra umano, anche quando si sbaglia?
OpenAI aveva inizialmente detto di aver pianificato il lancio della modalità vocale avanzata a giugno, ma ha detto di aver bisogno di "un altro mese per raggiungere il nostro livello di lancio" per testare la sicurezza dello strumento e garantire che possa essere utilizzato da milioni di persone mantenendo ancora le risposte in tempo reale.
La società ha dichiarato di aver testato le capacità vocali del modello AI con più di 100 tester negli ultimi mesi per identificare eventuali debolezze, "che collettivamente parlano un totale di 45 diversi linguaggi e rappresentano 29 diverse geografie", secondo una dichiarazione di martedì.
Tra le sue misure di sicurezza, la modalità vocale non sarà in grado di utilizzare voci diverse da quattro opzioni preimpostate che ha creato in collaborazione con attori vocali - per evitare l'imitazione - e bloccherà anche determinate richieste che mirano a generare musica o altri audio protetti da copyright. OpenAI afferma che lo strumento avrà anche le stesse protezioni della modalità di testo di ChatGPT per impedire la generazione di contenuti illegali o "dannosi".
La modalità vocale avanzata avrà anche una differenza significativa rispetto alla demo che OpenAI ha mostrato a maggio: gli utenti non potranno più accedere alla voce che molti (compresa l'attrice stessa) hanno creduto somigliasse a Johansson. Anche se OpenAI ha mantenuto che la voce non era mai stata progettata per sembrare Johansson e