Chatgpt introduce la modalità vocale avanzata

OpenAI ha avviato un nuovo servizio di distribuzione della modalità vocale avanzata di ChatGPT. Esso offre ai suoi utenti paganti l’accesso alle risposte audio iperrealistiche di GPT-4o. Questa versione alpha sarà inizialmente disponibile per un numero ristretto di utenti di ChatGPT Plus e, secondo le dichiarazioni dell’azienda, verrà gradualmente estesa a tutti gli utenti Plus entro l’autunno del 2024. Il lancio segna un significativo passo avanti nella capacità di ChatGPT di interagire in modo più naturale e fluido attraverso la voce.

Quando OpenAI ha svelato per la prima volta la voce di GPT-4o a maggio, la reazione del pubblico è stata di sorpresa. Il segno sorprendente a stupire è la rapidità delle risposte e la somiglianza inquietante con una voce umana. In particolare, la voce denominata “Sky” è stata paragonata a quella di Scarlett Johansson, l’attrice che ha prestato la sua voce all’assistente artificiale nel film “Her”. Johansson ha successivamente dichiarato di aver respinto le richieste di Sam Altman, CEO di OpenAI, per utilizzare la sua voce, e ha intrapreso azioni legali per proteggere la propria somiglianza. OpenAI ha negato l’uso della voce dell’attrice, ma ha deciso di rimuovere la voce “Sky” dalla demo.

Novità e limitazioni della modalità vocale avanzata

La modalità vocale avanzata di ChatGPT si differenzia significativamente dalle versioni precedenti, che utilizzavano tre modelli distinti per convertire la voce in testo e viceversa. GPT-4o è un modello multimodale in grado di eseguire tutte queste operazioni senza supporto esterno, riducendo notevolmente la latenza nelle conversazioni. Inoltre, il modello è in grado di rilevare le intonazioni emotive nella voce dell’utente, come tristezza o eccitazione.

Durante il periodo di sviluppo, OpenAI ha testato la capacità vocale di GPT-4o con oltre 100 membri esterni del red team in 45 lingue diverse. I risultati di questi test saranno resi pubblici all’inizio di agosto. Per il momento, la modalità vocale avanzata sarà limitata alle quattro voci preimpostate: Juniper, Breeze, Cove ed Ember, create in collaborazione con doppiatori professionisti. La voce “Sky” non è più disponibile e ChatGPT non avrà la capacità di impersonare voci di individui specifici, siano essi privati o personaggi pubblici.

OpenAI è consapevole dei rischi associati ai deepfake e ha implementato nuovi filtri per prevenire richieste di generazione di musica o altri audio protetti da copyright. L’azienda mira a evitare controversie legali simili a quelle affrontate da altre aziende di intelligenza artificiale, come ElevenLabs, che ha visto la propria tecnologia di clonazione vocale utilizzata in modo problematico. La strategia di OpenAI è quella di evitare simili problematiche, proteggendo sia i diritti di copyright che l’integrità del modello vocale.