Un creatore di contenuti su YouTube, David Millette, ha avviato una causa collettiva contro OpenAI. Egli accusa l’azienda di aver utilizzato trascrizioni di video di YouTube per addestrare i suoi modelli di intelligenza artificiale senza il consenso dei creatori e senza compenso. Questa azione legale, depositata presso la Corte distrettuale degli Stati Uniti per il distretto settentrionale della California, solleva interrogativi cruciali sul diritto d’autore. Inoltre fa riflettere riguardo la pratica del web scraping nel contesto dell’IA generativa.
Millette, rappresentato dallo studio legale Bursor & Fisher, sostiene che OpenAI abbia utilizzato trascrizioni di video di YouTube, inclusi i suoi, per addestrare modelli come ChatGPT e altri strumenti di IA generativa. La denuncia accusa OpenAI di aver raccolto e sfruttato i dati senza informare né compensare i creatori dei contenuti. Secondo la denuncia, OpenAI avrebbe tratto un profitto significativo dal lavoro degli utenti di YouTube. OpenAI avrebbe violato le leggi sul copyright e i termini di servizio della piattaforma di video, che proibiscono l’uso dei contenuti per scopi esterni.
“Man mano che i prodotti IA di OpenAI diventano più sofisticati, il loro valore cresce per gli utenti paganti. Tuttavia, gran parte di questo valore deriva da lavori che sono stati copiati senza consenso”, afferma la denuncia. Millette chiede un risarcimento di oltre 5 milioni di dollari per tutti i creatori di contenuti che potrebbero essere stati coinvolti nella formazione dei modelli di OpenAI.
Il ruolo delle trascrizioni nella formazione dell’IA
La formazione dei modelli di intelligenza artificiale richiede enormi volumi di dati. Tradizionalmente, questi dati provengono da fonti pubbliche e da scraping di web. Tuttavia, l’uso delle trascrizioni video è diventato cruciale, in quanto altre fonti di dati stanno diventando sempre più limitate. Recenti dati indicano che oltre il 35% dei primi 1.000 siti web bloccano i crawler di OpenAI e circa il 25% dei dati di alta qualità è stato limitato. Questo fenomeno potrebbe portare a una scarsità di dati per l’addestramento dei modelli di IA generativa tra il 2026 e il 2032, secondo le previsioni.
A tal proposito, un report del New York Times ha rivelato che OpenAI ha creato Whisper, un modello di riconoscimento vocale, per trascrivere video e raccogliere dati addizionali per il modello GPT-4. La pratica di trascrivere video e utilizzare questi dati per addestrare modelli di IA ha sollevato preoccupazioni su possibili violazioni delle regole di YouTube.
Le risposte delle aziende e le implicazioni future
OpenAI e Google sono state contattate per commentare la class action. Google, in particolare, ha aggiornato i suoi termini di servizio per consentire l’uso di dati utente. Ha incluso quelli di YouTube, per addestrare modelli di IA generativa. Questo aggiornamento potrebbe ampliare le pratiche di utilizzo dei dati raccolti su YouTube per scopi diversi dalla piattaforma stessa.
Il mese scorso, la situazione di OpenAI è stata ulteriormente complicata da una causa intentata da Elon Musk. Egli ha accusato OpenAI di aver abbandonato la sua missione non-profit originale e di riservare parte della sua tecnologia più avanzata ai clienti commerciali. Questo conflitto legale, che include accuse di racket, aggiunge un ulteriore strato di complessità alla posizione dell’azienda nel settore dell’IA.
Il futuro della regolamentazione nelle trascrizioni digitali
La causa collettiva di David Millette contro OpenAI segna un punto di svolta nel dibattito sulla proprietà dei dati e l’uso delle trascrizioni video per l’addestramento dei modelli di intelligenza artificiale. Con l’aumento della sofisticazione dei modelli di IA e la crescente domanda di dati di alta qualità, è essenziale che le aziende affrontino queste problematiche legali in modo trasparente e giusto. Questo caso potrebbe avere implicazioni significative per la regolamentazione della proprietà intellettuale e il futuro della raccolta e dell’uso dei dati nel campo dell’intelligenza artificiale.