Connect with us

AI

OpenAI accusata di usare libri O’Reilly senza licenza

Published

on

O'Reilly

OpenAI è accusata di aver usato libri protetti da copyright, tra cui quelli di O’Reilly Media, per addestrare il suo modello GPT-4o senza licenza. Questo solleva preoccupazioni legali ed etiche sull’uso dei dati nell’intelligenza artificiale.

L’addestramento dei modelli di intelligenza artificiale: una panoramica

I modelli di intelligenza artificiale, come quelli sviluppati da OpenAI, sono progettati per essere motori di previsione complessi, in grado di “apprendere” da enormi quantità di dati. Questi dati provengono da una varietà di fonti, tra cui libri, articoli, film e programmi televisivi. Il modello, attraverso un processo di addestramento, sviluppa una capacità di rispondere a richieste basandosi su schemi riconosciuti nei dati utilizzati. Tuttavia, nonostante la potenza di questi modelli, gli esperti sottolineano che non creano contenuti originali, ma piuttosto attingono dalle informazioni già disponibili nei loro set di dati. Il problema, però, emerge quando questi dati provengono da contenuti protetti da copyright e l’azienda non ha ottenuto una licenza appropriata per utilizzarli.

Le accuse contro OpenAI e l’uso dei libri O’Reilly

Un nuovo documento del AI Disclosures Project ha sollevato la questione dell’uso dei libri a pagamento di O’Reilly Media per addestrare i modelli GPT-4o. Secondo i ricercatori coinvolti, tra cui Tim O’Reilly, co-fondatore dell’organizzazione e CEO di O’Reilly Media, GPT-4o ha dimostrato un forte riconoscimento dei contenuti di libri O’Reilly a pagamento. Questo suggerisce che OpenAI potrebbe aver utilizzato tali contenuti senza una licenza formale, violando potenzialmente le normative sul copyright. Il documento ha impiegato un metodo di analisi chiamato DE-COP, che mira a identificare tracce di contenuti protetti da copyright all’interno dei modelli di IA. I risultati suggeriscono che GPT-4o riconosce un numero significativamente maggiore di contenuti rispetto a GPT-3.5 Turbo, il che alimenta i sospetti circa l’utilizzo di libri non pubblici di O’Reilly nel set di dati di addestramento.

Le implicazioni legali ed etiche dell’addestramento su dati non autorizzati

La questione legale riguardante l’uso di dati protetti da copyright senza licenza è diventata sempre più centrale nelle discussioni sull’intelligenza artificiale. OpenAI, pur avendo accordi con editori per l’accesso a contenuti come articoli di notizie, potrebbe trovarsi di fronte a azioni legali per l’uso di materiale non autorizzato, come i libri O’Reilly. L’azienda ha sostenuto di aver sviluppato meccanismi per consentire ai titolari di copyright di optare per l’esclusione dei loro contenuti, ma questo non ha fermato le preoccupazioni. Nonostante ciò, la pratica di raccogliere e utilizzare enormi quantità di dati senza sempre garantire l’autorizzazione solleva importanti interrogativi etici e legali. Inoltre, l’industria dell’IA sta affrontando una crescente pressione per sviluppare pratiche più trasparenti e conformi alle leggi sul copyright, mentre il dibattito sull’uso dei dati e le normative continuano ad evolversi.

Copyright © 2025 Justmedia srl