Come le battaglie sul copyright cambieranno i prodotti AI
La fine dell’era dei dati gratuiti
L’era della raccolta dati senza conseguenze è finita. Per anni, gli sviluppatori hanno creato large language models partendo dal presupposto che l’internet aperto fosse una risorsa pubblica. Questa convinzione si sta ora scontrando con la realtà delle aule di tribunale. Cause legali di alto profilo intentate da organizzazioni giornalistiche e artisti stanno forzando un cambiamento fondamentale nel modo in cui questi prodotti vengono realizzati e venduti. Le aziende non possono più ignorare l’origine dei loro training set. Il risultato è una transizione verso un modello basato su licenze, dove ogni token ha un prezzo. Questo cambiamento determinerà quali aziende sopravviveranno e quali crolleranno sotto il peso delle spese legali. Non si tratta solo di etica o diritti dei creatori, ma di sostenibilità del business. Se i tribunali dovessero decidere che l’addestramento su dati protetti da copyright non rientra nel fair use, il costo per costruire un modello competitivo salirà alle stelle. Questo favorirà i colossi tech che hanno già risorse ingenti e accordi di licenza esistenti. I player più piccoli potrebbero ritrovarsi completamente fuori mercato. La velocità di sviluppo sta colpendo un muro legale che rimodellerà il settore per gli anni a venire.
Dallo scraping alle licenze
Al centro, l’attuale conflitto deriva dal modo in cui i modelli generativi imparano. Questi sistemi ingeriscono miliardi di parole e immagini per identificare schemi. Nelle prime fasi di sviluppo, i ricercatori utilizzavano enormi dataset come Common Crawl senza preoccuparsi troppo dei diritti individuali associati a quei dati. Sostenevano che il processo fosse trasformativo, ovvero che creasse qualcosa di completamente nuovo senza sostituire l’opera originale. Questo argomento è il fondamento della difesa del fair use negli Stati Uniti. Tuttavia, la scala dell’attuale produzione di AI ha cambiato l’equazione. Quando un modello può generare un articolo di giornale nello stile di un giornalista specifico o un’immagine che imita un artista vivente, la tesi della trasformazione diventa più difficile da difendere. Ciò ha portato a un’ondata di contenziosi da parte dei proprietari di contenuti che vedono il proprio lavoro utilizzato per addestrare i loro futuri sostituti.
I recenti cambiamenti mostrano che il settore si sta allontanando dalla strategia del