Questo ultimo Speakers’ Corner del 2024 ha ospitato Roberto Caso*, professore ordinario di Diritto privato comparato all’Università di Trento, che ha affrontato i complessi temi legati alle implicazioni etico-giuridiche dell’intelligenza artificiale sul diritto d’autore e sulla pubblicazione scientifica, concentrandosi sulla necessità di garantire trasparenza nei dati di addestramento e di contrastare la mercificazione della conoscenza scientifica.


Quali sono i meccanismi attuali, come licenze specifiche o tecnologie di watermarking, che gli autori possono utilizzare per proteggere i loro contenuti Open Access dall’addestramento indiscriminato di modelli di intelligenza artificiale (IA), e quali sono i limiti di queste soluzioni?

Gli strumenti di protezione dei contenuti Open Access, come le licenze Creative Commons, si riconnettono al diritto d’autore, ma occorre partire da una premessa fondamentale: il diritto d’autore non protegge i dati in sé. Se un sistema di IA viene addestrato riproducendo dati e non opere dell’ingegno o elementi delle stesse, ciò dovrebbe essere lecito. Tuttavia, la direttiva europea 790 del 2019 ha complicato il quadro, introducendo eccezioni per il text and data mining, poi recepite in Italia. La norma cerca di bilanciare il libero uso dei dati con la tutela delle opere, ma finisce per rendere maggiormente ambiguo il quadro legislativo.

Per proteggere i contenuti, gli autori possono ricorrere a licenze che vietano l’uso dei propri lavori per l’addestramento di IA, inserendo esplicitamente questa limitazione nei termini di utilizzo. Tecnologie come il watermarking o soluzioni più avanzate, come il data poisoning (l’alterazione dei dati per ingannare i sistemi di IA), possono fornire un supporto ulteriore. Tuttavia, queste soluzioni sono limitatamente efficaci. Il problema di fondo resta la mancanza di trasparenza da parte dei grandi player dell’IA.

In che modo le politiche degli editori si stanno evolvendo per gestire l’uso di strumenti di IA generativa nella scrittura scientifica e quali criteri etici e giuridici devono essere rispettati per garantire la trasparenza e l’attribuzione appropriata?

Gli editori scientifici, soprattutto i grandi gruppi, stanno affrontando questa evoluzione con una duplice strategia: da un lato, cercano di difendersi dai grandi sviluppatori di IA, come OpenAI, attraverso azioni legali o contratti commerciali, consolidando la loro posizione di controllo sui contenuti nel tentativo di rafforzare il loro potere contrattuale; dall’altro lato, sviluppano sistemi di intelligenza artificiale propri, rafforzando la sorveglianza sui comportamenti degli autori e dei lettori, perché l’IA delle grandi Big Tech si basa sull’accumulo di grandi quantità di dati che in parte sono dati personali derivanti dalla sorveglianza massiva delle persone.

La questione della trasparenza e dell’attribuzione passa necessariamente attraverso la tracciabilità dei dati e la riproducibilità dei processi. Le pratiche attuali degli editori non sempre rispettano questi criteri, anche a causa della segretezza contrattuale (i contratti sono mantenuti riservati). Gli autori, però, spesso non hanno voce in capitolo: cedono i loro diritti in cambio di visibilità e bollini valutativi legati alla bibliometria, perdendo ogni controllo sui propri lavori.

Quali sono le principali implicazioni etiche e giuridiche della mercificazione della conoscenza scientifica e come il movimento Open Access può contribuire a contrastare le pratiche oligopolistiche degli editori?

La mercificazione della conoscenza scientifica ha conseguenze profonde: la concentrazione del mercato editoriale nelle mani di pochi grandi gruppi è un fenomeno oligopolistico che limita la democrazia della scienza e, quindi, la democrazia della società. Gli editori oligopolisti perseguono obiettivi di profitto, non di progresso della conoscenza.
L’Open Access, se ben concepito e applicato, rappresenta un antidoto a queste dinamiche. Però, non bastano l’accesso gratuito e i diritti di riuso: la scienza deve essere trasparente e replicabile. In questo contesto, l’Open Science si base anche su infrastrutture tecnologiche pubbliche che garantiscano l’alternativa al predominio commerciale.

In che modo le legislazioni attuali affrontano la titolarità del diritto d’autore per opere create con l’ausilio dell’IA, e quali criteri sono utilizzati per determinare il ruolo dell’apporto umano nella protezione di queste opere?

Il diritto d’autore si basa sulla relazione tra creatività umana e tecnologia. Tale interazione insieme alla prevalenza di una concezione proprietaria del diritto d’autore ha generato infiniti problemi. Si pensi all’avvento della fotografia. La questione chiave è valutare, caso per caso, se l’apporto umano sia sufficientemente rilevante per giustificare la protezione dell’opera.

Al momento, le leggi italiane ed europee non riconoscono diritti d’autore a opere generate esclusivamente da IA, poiché presuppongono implicitamente o esplicitamente l’esistenza di una personalità umana. Alcune proposte legislative mirano a rendere esplicito questo principio, ma si tratta di modifiche superflue, in quanto la giurisprudenza già lavora sul piano interpretativo per governare il problema.

Quali strumenti normativi, come il meccanismo di opt-out nell’AI Act europeo, vengono implementati per regolare l’uso di opere protette da copyright nei dataset di addestramento IA, e quali sono le sfide legate alla trasparenza e all’applicabilità pratica di queste disposizioni?

L’AI Act richiama il principio stabilito dalla direttiva 2019/790, che consente agli autori di vietare l’uso delle loro opere per l’addestramento dell’IA, attraverso una riserva esplicita leggibile dalle macchine. Tuttavia, la vera sfida è garantire la trasparenza. L’AI Act impone ai fornitori di modelli generativi di fornire una sintesi dei dati utilizzati per l’addestramento, ma questa soluzione appare insufficiente: per verificare il rispetto del diritto d’autore, è necessario conoscere nel dettaglio l’intero processo di addestramento e di produzione dell’output.

Come si applicano le leggi sul copyright agli output generati da modelli di IA addestrati su Open Data, e quali sono le condizioni in cui questi output potrebbero essere considerati illeciti?

Anche per questo, bisogna valutare caso per caso. Se l’output è una riproduzione degli elementi creativi di un’opera protetta, ciò costituisce una violazione del diritto d’autore. Un esempio significativo è la causa del New York Times contro OpenAI, in cui si è dimostrato che i testi generati, a seguito di specifiche formulazioni dei prompt, dall’IA erano quasi identici agli articoli originali.

Quali modifiche alle licenze e alle normative esistenti potrebbero migliorare il riutilizzo degli Open Data per l’addestramento dell’IA, garantendo al contempo una maggiore chiarezza giuridica e protezione contro gli usi impropri?

Personalmente, sono scettico sull’uso aggressivo dei diritti di esclusiva per difendersi dall’IA. La vera soluzione non sta nel rafforzamento delle protezioni, ma nella creazione di un ecosistema alternativo, basato su principi di scienza aperta e infrastrutture pubbliche.

Contrastare i monopoli dei grandi player dell’IA è una sfida complessa, ma fondamentale: serve incentivare lo sviluppo di sistemi trasparenti e tracciabili, che rispettino i criteri della scienza aperta e siano accessibili alla comunità scientifica. Solo così è possibile mantenere un equilibrio tra innovazione tecnologica e tutela dei diritti collettivi.


Roberto Caso | Università di Trento
*Roberto Caso è professore ordinario di Diritto privato comparato all’Università di Trento e co-direttore del Gruppo LawTech.
Insegna Diritto civile, Diritto comparato della proprietà intellettuale, Diritto dell’era digitale, CopyrightX Trento e Diritto d’autore e arte.

Il professor Caso è socio fondatore dell’Associazione Italiana per la promozione della Scienza Aperta (AISA), che ha presieduto dal 2015 al 2024, è associate member del Centre for Intellectual Property Policy (CIPP) di McGill University, Faculty of Law (Montréal).