Nell’ecosistema della Scienza Aperta, un’infrastruttura si sta imponendo come elemento chiave per garantire trasparenza, riproducibilità e tutela del patrimonio scientifico digitale: Software Heritage (SH). Nell’era della ricerca computazionale, il software non è più un semplice supporto tecnico, ma una componente integrale della produzione scientifica, capace di documentare, spiegare e riprodurre i processi della conoscenza. Tuttavia, proprio il software è tra gli artefatti più fragili: può sparire, corrompersi, essere rimosso da piattaforme di sviluppo o disperso in repository abbandonati.

Una crisi silenziosa e la nascita di un archivio universale

Per decenni l’umanità ha archiviato testi, immagini, video e ogni genere di produzione culturale. Mancava però un archivio universale del codice sorgente, definito da molti “il cuore della rivoluzione digitale”. Fino a pochi anni fa, nessuna istituzione si era assunta il compito di conservarlo sistematicamente.

La situazione ha iniziato a cambiare grazie alla visione di Roberto Di Cosmo, informatico e sostenitore storico del software libero, e di Stefano Zacchiroli. Tra il 2012 e il 2014 i due ricercatori hanno rilevato una realtà preoccupante: il software era ovunque, ma la sua conservazione dipendeva dal destino di piattaforme private; progetti preziosi “andavano e sparivano”. L’obiettivo è stato allora chiaro: costruire un’infrastruttura di preservazione che evitasse la frammentazione che aveva caratterizzato l’Open Access, dove migliaia di archivi non coordinati rendono oggi difficile l’accesso uniforme alle pubblicazioni.Il progetto è stato lanciato nel 2015 all’interno di Inria, ottenendo nel 2017 un accordo strategico con l’UNESCO, che ne ha riconosciuto la vocazione a diventare un’infrastruttura globale al servizio dell’umanità. La missione di SH è ambiziosa ma semplice da formulare: archiviare tutto il software del pianeta, costruendo un bene comune tecnico e culturale, simile per ruolo e funzione a Internet o al Web.

Che cosa fa Software Heritage

La missione operativa di SH è raccogliere, preservare e rendere accessibile il codice sorgente pubblico. Il progetto si basa su una gigantesca attività di crawling delle principali piattaforme di hosting, attraverso la quale sono stati archiviati centinaia di milioni di progetti e decine di miliardi di file unici, tracciati nella loro storia di sviluppo con una visione neutrale rispetto ai diversi sistemi di versionamento.

Per la comunità accademica, Software Heritage offre tre strumenti essenziali:

  1. Navigazione e Wayback Machine del software
    SH permette di verificare quali origini software (repository, pacchetti, snapshot) sono già state archiviate e quando. L’interfaccia consente di esplorare il contenuto come in un sistema di controllo versione, rendendo possibile recuperare versioni specifiche e ricostruirne l’evoluzione nel tempo.
  2. Archiviazione immediata – Save Code Now
    Ricercatori e sviluppatori possono richiedere in qualsiasi momento l’archiviazione o l’aggiornamento di un repository non ancora incluso. Linee guida specifiche aiutano a garantire una conservazione corretta e continua degli artefatti software di ricerca. L’estensione browser Update Software Heritage segnala automaticamente se un repository è già presente nell’archivio e permette di salvarlo con un clic.
  3. Accesso programmatico tramite API
    Le API consentono di interrogare e navigare l’archivio come un grafo di oggetti: file, directory, commit, release. È possibile recuperare metadati, collegamenti tra oggetti e identificatori, integrando SH in workflow di ricerca e in strumenti di analisi o riproduzione sperimentale.

Perché SH è essenziale: il software come pilastro della Scienza Aperta

Il software è uno dei tre pilastri della Scienza Aperta, accanto a pubblicazioni e dati. In molti campi è il vero depositario dei metodi scientifici: evolve iterativamente, incorpora scelte concettuali e algoritmiche e riflette con precisione ciò che un articolo scientifico non può descrivere in modo esaustivo.Di fronte a questa realtà, la riproducibilità – fondamento del metodo scientifico – richiede la conservazione del software esatto utilizzato negli esperimenti.

SWHID: l’identificatore permanente del software

Uno degli ostacoli principali alla citazione del software è l’assenza di versioni stabili e la rapida evoluzione dei repository. Per risolvere il problema SH ha creato l’SWHID (Software Heritage Identifier), un hash crittografico intrinseco che identifica in modo unico, verificabile e permanente ogni oggetto: singoli file, directory, commit o snapshot.Nell’aprile 2025 l’SWHID è stato riconosciuto come standard internazionale ISO/IEC 18670, segnando un passaggio decisivo. Ora i ricercatori possono citare in un articolo la versione esatta del codice usato, con un livello di precisione fino alla singola riga, indipendentemente dalla piattaforma in cui il software era ospitato.

Riconoscimento e citabilità del contributo scientifico

Il valore del software come produzione scientifica è spesso sottovalutato nei sistemi di valutazione accademica. SH lavora per trasformare questa situazione attraverso:

  • codemeta.json e citation.cff, che permettono di descrivere software, autori, licenze e collegamenti;
  • generatori automatici che facilitano la creazione di metadati standard;
  • citazioni automatiche in formati come BibTeX, quando tali file sono presenti;
  • integrazione con piattaforme istituzionali come HAL, semplificando la dichiarazione del software come output scientifico e riducendo il carico amministrativo.

Grazie a queste funzionalità, il software può finalmente entrare a pieno diritto nello scholarly record.

Impatto trasversale su tutte le discipline

L’uso di software non riguarda solo l’informatica e per questa ragione SH costituisce un’infrastruttura chiave per implementare politiche di Open Science in qualunque settore disciplinare.
Le biblioteche accademiche, inoltre, possono svolgere un ruolo decisivo nel favorire la corretta referenziazione del software e la sua integrazione nei cataloghi istituzionali, come già avviene per pubblicazioni e dataset.

  1. Modello di finanziamento diversificato
    Il sostegno proviene da sponsor industriali (Microsoft, IBM, Huawei, Google), ministeri francesi (Ricerca, Difesa), enti di ricerca (CNRS, CEA) e università come Pisa, Scuola Normale Superiore e Sant’Anna. Questa diversificazione riduce il rischio che il ritiro di un singolo attore comprometta l’infrastruttura.
  2. Rete internazionale di mirror
    La resilienza tecnica è garantita da copie indipendenti dell’archivio. Il primo mirror italiano è stato inaugurato presso ENEA nel 2023, e ne sono in sviluppo altri in Grecia, Germania e Spagna. Copie distribuite geograficamente assicurano continuità anche in caso di incidenti o cambiamenti politici.

Il ruolo di SH nel dibattito su AI e copyright

Nel contesto dell’Intelligenza Artificiale, che richiede enormi quantità di codice per l’addestramento dei modelli, SH ha assunto una posizione chiara attraverso uno statement for code basato su tre principi:

  1. Licenze aperte per i modelli fondazionali derivati dal training.
  2. Trasparenza totale sui dataset di training tramite la pubblicazione degli SWHID dei codici utilizzati.
  3. Meccanismi di opt-out per consentire agli autori di escludere il proprio codice dall’addestramento.

Collaborazioni come quella per StarCoder 2, con HuggingFace e ServiceNow, dimostrano che queste pratiche possono orientare l’industria verso maggiore responsabilità e apertura.

Un messaggio alla comunità accademica

La visione di lungo termine è chiara: costruire un ecosistema globale in cui processi come archiviazione, identificazione, descrizione e citazione del software siano standardizzati e pienamente integrati nella produzione scientifica.
Per i ricercatori il passo fondamentale è semplice ma decisivo:

  • assicurarsi che il proprio software sia archiviato in SH (manualmente, tramite webhook o tramite estensione browser);
  • includere un file codemeta.json o citation.cff per renderlo immediatamente citabile.

Così come la Biblioteca di Alessandria organizzava il sapere dell’antichità, Software Heritage sta costruendo la memoria digitale del nostro tempo: non solo un archivio universale, ma un sistema crittografico di identificazione (SWHID) e un catalogo globale di metadati che rendono ogni linea di codice rintracciabile, verificabile e citabile.
Un’infrastruttura che garantirà, oggi e domani, che il patrimonio software dell’umanità rimanga accessibile e riproducibile per sempre.


Approfondimenti:

Il software come patrimonio universale. Intervista a Roberto Di Cosmo