OpenCitations, un’infrastruttura che vive grazie alla comunità ed è per la comunità

Intervista a Silvio Peroni

Lo Speakers’ Corner di questo ottobre ospita Silvio Peroni*, professore associato presso il dipartimento di Filologia Classica e Italianistica dell’Università di Bologna.
Il professor Peroni ci ha parlato di OpenCitations, una Community-supported Infrastructure indipendente e no-profit, dedicata alla pubblicazione di dati citazionali e bibliografici aperti, mediante l’uso di tecnologie del web semantico…

Per la scientometria, l’idea di OpenCitations: che cosa c’è stato alla base del progetto? Ci racconti della scintilla che mosse le prime azioni di David Shotton e in quale fase lei è entrato a fare parte del progetto. Qual è stata quindi l’evoluzione dell’infrastruttura?

Sono stato coinvolto nel progetto fin dai primi momenti: ero dottorando in Informatica all’Università di Bologna e, per completare il mio periodo di ricerca all’estero, avevo inviato una serie di proposte a diversi atenei. David Shotton, che all’epoca lavorava presso il dipartimento di Zoologia dell’Università di Oxford, lesse la mia proposizione di tesi, incentrata su documenti scientifici, linguaggi di markup e ontologie per descriverne i metadati, e mi invitò a perfezionare i miei studi presso il suo gruppo di ricerca.

Era il 2010. Era in corso di pubblicazione lo studio di Shotton sull’uso del semantic publishing per migliorare la rintracciabilità e le interconnessioni tra le pubblicazioni scientifiche (Semantic publishing: the coming revolution in scientific journal publishing – Learned Publishing 22 (2), 85-94). I FAIR principles si stavano delineando proprio nell’ambiente di quelle prime discussioni.
Nel suo articolo, Shotton voleva dimostrare come, partendo dai metadati delle pubblicazioni scientifiche, arricchiti utilizzando tecnologie del web semantico, si potessero visualizzare informazioni addizionali, non visibili e raggiungibili attraverso il solo articolo in formato stampa.
Per permettere la definizione formale di queste informazioni, aveva sviluppato una prima ontologia, un modello semantico descrittivo di questi dati, facilmente interpretabile dalla macchina, che riguardava quindi sia i dati bibliografici degli articoli sia il loro contenuto. Io sono andato a Oxford e ho lavorato all’estensione di questa ontologia.

Partendo dal suo lavoro del 2010, Shotton aveva presentato una proposta di progetto al Jisc – l’agenzia no-profit britannica per il digitale, i dati e la tecnologia che si occupa di istruzione terziaria, ricerca e innovazione – per creare un corpus di citazioni bibliografiche composto dai metadati bibliografici di articoli su rivista e i link citazionali che li connettono, ottenuti dai riferimenti bibliografici delle pubblicazioni stesse.
I dati di questa raccolta – che andò sotto il nome di “Jisc Open Citations Corpus” – sarebbero poi stati definiti in modo conforme a quell’ontologia che aveva iniziato a sviluppare.
Io sono arrivato esattamente in quel momento.
Ho iniziato a lavorare subito allo sviluppo delle ontologie, forte dell’esperienza già acquisita grazie al dottorato e ad attività intraprese dopo la laurea magistrale. Insieme con Shotton, ci siamo focalizzati quindi sullo sviluppo di una serie di ontologie modulari per la descrizione del dominio accademico, tutt’oggi mantenute da OpenCitations: le Semantic Publishing And Referencing Ontologies (SPAR ontologies).

Per estrarre i dati da includere nel Corpus si è partiti da un insieme già esistente di articoli in accesso aperto, quelli disponibili nell’Open Access Subset di PubMed Central, un dominio biomedicale che rappresentava il prototipo di quanto si sarebbe potuto sviluppare.

Il progetto ebbe successo e Jisc ne approvò anche l’estensione della durata, consentendoci l’arricchimento delle implementazioni.

Intanto i miei sei mesi di ricerca a Oxford terminavano e tornavo in Italia per finire il dottorato. La collaborazione con David continuò e le ontologie entrarono stabilmente a fare parte del mio lavoro di ricerca, anche se, nel frattempo, esauritosi il finanziamento, il progetto di OpenCitations sembrò giungere a naturale conclusione e David dopo poco tempo andò in pensione.

Nel 2015, quando il mio dottorato era già terminato da tre anni, con David condividemmo il proposito di rilanciare OpenCitations, la cui attività da subito era stata accolta positivamente dalla comunità, ma che poi, per le dette ragioni, non aveva avuto seguito. Mi invitò nel 2015 a diventare direttore con lui di questa “idea”, che di fatto non esisteva più fisicamente. Accettai e, grazie alla possibilità concessaci dall’Università di Bologna di utilizzare una macchina virtuale, riscrissi tutta l’infrastruttura software per generare la nuova ingestione dei dati da PubMed Central in modo iterativo e non più massivo, mediante API.
Sviluppammo nuovamente insieme il nuovo modello di rappresentazione dei dati, sempre basato sulle SPAR Ontologies, ma organizzammo una documentazione più precisa e strutturata. Alla fine del 2015 avevamo reimpostato le basi di OpenCitations in una sorta di seconda installazione che aveva come nuova sede l’Università di Bologna e un’infrastruttura hardware più stabile e più performante di quella originaria.

Ovviamente servivano finanziamenti e provammo pertanto a proporci per fondi della Sloan Foundation, ottenendo successo e circa 120 mila dollari. Il fondo ci permise di comprare un server per l’installazione dell’infrastruttura su una macchina estremamente performante e di assumere, come assegnista di ricerca, una persona dedicata al progetto: Ivan Heibi, che collabora tutt’ora in OpenCitations, ricoprendo il ruolo di CTO.

Su un fronte sviluppavamo sistemi di interfacce per visualizzare i dati di OpenCitations, sull’altro, un nuovo prototipo di indice di link citazionali che attingeva a una nuova sorgente bibliografica e non più a PubMed Central: Crossref metteva a disposizione milioni di riferimenti bibliografici improvvisamente aperti. Creavamo così quello che all’epoca avevamo chiamato COCI, ovvero l’OpenCitations Index di citazioni doi-to-doi contenute in Crossref. Gli ordini di grandezza cambiarono in modo rilevante: passavamo da 14 milioni di citazioni dell’OpenCitations Corpus del 2016 (che, mediante API, conteneva primariamente informazioni provenienti dagli articoli di PubMed Central) a ben oltre 200 milioni. Un salto notevolissimo che accese i riflettori sulle potenzialità derivabili dall’utilizzo di sorgenti aperte.
Si migrava, anche a livello concettuale, da un indice omnicomprensivo di metadati e citazioni a un contenitore esclusivo di link citazionali, dove il citante e il citato venivano rappresentati da appositi identificativi.
Questo ha rappresentato il primo grosso salto.
Ma la svolta decisiva ha avuto luogo con l’introduzione delle API, grazie alle quali siamo passati dal ricevere 25 mila richieste mensili a ben 2-3 milioni. Ciò ci permise di dimostrare che il sistema veniva già utilizzato a livello globale per scaricare dati citazionali sia da ricercatori sia da istituzioni.

Oggi OpenCitations è un’infrastruttura guidata dalla comunità, che è coinvolta anche nella stessa governance; il Research Center for Open Scholarly Metadata dell’Università di Bologna offre supporto amministrativo e di gestione anche tecnica (hardware, server ecc.). OpenCitations mette a disposizione un Data Model e due banche dati distinte, OpenCitations Meta e OpenCitaions Index.

A un certo punto del suo sviluppo, per OpenCitations si passava dal concetto di progetto di ricerca a quello di infrastruttura di ricerca Open Science. Ci racconti il passaggio e ciò che è stato determinante.

Nel 2019, ci rivolgevamo alla Global Sustainability Coalition for Open Science Services (SCOSS), una rete mondiale di organizzazioni influenti, fondata nel 2017, impegnata a contribuire alla sostenibilità futura delle infrastrutture OA e OS. La funzione di SCOSS è di mettere una sorta di faro sulle infrastrutture che potenzialmente rappresentano un valore per l’intera comunità, ma che sono a rischio di sopravvivenza per scarsità di risorse finanziarie. La coalizione fa una valutazione del servizio per poi esporlo nel suo network; le entità che partecipano della rete, se interessate, possono intraprendere azioni per supportare dal punto di vista economico le infrastrutture presentate.

Noi, forti della crescita che avevamo avuto negli anni precedenti, ci proponemmo a SCOSS per entrare nel loro secondo funding cycle. La proposta fu accolta molto positivamente.
Fu allora, con ogni probabilità, che nacque il concetto di OpenCitations come infrastruttura: non più legato a un progetto specifico ma a un’idea di bene comune da portare avanti con il supporto di tutti. Il cambiamento avveniva non solo a livello di tecnologia, ma di gestione complessiva dell’Infrastruttura, gestione che coinvolse l’Università di Bologna, con importanti implicazioni legali. Fu necessario mettere in piedi un meccanismo che consentisse la raccolta di donazioni, membership, definire un modello efficiente e conforme alle regole. L’Università ebbe un’importanza nevralgica nell’organizzazione di questo nuovo sistema.

OpenCitations, nel tempo, ha continuato a partecipare a tanti progetti, anche europei, per sviluppare nuovi sistemi, nuovi strumenti, ma i progetti hanno sempre rappresentato il veicolo che ha portato allo sviluppo del nuovo; il mantenimento ordinario è invece garantito da tutti i contributi, i membri, le donazioni che riceviamo. SCOSS è stato fondamentale, ha rappresentato la chiave del consolidamento di OpenCitations, ne ha decretato l’attuale sopravvivenza e stabilità: da una Project-based Infrastructure è diventata una Community-supported Infrastructure.

Le prime entrate che arrivarono grazie a SCOSS furono necessarie per assumere una persona che si occupasse della gestione amministrativa. Subito dopo fu la volta di una Community and communication manager, un ruolo chiave nella creazione della comunità intorno a OpenCitations: SCOSS era stato un facilitatore per la creazione di una rete di supporto; una volta creata, la rete andava mantenuta attraverso un dialogo aperto e continuo con altre infrastrutture, con altre entità, con altri possibili finanziatori.

La governance si è evoluta da due sole unità – David Shotton e io – a una vera comunità, coinvolta in un Advisory Board internazionale. Il secondo organo di governo è l’OpenCitations Council: l’insieme di tutte le entità diventate membri; si riunisce una volta all’anno e può dare indicazioni di direzionalità e di sviluppo dell’infrastruttura.
Attualmente siamo in una fase di revisione dei meccanismi di governance per potere rendere OpenCitations un’entità ancora più community based, per renderne possibile la trasferibilità e quindi la sopravvivenza anche altrove, se si rendesse necessario, mantenendo l’indipendenza che caratterizza l’infrastruttura.

Qual è oggi la copertura che offre OpenCitations se rapportata alla mole di dati bibliografici e citazionali proprietari?

I dati sono confortanti: contiamo più di 2 miliardi di link citazionali nel sistema; un numero discreto e molto vicino a quello degli altri indici citazionali proprietari, le cui coperture non sono pienamente sovrapponibili: OpenCitations offre risorse di cui gli enti proprietari non dispongono e viceversa, effetto questo delle rispettive scelte editoriali.

I nostri dati giungono attualmente da cinque sorgenti diverse: Crossref, DataCite, PubMed, OpenAIRE (con cui abbiamo una collaborazione attiva ormai da anni, nata grazie al progetto europeo OpenAIRE Nexus) e Japan Link Center (JaLC), la nostra prima sperimentazione di interazione con un database non occidentale, che negli ultimi anni ha investito molto per creare un’infrastruttura con API per poter offrire un servizio simile a quello offerto da Crossref, ma su base locale.

Le due collezioni offerte dalla nostra infrastruttura, OpenCitations Index e OpenCitations Meta, contengono, da una parte, gli indici, ovvero i link citazionali (a cita b) – laddove le citazioni sono caratterizzate come oggetti di primo livello, completi di metadati associati (entità citante, entità citata, data di creazione della citazione, distanza tra data di pubblicazione dell’entità citante e di quella citata, autocitazioni ecc.); a ogni citazione pubblicata in questo database è automaticamente associato un ID univoco – e dall’altra, i metadati bibliografici di base delle entità cintanti/citate che compaiono negli indici.
Avere i dati in casa, poterli curare e arricchire, ci consente di offrire un servizio più performante nelle API di ricerca.

Ci descriva il modello incentrato sulle membership che garantisce la sopravvivenza finanziaria dell’infrastruttura.

Abbiamo classificato e instaurato diverse tipologie di collaborazione e alcune di queste sono finalizzate all’esclusivo supporto finanziario di OpenCitations. I livelli di membership sono attualmente tre: supporting, development e strategic.

Grazie a alla firma di un memorandum of understanding con OpenCitations/Università di Bologna si acquisisce la membership all’infrastruttura e si entra a fare parte del Council e quest’organo, a sua volta, può proporre candidature per l’Advisory Board ed è responsabile della votazione.

Rientrano nei “supporting” e “development” tutti gli enti che con i loro fondi consentono il mantenimento dell’infrastruttura, ma che non sono interessati a entrare direttamente negli organi di governo o di voto (annovero tra questi un consorzio di biblioteche tedesche e una università tedesca; un consorzio finlandese, cui partecipano una serie di università tra le quali quella di Leuven; lo Spanish National Research Council; alcune università inglesi, Sussex, Nottingham, Durham, e alcune francesi; attualmente l’unico ente con sede in Italia, a Fiesole, che ci finanzia è lo European University Institute).
Il membro classificato come “strategic”, offrendo un contributo sostanziale, ha il vantaggio di partecipare direttamente (senza elezione) all’Advisory Board; è un membro strategico il governo francese che è anche il nostro maggiore sostenitore.

In che modo l’infrastruttura OpenCitations si relaziona con altre infrastrutture/infrastrutture aperte di ricerca? Per avere esempi concreti, ci menzioni eventuali collaborazioni/scambi e i fini progettuali cui tali azioni hanno portato o porteranno (nel caso siano attualmente in corso).
C’è convergenza tra OpenCitations e l’iniziativa OpenAlex?

Esiste già un collegamento da OpenCitations verso OpenAlex. Un piccolo finanziamento erogato dallo European Research Council ci ha dato modo di creare un allineamento, mediante ID, tra le entità presenti sui nostri database e gli elementi contenuti in OpenAlex. OpenAlex, dal suo canto, ci sta valutando come una possibile sorgente per integrare la loro collezione.

In generale, con le infrastrutture di ambito Open Science abbiamo ormai da anni un dialogo aperto e collaborazioni attive. A tale riguardo, mi piace sempre ricordare la relazione proficua che abbiamo con OpenAIRE, in termini di scambio di dati, ma anche di vere e proprie progettualità; facciamo parte del loro portfolio, pur mantenendo sempre la nostra indipendenza.
Partecipiamo a EOSC da circa tre anni e stiamo lavorando con OPERAS, un’infrastruttura europea per le scienze umane e sociali, mentre Crossref è parte del nostro Advisory Board sin dalla sua nascita.

OpenCitations è tra i sostenitori della Barcelona Declaration on Open Research Information, iniziativa che ha il fine di favorire la trasformazione del panorama della ricerca attraverso l’apertura delle informazioni. OpenCitations lavora infatti attivamente per il continuo miglioramento di un’infrastruttura tecnica che permetta massimo riuso e condivisione dei dati.

Essere parte del network delle infrastrutture per la scienza aperta esistenti è di vitale importanza poiché non c’è un’infrastruttura che possa coprire tutto lo scibile e offrire tutti i servizi per la ricerca: è la decentralizzazione e la cooperazione di tutti che riesce a offrire una copertura completa.

La Initiative for open citations, lanciata nel 2017, definiva i cinque criteri della citazione aperta. I dati citazionali aperti devono essere:

strutturati
separati
fruibili con licenze aperte
dotati di persistent identifier
disponibili mediante protocolli aperti

È facile pensare che editori di medio-grandi abbiano le risorse per soddisfare tali criteri, ma che cosa succede quando si ha a che fare con piccoli editori, magari universitari, che magari non hanno le risorse per rendere il dato bibliografico aperto/riutilizzabile mediante sistemi basati sul web?

Non abbiamo un sistema automatico che vada a fare crawling di PDF per estrarre informazioni da inserire in OpenCitations. Ci basiamo su sorgenti che noi definiamo “auto-qualitative”.

Questo è un tema a me carissimo perché vorrei potere importare per esempio le citazioni delle riviste che la mia stessa università pubblica, ma si tratta di una sfida di non facile soluzione.

Grazie a un progetto europeo, GraspOS, stiamo sviluppando un sistema che, mediante il riutilizzo software già esistenti, venga addestrato proprio per permettere l’estrazione da PDF di riferimenti bibliografici in forma strutturata. L’idea è di mettere a disposizione un servizio open source che possa essere utilizzato da chiunque per estrarre informazioni e, quindi, dai piccoli editori perché possano ottenere le informazioni già strutturate. A questo, si aggiunge l’idea di generare un meccanismo che permetta a OpenCitations di ricevere direttamente il dato, evitando all’ipotetico editore la necessità di depositarlo su piattaforme più complesse, spesso a pagamento, e di farlo transitare direttamente verso le nostre collezioni.
Siamo incessantemente concentrati sullo sviluppo per cercare di soddisfare queste esigenze fondamentali: una grossa fetta della letteratura che stiamo perdendo è proprio quella che non è contenuta in nessuna banca dati perché spesso i piccoli editori faticano a produrre un particolare gettito di informazione, ma che è estremamente rilevante per la ricerca.

In tale direziona va anche un progetto, al quale lavoriamo già da tempo con altri ricercatori tedeschi: mettere in piedi un workflow per far transitare le informazioni da OJS, la piattaforma di PKP open source di gestione editoriale molto usata a livello internazionale, direttamente in OpenCitations. Se riuscisse ad andare in porto rappresenterebbe un punto di svolta e garantirebbe un grande valore aggiunto nell’esposizione, in una rete generale, di dati che generalmente non sono condivisi.

La visione di Shotton – sul fatto che fosse assurdo doversi basare per la valutazione della ricerca su dati proprietari non riproducibili e non trasparenti – ha molto in comune con quanto alla base delle azioni di CoARA. In che termini OpenCitations porta il suo contributo alla Coalizione, quali sono le iniziative cui partecipa?

Sebbene OpenCitations non possa aderire formalmente a CoARA, non costituendo un’entità legale, partecipa attivamente attraverso l’Università di Bologna e, insieme con altre infrastrutture, è parte attiva del Working Group “Open infrastructures for Responsible Research Assessment”. L’idea che sta alla base della nostra collaborazione è quella di dimostrare che esiste un’alternativa trasparente e aperta alle metriche citazionali proprietarie.
CoARA si muove in una direzione ben precisa e condivisibile: la valutazione deve essere qualitativa, soggettiva, è necessario che l’apporto umano sia decisivo e non è possibile ricondurre il valore della produzione scientifica a una sequenza di numeri. Ciò non toglie che però, oggi, alla luce della numerosità di pubblicazioni disponibili, valutazioni completamente basate sulla peer review siano spesso utopiche. Ed ecco che le metriche vanno a supporto delle decisioni.
OpenCitations s’inserisce in questa narrativa, offrendo un’alternativa aperta a dati che sono tipicamente bibliografici e citazionali. Come e quali di queste informazioni che mettiamo a disposizione vengano impiegate dalle varie commissioni esula dalla sfera d’azione e dall’interesse dell’infrastruttura, essendo essa sorgente che non produce metriche, né veicola scelte e neanche le facilita. È l’utente a decidere l’uso che fa dei dati che noi esponiamo. Il nostro servizio è offerto liberamente e allo stesso modo, indipendentemente dall’entità che lo usa, tutti possono utilizzare le API senza limiti di chiamate giornalieri. È un servizio che vive grazie alla comunità ed è per la comunità.

Silvio Peroni – Università di Bologna | OpenCitations

*Silvio Peroni è professore associato presso il dipartimento di Filologia Classica e Italianistica dell’Università di Bologna. Ha conseguito un dottorato in informatica e dal 2016 ha condiviso la direzione dell’infrastruttura digitale OpenCitations con David Shotton, purtroppo mancato lo scorso maggio.
I suoi studi recenti hanno riguardato teorie e implementazioni tecniche di strumenti per favorire l’interoperabilità semantica di servizi e infrastrutture dedicate alla scienza aperta, analisi empirica della natura delle citazioni accademiche, bibliometria e scientometria, interfacce di visualizzazione e navigazione per dati semantici e sviluppo di ontologie per gestire, integrare e interrogare informazioni bibliografiche.

Open Science @ UniMiB

Collegamenti rapidi

Prossimi Appuntamenti

Online Citizen Science Global Health Course

OPERAS Conference 2026 in collaboration with the SCIRUS project

OpenCitations, un’infrastruttura che vive grazie alla comunità ed è per la comunità

Intervista a Silvio Peroni