Data repository

mini banner data repository

La scelta di un repository per la pubblicazione dei dati della ricerca

Come descritto nel sito OpenAIRE (How to find a trustworthy repository for your data), tutti i progetti Horizon 2020 partecipano automaticamente all’Open Research Data Pilot e sono obbligati a depositare prima possibile in un research data repository tutti i dati necessari (compresi, ad esempio, i dati grezzi) a validare i risultati delle ricerche presentati nelle pubblicazioni scientifiche, corredati degli opportuni metadati. Inoltre, è necessario depositare le informazioni sui software utilizzati.

La Comunità Europea preferisce l’utilizzo di data repositories certificati. Infatti nel documento Guidelines on FAIR Data Management in Horizon 2020 la Commissione Europea chiede di dichiarare dove verranno depositati i dati, i metadati, la documentazione e il codice, e chiede di preferire degli archivi di dati certificati e aperti.

Esistono diversi tipi di certificazioni standard a livello internazionale dedicate agli archivi digitali. In ambito europeo, le certificazioni disponibili sono:

CoreTrustSeal (CTS): basata sulData Seal of Approval (DSA) e sulWorld Data System (WDS) van ICSU. La lista degli archivi in possesso di tale certificazione può essere consultata all’URLhttps://www.coretrustseal.org/why-certification/certified-repositories/. Gli archivi digitali italiani certificati sono due, Phaidra dell’Università di Padova (basato sul software Fedora, è la piattaforma del Sistema Bibliotecario di Ateneo per l’archiviazione a lungo termine di oggetti e collezioni digitali. La piattaforma è multidisciplinare e ospita oggetti digitali di diverso genere, quali immagini, documenti di testo, libri e video, per lo più derivanti da digitalizzazioni di originali analogici) e ILC4CLARIN (basato sul software DSPACE e contenente specificatamente datasets) del CNR di Pisa.
Nestor Seal: principalmente per la Germania, in conformità con lo standard DIN 31644
La certificazione ISO 16363 (ad oggi non ancora utilizzata in Europa e in Italia)

Sono disponibili anche altri data repositories con un lunga e solida presenza, come ad esempio Zenodo, che non è certificato (non ha la certificazione Core Trust Seal ma è considerato “trusted” da OpenAIRE (“Why use Zenodo? Safe — your research is stored safely for the future in CERN’s Data Centre for as long as CERN exists.” In home page), ma è considerato trusted da OpenAIRE. Altri esempi di repositories possono essere ritrovati in OpenDOAR, la Directory of Open Access Repositories.

Durante lo svolgimento dei progetti è necessario gestire i dati e la documentazione secondo gli standard e le buone pratiche in uso nella propria disciplina, anche quelli che non possono essere resi disponibili ad accesso aperto. Per una maggiore consapevolezza sulle attività da svolgere per una buona gestione dei dati, può essere utile la consultazione dell'articolo "Guide e risorse per il research data management" nella sezione "Strumenti e pratiche per l'open science" in questo sito.

Ai dati depositati deve essere attribuito un identificativo unico (persistent identifier o anche PId), ad esempio il DOI. Inoltre è molto importante che al dataset venga attribuita una licenza d’uso, che chiarisca il tipo di riutilizzo ammesso. OpenAIRE raccomanda l’adozione della licenza Creative Commons CC0 o CC-BY, a meno che non ci siano limitazioni particolari, ad esempio in caso di dati sensibili o di dati coperti da segreto militare. L’EUDAT License Selector è un wizard che può aiutare nella scelta della licenza. Sia l'attribuzione di un identificativo unico persistente che di una licenza d’uso sono servizi offerti dai data repository certificati.

E' possibile scegliere tra un archivio disciplinare o un archivio istituzionale (se la propria istituzione ne offre uno in cui venga garantita la conservazione a lungo termine), ovvero depositare nell’archivio generalista Zenodo gestito dal CERN, o ancora ricercarne uno adatto tramite il portale re3data.org, che offre la possibilità di applicare il filtro per archivio certificato, al contrario di OpenDOAR.

Altre caratteristiche significative nella scelta del data repository sono il supporto per la gestione dei formati standard per dati e metadati, per l’attribuzione delle licenze d’uso e per la gestione dei dati sensibili, ad esempio mediante l’integrazione con strumenti automatici di anonimizzazione (come ad esempio Amnesia). I repository certificati impongono regole più stringenti a chi deposita, proprio perché i requisiti per la certificazione prevedono l’adesione ai principi FAIR di gestione dei dati, secondo il principio dettato dalla Commissione Europea “FAIR data in trustworthy repositories”.

I principali requisiti per la certificazione di un data repository sono (traduzione dalla pagina https://www.openaire.eu/find-trustworthy-data-repository del sito OpenAIRE, sezione WHAT ARE THESE REPOSITORY CERTIFICATIONS BASED ON?):

Requisito 2 (R2): il repository mantiene tutte le licenze applicabili relative all'accesso e all'utilizzo dei dati e ne monitora la conformità.

R3: Il repository ha un piano di continuità per garantire l'accesso continuo e la conservazione delle sue proprietà.

R4: Il repository garantisce, per quanto possibile, che i dati siano creati, curati, consultati e utilizzati nel rispetto delle norme disciplinari ed etiche.

R7: Il repository garantisce l'integrità e l'autenticità dei dati.

R8: Il repository accetta dati e metadati in base a criteri definiti per garantire la pertinenza e la comprensibilità dei dati per gli utenti.

R10: Il repository si assume la responsabilità della conservazione a lungo termine e gestisce questa funzione in modo pianificato e documentato.

R11: L'archivio dispone di competenze adeguate per affrontare i dati tecnici e la qualità dei metadati e garantisce che siano disponibili informazioni sufficienti per consentire agli utenti finali di effettuare valutazioni relative alla qualità.

R13: Il repository consente agli utenti di scoprire i dati e fare riferimento ad essi in modo persistente attraverso un'apposita citazione.

R14: Il repository consente il riutilizzo dei dati nel tempo, garantendo la disponibilità di metadati appropriati per supportare la comprensione e l'utilizzo dei dati.

I criteri di selezione

Uno dei pilastri della ricerca scientifica riproducibile è l’esposizione pubblica dei dati. Gli Enti finanziatori, le istituzioni, gli editori chiedono ai ricercatori di depositare i dati della ricerca in repositories dedicati. I ricercatori, quindi, hanno l’esigenza di identificare dei repository affidabili, che consentano loro di depositare i dati e renderli disponibili alla comunità scientifica e alla società.

La maggior parte dei repositories non è certificata da un ente di certificazione accreditato, per cui identificarne uno appropriato è una grande sfida: alcuni repositories potranno offrire policy e standard specifici per la comunità scientifica di riferimento, altri potranno essere più generalisti.

Di seguito si elencano i criteri di selezione raccomandati, come descritto nel documento : "Core Requirements for Data Management Plan", in Science Europe. (2021). Practical Guide to the International Alignment of Research Data Management - Extended Edition. https://doi.org/10.5281/zenodo.4915862, Creative Commons Attribution 4.0 International, di cui il grafico e la tabella seguenti rappresentano una traduzione e adattamento.

Visualizza il pdf accessibile

	Di seguito alcuni criteri guida per la selezione di repository affidabili.
	Identificativiunicipersistenti (PIDs) Un repository affidabile dovrebbe: •Consentire la «scoperta» e l’identificazione dei dati, quindi assicurati che tra i metadati siano previsti identificativi unici persistenti (PId). •Rendere possibile ricercare, citare e interrogare i dati, assegnando identificativi unici persistenti ai dati che contiene, permettendo ai dati e ai metadati corrispondenti di essere trovati, citati e interrogati anche se fisicamente dovessero cambiare collocazione. •Fornire supporto per il data versioning, cioè assicurare che la versione dei dati ospitati sia chiaramente specificata, documentata e tracciata. Nota: non tutti i repositories usano un sistema di attribuzione del PID universalmente accettato, ma utilizzano un identificativo gestito localmente. Ciò aumenta il rischio che, in caso di loro trasferimento ad altro sistema, perché il repository non esiste più o ha cambiato organizzazione che lo gestisce, i dati non possano essere più ritrovati.
	Metadati I dati dovrebbero essere descritti con numerosi metadati che documentino come sono stati generati, sotto quale licenza e come potranno essere riutilizzati; i metadati devono contenere le informazioni di contesto che consentano ad altri ricercatori di interpretarli appropriatamente. Un repository affidabile dovrebbe: •Consentire di trovare i dati, assicurando l’interoperabilità e il riutilizzo, fornendo i dati e i metadati in un linguaggio accessibile, basato su un ben determinato formalismo. I dati e i metadati dovrebbero essere descritti utilizzando vocabolari controllati e formati che consentano di cercarli, combinarli in modo automatico e distinguere i metadati dai dati. •Consentire la referenziazione ad informazioni rilevanti correlate, assicurando che tra i metadati sia possibile dichiarare link a informazioni rilevanti o associate, inserendo un identificativo unico persistente e la relativa descrizione. Un particolare tipo di informazione riguarda i ricercatori, per cui esistono identificativi persistenti (ID) come ORCID o altri. •Fornire informazioni pubblicamente disponibili anche per dati non pubblici, assicurando la conservazione a lungo termine dei metadati e la loro ricercabilità, anche se i dati non sono disponibili per motivi di protezione dati, vincoli legali o misure di sicurezza, e assicurando che anche i dati ritrattati a causa di cattive condotte di ricerca o altro siano sempre disponibili per consentire l’esame del lavoro di ricerca. •Utilizzare per i metadati standard che siano largamente accettati dalla comunità scientifica, assicurando che i dati mantenuti nel repository siano machine-retrievable (reperibili con strumenti informatici), e assicurando che siano utilizzati standard e buone pratiche per la gestione dei dati, se esistono, facendo attenzione a standard specifici per particolari ambiti di ricerca. •Assicurare che i metadati siano machine-readable, incoraggiando l’adozione di strutture per i metadati che consentano di leggerli con strumenti informatici, ad esempio mettendo a disposizione dei form da compilare con specifici campi obbligatori.
	Accesso ai dati e licenze d’uso Unrepository affidabile dovrebbe: •Consentire l’accesso ai dati sotto ben specificate condizioni, i cui termini di riutilizzo devono essere descritti in modo chiaro. Le informazioni sulla licenza devono essere incluse nei metadati. •Assicurare l’autenticità ed integrità dei dati, assicurando che i metadati contengano informazioni dettagliate sulla provenienza dei dati, le modalità di creazione e di elaborazione, in quale contesto possono essere riutilizzati e quanto sono affidabili. •Consentire il recupero dei dati o almeno dei metadati utilizzando un protocollo aperto e standardizzato (non un protocollo di comunicazione proprietario). •Fornire informazioni sulle licenze e i permessi (in un formato machine-readable), permettendo l’accesso alle informazioni sulle licenze in modo strutturato, perché le condizioni di utilizzo siano chiare, sia alle persone che ai computer. Ove possibile, dovrebbero essere utilizzati sistemi di licensing largamente accettati (ad esempio Creative Commons) e che possano essere referenziati tramite URL. •garantire la riservatezza e i diritti degli interessati e dei creatori dei dati, fornendo un sistema di autenticazione e profilazione sia per utenti che sistemi software, consentendo di impostare diritti di accesso che tengano conto dei dati con problemi di riservatezza e di altre restrizioni.
	Conservazione Unrepository affidabile dovrebbe: •Assicurare la persistenza di metadati e dati, assicurandone continuativamente disponibilità ed accesso. •Essere trasparente su missione, ambito, politiche di conservazione, pianificazioni (su governance, sostenibilità finanziaria, periodo di conservazione e piano di continuità), fornendo evidenza in maniera documentata anche di partner esterni per la gestione tecnica e fornendo informazioni su come verrebbero trasferiti i dati in caso di cessazione del repository.