Cosa è consigliabile verificare prima di pubblicare i dati della ricerca

24-feb-2022

Prima di procedere alla pubblicazione dei dati del proprio progetto di ricerca, bisogna effettuare una serie di controlli:

verificare se i dati aderiscono ai principi FAIR, ad esempio utilizzando la checklist "How FAIR are your data?" (Jones, Sarah, and Grootveld, Marjan. “How FAIR Are Your Data?”, November 24, 2017. https://doi.org/10.5281/zenodo.5111307.)
verificare l'eventuale presenza di dati personali o sensibili: in questo caso bisogna provvedere alla anonimizzazione, con strumenti come ad esempio Amnesia
verificare con l’editore la politica di disponibilità dei dati a corredo dell’articolo scientifico che si sta pubblicando
assicurarsi che siano dotati di un identificativo persistente (es. DOI), per garantire che i dati siano reperibili (findable)
assicurarsi che i dati espongano un “data access statement”, cioè che, oltre all’identificatore persistente, siano accompagnati da informazioni che li descrivano e che diano notizie sulle modalità di accesso e sugli eventuali vincoli per il loro utilizzo (es. file README)
assicurarsi che i dati espongano una licenza di utilizzo per l’utente finale. Per i dati è possibile scegliere tra innumerevoli tipi di licenze, che devono essere standard (cfr. http://opendefinition.org/licenses/) per poter essere chiaramente comprese dall’utente finale e per rendere i dati reusable, sempre nell’ottica dei principi FAIR. Nel caso di software è possibile consultare questo elenco di licenze possibili
esporre i dati in un formato di file aperto e standard, per assicurarsi, in conformità ai principi FAIR, che siano reusable e interoperable. Molti data repository espongono la lista dei formati di file consigliati/preferiti a seconda della tipologia di oggetti archiviati (immagini, testi, database, audio, video, ecc.). Oltre ai formati semplici più diffusi, un particolare formato di dati utilizzato nel campo della ricerca scientifica è NetCDF (Network Common Data Form), un formato auto descrittivo che include anche metadati generici e specifici machine-readable; questo formato può essere utilizzato in modo avanzato con server che implementano il protocollo OPeNDAP (Open-source Project for a Network Data Access Protocol); con questo protocollo, infatti, la lettura di dataset e subset nei file può essere eseguita senza che sia necessario scaricare l’intero set di dati, si possono effettuare aggregazioni di dataset e subset in un dataset virtuale e si possono effettuare elaborazioni via software accedendo direttamente ai dataset.