Le partage des données
et les données ouvertes
Marc Couture
Mise à jour : 1er mars 2024
Note
Ce texte, d’intérêt général, a été produit dans le contexte de l’implantation, à partir de mars 2024, de la politique de partage des données de la Revue internationale des technologies en pédagogie universitaire (RITPU). Il s’agit d’un document évolutif, qui sera enrichi et adapté tout au long de la mise en oeuvre de cette politique
Pour toute question ou commentaire, contactez l’auteur à jaamcouture@gmail.com.
Avec l’accès ouvert, dont le développement est beaucoup plus avancé, les données ouvertes sont l’une des principales dimensions de la science ouverte.
Cette dernière peut être définie comme un ensemble de principes et de pratiques, touchant toutes les étapes de la recherche scientifique, fondés sur l’ouverture, la transparence, la collaboration et l’inclusivité, visant à en accroître la rigueur, l’efficacité et l’utilité, tant scientifique que sociale (UNESCO, 2021).
La science ouverte est promue depuis quelque temps dans des politiques publiques qui, si elles font encore l’objet de discussions au Canada (Gouvernement du Canada, 2022), ont débouché ailleurs sur des mesures concrètes, tels le plan national français pour la science ouverte, les stratégies suisses Open Access et Open Data. Dans ce contexte, les données ouvertes font de plus en plus l’objet d’obligations ou d’incitations de la part des organismes de financement de la recherche; elles sont notamment intégrées au programme Horizon Europe.
Comme pour l’accès ouvert et les licences Creative Commons il y a près de 20 ans, la Revue souhaite demeurer à l’avant-garde de ce mouvement en proposant une politique de partage des données. Cette politique, mise en place de manière progressive, vise à terme que les données associées aux articles deviennent aussi ouvertes que possible, selon le type de données et le contexte de la recherche qui les a produites.
Le partage des données répond à des objectifs de rigueur, d’intégrité, de transparence et d’utilité des recherches, grâce à son potentiel de :
De plus, le chercheur ou la chercheuse qui partage ses données peut en retirer des bénéfices personnels significatifs.
Réduit à sa plus simple expression, le partage de données peut être fait au moyen d’une simple déclaration, associée aux articles qui les utilisent, indiquant que les données sont disponibles sur demande. Toutefois, cette modalité se révèle extrêmement peu efficace dans la réalité : les études montrent qu’une large majorité des données ainsi (potentiellement) partagées sont en fait inaccessibles, les demandes étant refusées ou, le plus souvent, ignorées, si tant est qu’elles aient été reçues (Gabelica et al., 2022; Huff et Bongartz, 2022).
C’est la raison pour laquelle on favorise, voire exige l’accessibilité en ligne des données. Pour diverses considérations, touchant entre autres la découvrabilité, l’accessibilité et la pérennité, cette mise en ligne se fait de préférence sur des répertoires dédiés (aussi appelé dépôts ou entrepôts de données), plutôt que sur des sites de revues, de centres de recherche ou personnels. Dans plusieurs pays ou régions, de pair avec les exigences des organismes de financement, des répertoires spécialisés ont été mis à la disposition de la communauté de recherche (voir plus loin).
Cette modalité de partage se décline sous un large spectre selon :
On parlera donc de données plus ou moins ouvertes, selon la complétude des jeux de données et des documents associés que l’on diffuse, ainsi que l’ouverture des conditions d’accès et de réutilisation.
Mentionnons aussi les principes FAIR (pour découvrables [Findable], Accessibles, Interopérables et Réutilisables), qui ne s’appliquent pas uniquement aux données ouvertes, dont l’objectif est de maximiser le potentiel de réutilisation des données. Ces principes s’appliquent tant aux données elles-mêmes (formats) qu’au contexte de leur mise à disponibilité (identifiants, tels les DOI, métadonnées, informations complémentaires, caractéristiques des plateformes, licences d’utilisation).
Les répertoires évoqués plus haut sont normalement conçus pour favoriser le respect de ces principes. Pour plus de détails, voir le chapitre à ce sujet du guide du CESSDA (Consortium of European Social Science Data Archives).
Les études montrent que la plupart des chercheurs et chercheuses sont favorables au partage en ligne des données de recherche (Thoegersen et Borlund, 2021). En pratique toutefois, la mise en œuvre de cette pratique est loin d’être triviale, et soulève un certain nombre d’enjeux, qui peuvent être regroupés en deux catégories.
Il peut s’avérer très difficile, voire impossible, de produire l’ensemble des documents nécessaires pour que d’autres puissent bien comprendre les données et les réutiliser de manière efficace ou appropriée si l’on attend que la recherche soit terminée pour le faire. De plus, pour les recherches avec des humains (voir point suivant), il peut alors être trop tard pour satisfaire les exigences en matière d’éthique. Il vaut donc mieux effectuer les tâches requises à chaque étape de la recherche. Idéalement, et des organismes de financement l’exigent d’ailleurs, un plan de gestion des données doit faire partie de la description d’un projet; ce plan inclut les modalités prévues du partage des données, ainsi que les opérations et précautions requises pour faciliter, voire permettre ce partage.
Même quand le partage est ainsi prévu au départ, ces opérations et tâches peuvent se révéler lourdes et(ou) complexes, donc onéreuses, surtout pour les recherches qualitatives avec des humains. Les organismes de financement permettent d’inclure ces opérations dans le budget d’un projet; pour les recherches sans financement, fréquentes dans le domaine de la Revue, cela peut présenter un réel obstacle. Les établissements offrent parfois un soutien à cet égard, surtout pour ce qui touche l’étape finale, soit le dépôt sur un répertoire dédié.
La plupart des recherches empiriques en éducation prévoient la collecte de données, le plus souvent qualitatives, auprès de participantes et participants humains. Ces données se présentent sous des formes très diverses : réponses à des questionnaires, enregistrements audio ou vidéo, photos, dessins, transcriptions, notes d’entrevue ou d’observation, productions de participants et participantes, etc. Leur collecte doit obéir aux règles de l’éthique en recherche, dont le consentement éclairé, qui repose en partie sur la garantie du respect de la confidentialité. Souvent – mais pas dans tous les cas – cette dimension de la recherche doit faire l’objet d’une approbation formelle par un comité d’éthique.
Le consentement à participer à la recherche est généralement obtenu à l’aide d’un formulaire qui décrit les objectifs de la recherche, la méthode de collecte de données, l’usage qui sera fait de celles-ci (notamment, qui y aura accès) et les engagements des responsables de la recherche en matière de confidentialité. La signature de ce formulaire doit normalement être précédée d’une discussion où ceux-ci s’assurent que les personnes participantes en saisissent bien le contenu.
Aux fins d’un éventuel partage de ces données, ces formulaires (eux aussi approuvés par le comité d’éthique, le cas échéant) doivent mentionner la possibilité de ce partage et en décrire les modalités. De plus, selon les normes en vigueur au Canada (EPTC 2), le consentement à ce partage doit être demandé de manière distincte de celui, plus général, qui porte sur la participation à la recherche; on peut même demander ce consentement distinct à la fin de la cueillette de données, en offrant aux personnes participantes qui le souhaitent la possibilité d’exclure du partage une partie de leurs réponses.
Il convient de souligner que les participants et les participantes n’ont pas tendance à s’opposer au partage des données; au contraire, ils et elles sont généralement très favorables à ce que leur contribution – volontaire et altruiste – ait le plus de retombées possibles sur les recherches (VandeVusse et al., 2022).
On comprend toutefois que s’il n’était prévu au moment de l’élaboration du formulaire de consentement, le partage des données recueillies auprès d’humains peut se révéler difficile, voire impossible, malgré le souhait des responsables de la recherche ou l’exigence d’une revue. Par contre, dans le cas d’une recherche financée par un organisme imposant le partage, une telle exigence est connue avant que ne démarre la recherche; elle est donc normalement intégrée au plan de gestion des données et, partant, au formulaire de consentement.
Le consentement des personnes participantes repose en partie sur leur confiance envers les engagements que les responsables de la recherche prennent en matière de respect de la confidentialité.
Dans le contexte traditionnel (sans partage des données), la confidentialité est en grande partie assurée par le fait que seuls les responsables de la recherche et leur équipe – souvent restreinte – ont accès aux données, et que toutes ces personnes signent un engagement de confidentialité. Dans ce contexte, une anonymisation (ou dépersonnalisation) que l’on peut qualifier de minimale – remplacer les noms par des codes, par exemple – est suffisante.
Mais si on a l’intention de partager les données, les choses sont plus compliquées.
On peut résumer ce dilemme à l’aide de la formule désormais classique : les données partagées doivent être « aussi ouvertes que possible et aussi fermées que nécessaire ».
Pour un description des enjeux pratiques liés à l’anonymisation et aux décisions difficiles qui doivent être prises à ce sujet, dans un contexte de données très sensibles il faut dire, voir le récit fascinant de Campbell et al. (2023).
On le voit, le partage des données dans l’esprit des données ouvertes est une opération qui concerne toutes les étapes de la recherche, et qui est loin d’être triviale. Par ailleurs, surtout pour les données qualitatives issues de recherches avec des humains, très fréquentes dans la recherche en éducation, des obstacles matériels – financiers notamment – ou éthiques peuvent rendre ce partage difficile, voire impossible.
Heureusement, des ressources touchant tous les enjeux mentionnés ci-dessus ont été développées à l’intention des responsables des recherches qui souhaient ou doivent partager leurs données. Les plus complètes, en français, se retrouvent sur le site de l’Alliance canadienne de recherche, section Ressources de formation. On y trouve une foule de documents très bien faits, qui portent entre autres sur les données sensibles, le consentement, l’anonymisation (dépersonnalisation), le dépôt des données (métadonnées, documents d’accompagnement, choix d’un répertoire, etc.). On y offre aussi des modèles de plans de gestion des données.
Vous pouvez aussi consulter le document Data sharing resources, qui offre des liens commentés vers d'autres guides et ressources pertinentes (en anglais).
Campbell, R., Javorka, M., Engleton, J., Fishwick, K., Gregory, K. et Goodman-Williams, R. (2023). Open-science guidance for qualitative research: An empirically validated approach for de-identifying sensitive narrative data. Advances in Methods and Practices in Psychological Science, 6(4), https://doi.org/k7fm
Gabelica, M., Bojčić, R. et Puljak, L. (2022). Many researchers were not compliant with their published data sharing statement: A mixed-methods study. Journal of Clinical Epidemiology, 150, 33-41. https://doi.org/10.1016/j.jclinepi.2022.05.019
Gouvernement du Canada. (2022). Les dialogues sur la science ouverte : résumé des tables rondes des intervenants. https://science.gc.ca/...
Huff, M. et Bongartz, E. C. (2022). Research data availability in articles published in educational psychology journals. PsyArXiv. https://doi.org/10.31234/osf.io/9yhcz
Irvine, A. (2023). First steps in qualitative secondary analysis: Experiences of engaging with the primary research team. International Journal of Social Research Methodology. https://doi.org/k7fn
Rohlfing, T. et Poline, J.-B. (2012). Why shared data should not be acknowledged on the author byline. NeuroImage, 59(4), 4189-4195. https://doi.org/10.1016/j.neuroimage.2011.09.080
Thoegersen, J. L. et Borlund, P. (2021). Researcher attitudes toward data sharing in public data repositories: A meta-evaluation of studies on researcher data sharing. Journal of Documentation, 78(7), 1-17. https://doi.org/10.1108/JD-01-2021-0015
UNESCO. (2021). Recommandation de l’UNESCO sur une science ouverte. https://unesdoc.unesco.org/...
VandeVusse, A., Mueller, J. et Karcher, S. (2022). Qualitative data sharing: Participant understanding, motivation, and consent. Qualitative Health Research, 32(1), 182-191. https://doi.org/k7fp