Logo LMFA
Unix is our Gilgamesh epic. - N. Stephenson

Serveurs de preprints, archives institutionnelles : quel rôle pour les archives ouvertes ?

Frédéric HÉLEIN et Benoît PIER

Ce texte est la version longue de notre intervention lors de la journée Science ouverte : une révolution nécessaire du 8 octobre 2019 au CNRS - résumé et enregistrement.

[Lien vers le recueil de toutes les interventions de cette journée.]

Outre l'évaluation et la validation par les pairs, le rôle premier des publications scientifiques est la diffusion, le signalement et l'archivage des connaissances fiables, besoins essentiels aux progrès du savoir, au bénéfice de toute la société. Mais cela ne saurait se borner aujourd'hui aux formes les plus abouties, à savoir les articles dans les revues internationales à comité de lecture ainsi que les monographies. En effet, puisque l'élaboration du savoir est un effort collectif et progressif, elle s'inscrit dans la durée, elle nécessite de multiples échanges et passe par de nombreuses étapes. Ainsi, en amont du processus de publication dans les revues, le travail des chercheurs repose aussi en grande partie sur la diffusion de documents scientifiques avec des degrés de maturité différents, grâce aux serveurs de preprints. En aval des publications “officielles”, le dépôt des articles sur des archives ouvertes institutionnelles garantit la plus large diffusion des résultats.

Ainsi, les serveurs de preprints et les archives institutionnelles s'imposent comme les piliers d'un écosystème innovant de la publication qui aura gagné en indépendance par rapport aux maisons d'édition à but (très) lucratif, tout en préservant l'indispensable contrôle qualité que constitue la validation par les pairs. La diffusion en archives ouvertes facilite aussi considérablement de nouvelles pratiques comme la fouille de texte et de données, et permet de le faire en favorisant l'intégrité scientifique et une évaluation basée sur la qualité plutôt que des algorithmes fermés.

Pour que la société toute entière puisse bénéficier des connaissances qu'elle a produites et financées, il faut que toutes ses publications scientifiques soient en libre accès. Cette révolution nécessaire vers une science ouverte est possible par la mise en œuvre des archives ouvertes. En effet, grâce à ces piliers de la science ouverte, cet objectif de 100% de publications en accès ouvert peut être atteint facilement et rapidement – et avec un coût très raisonnable.

Quelques définitions

Même s'il n'y a pas de consensus parfait sur la signification du terme de prépublication (preprint), cette notion se réfère généralement à un document scientifique structuré comme un article, dans une version antérieure à l'aboutissement du processus de validation par les pairs et la mise en forme par les typographes d'une revue. Au sens strict, une prépublication est un document électronique destiné à être publié, un jour, dans un journal scientifique et, à ce titre, il répond aux mêmes besoins que les prépublications sur papier du 20e siècle. Mais la notion de preprint est bien plus large et une proportion non négligeable des documents disponibles sur les serveurs de preprints ne sont jamais soumis à une revue. Le degré d'aboutissement de ces écrits est aussi extrêmement variable, allant d'un compte rendu très préliminaire, au papier à discuter entre collègues, à la version prête à être soumise, à l'article dans sa forme publiée, à l'article trop long et trop détaillé pour être publié dans une revue et même à une version enrichie ou corrigée après la publication dans une revue. Les usages évoluent constamment et sont très variables selon les communautés. Mais quel que soit le statut du document, l'objectif principal de sa mise en ligne sur un serveur de preprints, accessible à tous, est la diffusion rapide de nouveaux résultats.

Une archive institutionnelle est un réservoir de documents disponibles sur des serveurs administrés par un établissement public. Leur objectif principal est la préservation sur le long terme du savoir produit par l'institution.

Une archive ouverte fait référence à un réservoir de documents électroniques en accès libre pour le monde entier. Dans ce cas, l'objectif principal est la diffusion la plus large possible du savoir, sans entrave ni licence restrictive.

Les serveurs de preprints et les archives institutionnelles ouvertes rendent des services qui sont le plus souvent assurés par les mêmes plate-formes, comme HAL ou arXiv. Tous ces dispositifs remplissent des fonctions qui, le plus souvent, se recouvrent partiellement, voire totalement. Un serveur de preprints peut proposer des articles qui ont franchi toutes les étapes jusqu'à la publication par une revue. Une archive institutionnelle peut contenir une grande quantité de preprints et être complètement ouverte…

Ainsi, ces plate-formes d'archives ouvertes, surtout si elles acceptent les preprints et sont gérées par une institution publique, sont au cœur du processus de la publication scientifique et constituent les principaux piliers sur lesquels repose la révolution tellement nécessaire vers une science plus ouverte, où l'ensemble du processus de la publication est au service de la science et du savoir commun.

Les avantages des serveurs de preprints

Partager les résultats de la recherche tout de suite et sans entrave

Historiquement, c'est le besoin d'une diffusion immédiate de nouveaux résultats qui a conduit à la création des premiers serveurs de preprints et à leur développement très rapide au sein de certaines communautés : arXiv depuis 1991 en physique théorique, puis s'ouvrant à la mathématique, la physique, etc., RePEc (Research papers in economics) en économie depuis 1997, et cela reste d'actualité pour la plupart des serveurs qui se sont multipliés au cours des ans et couvrent désormais tous les champs disciplinaires. Un des développements récents les plus spectaculaires est celui de bioRxiv, créée en 2013, et qui connaît une croissance exponentielle depuis cinq ans. (Pour un panorama très complet et documenté du rôle “transformant” des prépublications, on pourra consulter les deux études publiées récemment par Knowledge Exchange [1,2]).

En diffusant une prépublication, un chercheur peut faire connaître rapidement son travail, indépendamment des circuits plus traditionnels et plus lents des revues scientifiques. Les serveurs de preprints remplissent cet objectif avec les principaux bénéfices suivants :

• rendre les prépublications accessibles au monde entier immédiatement ;

• permettre des retours rapides de la communauté, plus largement que le processus classique de revue par les pairs ;

• pouvoir déposer plusieurs versions d'une même prépublication au fil des révisions et des commentaires ;

• par le dépôt sur un serveur public prendre date et constituer une preuve de la paternité d'un résultat ;

• garantir l'accès libre dans les deux sens : aux auteurs pour publier, aux utilisateurs pour lire.

Les avantages des archives institutionnelles

Préservation sur le long terme garantie par une institution publique

Alors que les serveurs de preprints ont été créés pour permettre une diffusion rapide du savoir en cours d'élaboration et, le plus souvent, au sein d'une communauté regroupée autour d'une discipline scientifique, la principale raison d'être des archives institutionnelles est la conservation sur le long terme des publications dans une version de référence. Pour une institution publique, l'enjeu est de disposer, en interne, de la totalité de sa production scientifique indépendamment des conditions qui peuvent les lier aux maisons d'édition (et dont l'évolution future peut être imprévisible).

En vue de garantir l'accès aux connaissances élaborées au sein de nos établissements, il est essentiel de déposer toutes les publications dans une archive institutionnelle. Évidemment, il faut que la publication soit déposée sous la forme d'un document de référence, conforme à ce qui a été validé par la communauté. Dans le meilleur des cas, lorsque la revue l'autorise, on archivera le fichier tel que publié en ligne par la revue ; sinon, il faut déposer un document produit par l'auteur dont le contenu est identique à la version publiée par la revue. Le dépôt peut être immédiat, si la revue l'autorise, et sinon au bout d'une période d'embargo qui ne peut excéder six mois pour les sciences exactes ou douze mois pour les SHS, grâce à la Loi pour une République numérique (article 30). Ainsi, même si une revue voudrait imposer un embargo d'une durée infinie, la loi française prévaut et autorise la diffusion après cette durée réduite (voir le guide pratique d'application de l'article 30, rédigé par des chercheurs, des juristes et des professionnels de l'IST).

Les bénéfices principaux du dépôt en archive institutionnelle sont la sauvegarde des publications de manière pérenne et leur accessibilité indépendamment des contrats (actuels ou futurs) avec les éditeurs.

Les piliers de la science ouverte

Ces serveurs et archives sont clairement une infrastructure indispensable à toute la science ouverte. En effet, seule une archive ouverte institutionnelle et multidisciplinaire (comme HAL en France) est capable de rassembler en un seul site toutes les fonctionnalités indispensables à la révolution si nécessaire vers une science ouverte : partager rapidement et sans entrave les résultats de la recherche et archiver pour les générations futures des connaissances fiables et validées par les pairs. Par le dépôt en archive ouverte des articles acceptés dans les revues (dans une version de référence autorisée), on bénéficie de l'indispensable contrôle de la qualité effectué par les comités scientifiques et les pairs, tout en s'affranchissant des entraves éventuellement imposées par les maisons d'édition.

La législation française autorise (et donc encourage) ces pratiques :

• d'une part, en vertu du code de la propriété intellectuelle français (dont il existe des versions équivalentes dans de nombreux pays), les chercheurs gardent le droit de diffuser librement toute version d'un article préliminaire à sa révision par une revue ;

• d'autre part, grâce à la “Loi pour une République numérique”, les éventuels embargos sur la diffusion de la version acceptée pour publication ne peuvent excéder six mois pour les sciences exactes et douze pour les SHS, et cela “même après avoir accordé des droits exclusifs à un éditeur”.

Le “Plan national pour la science ouverte” et le “Plan S”

Les archives ouvertes occupent une place centrale dans la réalisation de ces plans.

Par le “Plan national pour la science ouverte” (PNSO), annoncé le 4 juillet 2018 , la France s'est engagée pour que les résultats de la recherche scientifique soient ouverts à tous, chercheurs, entreprises et citoyens, sans entrave, sans délai et sans paiement.

Dans le cadre du “Plan S”, issu d'une initiative européenne à laquelle l'ANR participe, les résultats des recherches financées par les agences adhérant à la cOAlition S doivent être soit publiés immédiatement en accès ouvert, soit mises à disposition sur des plateformes ouvertes.

Ainsi, c'est notamment grâce aux archives ouvertes que les chercheurs peuvent se mettre en conformité avec les exigences du PNSO et du “Plan S”, sans frais supplémentaires, comme expliqué au paragraphe suivant.

Comment procéder, très concrètement ?

…quand une chercheuse ou un chercheur rédige un document qu'il souhaite publier.

Il ou elle peut alors mettre en ligne une prépublication sur un serveur afin de la faire circuler auprès de ses collègues pour récolter leurs avis et éventuellement l'améliorer. Au plus tard au moment de le soumettre pour publication à une revue scientifique, elle ou il le met en ligne, par exemple, sur HAL – mais cela peut se faire simultanément sur d'autres plate-formes, et même de façon automatique par exemple vers arXiv. Pendant le processus de relecture par les pairs, il ou elle peut éventuellement mettre en ligne des versions mises à jour. Dès acceptation (ou au pire après un délai d'embargo ne dépassant pas 6 ou 12 mois selon la discipline) elle ou il actualise le dépôt par la version finale acceptée pour publication.

Ainsi, grâce aux archives ouvertes comme HAL, l'exigence de 100% de notre production scientifique en libre accès peut être réalisée sans coûts supplémentaires — et sans paiement d'un APC (ce que les éditeurs traduisent par article publication charges mais qui correspond le plus souvent à des article prestige charges sans grand rapport avec des frais réels).

Quelques autres exemples de possibilités offertes par les archives ouvertes

Outre ce rôle de pierre angulaire dans l'édifice de la publication scientifique en libre accès, les archives ouvertes sont aussi au cœur de nouvelles pratiques et d'un écosystème innovant qui, tout en maintenant les mêmes exigences de qualité qui ont fait leurs preuves depuis le 17e siècle, permettra de pleinement tirer profit des technologies du 21e siècle, de s'adapter aux évolutions du mode de production scientifique, le tout au service du bien commun.

La liste de ce qui est possible grâce aux archives ouvertes est longue, voici juste quelques exemples.

• La fouille de textes et de données ou Text and Data Mining (TDM)

Le volume de l'information produite par la recherche augmente constamment et, de plus en plus, il s'agit d'explorer et de fouiller ces contenus à l'aide de programmes informatiques. Ce processus, appliqué sur de grandes collections de contenus est susceptible de produire de nouvelles connaissances. Lorsque les textes (prépublications ou articles parus) sont disponibles sur des archives ouvertes, on peut puiser librement dans ces corpus sans entrave, ni morcellement entre les différents éditeurs. En effet, dans une archive ouverte, avec des formats libres, tout le monde peut développer des outils numériques pour analyser de vastes collections. Ce n'est pas le cas si le corpus est hébergé chez un éditeur commercial, généralement en possession de droits d'exploitation exclusifs, dont on ne maîtrise ni les accès, ni les interfaces, ni les formats, et pour lesquels il n'y a aucune garantie de pérennité.

• Favoriser l'intégrité scientifique

L'accès à toutes les versions d'un document, aux données utilisées pour arriver aux conclusions, favorise les bonnes pratiques de publication et facilite le travail des relecteurs. Ainsi le processus de validation de la connaissance s'en trouve amélioré et la confiance dans les résultats scientifiques renforcée. Aussi, la possibilité de diffuser des résultats en prépublication, permet aux auteurs de prendre date, d'établir la paternité sur leurs idées et, éventuellement, de lutter plus efficacement contre le plagiat.

• Promouvoir une évaluation de la recherche basée sur la qualité plutôt que des algorithmes fermés

Les évaluations sont aujourd'hui (trop) largement fondées sur des indicateurs de “prestige” associés au nom de la publication plutôt qu'au contenu des documents. Beaucoup de ces indicateurs de prestige (comme le “journal impact factor” ou le “H-index” et qui servent à alimenter des classements comme celui dit “de Shangai”) sont des quantités mal posées mathématiquement, puisant dans des bases de données incomplètes et inadaptées. Pour ne rien arranger, ces indicateurs sont généralement calculés avec des algorithmes fermés et des données propriétaires. En signant la “San Francisco Declaration on Research Assessment” (DORA), le CNRS s'est engagé à éviter le recours à la bibliométrie, à préférer une évaluation basée sur la qualité et à prendre en compte toute la variété des types de production de la recherche. Pour atteindre un tel objectif il est indispensable que toutes les publications ainsi que leurs métadonnées soient librement accessibles dans des archives ouvertes.

• Des bases de données citationnelles en accès ouvert

Actuellement, le marché des moteurs de recherche bibliographiques et des bases de données citationnelles est dominé par deux acteurs commerciaux dont les services sont disponibles sur abonnement (très onéreux) : Scopus (Elsevier) et Web of Science (Clarivate), auxquels il faut ajouter Google Scholar, gratuit mais non libre et très opaque. Des alternatives libres et ouvertes sont en train de voir le jour, comme OpenCitations [3,4]. Elles pourront aboutir lorsque 100% des publications scientifiques avec leurs métadonnées seront accessibles dans des archives ouvertes.

• Alternatives libres aux sites de partage illégaux

La quasi-totalité des articles retenus derrière des “paywalls” sont accessibles sur des sites comme sci-hub [5,6] ou ResearchGate, dont les bases d'articles sont constituées sans égard aux licences régissant leur diffusion. Des éditeurs comme Elsevier déploient beaucoup d'énergie, d'argent et d'avocats pour bloquer la diffusion de “leurs” articles par ces sites. Si toutes les publications étaient déposées en archives ouvertes, il n'y aurait plus besoin de les chercher sur ces sites, dont la légalité peut être remise en question.

• Réduire les coûts associés à la publication scientifique

Le processus de la publication scientifique n'est évidemment pas gratuit. Mais les prix pratiqués actuellement par les grands éditeurs commerciaux sont injustifiables, puisque l'essentiel du travail éditorial n'est pas rémunéré par les éditeurs : ni les auteurs, ni les rapporteurs ne sont rémunérés autrement que par leurs employeurs habituels, universitaires dans la grande majorité [7]. Il est choquant que nous continuons d'entretenir un système où les “majors” de l'édition scientifique réalisent des marges bénéficiaires plus importantes que les plus profitables des géants du net. Pour un serveur comme arXiv, le coût par article déposé ne dépasse pas 10$ [8]. Il est donc clair qu'un autre monde de la publication scientifique est possible, même si cela nécessite de réinventer (partiellement) le système.

• Refonder l'écosystème de la publication scientifique

Grâce aux archives ouvertes, il est possible d'opérer une transformation qui conduira à l'indépendance entre les comités scientifiques (editors) et les maisons d'édition commerciales (publishers), dans laquelle ces dernières ne jouent plus que le rôle de prestataires de services (payés un juste prix correspondant au service rendu) alors que les comités scientifiques continuent de se consacrer au travail de sélection et de validation des manuscrits. Plusieurs autres solutions existent à cet effet, nous en présentons trois exemples au paragraphe qui suit.

En conclusion, les archives ouvertes sont clairement un terrain extrêmement fertile pour innover en toute liberté et sans entrave et explorer de nouvelles voies pour rendre accessible à tous le bien commun qu'est la science.

De nouveaux modèles pour le signalement, la validation et l'évaluation

De par leur souplesse, les archives ouvertes permettent aux chercheurs d'innover et de développer de nouvelles façons de signaler, de valider et d'évaluer le travail de recherche. En voici quelques exemples.

• Les épijournaux

L'idée, toute simple, est que les archives ouvertes remplissent toutes les fonctions d'une revue électronique (diffusion, signalement, archivage), sauf l'évaluation. Un épijournal est une structure qui vient combler ce manque : il repose sur un comité éditorial, qui fonctionne exactement comme dans un journal, avec l'aide de rapporteurs, et qui signale (à la fois sur le site de l'épijournal et sur le serveur de preprints) les articles qui ont été évalués et validés sous sa responsabilité scientifique. Le projet Episciences, porté par le CCSD, compte aujourd'hui 13 épijournaux.

• Peer Community In

Ce projet est plus innovant car il offre des services analogues aux journaux sans être en concurrence avec eux. Un comité éditorial, composé de chercheurs, anime sous sa responsabilité une plate-forme électronique contenant des rapports sur des articles, lesquels sont le plus souvent des prépublications, mais ils peuvent aussi être des articles déjà publiés. Les rapports sont donc certes accessibles à tous, mais seuls des rapports positifs sont produits (c'est pourquoi ces rapports sont appelés des recommandations). Les articles jugés insuffisants ne sont donc pas l'objet de ces recommandations. Un article recommandé peut ensuite être soumis à une revue, si l'auteur le souhaite. Le projet, lancé par deux chercheurs de l'INRA, compte aujourd'hui 5 PCI (Evolutionary Biology, Ecology, Paleontology, Animal Science & Entomology).

•  preLights (Preprint highlights, selected by the biological community)

Ce projet, porté par The Company of biologists, s'apparente davantage à un réseau social : des chercheurs en biologie signalent et commentent des preprints en biologie (et donc le plus souvent mis en ligne sur l'archive ouverte bioRxiv). Ces commentaires ne remplacent pas une évaluation réalisée sous la responsabilité d'un comité éditorial (mais ils apportent des commentaires parfois très riches, qu'on ne peut pas trouver ailleurs), en revanche ils contribuent à signaler rapidement des résultats et accélèrent les échanges intellectuels.

La liste de ces innovations n'est pas close et, a priori, n'a pas d'autres limites que l'inventivité des chercheurs et les besoins propres à chaque communauté, à partir du moment où une infrastructure d'archives ouvertes est en place et est utilisée massivement.

Conclusions

Les archives ouvertes permettent la diffusion la plus large possible de documents scientifiques sous des formes allant de la prépublication aux versions les plus abouties après validation par les pairs. Elles sont aussi l'outil le plus efficace (et le plus économique) pour atteindre rapidement l'objectif de 100% de publications en accès ouvert et se mettre ainsi en conformité avec les exigences du PNSO et du Plan S. La Confederation of open access repositories (COAR) a d'ailleurs tout récemment annoncé collaborer avec la cOAlition S pour renforcer le rôle des archives ouvertes dans la réalisation pratique du Plan S [9]. Les archives ouvertes constituent ainsi les bases d'un système de la publication qui respecte la liberté des chercheurs, est au seul service du progrès du savoir et tire pleinement avantage des possibilités offertes par les technologies du 21e siècle sans compromission sur les exigences de qualité. Un tel système pourra rétablir la souveraineté de la communauté scientifique et des institutions qui les soutiennent sur le corpus des connaissances qu'elles produisent. En outre c'est un terrain fertile pour innover en toute liberté et expérimenter de nouvelles façons de faire de la recherche ou de diffuser la connaissance, tout en réduisant drastiquement les coûts.

Références :

[1] J. Tennant, S. Bauin, S. James & J. Kant, The evolving preprint landscape: Introductory report for the Knowledge Exchange working group on preprints. (2018). doi:10.31222/osf.io/796tu.

[2] A. Chiarelli, R. Johnson, S. Pinfield &&nsbp;E. Richens, Accelerating scholarly communcation. The transformative role of preprints, Knowledge Exchange (2019). doi:10.5281/zenodo.3357727.

[3] OpenCitations.

[4] Initiative for open citations (I4OC).

[5] https://sci-hub.tw.

[6] http://scihubi6jazqj2wq.onion.

[7] Les comités scientifiques sont parfois rémunérés, parfois non, et les montants ainsi que les critères d'attribution de ces éventuelles rémunérations restent opaques.

[8] ArXiv business model white paper.

[9] COAR and cOAlition S supporting repositories to adhere to Plan S.

Copyleft © all rights reversed  —  http://www.lmfa.fr/perso/Benoit.Pier/ist/ao.php viewed by 3.231.217.209 - 29/03/2024 - 11:18:29