Apologie pour l'histoire continue ou les carnets d'un médiéviste

Photo aléatoire choisie par Zid

L'archivage pérenne est-il nécessaire?

images1

Au fil de mes réflexions sur l'archivage pérenne des données numériques, ce tweet a tout relancé, bousculant mes idées.

La mise en place de la plupart des projets de recherche -ou de tout site web, ou de toute publication web de corpus- impose que soit envisagée des procédures fermes d'archivage pérenne. Or nous savons que ces procédures, même si elles sont susceptibles d'exister, exigent des supports techniques et intellectuels démesurés par rapport aux capacités actuelles, notamment en SHS, tandis que les moyens financiers alloués pour ce faire ne vont pas aller en s'accroissant, fort logiquement. En d'autres termes : nous rêvons d'archivage pérenne, nous en hurlons la nécessité évidente et  nous sommes incapables de l'assurer. Et je ne vois pas pourquoi ça changerait fortement (même si le coût du TéraOctet diminue, ce n'est qu'une part des procédures d'archivage pérenne qui englobent frais de maintenance, procédures de transfert de données de serveur en serveur, changements logiciels...).

Par ailleurs, on sait que, de toute éternité, la documentation humaine est soumise à des processus de destruction et d'élimination volontaires (on pense à la destruction -très partielle?- d’une bibliothèque de manuscrits à Tombouctou il y a quelques jours) ou involontaires (l’écroulement du bâtiment des archives de Cologne en 2009). Ces destructions sont normales. Parfois les archivistes ou les bibliothécaires eux-mêmes pratiquent l'art du « désherbage » ou de la sélection pour destruction ou conservation. J'ai moi-même en son temps poussé des brouettes d'archives judiciaires du XIXe s. dans des conteneurs pour le pilon.

Et si nous appliquions ces principes de sélection aux résultats de la recherche en numérique, voire aux sources numériques ? S'il n'était pas nécessaire de mettre en place des procédures d'archivage pérenne pour tout ? Si on ajoutait une terrible mais salutaire contrainte aux projets de recherche en cours de rédaction ou de proposition : choisir d'emblée, dans le projet qui est mis au concours, ce qui doit être conservé des travaux qui seront réalisés et ce qui ne doit pas l'être. Ce qui doit faire l'objet d'archivage pérenne et ce qui ne le sera pas. C’est probablement dans ces quelques lignes que les experts chargés de juger de la pertinence d’un projet pourraient évaluer le plus justement la réelle vision scientifique du chercheur, la compréhension de son objet de recherche.

Commentaires

Frédéric Clavert Site 13 février 2013 08:10:34
Qu'il y ait des stratégies d'archivage (ie choisir ce que l'on archive ou pas) est en soi logique. Mais c'est prendre un gros risque (qui se pose depuis que l'Humanité a inventé le concept d'archives): une archive semblant de faible "valeur" aujourd'hui peut susciter un regain d'intérêt dans le futur. Allez, je me permets de me faire de la promo: http://www.clavert.net/wordpress/?p=1248 Disons que c'est l'avis du contemporanéiste qui a peur de perdre son "utilité".
Got Site 13 février 2013 22:55:44
Si je puis me permettre, cher Zid, tu ne poses pas les bonnes questions. L'archivage pérenne n'est qu'une conséquence d'une parfaite maîtrise de l'information numérique. La question est donc de savoir dans quelle mesure une organisation sera capable de faire face à la prochaine étape de migration (migration de support de stockage et migration de format/logiciel) et non de savoir si elle archive correctement. Alors quand tu maintiens quelques dizaines, centaines voire milliers de fichiers, il est assez aisé de maîtriser son information numérique : le nombre de formats ou de logiciels sont limités. Une véritable infrastructure de gestion de l'information numérique telle que SPAR à la BnF ne se justifie qu'avec des volumes de données qui se comptent en pétaoctets ou en millions de fichiers avec plusieurs dizaines de formats ou de logiciels à maintenir. Dans tous les autres cas, une bonne organisation et un système d'information maintenu sainement doivent suffire à assurer un service minimum de pérennisation sur le long terme. En fait, on en arrive à la question du retour sur investissement soit : faut-il prévenir en mettant en place une infrastructure complexe ou guérir et mettre en place des projets de migration au coup par coup, sachant qu'il existe un certain nombre de bonnes pratiques pour limiter le coût comme l'utilisation d'un format maîtrisé et maîtrisable, dans la plupart des cas, un format ouvert et libre (et que personne ne s'avise de me citer PDF/A à ce moment-là car c'est une horreur absolue à migrer...) ? Ton billet appelle une autre remarque : je ne pense pas qu'on puisse traiter la question du numérique de la même manière que le papier en ce qui concerne la sélection, enfin pas dans tous les cas. Prenons qu'un exemple : le cas d'une publication électronique sous la forme d'un site Web, la maintenabilité de l'accès à l'information est rendue nécessaire par le simple fait que le site Web est le seul point d'accès à cette information, puisqu'il y a séparation entre le support et l'accès aux messages (à la différence du papier où le message existe autant de fois qu'il existe un support). Dans ce cas, le producteur se doit de maintenir l'accès à l'information et il doit réfléchir à une stratégie pour ce faire. Par la grâce du dépôt légal, ce problème n'existait pas avec le papier et la BnF conserve de manière exhaustive toutes les publications (essaye juste une seule fois de parler de désherbage à un conservateur de la BnF, il va devenir blême ;-) ), mais il existe pour le numérique, car dans ce cas et pour plein de très bonnes raisons, le dépôt légal du Web n'est pas exhaustif. CQFD : le producteur doit maintenir l'accès à l'information s'il veut que sa production reste une référence, doit-il pour autant faire de l'archivage pérenne et mettre en place une infrastructure ad hoc ? Non, il doit simplement s'assurer qu'il maîtrise son information numérique et qu'il sera capable de migrer l'ensemble des informations (en maintenant les URLs ;-) ) au prochain changement de format ou de logiciels. Je ne sais pas si je suis très clair, mais j'espère que ces quelques remarques te permettront de poursuivre ta réflexion.
Got Site 13 février 2013 23:00:52
Pour résumer (après avoir relu mon commentaire ;) ) : l'archivage pérenne est-il nécessaire ? Non. En revanche, il est nécessaire de maîtriser son information numérique, c'est-à-dire de se donner les moyens de faire face à la prochaine migration (qui sera inéluctable, le format pérenne et le support de stockage pérenne n'existent pas...) sans trop casser sa tirelire.
zid 21 février 2013 12:18:24
Désolé de ne pas encore avoir répondu! Merci à tous deux, je m'y mets sans tarder!
zid 2 mars 2013 18:46:25
Frédéric> Bien sur, je connais ce vieux principe sur lequel on revient depuis des années: nul ne sait de quoi la recherche sera faite demain, et donc toute destruction d'archives "premières" est problématique. Je parlais ici des archives de la recherche, notamment: archives "secondaires" donc. Littérature grise de la recherche. Got> Je crois comprendre et je pense qu'on se rejoint. Mon propos revient à ta conclusion: on doit maîtriser son information numérique, donc se donner les moyens de faire face aux migrations. Donc savoir ce qu'on peut migrer et avec quels moyens. Tout est question de choix. Ce que je stigmatisais ici, c'est l'obsession actuelle de la conservation à outrance. Avec la patrimonialisation de la documentation, on arrive à un souci de surconservation qui pose des problèmes techniques d'archivage (qu'on peut résoudre, comme tu le dis) mais aussi et surtout des problèmes de consultation, d'analyse, voire, horresco referens, de lecture! A réfléchir encore!
La souris Site 10 avril 2013 16:31:24
J'ai découvert avec plaisir que vous aviez repris le blog... Ce mot, juste pour vous signaler que le flux rss pointe manifestement sur l'ancien blog. Pas moyen d'être averti des nouveaux billets en l'état, donc.
Louise Merzeau Site 22 mai 2013 17:31:25
Venez discuter de ces questions dans l'atelier méthodologique de l'archivage du Web à l'Ina le 31 mai prochain : nous consacrerons cette séance à la fabrique numérique de l'histoire : http://atelier-dlweb.fr/blog/
zid 3 novembre 2013 00:56:28
La souris: je sais, ce fil rss mal configuré m'épuise. En fait, il faudrait que je refasse tout le blog. Mais il me manque un peu de temps...
zid 3 novembre 2013 00:57:47
Louise Merzeau: évidemment, vu que mon blog cafouille, je n'ai pas vu votre réponse et n'ai pu vous contacter. Mille excuses...

Catégories

Archives

A propos