Créer son propre « Archive.org » pour garder la mémoire de ses sites

Si vous êtes un professionnel ou un grand habitué du web, vous connaissez très probablement Archive.org, ce service qui garde une copie de tous les sites web du monde depuis presque la création de celui-ci ou en tout cas sa propagation dans le grand public. Avec Archive.org, la machine à remonter le web, vous pouvez

Si vous êtes un professionnel ou un grand habitué du web, vous connaissez très probablement Archive.org, ce service qui garde une copie de tous les sites web du monde depuis presque la création de celui-ci ou en tout cas sa propagation dans le grand public.

Avec Archive.org, la machine à remonter le web, vous pouvez voir à quoi ressemblait Digg le 28 mai 2005 (ouch) ou Apple en 1997 (gasp).

Les blogs et leur archivage automatique et chronologique ont un peu popularisé cette notion de mémoire qui fait que sauf accident ce que vous avez écrit – que vous soyez rédacteur ou commentateur – perdure et peut être retrouvé et confronté à l’évolution du temps. Google fait ça aussi, mais sans la mise en forme.

Pour les sites dont l’objet n’est pas directement lié à l’actualité, et notamment les sites d’entreprise ou même les sites marchands, la question de l’archivage se pose différemment, et cette fonction n’est que très rarement implantée, ce qui peut être dans certains cas gênant.

Il existe plusieurs possibilités pour archiver un site web, et celles-ci dépendent de ce que vous souhaitez conserver et de la forme dans laquelle vous voulez le faire : intégralité ou juste une section du site ? Texte ou éléments médias (images…) ? Mise en forme ? Scripts ? Liens actifs ? Pages dans leur intégralité comme sur Archive.org ?

C’est à ces questions que répondent des services comme Iterasi ou le nouveau service Web Archiving de Reed Technologies (qui s’appuie d’ailleurs sur la technologie Iterasi).

Web Archiving, qui sera officiellement lancé en janvier 2011 propose une palette de services d’archivage selon de multiples critères comme la possibilité de sauvegarder vos sites page par page, les flux RSS, mais aussi des pages web individuelles dont vous n’avez qu’à fournir l’url, et d’autres fonctionnalités encore, le tout dans une base indexée à un moteur de recherche et selon un calendrier de captures prédéfini selon vos préférences. Aucun tarif n’est indiqué pour le moment mais je parie que cela ne sera pas donné.

Le sujet est intéressant car très en corrélation avec l’évolution du web et des questions juridiques qu’il peut poser. Il est lié aussi à l’émergence du temps réel, de la mémoire de ses données personnelles et de l’usage que l’on souhaite en faire dans le temps.

A ce sujet je rappelle que sur Le Focus nous avons mis en place depuis quelques semaines un système d’auto-archivage qui prend huit « photos » fonctionnelles par jour de la page d’accueil du site (ce qui va vous permettre de constater au passage que je n’ai pas beaucoup publié depuis quelques jours par manque de temps). Les archives prendront tout leur sens et leur éventuelle valeur dans quelques mois/années. Peut-être même qu’un jour on offrira à un proche pour son anniversaire la home du Focus du jour de sa naissance, soyons fou 🙂


Nos dernières vidéos

6 commentaires

  1. Pingback: Ma revue du Web du jour ! (02/12/2010) | Geek & Cochonneries

  2. @Fete des lumières… : Tu peux utiliser HTTrack ou SiteSucker. Je les utilise régulièrement pour convertir ce que je fais en php (dynamique) en html (statique).

Répondre