Topsy, une archive regroupant toutes les publications sur Twitter depuis 2006

Topsy, une des rares sociétés qui a accès aux données de Twitter, a décidé de créer une archive colossale qui regroupe toutes les publications sur le réseau social depuis 2006.

Vous l’aurez remarqué, lorsque vous effectuez une recherche sur Twitter, les résultats proposés ne sont que des publications récentes, très récentes même. Au fil dans années, le réseau social a pris la décision de ne renvoyer que des tweets proches dans le temps. Nous sommes passé d’une période d’un mois, à une semaine et demi, puis à une semaine pour finir à quelques jours. Pourtant, Twitter peut être un sacré réseau d’information si l’on cherche bien. Le réseau pourrait même servir à retrouver une actualité chaude du passé et à constater tout ce qu’il s’est dit à propos de celle-ci à un moment précis. Malheureusement, les restrictions actuelles ne nous facilitent pas vraiment la tâche et Twitter a toujours eu comme politique de laisser ce qui est dans le passé à sa place.

C’est pour pouvoir exploiter cette mine d’informations encore trop enfouie que Topsy a décidé de réagir et de tout simplement récupérer et indexer tous les tweets écrits depuis le lancement du site en mars 2006. Topsy fait partie des rares sociétés qui ont accès aux données du réseau social, elle compte bien exploiter ce privilège en créant la plus grande archive Twitter jamais réalisée. Autant vous dire que le travail est colossal et que les 425 millions de publications actuellement stockées sur 3.500 serveurs ne sont qu’une goute d’eau par rapport à la masse totale de tweets déjà publiés.

Topsy

Aujourd’hui Twitter c’est entre 400 et 600 millions de publications quotidiennes qui sont enregistrées une par une par Topsy. « La troisième génération de nos technologie d’indexage a augmenté la densité du nombre de documents que nous pouvons indexer sur nos serveurs, cela veut dire que nous pouvons effectuer un indexage massif pour récupérer chaque tweet. », Vipul Ved Prakash, co-fondateur de Topsy. Pour parler en termes de chiffres, cela donne un enregistrement à effectuer toutes les 150 millisecondes, bon courage. « La quantité de données créée sur Twitter plus Facebook aujourd’hui est supérieure à tout ce qui a été créé sur le reste du Web« .

Le projet est (extrêmement) ambitieux et il faudra un travail important pour le mener à bien mais s’il voit effectivement le jour, nous pourrions bénéficier d’un outil plus qu’intéressant. Mis à part l’aspect d’archive dans laquelle on pourra puiser des publications autour de sujets qui ont fait l’actualité, ce moteur de recherche pour Twitter pourrait être un formidable outil sociologique. Les sociétés et les chercheurs pourraient bien y trouver leur compte. Vous pouvez vous rendre sur Topsy et constater l’avancée des travaux par vous même. A noter : une version Analytics Pro est proposée gratuitement pendant 14 jours à ceux qui veulent l’essayer.

(source)


Un commentaire

Send this to friend

Lire les articles précédents :
A Tokyo, les taxis vous préviendront si vous oubliez quelque chose

Une société de taxi japonaise a décidé de lutter contre l'oubli d'objets dans les taxis en proposant un système qui...

Fermer