Topsy, une archive regroupant toutes les publications sur Twitter depuis 2006

Topsy, une des rares sociétés qui a accès aux données de Twitter, a décidé de créer une archive colossale qui regroupe toutes les publications sur le réseau social depuis 2006.

Vous l’aurez remarqué, lorsque vous effectuez une recherche sur Twitter, les résultats proposés ne sont que des publications récentes, très récentes même. Au fil dans années, le réseau social a pris la décision de ne renvoyer que des tweets proches dans le temps. Nous sommes passé d’une période d’un mois, à une semaine et demi, puis à une semaine pour finir à quelques jours. Pourtant, Twitter peut être un sacré réseau d’information si l’on cherche bien. Le réseau pourrait même servir à retrouver une actualité chaude du passé et à constater tout ce qu’il s’est dit à propos de celle-ci à un moment précis. Malheureusement, les restrictions actuelles ne nous facilitent pas vraiment la tâche et Twitter a toujours eu comme politique de laisser ce qui est dans le passé à sa place.

C’est pour pouvoir exploiter cette mine d’informations encore trop enfouie que Topsy a décidé de réagir et de tout simplement récupérer et indexer tous les tweets écrits depuis le lancement du site en mars 2006. Topsy fait partie des rares sociétés qui ont accès aux données du réseau social, elle compte bien exploiter ce privilège en créant la plus grande archive Twitter jamais réalisée. Autant vous dire que le travail est colossal et que les 425 millions de publications actuellement stockées sur 3.500 serveurs ne sont qu’une goute d’eau par rapport à la masse totale de tweets déjà publiés.

Topsy

Aujourd’hui Twitter c’est entre 400 et 600 millions de publications quotidiennes qui sont enregistrées une par une par Topsy. « La troisième génération de nos technologie d’indexage a augmenté la densité du nombre de documents que nous pouvons indexer sur nos serveurs, cela veut dire que nous pouvons effectuer un indexage massif pour récupérer chaque tweet. », Vipul Ved Prakash, co-fondateur de Topsy. Pour parler en termes de chiffres, cela donne un enregistrement à effectuer toutes les 150 millisecondes, bon courage. « La quantité de données créée sur Twitter plus Facebook aujourd’hui est supérieure à tout ce qui a été créé sur le reste du Web« .

Le projet est (extrêmement) ambitieux et il faudra un travail important pour le mener à bien mais s’il voit effectivement le jour, nous pourrions bénéficier d’un outil plus qu’intéressant. Mis à part l’aspect d’archive dans laquelle on pourra puiser des publications autour de sujets qui ont fait l’actualité, ce moteur de recherche pour Twitter pourrait être un formidable outil sociologique. Les sociétés et les chercheurs pourraient bien y trouver leur compte. Vous pouvez vous rendre sur Topsy et constater l’avancée des travaux par vous même. A noter : une version Analytics Pro est proposée gratuitement pendant 14 jours à ceux qui veulent l’essayer.

(source)


  • Bruce McLaren, la bande-annonce du film-documentaire

    McLaren : The Film, est un documentaire rendant hommage à Bruce McLaren, pilote de formule 1 et créateur de l’écurie qui porte son nom. Découvrez la bande-annonce ci-dessous.  Bruce McLaren, coureur automobile d’exception… Si vous suivez un peu l’actualité des courses automobiles et de la Formule 1, alors le nom de McLaren vous est bien connu. [... […]

  • Et si la série Malcom faisait son retour ?

    Frankie Muniz et Bryan Cranston de nouveau ensemble à l'écran ? Voilà qui devrait ravir les fans de la série Malcolm si la série fait son come-back. […]

  • Unbreakable Kimmy Schmidt : une vidéo pour la saison 3

    Unbreakable Kimmy Schmidt reviendra sur Netflix le 19 mai prochain pour une troisième saison attendue de pied ferme par tous ses fans. […]

Nos dernières vidéos

Un commentaire

Send this to a friend

Lire les articles précédents :
A Tokyo, les taxis vous préviendront si vous oubliez quelque chose

Une société de taxi japonaise a décidé de lutter contre l'oubli d'objets dans les taxis en proposant un système qui...

Fermer