Bientôt la reconnaissance de caractères (OCR) dans Google Docs

Nous recevons fréquemment des documents scannés ou au format image contenant du texte que nous souhaiterions extraire pour l’éditer ou le copier dans un autre document. Pour cela il existe des logiciels de reconnaissance optique de caractères OCR) (Optical Character Recognition), fournis la plupart du temps avec votre scanner, ou des services web comme ABBYY

Nous recevons fréquemment des documents scannés ou au format image contenant du texte que nous souhaiterions extraire pour l’éditer ou le copier dans un autre document.

Pour cela il existe des logiciels de reconnaissance optique de caractères OCR) (Optical Character Recognition), fournis la plupart du temps avec votre scanner, ou des services web comme ABBYY FineReader.

Google a eu la bonne idée de développer une option pour Google Docs qui fait le job, à savoir reconnaître du texte dans une image et le convertir d’un clic en nouveau document de votre bibliothèque Google Docs, prêt à être édité.

dococr

Le service est pour le moment en cours d’expérimentation et la conversion comporte encore quelques erreurs, mais le résultat sur un long document texte scanné dans une qualité très moyenne est très satisfaisant.

Les formats acceptés sont sans surprise JPG, PNG et GIF, et il faut compter entre 15 et 40 secondes pour obtenir la conversion d’un document, selon sa taille.

google_docs_ocr

Petite déception : le service ne semble pas pour le moment fonctionner avec du texte en français (ou non anglais). J’ai testé et obtenu… une page blanche. Mais connaissant Google et sa pratique avancée des langues exotiques, ceci devrait être implanté très rapidement.

Si vous possédez un compte Google Docs, vous pouvez tester l’application ici : http://googlecodesamples.com/docs/php/ocr.php

(source)


Nos dernières vidéos

7 commentaires

  1. ramzalelfe on

    Bonjour Éric,

    Une question : un tel service n’annoncerait-il pas la fin de l’anti spam par images ? En effet, si un robot peut enregistrer la photo, l’envoyer à ce service et ensuite mettre dans le champ approprié le texte extrait de l’image, il est bien probable qu’il faille trouver autre chose…

  2. Pingback: Moisson journalière de liens #1268 | Autour d'un café

  3. L’achat de reCAPTCHA semble vite intégré!

    Pour éviter les usages abusifs il y a une limitation sur le nombre de requètes par compte google (cependant des news un peu vieillotes et que je ne retrouve pas affirmaient cependant qu’une bonne partie des robots passaient la captcha google, ce qui voudrait dire qu’obtenir des comptes est facile).

    Cependant pour moi la plus grosse limitation est que le robot ne peut pas se permettre d’analyser toutes les images présentes sur un site (il ne peut pas à priori savoir que l’adresse est dans telle image).

Send this to a friend