Nous recevons fréquemment des documents scannés ou au format image contenant du texte que nous souhaiterions extraire pour l’éditer ou le copier dans un autre document.

Pour cela il existe des logiciels de reconnaissance optique de caractères OCR) (Optical Character Recognition), fournis la plupart du temps avec votre scanner, ou des services web comme ABBYY FineReader.

Google a eu la bonne idée de développer une option pour Google Docs qui fait le job, à savoir reconnaître du texte dans une image et le convertir d’un clic en nouveau document de votre bibliothèque Google Docs, prêt à être édité.

dococr Bientôt la reconnaissance de caractères (OCR) dans Google Docs

Le service est pour le moment en cours d’expérimentation et la conversion comporte encore quelques erreurs, mais le résultat sur un long document texte scanné dans une qualité très moyenne est très satisfaisant.

Les formats acceptés sont sans surprise JPG, PNG et GIF, et il faut compter entre 15 et 40 secondes pour obtenir la conversion d’un document, selon sa taille.

google docs ocr Bientôt la reconnaissance de caractères (OCR) dans Google Docs

Petite déception : le service ne semble pas pour le moment fonctionner avec du texte en français (ou non anglais). J’ai testé et obtenu… une page blanche. Mais connaissant Google et sa pratique avancée des langues exotiques, ceci devrait être implanté très rapidement.

Si vous possédez un compte Google Docs, vous pouvez tester l’application ici : http://googlecodesamples.com/docs/php/ocr.php

(source)