Beaucoup en rêvent probablement de cette IA qui, comme lors de notre tendre enfance, nous berce d’histoire avec une voix mécanique. Aujourd’hui des logiciels capables de lire des livres, des articles, des documents Word et même de l’écrit à partir d’une photo il en existe plusieurs, chez Microsoft, Facebook et d’autres. Les équipes de recherchent d’Amazon continuent de leur côté de perfectionner ce que l’on appelle « La reconnaissance optique de caractères ».

Très tôt dans l’histoire informatique, dès les années 70, les chercheurs ont voulu créer des machines capables de lire des textes pour les déclamer à leurs créateurs. Ils y sont parvenus, avec plus ou moins de succès. L’une des difficultés était la capacité des machines à déchiffrer des textes non rectilignes. C’est ici qu’intervient la technologie TextTubes développé par des chercheurs Amazon.

Comparaison entre les sytèmes de reconnaissance optique de caractère

Comparatif des différents ROC, TextTubes est le dernier, en vert. Crédit : TextTubes

Les logiciels habituels fonctionnent tous d’une même logique. La première tâche sera de repérer les indices sur l’image pour trouver le texte. Ardu tant les textes peuvent varier de taille, de couleur, d’organisation, de police, certains utilisent même du Comic Sans MS ou des lettres gothiques et tout cela un logiciel doit pouvoir le repérer.

C’est sur ce repérage « contextuel » du texte qu’ont travaillé Joël Seytre, Jon Wu, et Alessandro Achille, les trois chercheurs d’Amazon. Pour repérer des textes courbés, ils ont choisi une fonction mathématique en tube, basé sur la reconnaissance de l’enchainement de caractère d’un même texte. Plus flexible que les rectangles habituellement utilisés, les « tubes » se sont montrés efficaces.

Caractères lu par TextTubes sur une image tirée de CWT-1500. Crédit : TextTubes/CWT-1500

Inutile de croire les trois hommes sur parole, ils ont testé leur innovation en utilisant des images, recueillies sur les bases de données CTW-1500, un ensemble de 1500 images, et sur Total-Text, 1355 images en tout. Le taux de réussite de TextTubes est de 83,65%, un taux supérieur aux méthodes similaires, proche de 76%.

L’arrivée de l’informatique devait rendre l’usage du papier obsolète, mais la feuille blanche résiste bien. Elle connait même encore la gloire grâce à une série comme The Office. Aujourd’hui le support est encore très utilisé, notamment pour les chèques. VentureBeat relai une étude de Grand View Research qui estime que le marché des technologies de reconnaissance optique de caractère devrait représenter 13,38 milliards de dollars d’ici 2025.