Comment installer Tesseract OCR sur windows 10


J'ai écrit un guide détaillé sur la façon d'installer Tesseract OCR pour Windows ici qui marche à travers l'installation étape par étape ainsi que les étapes pour exécuter Tesseract pour extraire le texte sur un document échantillon.

En bref, les étapes sont les suivantes :

  1. Exécuter le programme d'installation de l'UB Mannheim
  2. Configurer votre installation (choisissez le chemin d'installation de Tesseract et les données linguistiques que vous souhaitez inclure)
  3. Ajouter Tesseract OCR aux variables d'environnement de votre ordinateur

Puisque votre question inclut la balise Python, je suppose que vous voudrez tirer parti de Python d'une manière ou d'une autre pour travailler avec Tesseract sur votre machine. Pour ce faire :

  1. Lancer pip install pytesseract
  2. Vous devrez également installer Pillow avec la commande pip install Pillow afin d'utiliser Pytesseract. Importez PIL dans votre script Python comme suit : from PIL import Image.
  3. Enfin, vous devrez probablement ajouter la ligne de code suivante dans votre script Python afin de pouvoir appeler pytesseract sur votre machine Windows (vous devrez peut-être changer ce chemin en fonction de votre chemin d'installation pour Tesseract) : pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files\Tesseract-OCR\tesseract.exe'

Si vous trouvez que ces étapes seules ne sont pas suffisantes, n'hésitez pas à vous référer au guide ci-dessus.

Bonne chance!