Quel est le logiciel d’OCR le plus puissant et le plus précis pour le texte japonais ?


Selon mon expérience, il n'existe pas un seul logiciel d'OCR qui soit systématiquement plus performant que tous les autres sur du texte japonais. Les performances peuvent varier considérablement en fonction de divers facteurs, notamment la qualité de l'image, la résolution de numérisation, les polices utilisées, la mise en page et le type de fichier (gif, png, jpg, pdf, etc.). J'utilise tous les logiciels suivants pour l'OCR du japonais :

  • Adobe Acrobat : C'est un choix évident pour les traducteurs car en général, vous devez de toute façon vous abonner à Adobe Acrobat pour votre travail. Pour effectuer l'OCR dans Adobe Acrobat, ouvrez le fichier image dans Acrobat et choisissez Outils -> Scan & OCR -> Ouvrir.
  • Google : C'est l'un des meilleurs outils d'OCR, et le meilleur de tous, il'est complètement gratuit. Téléchargez le fichier image sur Google Drive, faites un clic droit dessus, et choisissez Ouvrir avec Google Docs. L'image s'affiche en haut du document, et le texte reconnu apparaît en dessous. Malheureusement, Google Docs ne fait aucun effort pour préserver l'apparence et le formatage du texte, ce qui constitue un inconvénient majeur par rapport aux autres logiciels cités ici.
  • Readiris 17 : Readiris est un logiciel commercial d'OCR pour Windows et Mac vendu par IRIS, une société Canon. À partir de 49 $ seulement, il constitue une relative bonne affaire. Vous chargez le fichier image dans Readiris, spécifiez la langue, puis l'enregistrez sous forme de PDF consultable. Notez qu'il n'accepte pas les fichiers GIF.
  • 読取革命 (Yomitori Kakumei) : C'est le seul logiciel répertorié ici qui est spécifique à la langue japonaise. L'interface et la documentation sont également uniquement japonaises. Avec un prix de 12 980 JPY, c'est l'option la plus chère. 読取革命 a été développé à l'origine par Panasonic et est maintenant vendu par SourceNext.

Encore, mon expérience est qu'il'n'y a pas de gagnant unique et clair, et il'est difficile de prédire quel logiciel donnera les meilleurs résultats d'OCR sur un fichier image donné. Typiquement, j'entre le fichier image numérisé dans les quatre, et il devient rapidement évident lequel l'a traité le mieux.

.