Chers camarades,
Felix, je te remercie pour ton message. En fait, je n’ai pas trop réussi à utiliser ton script. J’ai monté Tesseract et imagemagic (que j’avais transformé en sfs - je ne fonctionne pratiquement qu’en sfs) mais le résultat n’a pas été très probant.
Quant à puppyOCR, je suis sûre qu’il est formidable, mais j'ai compris qu'il n'y avait pas la fonction en français, ce qui est un peu gênant quand c'est la langue que l'on utilise. Pelo, dis-moi que je me trompe en m'indiquant un lien où je peux résoudre ce problème. Surtout si tu considères qu'il est plus efficace que tesseract.
En attendant, j’ai fini par trouver un résultat très satisfaisant en utilisant Tesseract et le script pict2txt-batch de rcsnr (ou rscnr, ou rnrsc, ou rnsrnc) que j’ai trouvé (avec le mode d’emploi) ici:
http://murga-linux.com/puppy/viewtopic. ... 750#463750
1) J’ai donc monté (en sfs) tesseract_32bit-3.00 indiqué par S
2) J’ai été chercher le fra.traineddata
3) J’ai été chercher le pict2txt en mode batch indiqué par S (parce qu’il scanne toutes les images rassemblées dans un dossier au lieu du pet qui le fait une par une) par le lien
«Update: For a batch-mode version of pic2txt, read here»
http://www.murga-linux.com/puppy/viewto ... 061#906061
4) J’ai décompacté le pic2txt-batch.tar.gz et je l’ai placé dans /usr/bin/
5) J’ai placé le fra.traineddata dans /usr/share/tessdata
6) J’ai mis 2 images tif dans un dossier /root/test
7) J’ai tapé dans la console
Qui m’a dit qu’il ne pouvait pas reconnaître les images parce qu’il ne trouvait pas en.traineddata (anglais). Ce qui était normal puisque j’avais fourni fra.traineddata (français).
Alors, comme je ne suis pas contrariante, je lui ai fait croire qu’il parlait anglais en changeant le nom de fra.traineddata en eng.traineddata. Comme ça tout le monde est content. Le script croit qu’il parle anglais alors qu’il parle français et ça marche très bien. Le résultat est tout à fait satisfaisant: 2 fichiers .text ont été créés avec le texte reconnu.
8 ) Afin de rassembler tous les fichiers .txt dans un seul, il faut taper dans la console:
Code: Select all
cat /name_of_image_folder/*.txt > TitreVoulu.txt
Par exemple dans mon cas:
Code: Select all
cat /root/test/*.txt > Chapitre1.txt
Voilà mon expérience. Si ça peut servir à d’autres.
À bientôt, pour de nouvelles aventures... et merci