OCR

Message
Author
felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

OCR

#1 Post by felixbd »

Un peu gêné de ne poser que des questions sans rien apporter, je signale un petit script bien pratique (trouvé jadis sur le forum d'Ubuntu) pour ceux qui ont besoin d'une reconnaissance de caractères simple et rapide :

Code: Select all

#!/bin/bash
convert *.jpg sortie.tif ;
tesseract sortie.tif sortie -l fra > sortie.txt ;
# ou tesseract sortie.tif sortie -lw fra > sortie.txt ;
pluma sortie.txt
# ou leafpad sortie.txt
# ou même libreoffice5.2 --writer sortie.txt
rm sortie.tif
Il suffit :
-- d'installer tesseract, tesseract.fr et imagemagick,
-- de recopier ce script et de le rendre exécutable,
-- de le placer dans un dossier avec un scan du fichier jpg que l'on veut reconnaître,
-- de le lancer (et d'attendre quelques secondes).

Assez peu d'erreurs en général (pensez à utiliser des fichiers jpg scannés en niveau de gris à 300 dpi si vous utilisez Xsane).

J'espère ne pas enfoncer une porte ouverte.
Last edited by felixbd on Sun 01 Oct 2017, 16:09, edited 1 time in total.
Pelo

Bon courage :!

#2 Post by Pelo »

Bon courage :!:
retour (succès) cliquer le bleu.
C'est un sujet récurrent sur le forum, qui tourne à 98% autour de comment l'installer (On a un forum de livreurs).
Je crois qu'on est trois à avoir pousser le petit au bout en faisant réellement de la reconnaissance de caractères
Il faut repasser derrière pour corriger les fautes.
On a plus vite fait de taper directement..
Last edited by Pelo on Tue 12 Sep 2017, 04:46, edited 1 time in total.
felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

ROC?

#3 Post by felixbd »

J'ai donc enfoncé une porte ouverte ! Je dois dire que je n'ai jamais dépassé 140 pages consécutives... et que, bien sûr, une relecture a toujours été nécessaire. Mais existe-t-il des logiciels de ROC gratuits qui ne font aucune erreur ? Quand j'obtiens ce qui suit, je ne suis pas mécontent...

Image[/url]Image
Pelo

Le cerveau humain devine les lettres, pas l'OCR.

#4 Post by Pelo »

Ah mais moi c'était un seule page :) par contre c'est du vieux, des débuts de la machine à écrire (1880 1900 par là). Vendeien d'origine, je potasse les jugements des tribunaux révolutionnaires, ecrits à la plume d'oie, mais retranscrits à la machine par les royalistes, revenus au pouvoir.

Le cerveau humain devine les lettres, pas l'OCR.
Pas facile aussi de photocopier un bouquin sans le désosser,
Mais on n'a pas à juger, tu veux ROC ? on essaiera.
felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

ROC, suite

#5 Post by felixbd »

Loin de moi l'idée de "vouloir" quoi que ce soit. Je découvre et j'apprends à me servir d'un nouveau système. J'ai signalé au passage un script qui peut faciliter les choses dans certains cas. Ça m'est arrivé quelquefois. Si ça peut aider quelqu'un, ce sera une satisfaction : nous avons des problèmes communs, nous en avons aussi de très particuliers. À ce sujet, je ne pense pas qu'un tel script puisse t'aider beaucoup pour les pages que tu tentes de récupérer. Bonne journée.
Pelo

ROC sera donc bienvenu, si c'est possible

#6 Post by Pelo »

Moi les Puppies elles se ressmblent toutes. Plus on aura d'applications à y accrocher, mieux çà sera. ROC sera donc bienvenu, si c'est possible
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#7 Post by Dorothée »

Merci pour le script,

je n'ai jamais réussi à me servir de Tesseract, c'est l'occasion.

D'ailleurs, je trouve que le scan et même l'impression sont les points faibles de puppy. Par exemple, avez-vous déjà réussi à imprimer avec la fonction recto-verso? Si vous avez le truc, je suis preneuse.

Ciao,
felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

Impression

#8 Post by felixbd »

Salut, Dorothée,
désolé de ne pouvoir te répondre pour ce qui concerne l'impression recto-verso : je ne l'ai jamais pratiquée et, pour l'instant, sous Puppy, je n'ai pas encore installé mon imprimante.
Dès que ce sera fait j'essaie de voir ce qu'il en est.
Pelo

Vos impressions.

#9 Post by Pelo »

Je ne veux pas raconter e bêtises, mais sous Puppy c'est le navigateur qui gère l'impression, il me semble. J'avais testé une imprimante, j'ai laissé tomber faute d'assistance. Du temps de mes années d'activité rémunérée, j'imprimais chez le patron les documents Abiword faits à la maison.
Mouais, les retours sont pas nombreux sur le sujet, j'ai l'impression.
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#10 Post by Dorothée »

Salut les p'tits loups,

je reviens vers cet agréable forum parce que je me trouve (à nouveau) devant le problème de l'OCR. Cette fois-ci, pour un travail académique, j'ai vraiment besoin de faire une reconnaissance de caractères d'un (long) texte pour pouvoir chercher des mots-clés.

J'ai noté le script de Félix, mais je ne sais quel Tesseract prendre (il y en a beaucoup sur internet), ni où trouver tesseract.fr et imagemagik, ni comment installer tout ça.

Quelqu'un peut-il m'aider?

Pour vous remercier, car je ne fais que demander des conseils ici, je vais faire un sujet sur "Comment enregistrer le bureau avec le son en utilisant VLC". C'est moins compliqué qu'avec screenrecorder (pour le son) mais ça bouffe beaucoup de ram.

Sinon, ça va bien?

Ciaozinho.
Pelo

essaie d'abord Puppy OCR, c'est aussi bien que Tesseract

#11 Post by Pelo »

essaie d'abord Puppy OCR, c'est aussi bien que Tesseract. Il faut faire des clichés du texte en .tiff..
Bon courage..
S'il y a des images dans la page, c'est même pas la peine.
Toutefois un conseil, n'essayer pas de mettre le texte le plus net possible. L'OCR aime le flou, un peu, mais pas trop.. Bref il faut tâtonner.
felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

ROC

#12 Post by felixbd »

@ Dorothée : (Sans doute un peu tard !) les logiciels nécessaires au bon fonctionnement du script sont dans le PPM (je suis sous Triton). Il suffit donc d'installer tesseract, tesseract.fr et imagemagick. Ensuite, fais un essai avec un texte court à partir d'un fichier jpg et vérifie que le pourcentage d'erreurs est soutenable relativement au long texte que tu envisages de saisir... Relire un feuillet 21x29,7 ne pose pas de problèmes ; en relire 10, 20 ou davantage peut devenir lassant.
Mais, depuis ton post, tu as peut-être trouvé une solution plus confortable... En tout cas, bon courage.
Pelo

pour lire pas besoin de ré-écrire

#13 Post by Pelo »

pour lire pas besoin de ré-écrire. la photo suffit. le cerveau humain va corriger de lui-même. Que la machine comprenne le texte, c'est une autre paire de manches. si vous voulez pas essayer Puppy-OCR faut le dire ! le gars qui a créé çà, c'était pout rendre la vie plus facile, plus Puppy. Tesseract tout le monde connait. Puppy OCR fait mieux, au pire est plus facile à utiliser. sur une Puppy, vu qu'il a été fait pour Puppy.
Moi je fais un retour sur expérience. Vous repartez à zero si vous voulez.
Comme d'hab vous trouverez sur les forums comment installer Tesseract, ce qui est le moins compliqué; Après les gars sont partis installer autre chose. sans se servir de Tesseract.
Sur le forum Ubuntu, lisez les retours sur essais. Les ubuntistes se servent des logiciels, eux
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#14 Post by Dorothée »

Chers camarades,

Felix, je te remercie pour ton message. En fait, je n’ai pas trop réussi à utiliser ton script. J’ai monté Tesseract et imagemagic (que j’avais transformé en sfs - je ne fonctionne pratiquement qu’en sfs) mais le résultat n’a pas été très probant.

Quant à puppyOCR, je suis sûre qu’il est formidable, mais j'ai compris qu'il n'y avait pas la fonction en français, ce qui est un peu gênant quand c'est la langue que l'on utilise. Pelo, dis-moi que je me trompe en m'indiquant un lien où je peux résoudre ce problème. Surtout si tu considères qu'il est plus efficace que tesseract.

En attendant, j’ai fini par trouver un résultat très satisfaisant en utilisant Tesseract et le script pict2txt-batch de rcsnr (ou rscnr, ou rnrsc, ou rnsrnc) que j’ai trouvé (avec le mode d’emploi) ici:

http://murga-linux.com/puppy/viewtopic. ... 750#463750

1) J’ai donc monté (en sfs) tesseract_32bit-3.00 indiqué par S

2) J’ai été chercher le fra.traineddata

3) J’ai été chercher le pict2txt en mode batch indiqué par S (parce qu’il scanne toutes les images rassemblées dans un dossier au lieu du pet qui le fait une par une) par le lien

«Update: For a batch-mode version of pic2txt, read here» http://www.murga-linux.com/puppy/viewto ... 061#906061

4) J’ai décompacté le pic2txt-batch.tar.gz et je l’ai placé dans /usr/bin/

5) J’ai placé le fra.traineddata dans /usr/share/tessdata

6) J’ai mis 2 images tif dans un dossier /root/test

7) J’ai tapé dans la console

Code: Select all

pict2txt-batch /root/test
Qui m’a dit qu’il ne pouvait pas reconnaître les images parce qu’il ne trouvait pas en.traineddata (anglais). Ce qui était normal puisque j’avais fourni fra.traineddata (français).

Alors, comme je ne suis pas contrariante, je lui ai fait croire qu’il parlait anglais en changeant le nom de fra.traineddata en eng.traineddata. Comme ça tout le monde est content. Le script croit qu’il parle anglais alors qu’il parle français et ça marche très bien. Le résultat est tout à fait satisfaisant: 2 fichiers .text ont été créés avec le texte reconnu.

8 ) Afin de rassembler tous les fichiers .txt dans un seul, il faut taper dans la console:

Code: Select all

cat /name_of_image_folder/*.txt > TitreVoulu.txt 
Par exemple dans mon cas:

Code: Select all

cat /root/test/*.txt > Chapitre1.txt
Voilà mon expérience. Si ça peut servir à d’autres.

À bientôt, pour de nouvelles aventures... et merci
Last edited by Dorothée on Fri 15 Sep 2017, 18:28, edited 1 time in total.
Pelo

bilan là

#15 Post by Pelo »

99% des topics concernent l'installation. Argolance et moi sommes dans les un pour cent qui utilisent et avons fait un bilan là
Tesseract c'est le logiciel Linux archi connu. Dans les topics sauter toutes les pages sur l'installation pour passer aux résultats en utilisation par nous, users compétants. Il mettent tout ce qui leur passe par la main en vitrine. Nous on sait ce qui tourne. Y'en a pas un qui a réussit à sortir quelque chose de Tesseract avec une Puppy !

Faut que je retrouve le pet de Puppy OCR. aussi petit que les Puppys, il fait aussi bien que les grands. Mieux, pas sûr. En tout cas y'aura pas à linuxer des heures pour ajouter des libs qui manquent. C'est du prêt à porter que nous faisaient nos linuxeurs.
le pet est là.
et sur mon google Drive cliquer le bleu.
Attachments
Vous etes pas les premiers.jpg
Regardez les résultats et faites votre choix.
(111.55 KiB) Downloaded 206 times
Pelo

mes travaux avec Puppy OCR.

#16 Post by Pelo »

mes travaux avec Puppy OCR.
ROC : à voir, c'est une suggestion.
quel est le but : eviter de retaper un texte photographié pour gagner du temps. Si océriser va plus vite OK, si Océriser vous oblige à retaper les caractères bancales, vous allez vite renoncer.
Le plus rapide ? lire le texte à haute voix et vous enregistrer avec pRecord. et faites une video sur le sujet, avec des belles images.
Les pets sont fournis page 1. là j'ai des soucis avec la Puppy, plus de souris. Je vous laisse.
Attachments
puppyocr.jpg
Textes anciens.
(104.07 KiB) Downloaded 269 times
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#17 Post by Dorothée »

Pelo, merci pour toutes tes recherches, tu es une mine d'infos!

J'ai corrigé une petite erreur dans mon post plus haut. Le nom du fichier langue en anglais est eng.traineddata et non en.traineddata. Je continue mes essais.

Comme je l'ai écrit, la différence entre lepic2txt-batch et le pic2txt.pet (ou sfs) est que le premier permet de scanner d'un coup toutes les images d'un dossier, alors que le deuxième est une interface (gui) qui scanne les images une par une. Mais l'interface a un gros avantage, c'est que l'on peut changer le pourcentage - mais il ne faut pas oublier pour ça de monter imagechanger - et donc faire des essais (et ensuite modifier la taille de toutes les images en conséquence pour utiliser le batch?)

L'idéal serait d'inclure dans le script du batch la possibilité de changer la taille. Mais ça, je ne sais pas faire.

Tesseract a aussi une interface (gui), mais chez moi, pour une question que je n'ai pas résolue, ça ne marche pas.

PS: au fait, Pelo, puppyOCR est intéressant, mais il est basé sur.... tesseract.
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#18 Post by Dorothée »

Continuant mes recherches, j'ai trouvé comment redimensionner toutes les images d'un même dossier.

C'est avec imagemagick.

Voici la marche à suivre:

1) Monter imagemagick (en sfs ou le pet)

2) Mettre toutes les images dans un dossier

3) Ouvrir un terminal dans ce dossier (clic droit fenêtre terminal ici)

4) taper

Code: Select all

mogrify -resize %requis *.tif (selon le format d'image)
exemple:

Code: Select all

mogrify -resize 50% *.tif
ATTENTION: Si l'on s'arrête là, les images SONT REMPLACÉES PAR LES NOUVELLES.

Il faut donc donner le chemin d'un dossier de destination

exemple:

Code: Select all

mogrify -resize 50% *.tif -path /root/images50pc/
(il y a aussi "convert" - voir la page ubuntu citée plus bas)
Cela m'a permis de résoudre mon problème. Je teste d'abord quel est le meilleur pourcentage de mes images pour la reconnaissance de caractère (avec Tesseract et l'interface pic2txt), ensuite je redimensionne les images avec imagemagick, et enfin je scanne le tout avec le batch pic2txt-batch (voir mon post au-dessus)

Un peu fastidieux certes, il y a sûrement mieux, mais efficace.

J'en profite pour faire la pub d'imagemagick, dont vous trouverez toutes les fonctions (impressionnantes!) ici: https://doc.ubuntu-fr.org/imagemagick
Tout est en ligne de commande, mais pour les anciens ouindozeurs comme moi, c'est un bon exercice.

À bientôt.
Pelo

PuppyOCR est basé sur Tesseract

#19 Post by Pelo »

Comme pas mal d'appications Puppy, PuppyOCR est basé sur Tesseract certes, mais en l'améliorant, en l'allégeant et en le rendant convivial.
Vous allez devoir linuxer pour adapter vos logiciels à votre Puppy. Alors que de braves gens l'ont déjà fait pour vous, avec Puppy OCR, dans le temps, quand ils étaient patients.
Mais ce sont des mots. Si vous voulez pas l'essayer, vous saurez jamais.
Pas mal de linuxiens ne veulent pas de Puppy, trop petit, pas assez cher, mon fils. Mais vous , Mais toi, DOOroothée ?
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#20 Post by Dorothée »

Tu as raison Pelo, c'est mieux quand on trouve des applications clé en main. Mais en matière de Puppy, ou linux, ça ne marche pas toujours comme sur des roulettes. En ce qui me concerne, j'ai des applications-phares, qui tournent toutes seules, et puis de temps en temps, je bidouille. Ça aiguise ma curiosité, me fait apprendre un peu, c'est sympa.

Quant à Puppy, l'essayer, c'est l'adopter!
Post Reply