OCR

Message
Author
augras
Posts: 1487
Joined: Mon 11 Nov 2013, 17:37
Location: france

#21 Post by augras »

Dorothée wrote:Continuant mes recherches, j'ai trouvé comment redimensionner toutes les images d'un même dossier.
Bonjour Dorothée,
Il y a beaucoup plus simple en utilisant Peasyscale de l'ami rcrsn51 : http://www.murga-linux.com/puppy/viewtopic.php?p=617584
C'est tout simplement... hyper simple et efficace, image par image ou bien dossier complet.
Pour l'ocr je n'y connais rien.
Philippe
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#22 Post by Dorothée »

Augras, merci pour le tuyau, d'autant que peasyscale est déjà installé sur Precise (ou en tout cas Triton).

C'est très pratique, c'est vrai. Le seul hic, c'est que la version que j'ai n'a l'air de traiter que les jpg, et que l'ocr se fait avec des images au format tif. Il faut que je l'actualise.

On avance, on avance...
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#23 Post by Dorothée »

Dans un post plus haut, j'ai commenté comment j'avais dribblé la restriction de langue du patch pic2txt-batch proposé par rscrnnn, en changeant fra.traineddata en eng.traineddata.

C'était évidemment du malabarisme, il y a plus simple et qui prête moins à confusion.

Si vous souhaitez utiliser pic2txt-batch en français (en mettant le fra.traineddata dans /usr/share/tessdata), il faut, après avoir décompacté pic2txt-batch.tar.gz dans /usr/bin/, ouvrir ce script et modifier la ligne 28 en remplaçant eng par fra.

Par contre, je ne sais pas comment faire pour gérer plusieurs langues.

À bientôt,
User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#24 Post by Argolance »

User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#25 Post by Dorothée »

Merci,

je vais y faire un tour et rendre compte de mes expériences.

À bientôt,
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#26 Post by Dorothée »

Après plusieurs tentatives, j'ai décidément du mal avec les interfaces graphiques (gui), auxquelles il manque toujours des librairies.

Mais je commence à m'en sortir assez bien avec la ligne de commande, et pour mon travail actuel, cela me convient.

En changeant un peu de sujet, quelqu'un peut-il me dire comment lister les librairies manquantes d'un logiciel dans la console? J'ai noté cela quelque part, mais je ne sais plus où.

Merci d'avance, à bientôt,
Pelo

ldd /usr/bin/osmo

#27 Post by Pelo »

ldd le chemin du binaire
ldd /usr/bin/osmo
# ldd /usr/bin/osmo
linux-gate.so.1 => (0xffffe000)
libgtk-x11-2.0.so.0 => /usr/lib/libgtk-x11-2.0.so.0 (0xb731a000)
libgdk-x11-2.0.so.0 => /usr/lib/libgdk-x11-2.0.so.0 (0xb726b000)
libpangocairo-1.0.so.0 => /usr/lib/libpangocairo-1.0.so.0 (0xb725d000)
libgdk_pixbuf-2.0.so.0 => /usr/lib/libgdk_pixbuf-2.0.so.0 (0xb723c000)
libcairo.so.2 => /usr/lib/libcairo.so.2 (0xb7171000)
libpango-1.0.so.0 => /usr/lib/libpango-1.0.so.0 (0xb7127000)
libgobject-2.0.so.0 => /usr/lib/libgobject-2.0.so.0 (0xb70d9000)
.....
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#28 Post by Dorothée »

Merci Pelo,

au moins maintenant, je saurai ce qui manque. L'étape suivante sera de trouver ce qui manque...

À bientôt,
User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#29 Post by Argolance »

Bonjour,
Je viens de compiler "ocrgui" (lien donné plus haut) et fait un fichier SFS, installé ImageMagick et tesseract ainsi que ses dépendances via le PPM (ToOpPy basée, comme Triton 5.0, sur Puppy Precise 5.7.1).
Et ça marche nickel! :D
Reste que l'interface est en anglais et que la seule langue disponible est l'italien, langue du concepteur Emanuele Sicchiero. Je vais donc faire la traduction et reviendrai rendre compte du résultat quand ce sera au point, car il y a des modifications à apporter ici et là pour que ça fonctionne, notamment le fichier desktop, sans quoi le programme n'apparait pas dans le MENU.

[EDIT]: Traduction effectuée!.

Cordialement.
Attachments
170930_165938_866x697_easyshot.jpg
(77.56 KiB) Downloaded 96 times
170930_115609_804x686_easyshot.jpg
(94.94 KiB) Downloaded 107 times
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#30 Post by Dorothée »

Argolance, tu es top!

J'attends ton sfs avec impatience. Une interface graphique qui marche, quel luxe!
User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#31 Post by Argolance »

Bonjour,
Voici le SFS de OcrGui 2.2, compilé sur ToOpPy (Puppy Precise 5.7.1) à tester et qui devrait également fonctionner sur Triton 5.0...
Langues disponibles: en, fr, it
-------------------------------------------------------------------------------------------------------------------------------------------
:idea: Pour ceux qui seraient tentés de compiler directement à partir des sources s'ils utilisent une autre version de Puppy, elles se trouvent dans le même répertoire. Le fichier d'origine modifié pour que le programme s'affiche correctement dans le menu a été renommé en "/data/ocrgui.desktop.in.ori".

:arrow: Fichier SFS <<<
:arrow: Paquet pet <<<

:arrow: Répertoire distant des sources à compiler <<<

Marche à suivre:
  • Charger le SFS de développement "devx" propre à la version de Puppy.
    Décompresser le fichier source quelque part, par exemple dans /root.
    Se placer dans le dossier décompressé.
    Clic droit sur une partie vide.
    Dans le menu ROX, sélectionner >Fenêtre>Terminal ici, et taper (ou sélectionner/coller avec le bouton gauche):

    Code: Select all

     ./configure --prefix=/usr --localedir=/usr/share/locale
    puis:

    Code: Select all

    make
    puis:

    Code: Select all

    make install
    si on veut l'installer directement dans le système, ou alors (recommandé):

    Code: Select all

    make install DESTDIR=/chemin/du/dossier
    si on veut construire un dossier qui pourra ensuite être transformé en SFS ou en paquet pet (ce chemin peut être, par exemple /root/ocrgui-2.2).
    • Commandes:

      Code: Select all

      dir2sfs /root/ocrgui-2.2
      pour construire un fichier SFS.

      Code: Select all

      dir2pet /root/ocrgui-2.2
      pour construire un paquet pet.
NOTE: le tiret entre "ocrgui" et le numéro de version est important puisqu'il permet à la commande dir2pet de bien libeller le programme dans le fichier "pet.specs" intégré au paquet et utilisé par PPM dans le listage des paquets installés.

Merci de vos retours.

@felixbd
Je me permets, simple suggestion, de te demander s'il ne serait pas judicieux de remplacer l'intitulé de ce fil, "ROC" par "OCR", car je pense que "ROC" (qui n'évoquait rien pour moi au départ!) exclut ce fil des recherches faites sur le terme "OCR" par d'autres utilisateurs non francophones du Forum pouvant être intéressés par son contenu?

Cordialement.
Last edited by Argolance on Thu 19 Oct 2017, 17:07, edited 1 time in total.
felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

#32 Post by felixbd »

@ Argolance, merci pour ta remarque : j'ai modifié en conséquence l'intitulé de ce fil. Mon insistance à vouloir utiliser le français confine parfois au chauvinisme ! Inutile toutefois de persister dans l'erreur puisque le but d'un forum est de se faire comprendre du plus grand nombre.
J'essaierai de tester OCRGui 2.2, merci d'avance pour ton travail.

Je me suis livré, ces temps derniers, à quelques comparaisons concernant la reconnaissance de caractères. Jusque-là, et avant de tester OCRGui, c'est Yagf qui donne les meilleurs résultats, avec une quantité d'erreurs négligeable.

Je n'avais qu'une difficulté : je ne pouvais utiliser Yagf sous Triton... mais la nouvelle version 6 (merci également à Petihar) permet une installation facile de Yagf. Il fonctionne lui aussi avec Tesseract et nécessite donc l'installation des paquets habituels. Seul problème, mais que tu as résolu avec OCRGui : l'interface (très simple) est en anglais.
Cordialement.
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#33 Post by Dorothée »

Argolance,

merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...

Je suis aussi intéressée par la deuxième manière, pour apprendre un peu. Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...

Félix, tu m'intéresse avec Yagf, je vais y regarder de plus près, comme je suis moi aussi plongée dans des travaux d'ocr. Mais quand même, une chose m'intrigue, dans la mesure où tous ces outils sont basés sur Tesseract (n'est-ce pas lui qui fait tout le boulot?), comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?

À bientôt et merci,
Last edited by Dorothée on Sun 01 Oct 2017, 18:28, edited 1 time in total.
User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#34 Post by Argolance »

Dorothée wrote:merci pour le sfs, cela marche parfaitement, malgré le fait que, dans "préférences" on me dise que Gocr n'est pas installé. J'avais installé (monté les sfs) préalablement Tesseract, Imagemagick et Imagechange au cas où. Mais même sans Gocr, cela fonctionne...
OcrGui fonctionne soit avec l'un, soit avec l'autre, soit avec les deux s'ils sont installés.
Je suis aussi intéressée par la deuxième manière, pour apprendre un peu.Jusqu'à présent, je n'avais pas percuté qu'il fallait monter devprecise pour installer...
En suivant la marche à suivre tu ne devrais pas avoir de soucis et ça te mettras le pied à l'étrier, comme on dit!
comment une interface graphique plutôt qu'une autre peut-elle donner de meilleurs résultats?
Je pense que ce sont les options des moteurs de reconnaissance optique eux-mêmes qui sont configurables de façon plus conviviale via les interfaces de OcrGui ou de Yagf (que je ne connais pas mais qui doit fonctionner de la même façon), et qui permettent d'affiner la façon dont les différents éléments des images sont interprétés.

Cordialement.
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#35 Post by Dorothée »

J'ai compris.

Dans ce cas, vu les options des préférences, avec OcrGui c'est Gocr qui est le plus pointu. Tesseract doit l'être aussi, mais cette interface propose des options avec Gocr mais pas avec Tesseract.

Je vais donc de ce pas à la pêche à Gocr, en espérant ne pas me retrouver à nouveau avec des galères de librairies.

Merci pour ces éclaircissements,

à bientôt,
User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#36 Post by Argolance »

Gocr est disponible dans le PPM: out of the box! Mais je ne vois à priori pas beaucoup de différences entre les deux résultats. :?
Attachments
171001_213743_341x247_easyshot.jpg
(11.18 KiB) Downloaded 338 times
felixbd
Posts: 42
Joined: Mon 18 Jan 2016, 15:22

OCR, suite

#37 Post by felixbd »

Bravo à Argolance ! Je viens de reprendre (sous Triton 6.0) les quatre textes dont je m'étais servi pour effectuer mes essais précédents et OCRGui est indiscutablement le meilleur : interface plus complète, correction orthographique intégrée notamment.
De plus, et c'est là l'essentiel, il doit frôler les 98% de reconnaissance, dans des conditions moyennes à savoir :
-- textes scannés en corps 10 à 14 (environ)
-- images saisies avec Xsane en fichiers .jpg à 300 dpi avec valeurs par défaut de Xsane (gamma, 1, luminosité, 0, contraste, 0)
-- texte aux lignes horizontales (rectifier si besoin est)
-- N.B. : ne pas accentuer le contraste des scans.
(Je donne ces détails au cas où ils pourraient aider quelqu'un, les résultats d'un poste à l'autre pouvant varier.)
Suite à ces essais, je me suis posé la même question que Dorothée et, n'étant pas technicien, je retiens l'explication d'Argolance.
Merci encore !
User avatar
Dorothée
Posts: 259
Joined: Tue 27 Nov 2012, 21:03

#38 Post by Dorothée »

Merci Félix pour tes précisions de scannage. Je vais tenter tout ça.

À bientôt,
User avatar
Argolance
Posts: 3767
Joined: Sun 06 Jan 2008, 22:57
Location: PORT-BRILLET (Mayenne - France)
Contact:

#39 Post by Argolance »

Bonjour,
Suite à ces essais, je me suis posé la même question que Dorothée et, n'étant pas technicien...
Moi non plus et je rectifie: cette explication me parait logique mais elle est à prendre avec des pincettes car peut-être totalement fausse!!! :roll:

Cordialement.
oui

#40 Post by oui »

bonjour,
je repasse ici de temps à autre (dans l'espoir d'y découvrir un vrai puppy 64 bit qui fonctionne et possède les applications qu'installe Barry Kauler normalement, donc, explicitement et en particulier Seamonkey... parce que j'ai un archive de coupures de journaux électroniques basé sur le kompoZer de Seamonkey...). pour l'instant, quand je veux du 32 bits, j'utilise toujours unicorn de Barry Kauler, vu que j'ai les SFS de Rainer (car Unicorn n'est plus supporté!).

mais je suis en fait en Devuan Jessie 64 bit minimal installé un peu comme un Puppy (664 Mo en 64 bit vide en console, 2 Go installé par dessus comme suit:
sudo apt install gpm clex sc links cups didiwiki samba spell alsa-tools alsa-utils xorg menu jwm slim evince mgp mtpaint mhwaveedit mplayer2 rox-filer libcanberra-gtk0 libcanberra-pulse epiphany-browser
remarque: Devuan installe lui-même certaines applications console intéressantes telles que nano, parfaitement utilisable en remplacement complet de leafpad! c'est console, mais aussi texte libre sans gestion stricte de lignes, et avec la touche médiane de la souris utilisable avec des applications graphiques consommatrices de texte! ou calendar, etc.!)

c'est une installation graphique/mode console minimale sur laquelle je ne rajoute que mes applications spéciales à moi. l'une est tesseract-ocr avec tesseract-ocr-fra ainsi que tesseract-ocr-deu, et, pour l'accompagner gimagereader ). Mais, théoriquement au moins, gocr doit faire le même travail sans recourir à une quelconque base de données: il décrypte les caractères - point final, et se manipule en ligne de commande! et il est absolument minuscule par rapport à tesseract-ocr (qui est une application lourde, qui fut abandonnée par le monde commercial). mes autres applications spéciales sont ibus, des fonts asiatiques, markaartor, marble-qt, gramps etc., dont tout le monde n'a pas besoin. tout ce qui est avant "xorg" dans la citation fonctionne aussi en console simple! donc aussi un traitement de texte offert par didiwiki en console dans links, car cups fonctionne aussi dans links, n'a pas besoin de X et didiwiki maitrise le souligné, l'italique et les caractères gras! et enregistre ses pages en documents au simple format texte! Mais malheureusement, la présentation, ensuite, est celle d'un document HTML (ou je suis trop bête pour éviter les en-têtes et changement de page du HTML)! mais, malheureusement quand on installe ces applications "pure console d'abord", Debian (et Devuan, qui n'a éliminé systématiquement que "systemd" dans les applications aussi, d'où la petite taille de l'installation, mais pas le reste des lourdeurs que trimbale désormais Debian, surtout pour faire du clientélisme, car cela plait à beaucoup de VIP du monde microinformatique que Debian donne de l'importance à leurs applications chouchoute en les rendant obligatoire sans concession! Pour s'en débarrasser vraiment il faut passer à la vitesse supérieure et installer plutôt LinuxFromScratch... ou la base NuTyx, qui est LFS précompilé, et compléter la dedans...).

(Seamonkey est toujours sur le disque dur, dans chaque partition, ainsi que ~/.mozilla , et n'a pas besoin d'être installé... )

noter que le dépôt de sfs, voir aussi les répertoires parents du dépôt, de Rainer contient à priori le requis pour la reconnaissance de caractères (depuis 4 ou 5 ans) puisque son Lazzy fut créé pour l'utilisation en collège d'enseignement secondaire et que la reconnaissance de caractères peut y être intéressante! cela marche, si je me rappelle bien, cela fonctionne aussi dans les Lazzy's plus récentes!
Post Reply