Paperwork : pour la numérisation, l'indexation et l'archivage de documents

Paperwork est un programme écrit en Python 3 pour la numérisation, l'indexation et l'archivage de documents de toutes sortes. Les modèles sont numérisés scanner compatible SANE requis ou les fichiers images existants sont importés.

Ils sont fournis avec une couche de texte consultable à l'aide de tesseract-ocr, l'orientation de la page est automatiquement reconnue et la page est tournée vers le haut si nécessaire.

Le programme offre un système d'indexation et de recherche automatique qui inclut tous les mots reconnus dans les documents.

De plus, les documents peuvent être dotés de "libellés" et de mots-clés supplémentaires. Les modèles se présentent sous la forme de fichiers .jpeg avec des fichiers hOCR associés et enregistrés. Selon le développeur, l'accent devrait être mis sur le traitement entièrement automatique, de sorte que l'utilisateur n'a que relativement peu d'options. Le programme est encore en phase de développement, un certain nombre d'améliorations sont déjà prévues pour les futures versions.

Le programme est disponible dans les dépôt d'Ubuntu 20.04 et LinuxMint 20. Les packages paperwork-gtk et paperwork-backend doivent être installés

Commande pour installer les packages :

sudo apt-get install paperwork-gtk paperwork-backend paperwork-gtk-l10n-fr

Également le package de langue souhaitée doit être installé : paperwork-gtk-l10n-fr.

Le logiciel est actuellement disponible en allemand, anglais, espagnol, français et ukrainien.

Cette version de Paperwork est entièrement compatible avec la version tesseract-ocr livrée avec Ubuntu 20.04. Toutes les dépendances Python sont désormais également disponibles dans les sources et sont installées directement. Il peut être nécessaire d'installer les packs de langue tesseract souhaités. Vous pouvez à tout moment refaire la Reconnaissance Optique de Caractères avec la fonction dans le menu du logiciel.

La langue souhaitée pour la reconnaissance de texte est fonction des packs de langue installés pour tesseract-ocr.

Malheureusement, seuls très peu de réglages du scanner sont possibles, les copies sont faites en couleur ou en nuances de gris, et jusqu'à présent, aucun autre réglage de contraste, de luminosité, etc. autre que le réglage des couleurs n'est fourni. Avec des modèles difficiles, vous devrez peut-être créer les numérisations avec un programme de numérisation plus puissant , les importer et ensuite seulement les traiter davantage.

Le traitement des documents peut prendre beaucoup de temps, même sur des ordinateurs performants, car chaque page individuelle est toujours soumise à un processus OCR quatre fois pour reconnaître la direction du texte, et les résultats sont ensuite utilisés pour vérifier quelle orientation est présente. Cette procédure peut être évitée en sélectionnant d'abord "Désactiver l'OCR lors de la sélection de la langue et en s'assurant que les numérisations sont effectuées dans la bonne direction. Ensuite, vous pouvez réactiver la fonction OCR après avoir numérisé le document.

On retiendra donc que Paperwork constitue un outil de classement disponible sous Linux et même Windows. Comme dit sur le site du Logiciel :

Trier les documents est un travail de machine.
Avec Paperwork, scannez ou importez vos documents personnels et retrouvez les facilement.