heise+ | Mit incron oder inotify: Linux digitalisiert Text von Papiervorlagen automatisch

Inhaltsverzeichnis Mit incron oder inotify: Linux digitalisiert Text von Papiervorlagen automatisch Sechs Schritte User und OCR einrichten incrond einrichten Scanner-Umgebung einrichten Weitere Einstellungen Überwachung mit inotify Fazit Gedruckte Texte lassen sich mit der bewährten Optical Character Recognition (OCR) längst mit hinreichender Genauigkeit digitalisieren. So können Sie etwa Rechnungen von Handwerkern oder Dienstleistern digital archivieren. Das entlastet den Aktenschrank und die digitalisierten Daten können Sie maschinell durchsuchen, wenn Sie mal Angaben für die Einkommensteuererklärung brauchen – dagegen sieht der deutsche Amtsschimmel alt aus. Doch je mehr Papier ins Haus schneit, desto lästiger wird das Verfahren, wenn die Scannersoftware die OCR-Wandlung nicht selbst erledigt. Dann muss man nicht nur jede einzelne Seite in den Scanner einlegen, den Scan-Vorgang am PC starten und das Abbild als JPG- oder PNG-Datei speichern, sondern auch die OCR-App öffnen, diese zum Ordner führen, der die eingelesene Datei enthält, die Texterkennung starten und schließlich den digitalisierten Text zum Beispiel als PDF-Datei speichern. c't kompakt Linux hilft, wichtige Papierunterlagen zu digitalisieren, sodass man sie maschinell durchsuchen kann. Zwei Beispielskripte zeigen, wie das ohne jegliche Handarbeit klappt, sobald der Scanner ein PDF anliefert. Die Grundlage bildet die Überwachungsfunktion inotify des Linux-Kernels. Diese Unbequemlichkeit kann man auf mehrere Arten beseitigen: Ein Beispiel mit der umfassenden Dokumentenverwaltung paperless-ngx haben wir bereits ausführlich vorgestellt; die Einrichtung ist jedoch nicht ganz trivial. Ein sehr einfacher Weg besteht darin, ein Scanprogramm mit eingebauten OCR-Funktionen zu kaufen. Beispielsweise kostet das vielseitige VueScan für Linux, macOS und Windows mitsamt OCR-Funktionen rund 40 Euro. Solche Programme sind auch bei "allgemeinen Kommandozeilenunverträglichkeiten" angeraten. Das war die Leseprobe unseres heise-Plus-Artikels "Mit incron oder inotify: Linux digitalisiert Text von Papiervorlagen automatisch". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.