Dokumentenimport und automatische OCR.

Das Blog im Apfelpürée

Blogpost en détail

Dokumentenimport und automatische OCR.

2020-08-31T08:55:56+01:00

Eine der wesentlichen Funktionen einer praxisgerechten Dokumentenverwaltung ist eine gut funktionierende Erkennung des im Dokument enthaltenen Texts. Dazu bedarf es einer Texterkennung. Diese kann bereits beim Scannen erfolgen oder auch im Nachgang.

Sicher bieten etliche Scan-Treiber eine OCR-Funktion und so kannst du Dokumente einscannen, diese werden dann einer OCR unterzogen und anschließend zur Weiterverarbeitung, z.B. zum Einordnen nach DEVONthink bereitgestellt.

Aber auch bei DEVONthink Pro ist eine Texterkennungs-Funktion integriert und ich würde für eine ernstzunehmende Dokumentenverwaltung auch nie darauf verzichten wollen. Diese OCR-Funktion findest du in DEVONthink an zwei Stellen:

Einmal kannst du nicht maschinenlesbare PDF-Dokumente über eine Konvertierungsfunktion in lesbare PDFs umwandeln. Diese Funktion erreichst du z.B. über den Menüpunkt Daten > OCR.
Eine weitere OCR-Option ist in der Scan-Oberfläche integriert. Du findest sie etwas versteckt im Bereich "Importe" unten rechts hinter einem Werkzeugsymbol.

Grundsätzlich kannst von DEVONthink du alle eintreffenden Scans in maschinenlesbare PDFs konvertieren lassen, wenn du in den Voreinstellungen unter "OCR" die Option "Eintreffende Scans und durchsuchbares PDF konvertieren" aktivierst.

Eine weitere Möglichkeit bietet sich über eine entsprechend eingerichtete Smart Rule (=intelligenten Regel ). Hier kannst du definieren, dass alle nicht lesbaren PDFs in lesbare PDFs umgewandelt werden. Das kann manuell, bei Import oder auch verknüpft mit anderen Ereignissen erfolgen.

Dazu musst du in der intelligenten Regel definieren:

In welchem Verzeichnis die zu konvertierenden PDFs liegen sollen.
Du musst festlegen, dass ausschließlich PDFs konvertiert werden sollen, die keinen lesbaren Text enthalten (O Worte).
Du muss definieren, wann die Konvertierung erfolgen soll (im Beispiel erfolgt sie bei Import) und .
Du musst in der Regel die durchzuführen Aktion, die eigentliche OCR festlegen.

Hier ein Screenshot einer entsprechenden Regel:

Bildquelle: Pexels

Tags: texterkennungocrscannen

Themen

Das Blog im Apfelpürée

Dokumentenimport und automatische OCR.

Das ist auch noch interessant:

Verlernen wir mit KI das Denken?

Ein paar Worte zum Replizieren.

Ein Wiki mit DEVONthink aufbauen.

Reasoning Models: Mitdenkende KI.

Datenbankgröße von DEVONthink-Datenbanken.

Vergleich der OpenAI-Sprachmodelle.

Wann welche Datenbank?

Ein Inhaltsverzeichnis für Pages-Dokumente erstellen

Die Zukunft des Wissensmanagements.