PDFs werden in macOS durch Textverarbeitungs- oder auch Layoutprogramme über den Druckdialog (oder einen Exportdialog) erstellt. Oft enthalten sie nur Text, teilweise sind Bilder, Tabellen und gar Medienformate wie Videos eingebunden. Diese über den Druckdialog erstellten PDF-Dokumente sind maschinenlesbar, d.h. der Inhalt der PDF-Dokumente ist maschinell durchsuchbar. Nicht maschinenlesbare PDF-Dokumente, die auf anderen Wegen generiert wurden können in DEVONthink per implementierter OCR-Software lesbar gemacht werden.
Eines der auf den ersten Blick überzeugendsten Dinge unter macOS ist, dass du PDF-Dokumente erstellen kannst, ohne jemals irgendeine zusätzliche Software installieren zu müssen. Du kannst aus fast jedem beliebigen Programm, welches drucken kann, auch PDFs erstellen (du kannst sozusagen "in ein PDF drucken").
Auf den zweiten Blick sind die Möglichkeiten dieser PDF-Export-Funktion nicht umfassend überzeugend und professionelle Anwender werden bald an deren Grenzen stoßen. Die zugrunde liegende Software, die sogenannte PDFKit Engine, ist relativ buggy und sie erzeugt ein nicht mehr ganz aktuelles PDF-Format (v1.3), welches zu auch schon mal zu Kompabilitätsproblemen führen kann.
Trotzdem: Für alltägliche Zwecke und für den Privatanwender sind die mitgelieferten PDF-Funktionen durchaus brauchbar. Wo die in macOS implementierte PDF-Funktionalität an ihre Grenzen stößt, beschreibe ich nachfolgend, doch zuerst ein paar Worte zum Thema PDF als systemunabhängiges Doukumentenformat.
PDF statt proprietäres Textformat
Während Dokumentenformate, die durch Textverarbeitungsprogramme erstellt werden fast durchgängig proprietäre Formate sind, die nur durch bestimmte Programme gelesen und editiert werden können (.docx, .pages, .odt und viele andere), und je nach Programm und Bedingungen des jeweils genutzten Betriebssystem in ihrer Darstellung abweichen können, stellt das PDF-Format sicher, dass die Dokumente systemübergreifend gleich ausgegeben bzw. angezeigt werden. Das PDF-Format friert sozusagen das Layout eines Dokuments incl. aller Schriften und der Positionen eingefügter Bilder oder Tabellen wie bei einem Foto ein und solch ein PDF-Dokument ist im Regelfall auch nicht mehr veränderbar.
Unveränderbar ist ein PDF-Dokument deshalb trotzdem nicht, denn du kannst das Format durchaus noch verändern - wenn auch nur in Grenzen. Wenn du die Unveränderbarkeit sicherstellen willst, musst du das PDF-Dokument signieren (Programme wie Adobe Acrobat oder PDFpen Pro können das).
Trotzdem: Weil das PDF-Format systemübergreifend so gut funktioniert ist es für die Archivierung von Dokumenten geeignet. Damit aber sichergestellt ist, dass das PDF dann auch in vielen Jahren noch geöffnet werden kann, dass es also für eine Langzeitarchivierung geeignet ist, gibt es bestimmte Konventionen, die ein PDF-Dokument erfüllen muss, um tatsächlich dafür geeignet zu sein.
Vorteile von PDF gegenüber proprietären Textformaten
Einer der Vorteile des PDF-Formats ist der Sicherheitsaspekt. Als Verfasser eines Dokuments kannst du dir in Grenzen sicher sein, dass der Empfänger dein PDF-Dokument nicht verändert oder verfälscht - zumindest kann er das nur mit größerem Aufwand. Du kannst PDF-Dokumente mit einem Passwort schützen und bestimmte Rechte, z.B. für das Drucken oder das Kopieren von Inhalten sperren. Und du kannst das PDF signieren - dann ist es tatsächlich unveränderbar (bzw. Veränderungen können sofort erkannt werden).
Ein weiterer Vorteil ist: PDF-Dateien sind im Regelfall deutlich kleiner sind als ihre Ausgangsdokumente und eignen sich dadurch zum Austausch zwischen Rechnern mittels Email oder anderweitigen Transferoptionen - und natürlich für die Archivierung größerer Dokumentenbestände.
Zumindest macOS liefert von Haus eine Möglichkeit mit, mit denen PDFs zumindest gelesen werden können und es können darüberhinaus weitere Programme installiert werden, mit denen ein PDF-Format erstellt und möglicherweise auch editiert werden kann. Unter macOS greifen alle wesentlichen Textverarbeitungs- und DTP-Programme auf die Möglichkeiten der PDFkit Engine zurück. Unter macOS brauchst du für das Erstellen (und Lesen) von PDFs also erst einmal keine Drittanbieter-Software zu installieren. Weitergehende Möglichkeiten bieten dann jedoch spezielle PDF-Programme wie beispielsweise Adobe Acrobat, aber auch PDFpen (Pro), PDF Element und einige andere.
Geschichte des PDF-Formats
Schon in den 90ern hat sich die Firma Adobe des Problems systemübergreifender Darstellbarkeit von Dokumenten angenommen und mit dem PDF-Format ein Dokumentenformat geschaffen, welches auf allen Betriebssystemen genutzt werden kann - man kann PDF daher auch als "portables" Dokumentenformat bezeichnen. Ein PDF‐Dokument wird, egal auf welchem Medium, genau gleich dargestellt - und zwar genauso wie der Ersteller des Dokuments es wollte.
Das PDF-Format wurde im Laufe der Zeit immer weiter entwickelt und für bestimmte Anwendungszwecke optimiert. So gibt es heute nicht nur ein PDF-Format, sondern mehrere - und dies in verschiedenen Versionen. Nicht nur das: Einzelne Unterformate haben noch einmal weitere Spezifikationen.
Und damit fängt es an, kompliziert zu werden...
Verschiedene PDF-Formate
Sicher kannst du heute mit relativ wenig Aufwand aus beliebigen Office- oder auch DTP-Dokumenten ein PDF-Dokument exportieren. Beispielsweise findest du als DEVONthink-3-Nutzer im Druckdialog den Eintrag Save PDF to DEVONthink 3, über den ein PDF-Dokument erzeugt und im Globalen Eingang abgelegt wird. Das erscheint einfach und in den meisten Fällen macht sich ein Durchschnittsanwender wenig Gedanken darüber, was hier genau exportiert wird und im Arbeitsalltag fällt auch kaum auf, dass PDF eben nicht zwingend PDF ist.
Auf folgende Formate lässt sich die Unterteilung herunterbrechen:
PDF/X
PDF/X war der erste Standard im PDF-Bereich und ist auch heute noch das gängigste PDF-Format. Es ist auch das, was in macOS-Programmen über den Druckdialog erstellt wird. PDF/X findet in Druckereien bzw. in der sogenannten Druckvorstufe Verwendung und erleichtert dort die Prozesse von komplizierten Druckverfahren.
Das wäre insoweit kein Problem, wenn sich der Unterbau, der in macOS für die Erstellung des PDF-Dokuments verantwortlich ist, an aktuelle Standards halten würde. macOS erstellt aber ein PDF v1.3 - das aber ist schlichtweg nicht mehr aktuell und entspricht in etwa dem Stand von Adobe Acrobat Version 4 und ist nur deshalb im Alltag halbwegs problemlos zu nutzen, da die PDF-Formate abwärtskompatibel sind.
Wer ernsthaft mit PDF arbeiten will, kommt am Ende um eine Alternative zur macOS-eigenen PDFKit Engine und damit um Adobe Acrobat oder zumindest Programme wie PDFpen Pro nicht drumherum.
Für Dokumente, die nicht langzeitarchiviert werden müssen, reicht das "normale" PDF/X sicher aus. Wer aber wirklich sichergehen will, dass sein Dokument auch in zehn Jahren noch lesbar ist, und wer verbindlichen rechtlichen Vorgaben gerecht werden will, sollte sich aufgrund der weiter unten beschriebenen Spezifikationen für PDF/A, und im Speziellen PDF/A-1a entscheiden.
PDF/A
Dann gibt es das PDF/A-Format. Bei PDF/A handelt es sich nicht um ein "neu erfundenes" PDF, sondern PDF/A ist vielmehr eine Erweiterung und Präzisierung des "normalen" PDF, für welches bestimmte Mindestanforderungen festgelegt wurden.
Der PDF/A-Standard macht insbesondere genaue Vorgaben für:
- Schriften: Diese müssen eingebettet sein und durch bestimmte Vorgaben soll eine verlässliche Zeichendarstellung sichergestellt werden; das betrifft insbesondere die Breite der einzelnen Buchstaben, aber auch die Umlaut- und Sonderzeichendarstellung
- Farben und Grauwerte: Durch Einbindung von Farbprofilen und durch Vorgaben für die Grauwerte wird sichergestellt, dass die Farben und Grauwerte auf jedem Gerät in gleicher Weise ausgegeben werden
Bei PDF/A wird noch einmal eine Unterteilung in PDF/A-1, PDF/A-2 und PDF/A-3 vorgenommen. Alle diese Formate müssen die Darstellung der Dokumenteninhalte verlässlich ausgeben können und alle Formate müssen barrierefrei sein (d.h. sie müssen beispielsweise mit Screenreadern nutzbar sein).
Der PDF-Export über den Druckdialog in macOS lässt eine Speicherung im PDF/A-Format nicht zu. macOS nutzt einen eigenen Software-Unterbau für die Erzeugung von PDFs, der nur PDF-X ausgeben kann, noch dazu ist dieser Softwareunterbau an einigen Stellen fehlerhaft. Für die Langzeitarchivierung ist PDF/A allerdings der Standard schlechthin. Wer PDF/A-Formate erzeugen will, muss also andere Wege gehen oder aber auf Zusatzsoftware zurückgreifen.
Weitere PDF-Formate
Zum dritten gibt es es auch noch das PDF/E-Format. Dieses eignet sich für Dokumente, in welche komplexe 3D-Grafiken oder Animationen eingebunden sind. Das ist wichtig beispielsweise bei Architekturmodellen. Drei weitere PDF-Formate sind PDF/VT, PDF/UA und PDF/H, auf die ich hier nicht weiter eingehe.
Auch diese Formate lassen nicht über den macOS-Druckdialog zu erzeugen.
Langzeitarchivierung von PDF-Dokumenten
PDF-Dokumente bieten sich für die Digitalisierung von Dokumenten, die ansonsten nur in Papierform archiviert würden, an. Allerdings ist es genau diese digitale Langzeitarchivierung, die bestimmten Kriterien gerecht werden muss. Immerhin soll einigermaßen sichergestellt werden, dass ein DF-Dokument auch in 10 oder 20 Jahren noch lesbar ist. BTW: Gibt es dann überhaupt noch Computer...?
Ein solcher Standard für die Langzeitarchivierung wurde mit dem PDF/A-Format geschaffen und dieser gilt heute als globaler ISO-Standard. PDF/A ist, grob beschrieben, eine Reduzierung des PDF‐Standards. Es wurden allen Funktionalitäten gestrichen, die nicht der Archivierung dienlich sind. Zusätzlich verlangt der Standard, das Programme, die für die PDF-Darstellung genutzt werden, gewisse Anzeige‐Richtlinien befolgen.
Der PDF/A-Standard kann heute aufgrund verschiedener gesetzlicher Vorgaben für bestimmte rechtlich relevante Aufgaben (z.B. Rechnungstellung, Buchhaltung, Vertragstexte etc.) als bindend angesehen werden. Auch im Hochschul- oder im Bibliotheksbereich wird mittlerweile fast durchgängig ein PDF/A-Format zwar nicht unbedingt verlangt, aber doch meistens erwartet.
- PDF/A benötigt meist mehr Speicherplatz als gewöhnliche PDF-Dokumente
- PDF/A darf nicht verschlüsselt oder mit Passwortschutz gesperrt werden
- Alle Ressourcen (Bilder, Grafiken, Schriftzeichen) müssen in der Datei eingebettet sein, externe und somit veränderliche Inhalte dürfen nicht eingebunden werden
- Interaktive Elemente sind verboten
- Einige Bildkompressionsverfahren sind nicht erlaubt (z.B. JPEG2000 bei PDF A-1)
- Die im Dokument genutzten Farbprofile (ICC-Farbprofile) sind genau festgelegt
- Es dürfen keine transparenten Objekte eingebunden werden, auch sogenannte PDF-Ebenen sind nicht erlaubt
- Es gibt einen festen Standard für Dokumentmetadaten (XMP-Format)
- Die Einbettung von digitalen Signaturen ist erlaubt
- Ebenso ist die Verwendung von Verweisen (Hyperlinks) erlaubt
Langzeitarchivierung versus Revisionssicherheit
Was im Übrigen gerne durcheinander geworfen wird, sind Langzeitarchivierung und Versionierung/Revisionssicherheit. Das sind aber unterschiedliche Dinge und ich hoffe, dass letzteres wie versprochen für DEVONthink 3 in absehbarer Zeit nachgeliefert wird.
Und was auch gerne durcheinander geworfen wird: PDF/A ist zwar ein Format für die Langzeitarchivierung - was aber nichts anderes heisst als dass dieses PDF auch in 100 Jahren noch geöffnet werden kann (wer's glaubt...). Aber PDF/A ist genauso wie andere PDF-Formate veränderbar. Wenn du die Unveränderbarkeit eines PDF sicherstellen möchtest, musst du es signieren.
PDF/A-Unterformate
PDF/A-1a und PDF/A-1b
Um es noch komplizierter zu machen: Für das PDF/A-Format wurden zwei Unterformate geschaffen:
PDF/A-1a (das „a" steht dagegen für „accessible") ist das umfassendere Format. Hier muss eine eindeutige, d.h. verlässliche Ausgabe des Layout incl. aller Bilder, Texte und Schriften sichergestellt sein, die Dokumente müssen barrierefrei sein und müssen sich auch verlässlich auf Mobilgeräten ausgeben lassen; die Textinhalte müssen extrahierbar sein
Bei PDF/A-1b (das „b" steht dabei für „basic") müssen alle eingefügten Bilder fest im Dokument eingebunden sein, so dass es völlig autark funktioniert. Zusätzlich müssen die Textbausteine Unicode-Kriterien gerecht werden, PDF/A-1b erfüllt aber „nur“ die Mindestanforderungen für PDF/A, welche die ISO-Norm stellt.
Zusammengefasst unterscheiden sich PDF/A‑1a und PDF/A‑1b im Wesentlichen hinsichtlich Durchsuchbarkeit (Textextraktion/OCR).
Nur am Rande erwähnt: PDF A-2 und PDF A-3
Über PDF A-1 hinaus gibt es zwei weitere Spezifikationen:
PDF A-2 erlaubt die Einbettung von JPEG2000 Bildern (wobei ich mich frage, ob das nicht ein totes Bildformat ist, aber das ist ein anderes Thema...), Bilder und Grafiken mit Transparenzen sind erlaubt und Integration von Dateianhängen ist möglich (sofern PDF/A-konform)
PDF A-3 kann darüber hinausgehend mit eingebetteten dynamischen Inhalten umgehen.
Das Problem mit PDF auf dem Mac
In macOS ist es möglich, ohne Zusatzwerkzeuge über den Druckdialog ein PDF/X zu erzeugen (mit Bordmitteln geht auch PDF/X-3, aber das nur am Rande - das Format ist eh veraltet). Das Problem: Die zugrunde liegenden Softwareprozesse basieren auf PDFKit, das aber leider nicht dem aktuellen Standard entspricht. Es werden PDF v1.3 erzeugt, PDF/A-1 basiert aber mindestens auf PDF 1.4.
Immerhin kannst du mit Vorschau.app (und allen Programmen, die auf PDFKit als Unterbau zurückgreifen (dazu gehört auch DEVONthink) PDF/A-1 und PDF/X Standard-Dokumente anzeigen. Aber wehe, wenn du dieses Dokument dann in irgendeiner Weise bearbeitest oder neu speicherst: macOS (d.h. die Vorschau.app) überschreibt das PDF und nutzt aber für die erneute Speicherung die macOS-eigene PDFkit Engine !
Dumm gelaufen...
Das funktioniert im Alltag insoweit ohne größere Probleme, aber es entspricht nicht den Standards und so passiert es nicht selten, dass PDF-Dateien, die in macOS einwandfrei angezeigt werden, auf anderen Rechnern und Systemen Probleme machen.
Die Generierung von PDF/A-1-Dokumenten ist prinzipiell auch unter macOS-Bedinungen sicherlich möglich, jedoch gibt es in der aktuellen Version der Apple PDF-Developer-Tools einige gravierende Inkompatibilitäten zum PDF/A-Format, die im schlimmsten Fall zu Datenverlusten beim Speichern von geänderten Dateien führen können. Viele DEVONthink-Nutzer werden sich noch an den Wechsel auf High Sierra erinnern, der ganz erhebliche Probleme mit der Darstellung von PDF-Dokumenten mit sich brachte.
PDF/A und DEVONthink
DEVONthink kann ebenfalls PDF erzeugen. Das geht über das Fenstermenü
Daten > Konvertieren > in PDF
Allerdings greift DEVONthink auf den gleichen Unterbau zurück wie der macOS-eigene Druckdialog. Erzeugt wird also ein PDF v1.3. DEVONthink ist halt ein Dokumentenmanagement-Programm und kein Programm zur Erstellung anspruchsvoller PDF-Formate.
DEVONthink kann aber trotzdem problemlos PDF/A-Formate anzeigen und ausgeben. Die Erstellung von PDF/A oder die Konvertierung von PDF/X nach PDF/A musst du jedoch außerhalb von DEVONthink vornehmen.
PDFs für die Langzeitarchivierung auf dem Mac erzeugen
Für die Langzeitarchivierung kommt eigentlich nur PDF/A-1 in Frage. Das aber kann macOS nicht von sich aus erzeugen. Was du aber machen kannst:
Adobe Acrobat:
Du kannst PDF mit Programmen generieren, die nicht auf PDFKit basieren - allen voran kannst du beispielsweise Adobe Acrobat nutzen. Das allerdings ist kostenpflichtig und viele der in Acrobat enthaltenen Funktionen brauchst du im Alltag nicht.
Auf den Prozess der Erzeugung spezifischer PDF-Formate mit Acrobat gehe ich hier nicht ein - das ist ein umfassendes Thema für sich, in das du dich einarbeiten musst, wenn du Acrobat verwenden möchtest. Oft ist die Nutzung von Acrobat aber gar nicht nötig.
Office- und DTP-Programme:
Microsoft Office, LibreOffice und OpenOffice bieten im Export-Dialog eine Option u.a. für den PDF/A-1a Export und greifen dabei nicht auf die PDFkit Engine zurück.
Scribus als Open Source-DTP-Programm bedient sich im Backend ebenfalls einer eigenen PDF-Engine und bietet für den Export nach PDF diverse Auswahlmöglichkeiten, u.a. auch PDF A-1.
Zuverlässige PDF-Darstellung
Für die bloße PDF-Darstellung bietet der kostenlose Adobe Acrobat Reader sicherlich die zuverlässigste Anzeige von PDF-Formaten. Der Reader kann allerdings weder PDF/A erzeugen noch kann er die Validität von PDF/A-Formaten überprüfen.
PDF/A beim Scannen erzeugen
Papierdokumente, die du einscannst und dann mit DEVONthink verwalten möchtest, können über die Scanner-Software als PDF-Dokument ausgegeben werden - allerdings ist das erzeugte Format fast immer auch nur ein PDF/X. Eine Software, die das für die Langzeitarchivierung erforderliche PDF/A-Format erzeugen kann, ist beispielsweise ExactScan Pro, das eine ganze Reihe handelsüblicher Scanner unterstützt. Ebenso ist es möglich mit der Scansoftware von Fujitsu in ein PDF/A-Format zu scannen.
Konvertierung von PDF nach PDF/A
Die Konvertierung von PDF/X (das ist das, was macOS mit Bordmitteln erzeugt) zu PDF/A ist grundsätzlich ohne Weiteres möglich, nicht aber umgekehrt. Für die Konvertierung sind aber externe Tools erforderlich.
Wenn du hier nicht auf Adobe Acrobat zurückgreifen möchtest, kann du dieses Format beispielsweise kannst du PDF/A mit Hilfe von PDFpen Pro erzeugen - das allerdings ist bei diesem Programm ein Verfahren, was über einen externen Konvertierungsserver (Nuance OmniPage Cloud Document Conversion Service - der aktuell jedoch gerade ein SSL-Problem hat) läuft und deshalb, von einer eventuellen Datenschutzproblematik einmal abgesehen, kein Verfahren für die massenhafte Konvertierung, sondern eher für die Konvertierung von Einzeldokumenten gedacht ist.
Conclusio
DEVONthink kann durchaus PDF/A verwalten und anzeigen und wird insoweit den Erfordernissen der Langzeitarchivierung gerecht. DEVONthink kann allerdings selbst kein PDF/A-Format erzeugen und wenn ich das richtig beurteile, wird diese Funktion auch nicht nachgereiChat, denn der Schwerpunkt von DEVONthink liegt eindeutig nicht auf PDF-Erstellung - dazu müsste DEVONtechnologies ein eigenes Softwarebasis für die PDF-Generierung schreiben und ich fürchte, das überfordert deren personelle Ressourcen.
Für die Erzeugung von bzw. Konvertierung nach PDF/A muss daher auf Drittanbieter-Software zurückgegriffen werden, einige davon habe ich vorangehend erwähnt.
Bildquelle: Pexels