Für die elektronischen Derivate von Roman, Sachbuch oder Comic hat sich EPUB als Standard etabliert. Bei wissenschaftlichen Publikationen führte bisher kein Weg am PDF vorbei. Ist die Zeit nun reif für die Umstellung auf EPUB?
Wissenschaftsverlage wie Elsevier, Springer und Wiley bieten ihre Inhalte schon lange digital auf ihren Plattformen an. Zeitschriftenartikel und Buchkapitel werden vor oder spätestens gleichzeitig mit dem Erscheinen des Print-Äquivalents online veröffentlicht. Das hat vor allem im naturwissenschaftlichen Bereich den Trend forciert, dass Wissenschaftler nicht mehr zwischen schweren Folianten sondern vor ihrem Laptop sitzen und online in den Datenbanken der Verlage recherchieren. Die Anschaffung von gedruckten Publikationen ist auch für Bibliotheken, Forschungseinrichtungen und andere wissenschaftlichen Institutionen in Zeiten von Budgetkürzungen und rasant steigenden Preisen infolge der Zeitschriftenkrise nicht mehr attraktiv. Papier ist zu langsam und zu teuer, als dass es noch eine große Zukunft verspricht.
Daher ist man geneigt davon auszugehen, dass Wissenschaftsverlage EPUBs ins Programm aufnehmen. Auf den Plattformen der großen Wissenschaftsverlage ist ein Großteil der Zeitschriftenartikel und Bücher jedoch nur als PDF verfügbar. So kündigte Elsevier zwar an, in Zukunft auf EPUB3 zu setzen, dagegen sind E-Books in Form von EPUB2 schon selten auf seiner Plattform ScienceDirect zu finden. Bei Springers SpringerLink sieht es ähnlich aus, allerdings ist der Verlag im letzten Jahr mit Bookshare übereingekommen, über 10.000 seiner Bücher als EPUB2 der Plattform für Sehbehinderte und Blinde zur Verfügung zu stellen. Auch bei Verlagen wie Wiley und DeGruyter sind nur Neuerscheinungen als EPUB verfügbar. Es scheinen auch überwiegend Bücher gegenüber Zeitschriftenartikel oder Journals als EPUB angeboten zu werden, obwohl letztere aufgrund der Aktualität einen höheren Stellenwert für wissenschaftliche Zitationen genießen.
Die geringe Verbreitung von EPUB im Vergleich zu PDF liegt zunächst daran, dass die Produktion eines PDFs beim gegenwärtigen print-zentrierten Herstellungsprozess weniger aufwändig ist. Als de-facto-Standard für Druckvorlagen steht es unmittelbar nach dem Satz zur Verfügung. Dagegen muss ein EPUB zunächst aus den Satz- oder Druckdaten konvertiert werden. Dieser Prozess erfordert es, vormals seitenbasierte und visuell orientierte Layouts in einen linearen Lesefluss aufzulösen. Mehrspaltige Kolumnen, Marginalien, Fußnoten, Kästen, Tabellen und Bilder müssen so strukturiert werden, dass sie direkt, d. h. „in Lesereihenfolge“ aufeinander folgen. Denn auf einem EPUB-Reader existiert das Konzept einer Seite nur virtuell. Welche Inhalte auf dem Bildschirm dargestellt werden, ist abhängig von der eingestellten Schriftgröße, sowie Abmessungen und Auflösung des Bildschirms (reflowable Layout). Der Seitenumbruch ist bei der Anzeige von EPUBs demzufolge variabel und für eine wesentliche wissenschaftliche Methode von Haus aus ungeeignet – das Zitieren.
Seitenreferenzen
Es existieren jedoch verschiedene Ansätze, um EPUB-Textabschnitten feste Seitenzahlen zuzuordnen. Alle basieren darauf, dass man Textstellen im HTML mit IDs versieht und diesen in einer Metadaten-Datei konkrete Seitenzahlen zuordnet. Adobe hat eine Implementierung von Seitenzahlen in EPUB namens page-map entwickelt. Das Problem bei dieser Implementierung ist jedoch, dass diese nur vom hauseigenen Reader Adobe Digital Editions unterstützt wird und obendrein nicht konform zur EPUB-Spezifikation ist. Ein standardkonformer Weg in EPUB 2.0 ist dagegen die Anreicherung der NCX-Datei (des maschinenlesbaren Inhaltsverzeichnisses) mit einer sogenannten pageList. In Version 3.0 des EPUB-Standards wird das NCX durch ein HTML-Inhaltsverzeichnis abgelöst. EPUB3 sieht für die Repräsentation von festen Seitenzahlen die Einbindung einer Page List vor. Unglücklicherweise werden NCX pageLists (EPUB 2.0) und Page Lists (EPUB 3.0) nur von wenigen Lesesystemen unterstützt.
<nav epub:type="page-list">
<ol>
<li><a href="book.xhtml#page1">1</a></li>
<li><a href="book.xhtml#page4">4</a></li>
<li><a href="book.xhtml#page10">10</a></li>
</ol>
</nav>
Ein alternativer Weg, der auf allen Geräten gleichsam funktioniert, ist das direkte Einfügen der Seitenzahl in den Text. Automatisieren ließe sich dieses Vorgehen z. B. mit einem InDesign-Skript, welches die Seitenzahl als bedingten Text auf jeder Seite einfügt. Bedingter Text wird nicht gedruckt, bleibt aber beim Export aus InDesign erhalten. Das Einfügen von Seitenzahlen in den Text bleibt aber ein halbgarer Workaround. Der Lesefluss wird durch die eingefügten Seitenzahlen gestört, selbst wenn man diese typografisch von der Grundschrift abhebt.
Eine Umsetzung als Fixed-Layout-EPUB könnte hier noch als charmanter Ausweg erscheinen, da im Gegensatz zu einem reflowable EPUB das ursprüngliche seitenbasierte Layout nachgeahmt wird. Allerdings ist das keine wirklich mediengerechte Lösung, da sich die Inhalte nicht an die Größe des Bildschirms anpassen und man folglich auf kleinen Bildschirmen weniger mit Lesen, als mit Zoomen beschäftigt ist. Der Vorteil gegenüber PDF ist somit marginal. Für ein mediengerechtes reflowable Layout mit Seitenreferenzen gehen EPUB2 und EPUB3 unterschiedliche Wege, die aber nur selten zu einem EPUB-Lesegerät führen.
Mit dem Standardisierungsvorschlag „Canonical Fragment Identifier (CFI)“ gibt es einen nicht seitenbezogenen Ansatz, Verweise auf Textstellen in EPUBs zu ermöglichen. Dieser wird jedoch von keinem aktuellen Lesesystem unterstützt und ist so aufwändig, dass dies in naher Zukunft auch nicht zu erwarten ist. Außerdem ist der CFI-Mechanismus nicht sehr robust gegenüber Änderungen an der inneren Struktur eines EPUBs. Solche Änderungen können sich bereits ergeben, wenn Satz- oder Konvertierungsfehler behoben werden – also relativ häufig.
Tabellen
Neben den grundsätzlichen Problemen mit der Zitierfähigkeit von EPUBs können auch der Darstellung wissenschaftlicher Inhalte bereits enge Grenzen gesetzt sein. Dies gilt insbesondere für Tabellen, deren Darstellung bereits in Druckwerken nicht ganz einfach ist: Umfangreiche Tabellen müssen schon im Satz mitunter auf zwei Seiten verteilt werden. Bei wissenschaftlichen Zeitschriften ist es sogar üblich, zu große Tabellen nur als Datei zum Download anzubieten (Electronic Supplementary Material). Auf EPUB-Readern führt die Darstellung von großen Tabellen meist zu unschönen Ergebnissen. Passt eine Tabelle nicht mehr auf den Anzeigebereich, wird sie auf die folgenden Seiten umbrochen. „Blättert“ man so durch eine Tabelle, geht schnell der Überblick verloren.
Auf der Frankfurter Buchmesse 2012 habe ich diesem Problem bereits einen kurzen Vortrag gewidmet. Kurz gefasst kann man die Lösungen in drei Punkte einteilen:
- Konvertierung der Tabellen als Bild,
- den Einsatz von CSS (mit Media Queries) oder
- JavaScript-basierte Lösungen.
Der erste Ansatz sieht vor, die Tabelle als Bild darzustellen. Dabei geht es nicht darum, eine hübsche Infografik zu entwerfen, sondern eher profan die Tabelle als Bild zu rastern. Das macht die Tabelle zwar nicht mehr für eine Volltextsuche zugänglich, aber man kann sich der integrierten Bild-Zoomfunktion der EPUB-Reader bedienen. Die Einbindung von Tabellen als Grafik erscheint zwar als pragmatische Lösung, geht aber auf Kosten der Durchsuchbarkeit der Tabelle und nicht zuletzt der Barierrefreiheit. Daher sperren sich auch manche Retailer gegen die Rasterung von Tabellen in E-Books.
Wenn man richtige HTML-Tabellen verwenden möchte, kann man bis zu einem bestimmten Grad mit dem Herabsetzen der Abstände zwischen den Zellen und der Schriftgröße etwas Platz sparen. Darüber hinaus kann mit CSS Media Queries eingestellt werden, dass die Tabelle ab einer bestimmten Bildschirmgröße in eine listenähnliche Ansicht umbricht. Wenn JavaScript verfügbar ist, kann man Widgets entwickeln, die interaktive Ansichten der Tabelle zulassen, z.B. eine Navigation mit Pfeiltasten oder Ein- und Ausklappen nicht benötigter Spalten oder Zeilen. CSS Media Queries und JavaScript werden aber leider bisher nur von Apple iBooks und Browser-basierten Readern wie Readium unterstützt. Weitere Probleme können gestürzte Texte in Tabellenzellen und diagonale Teilungen von Zellen bereiten. Erstere werden meist waagerecht dargestellt, zweitere sind im HTML-Tabellenmodell nicht vorgesehen und können nur durch einen nachträglichen Umbau der Tabelle substituiert werden. Sofern nicht in Zukunft mehr Reader JavaScript unterstützen oder eigene Widgets mitbringen, ist an eine komfortablere Tabellendarstellung nicht zu denken.
Mathematische Formeln
Ähnlich vertrackt nimmt sich die Integration von mathematischen Formeln aus. Zur Repräsentation von Formeln sind die Markup-Sprachen LaTeX und MathML populär. MathML ist auch vom EPUB-Standard ab Version 3 für das Einbetten von Formeln vorgesehen. Schaut man sich zunächst in der Welt der Web-Browser um, so ist dort nur die Mozilla Foundation, welche MathML nativ in ihrem Firefox unterstützt. Aber man kann mit der JavaScript-Bibliothek MathJax MathML- und sogar LaTeX-Formeln in modernen Browsern rendern. Es gibt auch ein paar EPUB3-Reader wie Readium, Helicon und Azardi, die sich der Bibliothek zu diesem Zweck bedienen.
Bisher unterstützen nur Googles PlayBooks App und Apples iBooks das native Rendering von MathML. In Apples Autorenwerkzeug iBooks Author wird auch LaTeX über den Umweg der Konvertierung nach MathML unterstützt. Apples iBooks Author generiert jedoch nur das proprietäre iBooks-Format. Das Format ist zu EPUB inkompatibel, seine Spezifikation nicht öffentlich zugänglich und damit auch sichergestellt, das iBooks-Bücher exklusiv Apples Ökosystem vorbehalten bleiben.
Um Formeln auf möglichst vielen Geräten darzustellen, hat sich daher analog zu Tabellen die Verwendung von Pixelgrafiken durchgesetzt. Durch die Rasterung können kleine Elemente wie Operatoren, Hoch- und Tiefstellungen aber schnell unleserlich werden. Auf hoch aufgelösten Bildschirmen bringen grobpixelige Formelbilder unschöne Treppeneffekte zum Vorschein. Vor diesem Hintergrund böte das XML-basierte Vektorgrafikformat SVG eine Alternative, um Grafiken unabhängig von Skalierung und Bildschirmgröße scharf darzustellen. Laut Spezifikation ist die Unterstützung von SVG sogar ein zwingender Bestandteil des EPUB-Standards:
“OPS Reading Systems must support SVG (Scalable Vector Graphics) as an OPS Core Media Type.”*
Auch wenn die Autoren der Spezifikation sicher anderes im Sinne hatten, stellen immer noch viele „EPUB“-Reader SVG nicht richtig oder gar nicht dar. Verfolgt man den Ansatz, möglichst auf allen Geräten lesbare EPUBs zu produzieren, ist man gezwungen, die Formel als einfache Grafik einzubinden. Für Formeln ist MathML im Gegensatz zu SVG das adäquatere Format, auch wenn es neben Apple und Google nur von ein paar kleineren Anbietern unterstützt wird.
Schriften und Zeichenkodierung
Viele wissenschaftliche Publikationen sind auf die Verwendung von Zeichen oder ganzen Alphabeten angewiesen, die nicht durch die vorinstallierten Schriften von EPUB-Readern abgedeckt werden. Das Einbetten der Schrift in das EPUB erschiene als einfache Lösung des Problems. Dies erfordert jedoch meist den Erwerb einer entsprechenden Lizenz. Diese ist nicht immer vom Schriftanbieter verfügbar oder auch manchmal schlicht zu teuer. Lizenzmodelle, die pro Titel oder der Anzahl der verkauften Kopien abrechnen, erscheinen mitunter eher als Versuch, das Einbetten von Schriften gänzlich zu verbieten. Verfügt man über eine Lizenz, verlangen die Lizenzbedingungen häufig die Verschlüsselung der Schrift.
Eine weniger aufwändige Lösung verspricht die Verwendung von sogenannten freien Schriften, deren Lizenz die kostenlose Verwendung auch für kommerzielle Anwendungen erlaubt. Hier sollte man Sorge tragen, dass der Zeichensatz der Schrift auch den eigenen Anforderungen gerecht wird. Mitunter ist das Ende der Fahnenstange nicht erst bei hebräischen, kyrillischen oder fernöstlichen Zeichen, sondern bereits bei deutschen Umlauten erreicht. Schriften wie die Linux Libertine oder DejaVu verfügen aber bereits über einen weit ausgebauten Zeichensatz.
Eine weitere Hürde bereiten Schriften, deren Zeichenkodierung zueinander inkompatibel ist. Verwendet man in der Vorlage eine Schrift, welche die Zeichen anders kodiert, als die für das EPUB gedachte Schrift, müsste man die betroffenen Zeichen mühsam korrigieren. Sinnvoll ist hier von vornherein auf Unicode-kompatible Schriften zu setzen. Unicode ist ein Standard, der sich zum Ziel gesetzt hat, jedem bekannten Zeichen einen digitalen Code zuzuordnen. Unicode-kompatible Schriften können bedenkenlos miteinander ausgetauscht werden, sofern sie jeweils über die benötigten Zeichen verfügen.
EPUB3 – Status: Quo Vadis?
Vor diesem Hintergrund erscheint das EPUB-Format wenig attraktiv. Die Erstellung von EPUBs ist im Vergleich zum PDF aufwändig, die Darstellung auf vielen Lesegeräten mit technischen Tücken behaftet und erst EPUB3 bringt wichtige Features wie MathML mit auf den Weg. Nichtsdestotrotz gibt es einige Gründe warum EPUB oder genauer gesagt EPUB3 sich besser für wissenschaftliche Literatur eignet.
Es ist kein Geheimnis, dass die wissenschaftliche Recherche am Bildschirm vor allem in den naturwissenschaftlichen Disziplinen das Lesen von bedrucktem Papier ablöst. In einer mobilen Welt hat das EPUB-Format gegenüber dem PDF den Vorzug, dass es auch auf den verschiedensten Bildschirmgrößen gut lesbar ist. Entgegen dem PDF samt seiner vielfältigen Barrieren stellt EPUB3 eine offene Plattform für die Speicherung von Text, Bildern, Formeln und Metadaten dar. Das erleichtert nicht nur für Sehbehinderte und Blinde die Erschließung der Texte, sondern auch für den Rest. EPUB3 bietet zudem mit Structural Semantic Vocabularies ein Vokabular für die Auszeichnung von Annotationen, Indexeinträgen, Literaturlisten und anderen semantischen Entitäten in HTML an. Diese Metadaten können über die Angabe des epub:type
-Attributes in das HTML eingefügt werden:
<section epub:type="dedication">
(…)
</section>
Auch für das von Alexander „Sasha“ Schwarzman thematisierte Problem des Umgangs mit Supplementary Material lassen sich im Rahmen von EPUB3 Lösungen finden. Einerseits existieren für Umfang und Anzahl der Inhalte nicht wie bei Papier physische Grenzen, andererseits unterstützt EPUB3 nicht druckbare Inhalte wie Audio, Video und interaktive Elemente via JavaScript.
Was jedoch die Darstellung von EPUB3 auf Lesegeräten betrifft, bewegen wir uns gegenwärtig noch in einer Zeit, die vergleichbar mit den Anfängen der Web-Browser scheint. Damals sah eine Webseite auf jedem Browser unterschiedlich aus, weil Standards wie HTML, CSS und JavaScript anders und unvollständig umgesetzt wurden, die Standards in bestimmten Belangen unzureichend waren und die Browserhersteller eigene proprietäre Standards durchzusetzen suchten.
Wissenschaftliches Publizieren nach EPUB
Doch müssen elektronische Publikationen überhaupt als EPUB publiziert und auf einem EPUB-Reader gelesen werden? Wenn viele Wissenschaftler schon online recherchieren, warum sollten Sie die Publikationen nicht gleich online als HTML-Website lesen? Moderne Web-Browser bieten eine technisch weit ausgereiftere Basis als gegenwärtige EPUB-Reader. Die Zeiten in denen man für die verschiedenen Web-Browser Weichen in CSS und JavaScript schreiben musste, gehören der Vergangenheit an. Während aktuelle Versionen von Firefox, Internet Explorer und Co. gängige Web-Standards wie HTML, CSS und JavaScript weitestgehend gleich interpretieren, muss man bei der Produktion von EPUBs immer der technischen Fragmentierung der Lesegeräte Rechnung tragen. Web-Frameworks wie Bootstrap und Foundation erleichtern zudem die Erstellung von responsiven Webseiten, die auch mit Mobil-Browsern gut lesbar sind.
Muss das EPUB-Format überhaupt eine Rolle für die Zukunft des wissenschaftlichen Publizierens spielen? Wissenschaftliche Kommunikation macht seit jeher aus, dass man den Wahrheitsgehalt der eigenen Publikation wohlwollend oder kritisch durch Referenz auf andere wissenschaftliche Quellen begründet. Es ist auch nichts Neues, dass die Relevanz einer wissenschaftlichen Zeitschrift bereits anhand ihres „Impact-Factor“, der Anzahl der Zitationen durch andere Artikel kalkuliert wird. Es geht mit Verweis auf das Online-First-Prinzip schon heute darum, im Wettbewerb um die erste Veröffentlichung von wissenschaftlichen Ergebnissen, so schnell wie möglich zuerst online zu publizieren.
Der große Nachteil von EPUB ist daher sein Hauptmerkmal: Es ist wie PDF ein Container für Inhalte, die lokal auf einem Lesegerät rezipiert werden. Würde die Publikation dagegen als HTML-Seite im Web verfügbar sein, würden sich ganz andere Möglichkeiten ergeben, die Publikation zu referenzieren. Im einfachsten Fall würde eine Referenz nicht nur einen Link auf die zitierte Publikation, sondern direkt auf die zitierte Passage darstellen. Für persistente Links auf Publikationen haben sich die sogenannten Digital Object Identifier (DOI) etabliert. Darüber hinaus bieten die noch selten genutzten component DOIs die Möglichkeit, direkt auf bestimmte Elemente in einer Publikation zu verlinken. Auch das für soziale Netzwerke typische Teilen, Bewerten und Kommentieren ist leichter in eine Website integrierbar als in ein EPUB, welches durch die technischen Restriktionen des EPUB-Readers eingezäunt wird. Mit integrierten sozialen Funktionen könnte auch der Weg für ein offenes Community Review bereitet werden.
Mit RDFa kann der Inhalt zudem um semantische Metadaten angereichert werden. Fachtermini, Orte, Personen usw. können damit in HTML ausgezeichnet werden und von Anwendungen verarbeitet werden. Bei EPUB3 ist der Wortschatz der Structural Semantics Vocabulary hingegen eingeschränkt. Das epub:type
-Attribut ließe sich zwar auch mit RDFa oder einer anderen Syntax füllen, allerdings gibt es bis dato keinen EPUB-Reader, der allein die Structural Semantics Vocabulary vollständig unterstützt. Daher würden semantisches Tagging im EPUB brach liegen. Im Web hingegen ist es mit den verfügbaren Skripting-Technologien einfacher, diese Informationen auszuwerten. Online-Dienste könnten die semantischen Informationen auswerten, mit anderen Publikationen verknüpfen und somit effizientere Recherchemöglichkeiten für Wissenschaftler schaffen.
Wissenschaftliches Publizieren für das Web hieße nicht wie bisher einfach nur PDF und EPUB online verfügbar zu machen, sondern die Daten semantisch zu erschließen und mit interaktiven Komponenten anzureichern. Eine wichtige Voraussetzung bildet schon heute XML als offenes Format zur semantischen und medienneutralen Speicherung der Inhalte. Zwar ließe sich einwenden, dass mit HTML5 und RDFa auch ein Markup zur semantischen Auszeichnung der Inhalte zur Verfügung stehe. Der Gedanke das gleiche Format für die Datenhaltung und Darstellung der Inhalte zu verwenden, mag einleuchtend klingen. Allerdings ist HTML5 schon allein in Ermangelung von Namespaces schlechter erweiterbar als XML. Zudem vermögen XML-Schemas wie BITS, DocBook und TEI viel besser die verschiedenen Elemente, Hierarchien und Ebenen einer wissenschaftlichen Publikation abzubilden als das auf flache Webseiten ausgerichtete Datenmodell von HTML5. Wenn man keinen Verlust an Tiefe und Flexibilität in Kauf nehmen möchte, sollte man gleichzeitig auf XML und HTML5 setzen: XML zur Beschreibung der Dokumente und HTML5 für ihre Darstellung im Web-Browser.
EPUB3 bringt zwar gegenüber Version 2 einige nützliche Verbesserungen, allerdings werden diese durch den kleinsten gemeinsamen Nenner der EPUB-Reader nivelliert. Moderne Web-Browser sind dagegen viel ausgereifter und interpretieren gängige Technologien wie HTML, CSS und JavaScript bis auf ein paar Details auf die gleiche Weise. Damit können Publikationen im Web relativ einfach um dynamische Inhalte wie 3D-Modelle, Videos oder Widgets für die Visualisierung von Echtzeitdaten erweitert werden. Wenn die Publikationen nicht lokal als Container, sondern online als Website zur Verfügung stehen, können Sie zudem besser indexiert, referenziert und um soziale Funktionen ergänzt werden. Das kann nicht nur einer effizienteren Recherche, sondern auch neuen Bewertungs- und Reviewformen den Weg bereiten. Daher ginge es für Verlage nicht mehr darum PDF- oder EPUB-Downloads anzubieten, sondern Dienste für eine bessere Erschließung der Inhalte zu entwickeln. Dafür sind weder PDF noch EPUB geeignet, denn ihre Form ist die eines Containers, bestimmt für die lokale Speicherung auf einem Endgerät. In diesem Sinne ist EPUB als das neue PDF zu verstehen, als Unterschied zum offenen Web.
Die Abkehr von EPUB würde Entwicklern, Verlagen und Wissenschaftlern das Leben leichter machen. Bei der Entwicklung von elektronischen Publikationen müsste nicht mehr der Gerätedschungel, sondern nur die Einhaltung von Standards berücksichtigt werden. Verlage können Features einfach und schnell auf ihrer Plattform umsetzen und erhielten die Hoheit über die Daten zurück. Wissenschaftler müssten weniger Barrieren in Kauf nehmen, um multimediale und interaktive Inhalte in ihre Artikel zu integrieren und könnten komfortabler lesen und recherchieren.
Die ISBN-fähigen EPUBs helfen den Publikumsverlagen, ihr Geschäftsmodell behutsam zu digitalisieren. Wissenschaftsverlage verkaufen bereits jetzt ihre Inhalte vorwiegend über Abonnements und nicht über ISBNs. Deswegen sind sie dafür prädestiniert, nicht nur beim Dienste-basierten Geschäftsmodell, sondern auch beim Überspringen der Entwicklungsstufe „EPUB“ voranzugehen. Das Verlagsgeschäftsmodell und die technische Manifestation von Verlagsprodukten sind in Zukunft ohne Web-Browser nicht vorstellbar. Es gibt keine Dichotomie „PDF und/oder EPUB“ – tertium datur.