Textvorbereitung für die
XML-basierte Satzerstellung

le-tex

  • *1999, Standort Leipzig
  • 180 Mitarbeiter (HC)
  • Lektorat, Copy-Editing, Herstellung, Satz, Softwareentwicklung, Beratung

Martin Kraetke

  • *1982 in Leipzig
  • Lead Content Engineer
  • HTWK Leipzig: Elektronisches Publizieren III, V
    Crossmediales Publizieren für Bachelor/Master
  • Bloggen auf XPorc

Überblick

  • Einführung
  • I. Den Prozess organisieren
  • II. Fallstricke in Manuskripten
  • III. Tools & Tweaks

Einführung

Phasen der Textvorbereitung

  1. Lektorat
  2. Inhaltliches Copy-Editing
  3. Auszeichnung oder „technisches Copy-Editing“

DTP-Textvorbereitung:

Hauptziel:
Verbesserung der Satzqualität für den Druck

XML-Textvorbereitung

  • Semantische Erfassung des Textes
  • Workflows: „XML-First“, „XML-Last“, …
    (wann startet man mit XML in die Produktion?)
  • verschiedene Ausgaben: Druck, E-Book, Web etc.

(I) Was muss in XML erfasst werden?

  • Metadaten
  • Struktur: Frontmatter, Kapitel, Verzeichnisse, Backmatter
  • Texttypen: Absatz- und Zeichenformate

(II) Was muss für das XML erfasst werden?

  • Referenzen: Hyperlinks, Querverweise, Indexeinträge
  • Objekte: Textrahmen, Bilder, Tabellen, Formeln
  • Layout (z. B. Bildanordnungen), Formatierung (Auszeichnungen, Zellenschattierungen)

Formatierter Text vs. XML-Baumstruktur

Überschrift ersten Grades

Überschrift zweiten Grades

Ein einfacher Absatz.

<?xml version=“1.0“ encoding=“UTF-8“?>
<book xmlns=“http://docbook.org/ns/docbook“ version=“5.0“>
  <chapter>
    <title>Überschrift ersten Grades</title>
      <section>
        <title>Überschrift zweiten Grades</title>
        <para>Ein einfacher Absatz</para>
      </section>
  </chapter>
</book>

Wie soll das gehen?

Obama makes a shrug

Genauer nachgefragt…

  • Wie soll der Prozess gestaltet werden und wer übernimmt welche Aufgaben?
  • Auf welche Besonderheiten im
    Content muss ich Wert legen?
  • Welche Tools und Tweaks helfen mir?

(I)

Textvorbereitung organisieren

Welche Teilaufgaben lassen
sich automatisieren?

  1. Voll-Automatisierung
  2. Teil-Automatisierung
  3. Manuelle Auszeichnung

Voll-Automatisierung

eindeutige Textmuster, z. B.

  • typografische Festabstände bei Abkürzungen
  • Erkennung von Hyperlinks
  • Mapping von Non-Unicode-Schriften

Teil-Automatisierung

Heuristiken, ML mit manueller
Prüfung und Korrektur.

  • Erkennung von Absatzformaten
  • Literaturreferenzen auszeichnen (Demo)
  • visuelle Kontrolle notwendig, Bewertung
    und Markierung von Zweifelsfällen

Manuelle Auszeichnung

Wo keine Automatisierung möglich oder Teil-Automatisierung keine guten Ergebnisse liefert.

  • Festlegung Buchstruktur, Kapitelhierarchie
  • Absatz- und Zeichenformatierung
  • Semantische Ebenen festlegen

Wer ist zuständig?

Manuskriptvorbereitung für XML ist mehr Aufwand

  • Autorensatz
  • Lektorat/Herstellung
  • In-House vs Outsourcing
    (Dienstleister, freie Mitarbeiter)

Was man im Blick behalten sollte

  • Prozessüberwachung
  • Schnittstellen definieren
  • Anforderungen festlegen und dokumentieren
  • Qualitätssicherung einführen

(II)

Fallstricke in Manuskripten

(Auswahl ;)

Gliederung

  • keine Hierarchiesprünge, z. B. Ü1→Ü3
  • separate Überschriften für Buchteile,
    z. B. Index, Anhang etc.
  • Listenebenen, Nummerierung von Formeln, Bildern, Tabellen

Absatz- und Zeichenformate

  • Namenskonventionen
  • Zeichenformate: Standards und eigene Formate
  • Rahmen abbilden: start/end

Zeichensetzung, z. B.

  • Anführungszeichen, z. B. "" nur als Computercode
  • bedingte Trennzeichen, Gedankenstriche
  • Gevierte, nicht-umbrechende Leerzeichen etc.

Referenzen

  • Hyperlinks
  • Indexeinträge
  • Verweise auf Literatur, Kapitel, Bilder etc.
<indexterm role="hub:pagenum-italic">
  <primary sortas="Hofmannsthal">Walter von 
    <phrase css:font-weight="bold">Hofmannsthal</phrase>
  </primary>
</indexterm>

teilweise halbfetter Indexeintrag mit Sortierschlüssel und kursiver Seitenangabe

Tabellen

  • nicht sichtbare Spalten
  • blinde Tabellen als Layoutvehikel
  • falsche Zeilen/Spaltenüberspannungen
  • Tabellen- und Zellenformate

Formeln

Abbildung in XML als MathML

  • welcher Formeleditor wurde verwendet?
  • falsche Verwendung von Formel-Templates
  • falsche Zeichenverwendung

Non-Unicode-Schriften

MS Symbol

Ω

Unicode

W

Zeichenkodierung

ɣ U+0263 Latin Small Letter Gamma
γ U+03B3 Greek Small Letter Gamma
U+1D67 Greek Subscript Small Letter Gamma
U+1D5E Modifier Letter Small Greek Gamma
𝛾 U+1D6FE Mathematical Italic Letter Gamma

Weißraum und Abstände

  • Tabulatoren nicht medienneutral (→Tabellen)
  • Absätze, harte Umbrüche, mehrere Leerzeichen
  • ungeschlagen: weiß eingefärbter Text für Abstände

Autoren mit zuviel Know-How

  • eigene Formate, Feldfunktionen und Templates
  • selbst programmierte Skripte und Makros
  • Worst case: der Autor liefert XML ab

(III)

Tools & Tweaks

  • Editoren
  • Templates
  • Camera Ready-Satz
  • Author Proofing

Editoren

  • Desktop-Textverarbeitung
  • Cloud-Textverarbeitung
  • Code-Editoren
  • visuelle XML-Editoren

Desktop-Textverarbeitung

  • MS Word, LibreOffice
  • (freie) Autoren schreiben in Word,
    ein Ende ist nicht absehbar
  • zuviele Möglichkeiten (eigene Formate, Feldfunktionen, Add-Ins, etc.)

Ist DOCX nicht auch XML?

  • Office Open XML (ISO/IEC 29500, schlanke 5572 S.)
  • XML für MS Word optimiert
  • programmspezifisch, nicht medienneutral

MS Word: helfen Templates
gegen das Chaos?

  • Autoren-Templates, Erfassungsvorlagen etc.
  • Prüftools für Fehlererkennung
  • Add-Ons: VB Scripting
    Nachteil: Sicherheitseinstellungen,
    Word ist nicht plattformneutral

Cloud-Textverarbeitung

  • kollaboratives Arbeiten möglich, Versionierung
  • Google Docs kennt nur 6 Absatzformatvorlagen
  • Workarounds z. B. via taktische Zeichen

Code-Editoren

  • Eingabe von Markup (XML, LaTeX, MarkDown…)
  • bestimmte Markupformen sehr eingeschränkt,
    z. B. MarkDown, Wiki-Syntax
  • eher für technische Redakteure und Geeks

Visuelle XML-Editoren

  • FontoXML, SmashDocs, Texture, XEditor
  • Custom-Editoren für Großwerke
  • Vorteil: sieht aus wie Word, im Hintergrund XML

Visuelle XML-Editoren

  • teuer in Anschaffung und Konfiguration
  • Import-Problem: Autoren schreiben
    weiterhin in MS Word
  • Restriktivität vs. Freiheit in der Bearbeitung

Camera Ready Satz

  • typisch für STM- und Autorenverlage
  • Bearbeitung liegt meist vollständig beim Autor
  • Unterstützung durch Templates

Proofing

  • On-the-fly-Erstellung von Satzfahnen aus XML
  • Verlagerung von Autorenkorrekturen vom Satz
    in Manuskriptphase
  • Problem: Umbruchänderungen bei
    anderen Satzsystemen, sinnvoller wenn man in einem Satzsystem bleibt

Prüftools

  • Prüfung z.B. via Schematron
  • Reporting inline als Word-Kommentar
  • besser: HTML-Reports

Vielen Dank für Eure Aufmerksamkeit!