The logo is a pig framed between two angle brackets.

Wie man Text und Data Mining für KIs in E‑Books verbietet

In der Verlagsbranche ist das Thema Künstliche Intelligenz genauso beliebt wie gefürchtet. Es geht nicht um das inzwischen etwas abgegriffene Untergangsszenario, dass generative KIs die Bestseller von morgen schreiben. Die aktuellen Risiken sind für Verlage jedoch nicht weniger beunruhigend, wie die Klage der New York Times gegen das Unternehmen OpenAI zeigte: Die New York Times warf OpenAI vor, ihre generative KI ChatGPT mit Millionen Artikeln der Zeitung trainiert zu haben.

Für Verlage und Autor*innen sind Urheberrechte damit in doppeltem Sinne bedroht. Zum einen können ihre Inhalte für das Trainieren von KIs missbraucht werden. Zum anderen können die Inhalte bei KI-generierten Resultaten reproduziert werden.

Man stelle sich vor, eine KI würde heimlich mit den Daten eines auf juristische Fachliteratur spezialisierten Verlags gefüttert. Mit den Daten wird ein KI-gestützter Bot entwickelt, der seine Kund*innen bei Rechtsfragen berät. Wozu sollte sich jemand dann noch einen Ratgeber des Fachverlags kaufen? Das Problem ist hier freilich nicht die technologische Entwicklung, sondern dass die Schöpfer der Inhalte nicht an den Erlösen beteiligt werden.

Viele Verlage publizieren ihre Inhalte im Web bzw. als E‑Book. Mit wenig Aufwand lassen sich Bots programmieren, welche diese Inhalte auslesen, um sie später als Trainingsdaten für KIs nutzbar zu machen. Die gute Nachricht ist jedoch, dass man als Rechteinhaber mit einem rechtlichen Vorbehalt, einem sogenannten Opt-Out erklären kann, dass eine Website oder ein E‑Book nicht zum Training von KIs verwendet werden darf. Das kann zwar keine missbräuchliche Nutzung verhindern, aber macht zumindest den rechtlichen Status der Daten klar.

Beim World Wide Web Consortium (W3C) hat die Text and Data Mining Reservation Protocol Community Group eine technische Spezifikation veröffentlicht, um einen Rechtsvorbehalt für Text und Data Mining (TDM) für eine Publikation zu deklarieren, das TDM Reservation Protocol (TDMRep).

Die Richtlinie sieht vor, dass zunächst eine TDM Policy im Format JSON-LD auf einen Webserver abgelegt wird. Die JSON-LD-Datei kann z.B. so aussehen:

{
  "@context": [
    "http://www.w3.org/ns/odrl.jsonld",
    "http://www.w3.org/ns/tdmrep.jsonld"
  ],
  "@type": "Offer",
  "profile": "http://www.w3.org/ns/tdmrep",
  "assigner": {
    "uid": "https://recht-und-billig-verlag.de/policies/tdm",
    "vcard:fn": "Recht und Billig Verlag GmbH",
    "vcard:nickname": "RBV",
    "vcard:hasEmail": "mailto:lizenzen@recht-und-billig-verlag.de",
    "vcard:hasAddress": {
      "vcard:street-address": "Weißenfelser Str. 102",
      "vcard:postal-code": "04229",
      "vcard:locality": "Leipzig",
      "vcard:country-name": "Germany"
    },
    "vcard:hasTelephone": "tel:+493411234567",
    "vcard:hasURL": "https://recht-und-billig-verlag.de"
  },
  "permission": [
    {
      "action": "tdm:mine",
      "duty": [
        {"action": "obtainConsent"}
      ]
    }
  ]
}

Die Properties @context, @type, profile, assigner und permission sind Pflichtfelder. @context, @type und profile müssen immer die oben dargestellten Werte enthalten. In der assigner-Property können mit Hilfe der vcard-Taxonomie Kontaktdaten für potentielle Lizenznehmer hinterlegt werden. Dabei muss die uid eine unverwechselbarer Identifier sein, hier bietet sich naturgemäß die URL der Webpräsenz an.

Spannend wird es bei der Festlegung der Berechtigungen mit Hilfe von permission. Die Property action legt fest, für welche Form von Data Mining die Berechtigungen gelten:

  • tdm:mine gibt an, dass sich eine Berechtigung auf alle Data Mining-Aktionen beziehen.
  • tdm:research gilt für Forschungszwecke von Kulturerbe-Institutionen, Universitäten oder anderen Forschungseinrichtungen (gemäß EU-Richtlinie 2019/790 über Urheberrecht im digitalen Binnenmarkt)
  • tdm:non-research für Zwecke außerhalb der Forschung

Mit der Property action beschreibt die Verpflichtungen, welche TDM-Interessenten eingehen. Mit obtainConsent muss eine überprüfbare Einwilligung des Rechteinhabers eingeholt werden. Mit compensate kann verlangt werden, dass der Rechteinhaber für TDM finanziell zu kompensieren ist. Wie die Kompensation auszuhandeln ist, lässt die Spezifikation jedoch offen. Es ist anzunehmen, dass die Überweisung eines symbolischen Euros keine angemessene Kompensation darstellt.

Die Angabe einer allgemeinen TDM Policy ist jedoch nur die halbe Miete. Ob die TDM-Rechte für eine digitale Publikation vorbehalten sind, muss als Metadatum in der Publikation selbst hinterlegt werden. Dafür muss die URL der JSON-LD-Datei mit der TDM Policy angegeben werden (tdm:policy). Andererseits muss das Metadatum tdm:reservation hinzugefügt werden, dass die Werte 1 oder 0 enthalten darf. Der Wert 1 bedeutet, dass TDM-Rechte reserviert sind, 0 gibt an, dass die Publikation für TDM freigegeben ist.

Wie hinterlegt man nun die TDM-Rechte für die verschiedenen Formen von digitalen Publikationen? Für E‑Books im Format EPUB 2.0 oder 3.0 ergänzt man diese im <metadata/>-Block der OPF-Datei.

<metadata>
  <-- (…) -->
  <meta property="tdm:reservation">1</meta>
  <meta property="tdm:policy">https://recht-und-billig-verlag.de/lizenzen/tdm.json</meta>
</metadata>

Bei E‑Books im PDF-Format lässt sich die TDM-Policy in den XMP-Metadaten hinterlegen. Hier bleibt nur im Hinblick auf barrierefreie PDFs die Hoffnung, dass PDF/UA-Validatoren diese Metadaten nicht als Fehler melden.

<rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#>
  <rdf:Description rdf:about="" xmlns:tdm="http://www.w3.org/ns/tdmrep/">
    <tdm:reservation>1</tdm:reservation>
    <tdm:policy>https://recht-und-billig-verlag.de/lizenzen/tdm.json</tdm:policy>
  </rdf:Description>
</rdf:RDF>

Für Webseiten soll laut Spezifikation der Webserver auf Anfragen im HTTP-Header die TDM Policy als HTTP-Header mitliefern. Eine HTTP-Response mit den HTTP-Headern tdm-reservation und tdm-policy würde wie folgt aussehen:

HTTP/1.1 200 OK
Date: Wed, 11 Oct 2024 10:51:34 GMT
Content-type: text/html
tdm-reservation: 1
tdm-policy: https://recht-und-billig-verlag.de/lizenzen/tdm.json

Da sich viele nicht im Editor die Metadaten des E‑Books oder im Web-Browser die HTTP-Header anschauen werden, sollte zusätzlich eine ausformulierte Erklärung auf der eigenen Website hinterlegt werden, wie das z.B. der Wissenschaftsverlag SpringerNature mit seiner TDM Reservation Policy getan hat. Darauf kann etwa im Impressum verwiesen werden, um letzte Unsicherheiten auszuräumen.

Wie üblich bei solchen Dingen, handelt es sich hier um einen weiteren Baustein im Gerüst digitaler Bürokratie. Allerdings ist er meines Erachtens ein notwendiger, da der Goldrausch um generative KIs wie ChatGPT nicht nur auf technischem Pioniergeist, sondern auch dem massenhaften Schürfen von vermeintlich frei verfügbaren Daten beruht.

Archiv

Tags

Amazon ARIA Barrierefreiheit BFSG BFSGV books in browsers CSS E-Books Enhanced Typesetting EPUB EPUB3 GND HTML InDesign ISCC ISNI JavaScript KF8 Kindle Language Tagging LaTeX Machine Learning MathML MOBI MS Narrator NVDA Open Source ORCID PDF Publishing RelaxNG Schematron Screenreader STM SVG tdm TeX tl;dr transpect Typografie Web Components Word XML XProc XSLT