An dieser Stelle entsteht die öffentliche Dokumentation für Epigraf 5. Diese Seite ist noch in Bearbeitung.

Die meisten Datensätze können in Epigraf über IRIs identifiziert werden. Eine IRI ist eine international eindeutige Kennung, die auch stabil bleibt, wenn ein Datensatz in andere Datenbanken kopiert oder exportiert wird. In Epigraf enthalten vollständige IRIs folgenden Daten:

  • Domain: Namensraum aller Datensätze, zum Beispiel https://epigraf.inschriften.net/iri
  • Tabelle: Der Name der Tabelle in der Datenbank, zum Beispiel items.
  • Typ: Jede Tabelle ist in verschiedene Segmente unterteilt, zum Beispiel text oder image.
  • Fragment: Das IRI-Fragment ist ein selbst vergebener Bezeichner, der den Datensatz in der Tabelle identifiziert, zum Beispiel di-103-17.

Daraus ergibt sich im Beispiel die IRI: https://epigraf.inschriften.net/iri/items/text/di-103-17 für die Bezeichnung des Textinhalts im Artikel 17 aus dem Band  "Die Deutschen Inschriften Nr. 103". Indem solche IRIs beim Einspielen von Daten in Epigraf verwendet werden, können Daten immer wieder aktualisiert werden.

Das IRI-Fragment ist mitunter komplexer strukturiert. Es kann prinzipiell beliebig gebildet werden, so lange es eindeutig bleibt. Empfehlenswert sind folgende, mit einer Tilde verbundenen Elemente:

  • Datenquelle: Eindeutiger Bezeichner einer Datenbank, Datenquelle oder eines Korpus, zum Beispiel di für die Reihe "Die Deutschen Inschriften". Die Datenquelle wird in der Regel weggelassen, wenn der Datensatz in der betroffenen Datenbank geboren wurde. Sie wird notwendig, wenn Datensätze die Ursprungsdatenbank verlassen.
  • Artikelsignatur: Eindeutiger Bezeichner eines Artikels, eine Nummer oder eine Bezeichnung in einem Korpus, zum Beispiel di-103-17 für Artikel 17 im Band 103 der Inschriftenreihe.
  • Abschnitt: Eindeutiger Bezeichner eines Abschnitts innerhalb eines Artikels, zum Beispiel description. Eine Abschnittsbezeichnung ist immer dann nötig, wenn es mehrere Abschnitte gibt.
  • Itemnummer: Mehrere Inhalte innerhalb eines Abschnitts können durchnummeriert werden, zum Beispiel mit 1, 2, 3 und so weiter. Das ist notwendig, wenn ein Artikel oder Abschnitt mehrere Inhalte beherbergt.

Zusammengesetz ergibt sich im Beispiel die IRI https://epigraf.inschriften.net/iri/items/text/di~di-103-1~description~1 zur Bezeichnung eines konkreten Inhalts. Beim Datenabgleich werden in der Regel keine vollständigen IRIs verwendet, es wird auf die Domain verzichtet. Die Kombination von Tabelle, Typ und Fragment wird in Epigraf als IRI-Pfad bezeichnet. Im Beispiel lautet der IRI-Pfad items/text/di~di-103-1~description~1.

Wie werden IRI-Pfade für Artikelinhalte gebildet?

Während Artikel einfach über eine Signatur oder Nummer identifiziert werden können, benötigen die darin enthaltenen Abschnitte und Inhalte etwas komplexere Identifikatoren. Denn es können mehrere gleichartige Abschnitte oder Inhalte in einem Artikel auftreten. Zur Differenzierung werden ausgehend vom IRI-Fragment des Artikels weitere Komponenten mit einer Tilde angehängt.

a) Schema für Artikel

articles/<type>/<datenquelle>~<artikelsignatur>

b) Schema für Abschnitte

sections/<type>/<datenquelle>~<artikelsignatur>~<abschnitt>

Enthält ein Artikel nur einen Abschnitt des Typs, zum Beispiel nur einen einzigen Abschnitt mit Bildern, dann reicht die Artikelsignatur aus. Durch den Typ ist eindeutig erkennbar, um welchen Abschnitt innerhalb des Artikels es sich handelt. 

Kommen in einem Artikel dagegen mehrere Abschnitte vom gleichen Typ vor, müssen diese über ein Postfix differenziert werden. Die Differenzierung ist notwendig, da alle Abschnitte eines Typs mit dem gleichen IRI-Pfad beginnen (z.B. sections/text/). Deshalb wird ein Abschnittsbezeichner mit einer Tilde angehängt . Enthält ein Artikel beispielsweise eine Beschreibung und einen Kommentar jeweils mit dem gleichen Abschnittstyp "text", dann kann wie folgt ein IRI-Fragment für zwei verschiedene Abschnitte innerhalb eines Artikels aus der Datenbank mit der Bezeichnung "anima" gebildet werden: anima~ani576mc~description und anima~ani576mc~comment

c) Schema für Inhalte

iri/items/<type>/<datenquelle>~<artikelsignatur>~<abschnitt>~<itemnummer>

Wie bei Abschnitten, reicht die Artikelsignatur aus, wenn in einem Artikel nur ein einziger Eintrag des Typs auftritt, zum Beispiel nur ein einziges Bild. Andernfalls muss der Eintrag über das Postfix eindeutig innerhalb der Datenbank identifiziert werden. 

Ist sichergestellt, dass jeder Abschnitt nur jeweils einen Eintrag enthält, dann reicht auch der Abschnittsbezeichner zur Differenzierung aus, zum Beispiel anima~ani576mc~description und anima~ani576mc~comment. Kommen dagegen mehrere Einträge je Abschnitt vor, so wird getrennt mit einer Tilde durchnummeriert: anima~ani576mc~description~1  und anima~ani576mc~description~2 bezeichnen zwei aufeinander folgende Inhalte im gleichen Abschnitt. 

Zu beachten ist, dass die IRI-Pfade für Einträge unabhängig vom übergeordneten Abschnitt eindeutig sein müssen. Es ist also nicht erlaubt, zwei Abschnitte innerhalb eines Artikels anzulegen und dann innerhalb dieser Abschnitte die Einträge neu beginnend mit 1 durchzunummerieren. Für diesen Fall muss die Nummer über den gesamten Artikel fortlaufen.

d) Schema für Properties / Kategorien

properties/<type>/<datenquelle>~<lemma>

Auflösung von IRIs

IRIs sind insbesondere für den Datenabgleich nützlich:

  • Kategorien wie Schriftarten, Worttrenner oder Objekttypen sind eindeutig identifizierbar, auch wenn sich die Beschriftungen ändern. 
  • Datensätze können beim Importieren aktualisiert werden. Existiert bereits ein Datensatz mit der gleichen IRI, wird er überschrieben und nicht neu angelegt. 
  • Datenbestände können zwischen verschiedenen Datenbanken synchronisiert werden.

IRIs sind aufgebaut wie die URLs einer Webseite Ein Beispiel für eine einfache IRI ist https://epigraf.inschriften.net/iri/articles/object/1. Die IRI leitet auf einen Artikel weiter, der ein epigrafisch relevantes Objekt beschreibt. Diese IRI setzt sich aus folgenden Teilen zusammen:

  • Der IRI-Endpunkt "https://epigraf.inschriften.net/iri/" sorgt dafür, dass die IRI aufgelöst werden kann. Damit IRIs nicht umständlich lang werden, kann ein Namensraum festgelegt werden, der zum Beispiel in XML-Dokumenten an die Stelle des Endpunkts tritt. Innerhalb von Epigraf steht der Namensraum "epi:" für "https://epigraf.inschriften.net/iri". Aus der oben angegebenen IRI wird damit die kürzere Form "epi:articles/object/1".
  • Der IRI-Pfad "articles/object/1" wird wie oben beschrieben nach dem Schema <table>/<type>/<irifragment> gebildet. Der erste Teil entspricht der Datenbanktabelle (z.B. articles, sections, properties), es folgen der Typ des Datensatzes (z.B. für die properties-Tabelle fonttypes oder locations) und schließlich das IRI-Fragment. 

Voraussetzung für eine IRI ist somit die Angabe des IRI-Fragments, das bei jedem Datensatz im Feld norm_data erfasst wird. Alle anderen Angaben - Endpunkt, Tabelle, Typ - ergeben sich automatisch. In diesem Feld gelten folgenden Konventionen:

  • Es darf ein beliebiger alphanumerischer Wert eingetragen werden, bestehend aus den Zeichen a-z, 0-9, - und _. Erlaubt ist nur Kleinschreibung. Weitere Leerzeichen, Sonderzeichen und Umlaute sind nicht erlaubt. Eine Ausnahme ist die Tilde zur Kennzeichnung von Datenquellen und Datensatzteilen, siehe unten)
  • Beispiele für solche Werte wären Zahlen wie "1" oder Wörter in Kleinschreibung wie "kreuz". Es sollten bevorzugt englische Bezeichnungen wie "cross" oder an standardisierte Vokabulare angelehnte Bezeichner wie "deu" (ISO-639-3-Code für die deutsche Sprache) verwendet werden.
  • Wichtig ist, dass einmal festgelegte Werte möglichst nicht mehr geändert werden.
  • Der Name der Datenbank kann gefolgt von einer Tilde in das IRI-Fragment aufgenommen werden, um Konflikte zwischen verschiedenen Datenbanken zu vermeiden. Die Tilde wird auch verwendet, um weitere identifizierende Bestandteile zu erschaffen (siehe oben).

Jede IRI muss im Epigrafuniversum eindeutig sein, das heißt auch datenbankübergreifend eindeutig, damit Datenbestände abgeglichen werden können. Der IRI-Endpunkt selbst löst lediglich zur Referenzdatenbank epi_public auf. Sollen Datensätze über eine IRI erreichbar sein, dann muss der Datensatz in diese Referenzdatenbank übertragen werden. 

Kennzeichnung von Datenquellen

Damit die IRI-Fragmente aus verschiedenen Datenbanken nicht in Konflikt geraten, sollte der Datenbankname in das IRI-Fragment aufgenommen werden. Die Transferfunktion von Epigraf bildet IRI-Fragmente automatisch, wenn kein Wert angegeben wird. So erhält der Abschnitt mit der ID 18 in der Datenbank epi_nrw das IRI-Fragment "nrw~18". Nimmt man an, dass es sich um einen Abschnitt vom Typ "locations" handelt, lautet die vollständige IRI https://epigraf.inschriften.net/iri/sections/locations/nrw~18 und diese kann nicht mehr mit IRIs aus anderen Datenbanken verwechselt werden.

Beim Importieren aus anderen Quellen als Epigrafdatenbanken, sollte analog zum Datenbanknamen ein eindeutiger Quellenbezeichner sowie ein eindeutiger Dokumentbezeichner aufgenommen werden. Wird zum Beispiel ein Artikel mit der Signatur "ani576mc" aus einem Korpus mit der Bezeichnung "Anima" importiert, dann wäre ein passendes IRI-Fragment anima~ani576mc.