Datenübernahme und Datenausgabe aus einem beliebigen Format - Erläuterung

Die von Datenbanken angezeigten Zitate können sehr unterschiedliche Strukturen oder Formate aufweisen. Das hier vorgestellte System soll dazu dienen, aus diesen unterschiedlichen Formaten die relevanten Daten zu entnehmen - unabhängig von Metadaten und Standardformaten. Mit einer anschliessenden Bearbeitung lässt sich die Ausgabe der Daten in einem standardisierten Format oder die Übergabe der Daten an ein Such- und Verknüpfungssystem, an ein Linksystem oder eine Literaturverwaltung realisieren. Es handelt es sich also hier um eine wesentliche Basisfunktion sowohl für die Literaturverwaltung im allgemeinen als auch für Linkresolver oder Linksysteme.

Dieses System besteht aus einem Formular für die Datenübernahme und einem Such- und Ausgabeformular. Das Formular für die Datenübernahme enthält ein Schema mit einer Anzahl von Feldern. Mit diesem Schema wird ein vorliegendes Format analysiert.

Am einfachsten stellen sich Zitate dar, die durch Zeilenumbrüche gegliedert und voneinander durch Leerzeilen getrennt sind. Eine erfassbare Struktur ist ausserdem dadurch gegeben, dass die einzelnen Teile des Zitats in bestimmter Reihenfolge erscheinen, durch bestimmte Interpunktionen oder Zeichenfolgen gekennzeichnet sind. Die fehlende Trennung von Zitaten untereinander durch Zeilenumbrüche kann dagegen dadurch ersetzt werden, dass wiederkehrende Zeichenfolgen am Anfang oder Ende des Zitats als Trennungselemente dienen. Die Formate unterscheiden sich grundsätzlich nicht nur dadurch, wie die Zitate voneinander getrennt sind, sondern auch dadurch, ob ein einzelnes Format eine feste Zeilenanzahl aufweist oder ob diese Zeilenanzahl ist. Das letztere ist weit überwiegend. So können in einem Zitat eine Mehrzahl von Verfassern aufgeführt werden, die über mehr als eine Zeile gehen, oder ein Sachtitel kann über mehrere Zeilen laufen. Vom Formularschema aus können sowohl Formate mit wenigen Zeilen und Formate mit einer grösseren Zeilenanzahl bearbeitet werden.

Es gibt allerdings Zitate in Formaten, für die dieses Schema weniger geeignet ist. Auch für eine besonders genaue und umfassende Erfassung von Zitaten ist eine separate Analysierung und Codierung oft besser geeignet.

Die einzelnen Arbeisschritte kurz dargestellt

Auf der Startseite des Systems geben Sie in das Eingabefeld ein einzelnes, durch mehrere Zeilen strukturiertes Zitat durch Copy und Paste ein. Durch die Wahl von Neue Datenbank im Auswahlmenü öffnen Sie das Datenübernahmeformular.

In diesem Formular ist das einzelne Zitat in dem dafür vorgesehenen Feld bereits eingetragen. Dabei sind die Zeilenumbrüche und evtl. (bei Mozilla) auch die Tabulatorstellen mit einem Sternchen angegeben. Immer wiederkehrende einleitende Zeichen oder Hinweise vor dem mit Verfasser oder Sachtitel beginnenden Zitat entfernen Sie. Das Entfernte kann ggf. als Teil des Trennungsmerkmals oder als vollständiges Trennungsmerkmal verwendet werden.  

Darunter tragen Sie nun die Nummern der Positionen für die einzelnen Teile, z.B. mit 1, 2, 3, 4 ein.

Ein Current Contents-Zitat z.B. wird im Display des Schemas folgendermassen angezeigt:

**26. *Sander HA, Manson SM*Heights and locations of artificial structures in viewshed calculation: How close is close enough *LANDSCAPE AND URBAN PLANNING 82 (4): 257-270 OCT 17 2007* View full text from the publisher Elsevier Science*

Die Sternchen bezeichnen die Zeilenumbrüche. In diesem Fall sind die einzelnen Teile sehr leicht zu unterscheiden. Alle Zeichen vor dem reinen Verfassernamen dienen als Trennungselement und werden aus dem Display entfernt. Das Zitat beginnt nun mit dem Verfassernamen Sander. Die Reihenfolge der Positionen der einzelnen Teile ist 1 2 3 4.

Die Felder darunter werden wie folgt ausgefüllt:

Verfasser beginnt nach
Sachtitel beginnt nach
Zeitschrift beginnt nach
ErschDat beginnt mit endet vor

Ein Sternchen wird immer mit \* , eine Leerstelle mit \s, eine Ziffer mit \d angegeben. Es handelt sich hierbei um die in JavaScript verwendeten sogen. Regular Expressions. Wenn ein Punkt als Begrenzung dient, setzen Sie dafür \. ein, eine runde Klammer wird durch \( bzw. \) gekennzeichnet. Über regular expressions und die dabei verwendeten Sonderzeichen siehe der betreffende Teil der Grundlagen von JavaScript.

Beachten Sie, dass die Zitate in den Browsern Internet Explorer und Mozilla Firefox verschieden angezeigt werden. Auch das obige Beispiel wird sich in Mozilla etwas anders darstellen. Es ist übrigens ein besonders leicht zu behandelndes Beispiel. Die Zitate anderer Datenbanken sind oft schwieriger zu bearbeiten.

Über den Button Daten übernehmen werden die Daten erfasst und zur Kontrolle in vier Feldern angezeigt. Es können noch Korrekturen vorgenommen werden.

Über den untersten Schalterr öffnen Sie nun das Formular  des Multiplen Linksystems. Im Quellcode des Formulars (Datei AusgabeNa.htm)  fügen Sie innerhalb der Funktion starte() nach   if(document.forma.D1[12].selected) und vor if(document.forma.D1[13].selected) den folgenden Code ein:

if(document.forma.D1[13].selected) {
ta="";
tr="";
document.forma.T1.value=tr;
}
Hinter ta= fügen Sie zwischen die Anführungszeichen den ausgescchriebenen Suchstring ein, die Schrägstriche müssen hier allerdings verdoppelt werden. z.B. anstatt 
pv=2>ps=1>pz=3>pe=4>v1=\*>s1=>z1=\*>e1=\.>e2=\*   wird pv=2>ps=1>pz=3>pe=4>v1=\\*>s1=>z1=\\*>e1=\\.>e2=\\* geschrrieben.

Hinter tr= fügen Sie das Trennungszeichen der Zitate ein. Das können immer wiederkehrende Hinweise wie  Document\\sType oder  \\*Publisher: oder Zählungen mit Sternchen und Leerzeichen sein wie \\*\\d+\\s+ . Das Trennungsmerkmal muss entweder am Anfang oder am Ende eines jeden Zitats vorkommen. Es können auch mehrere Trennungsmerkmale zur Auswahl eingesetzt werden wie \\@article|\\@Article . Manchmal können Sie als Trennungsmerkmal  die dem Zitat vorangehenden Zeichen verwenden, die Sie, wie oben gezeigt,  im Display entfernen, damit das Zitat mit dem reinen Verfassernamen oder Sachtitel beginnen kann.

Den folgenden Code für D1[13] müssen Sie nun in D1[14] ändern. Schliesslich fügen Sie im HTML-Code für das Auswahlmenü D1 noch die Option für das neue Format ein:
 <option>............ </option> und zwar an vorletzter Stelle!  Wird die Option an anderer Stelle eingefügt, so muss entsprechend die Zählung im Code für D1[ ] geändert werden.