Bestandsliste erstellen

Normierung und Vereinfachung der Titel der Datenbank

Die dem System zugrunde liegende Datenbank von Zeitschriften umfasst z. Zt. über 20000 Titel und damit den wesentlichen Teil der von wissenschaftlichen Datenbanken erfassten Zeitschriften. Die einzelnen Titel der Datenbank sind mit äusserst knappen Daten ausgestattet. Sie kann mit geringem Aufwand im Prinzip ohne jede Metadaten aufgebaut, erweitert und verwaltet werden. Als einzige Metadaten werden die ISSN verwendet, die aber lediglich einen Vorteil für die interne Verwaltung des Titelmaterials bieten, um z.B. doppelte Erfassungen zu vermeiden. Für die Recherche selbst und für die Verknüpfungen mit Google Scholar und Google sind diese aber nicht anwendbar. Diese werden lediglich über die vorliegenden Titel der Zeitschriften hergestellt. Auch die Verknüpfungen mit der EZB und der ZDB könnten problemlos über die Titel erfolgen. Nur bei Titeln, die allzuviele Treffer liefern, würden Nachteile entstehen.

Im Prinzip könnte die Datenbank also aus den vorliegenden Zeitschriftentiteln ohne eine identifiierende ISSN aufgebaut werden, natürlich ohne die nicht zum originalen Titel gehörenden zusätzlichen Vermerke (Erscheinungsdaten, Titeländerungen, Verfügbarkeit usw.). Dies ist für einen kleinen Teil der Datenbank auch bereits mit Erfolg geschehen. Nur bei gleichlautenden und kurzen Titeln wäre die Ergänzung mit ISSN vorteilhaft, um Verwechslungen bzw. bei den Verknüpfungen mit der EZB und der ZDB allzu viele Treffer zu vermeiden.

Die Verknüpfung mit Google Scholar erfordert aber in jedem Fall eine gewisse Normierung, da Google Scholar die Titel der Zeitschriften normalerweise ohne die auf bestimmte Zeichen folgenden ergänzenden Zusätze erfasst und ebenso den hinter der Serienkennung folgenden Zusatz weglässt. Beispiele:

>PALLAS: EINE ZEITSCHRIFT FÜR STAATS- UND KRIEGS-KUNST
=PALLAS
>HUAFEI-GONGYE = J OF THE CHEMICAL FERTILIZER INDUSTRY
=HUAFEI-GONGYE
>HYLE - AN INTERNATIONAL J FOR THE PHILOSOPHY OF CHEMISTRY
=HYLE
>ARCHIVE OF APPLIED MECHANICS / INGENIEUR ARCHIV
=ARCHIVE OF APPLIED MECHANICS

>ENVIRONMENTAL POLLUTION SERIES A: ECOLOGICAL AND BIOLOGICAL
=ENVIRONMENTAL POLLUTION SERIES A
>ENVIRONMENTAL POLLUTION SERIES B: CHEMICAL AND PHYSICAL
=ENVIRONMENTAL POLLUTION SERIES B

In diesen Beispielen werden die hinter den Zeichen : / - . stehenden Zusätze weggelassen. Es gibt aber Fälle, wo die hinter diesen Zeichen stehenden Ergänzungen wesentliche, d.h. unterscheidende Zusätze sind und wo diese daher nicht weggelassen werden können. Google Scholar übernimmt in diesen Fällen die Titel ohne diese Zeichen:

>ADVANCES IN HUMAN FACTORS/ERGONOMICS
= ADVANCES IN HUMAN FACTORS ERGONOMICS
>ARCHIVES OF DISEASE IN CHILDHOOD / EDUCATION AND PRACTICE
= ARCHIVES OF DISEASE IN CHILDHOOD EDUCATION AND PRACTICE
>ARCHIVES OF DISEASE IN CHILDHOOD / FETAL AND NEONATAL
= ARCHIVES OF DISEASE IN CHILDHOOD FETAL AND NEONATAL
>JAHRESBERICHT / UMWELTBUNDESAMT
= JAHRESBERICHT UMWELTBUNDESAMT

>CLINICAL MEDICINE: ARTHRITIS AND MUSCULOSKELETAL DISORDERS
>CLINICAL MEDICINE: BLOOD DISORDERS
>CLINICAL MEDICINE: CASE REPORTS
>CLINICAL MEDICINE: GASTROENTEROLOGY
>CLINICAL MEDICINE: PEDIATRICS

>CURRENT MEDICINAL CHEMISTRY. ANTI-CANCER AGENTS
= CURRENT MEDICINAL CHEMISTRY ANTI-CANCER AGENTS
>CURRENT MEDICINAL CHEMISTRY. ANTI-INFECTIVE AGENTS
= CURRENT MEDICINAL CHEMISTRY ANTI-INFECTIVE AGENTS

· In runden und eckigen Klammern Stehendes wird entfernt:
>ACM TRANSACTIONS ON DATABASE SYSTEMS (ACM TODS)
>J OF SYNCHROTRON RADIATION [SYNCHROTRON RADIATION ONLINE]

· Serienvermerke werden im allgemeinen ohne Zusätze nach den aufzählenden Zeichen oder Buchstaben (I,II..., A, B C ...) abgeschlossen, die folgenden Zusätze weggelassen. SERIES, SECTION, PART wird im allgemeinen beibehalten.
· Übersetzte Titel (z.B. die russischen nach C/C..) werden entfernt.
· Umlaute werden beibehalten, müssen für die Google Scholar-Verknüpfung allerdings umgewandelt werden, ebenso die anderen sprachbezogenen Zeichen.

Problematisch sind die gleichlautenden Titel, die überwiegend aus einem Titelwort bestehen und die o.g. gleichlautenden Titel mit unterschiedlichen Zusätzen. Mit dem Programm BearbEZB4 können aus der Liste der gefundenen EZB-Titel EZBgesamtISSN diese Titel aussortiert werden. Die so entstandene Liste gleichlautender Titel wird in das Einarbeitungssystem integriert. Einzuarbeitende Titel werden mit dieser Liste verglichen und, wenn gefunden, mit einem Fragezeichen versehen. Das Suchsystem wiederum zeigt bei Titeln mit einem ergänzten ? einen zusätzlichen Hyperlink an (gleiche Titel?). Beim Anklicken wird die Datei fensterG.htm gestartet, die die Liste gleichlautender Titel in einem Formularfeld enthält. Das enthaltene Programm vergleicht den betreffenden Titel mit dieser Liste und zeigt die gefundenen gleichlautenden Titel als mit der EZB verbundene Hyperlinks an. Google Scholar kann gleichlautende Titel nicht unterscheiden.

In diesem Programm fehlt die Erfassung der Zeitbeschränkung von Lizenzen, die im Einarbeitungsprogramm integriert ist, das daher eine etwas komplexere Programmierung erfordert.



Codezeilen mit Erläuterungen

Das Programm enthält dementsprechend im wesentlichen die Codierungen zum Entfernen von Zeichen und von Zusätzen hinter Zeichen. Der massgebliche, gekürzte Titel wird mit den Titeln der Datenbank verglichen. In den ausgeschriebenen Titeln werden die weggelassenen Zusätze hinter einem Doppelausrufezeichen angegeben, z.B.: >CYTOMETRY PART A=15524922!! (FORMERLY: CYTOMETRY ) (ÄLTER ALS 12 MONATE)

Einleitend werden einzelne wichtige Titel, bei denen die Zusätze bestehen bleiben müssen, bearbeitet, d.h. es werden die den Zusätzen vorangehenden Zeichen entfernt, damit die Zusätze bestehen bleiben:

Tx1=TA[x].replace(/BIOCHIMICA\sET\sBIOPHYSICA ACTA\s\(BBA\)\s\-/,"BIOCHIMICA ET BIOPHYSICA ACTA");
Tx2=Tx1.replace("CLINICAL MEDICINE:","CLINICAL MEDICINE");

.............................................................................................................

usw.

z=Tx.match(/\s\(.+\)|=.+|\s-.+|\s:.+|:.+|;.+/);// im Titel werden die Zeichen Klammer, Gleichheitszeichen, Bindestrich, Doppelpunkt und Semikolon mit den nachfolgenden Zusätzen gesucht
if(z)
zzs=z.join("");
if(!z)
zzs="";
Z1=Tx.replace(/\s\(.+\)|=.+|\s-.+|\s:.+|:.+|\(.+|\;.+/g,"")+"*";
Z1a=Z1.replace(/\s\*|\*/,"");// Verkürzter Zeitschriftentitel (Zusätze weggelassen)
if(z) // wenn Zusätze hinter Interpunktionen
{
Z2=Z1+"*";
za="!!";
}
if(!z) // wenn keine Zusätze hinter Interpunktionen
{
Z2=Tx+"*";
za="";
}
Z3aa=Z2.replace(/\s\(.+\)|\s:.+|:.+|=.+|\s-.+|\(.+|\s\*|\*|\.|,|'|`|´/g,"");// Entfernen von Zusätzen nach Zeichen und Zeichen
Z3a=Z3aa.replace(/-|\//g," ");// Entfernen von Zeichen - /
z3=Z3a.match(/SERIES\s\w\s.+|PART\s\w\s.+|SECTION\s\w\s.+/);
z3a=Z3a.match(/SERIES\s\w|\bPART\s\w|SECTION\s\w/);
if(z3)
{
Z3=Z3a.replace(z3[0],z3a[0]);z3a=Z3a.match(/SERIES\s\w|\bPART\s\w|SECTION\s\w/);// Entfernen der Zusätze bei Serien
}
if(!z3)
Z3=Z3a;
Z4=Z3.replace("(SUPPLEMENT)","SUPPLEMENT");

p=G.indexOf(">"+Z4+"=");// Suche in Datenbank G mit dem massgeblichen genauen Titel Z4
if(p!=-1)
{
treffer3++;
pa=G.indexOf(">",p+1);
Gs=G.substring(p,pa);
is=Gs.match(/=\d\d\d\d\d\d\d\w|=\d\d\d\d-\d\d\d\w/g);
F.document.write("<br>"+">"+Z3+is+za+zzs);//gefundene Titel in G
}
if(p==-1)
{
p2=TT.indexOf(">"+Z4+"=");//falls nicht in G gefunden, in TT (Ersatzdatenbank) suchen
if(p2!=-1)
{
treffer4++;
pa=TT.indexOf(">",p2+1);
Ts=TT.substring(p2,pa);
is=Ts.match(/=\d\d\d\d\d\d\d\w|=\d\d\d\d-\d\d\d\w/g);
F.document.write("<br>"+">"+Z3+is+za+zzs+" TT");//gefundene Titel in TT
}
}
if(p==-1&&p2==-1)
{
zzsa=zzs.replace(/:|-/,"");
Z5=Z4+zzsa;//falls nicht gefunden, Z5 gleich massgeblicher Titel + Zusatz, aber ohne = am Ende
pa=G.indexOf(">"+Z5);
pb=TT.indexOf(">"+Z5);
if(pa!=-1)
{
pb=G.indexOf(">",pa+1);// falls in G gefunden
Gs=G.substring(pa,pb);
ZG=Gs.replace(/=.+/,"");
d=ZG.length-Z5.length;// Differenz zum Zeichende des gefundenen Titels ZG
is=Gs.match(/=\d\d\d\d\d\d\d\w|=\d\d\d\d-\d\d\d\w/g);
F3.document.write("<br>"+">"+Z5+"....."+is+" G?"+d);// Zweifelhafte Treffer, wenn d<2, wahrscheinlich richtig
}
if(pb!=-1)
s=" T";
if(pa==-1&&pb==-1)
s="";
z=Tx.match(/=|\\|\/|'|´|`|:|;|\.|,|-/);

F2.document.write("<br>"+">"+Z3+za+zzs+" "+x+s);// nichtgefundene Titel