Entwurf
zusammengestellt von B. Eversberg
2.4.2004
Wort-Indexierung | String-Indexierung | Personennamen-Indexierung |
Nummern-Indexierung |
Anhang: Nichtsortierzeichen-Sonderbehandlung |
Diese Darstellung hat noch nicht den Charakter eines Regelwerks,
sondern stellt erst einmal bestehende Möglichkeiten zusammen und versucht,
einige Anforderungen zu konkretisieren. Vermutlich können, wegen der Vielfalt
der technischen Realisierungen, keine vergleichsweise strikten Regeln
aufgestellt werden wie in anderen Teilen eines Katalogisierungs-Regelwerks. Im
Interesse der Nutzer sind jedoch Angleichungen wünschenswert, die über den
bisherigen Stand deutlich hinausgehen.
Sinn der Richtlinien
Die neuen "Regeln für die
Formalkatalogisierung (RFK)" sollen auch ein Kapitel zur Indexierung
enthalten. Die grundlegenden Überlegungen dazu sind hier
dargelegt.
Die traditionellen Ordnungsregeln in den RAK
hatten
zum Ziel, die Katalogzettel in eine präzise festgelegte lineare
Abfolge
zu bringen, die für den Nutzer logisch nachvollziehbar war. Dazu
waren die
Ansetzungsregeln in einer Weise durchdacht, dass die Ansetzungsformen
der
Namen und Titel schon weitgehend mechanisch geordnet werden konnten.
Die
Ordnungsregeln mussten dann nicht mehr auf inhaltliche Aspekte Bezug
nehmen,
sondern konnten die in den "Köpfen" vorliegenden Zeichenketten
mechanisch
sortieren und es ergab sich wie von selbst eine logisch plausible
Abfolge.
In Online-Katalogen dagegen haben die Datensätze intern keine
lineare
Abfolge.
Der Zugriff geschieht in jedem Fall über Indexdateien sowie
Kurzlisten
von Teilmengen der Datenbank. An der Oberfläche mögen aus
Sicht
des Nutzers große Unterschiede zwischen den Katalogen bestehen,
doch prinzipiell sollten
logisch
gleiche Abfragen unabhängig vom System bei gleichen Daten zu
gleichen
Resultaten führen. Dazu ist es notwendig, die Struktur der
Indexdaten
und Kurzlisten zu regeln, und zwar im selben Sinne wie früher
die Anordnung der geköpften Karten: aus den Ansetzungsformen und
anderen
Titeldaten sollen wohldefinierte Zugriffskriterien gebildet werden.
Die Vielfalt der technisch möglichen
Konstruktionen
kann man nicht bis ins Kleinste reglementieren, zumal noch jederzeit
technische
Innovationen eintreten können. Die "Regeln für die
Formalkatalogisierung" müssen zunächst darauf abzielen,
diejenigen Zugriffe zu normieren, die zur Erfüllung der
definierten Aufgaben des
Kataloges nötig sind. Darüber hinaus sollen die Regeln
Empfehlungen
geben, in welcher Weise mit den Formaldaten weitere
Zugriffsmöglichkeiten eröffnet werden können, die in
konventionellen Katalogen nicht realisiert werden konnten.
Vorverarbeitung der
Nutzereingabe
Eine Katalogsoftware sollte die Eingaben des Nutzers formal so
vorverarbeiten, dass sie der Struktur der Register entsprechen. So
können unnötige Misserfolge vermindert werden. Die
nachfolgend beschriebenen Verfahren sind deshalb sinngemäß
auch auf die Nutzereingaben anzuwenden. Die Vorverarbeitung der Eingabe
kann darüber hinaus noch weitere Hilfestellungen leisten, so z.B. eine
Eingabe "Vorname Nachname" (Komma fehlt) umwandeln in "Nachname,
Vorname", doch ist hierbei Umsicht nötig, damit nicht die absichtsvolle
Eingabe eines erfahrenen Nutzers verfälscht wird oder undurchschaubare
Resultate herauskommen.
Zugriffsarten
Es ist zweckmäßig,
als Minimum folgende Arten von Registern zu unterscheiden:
1. | Namensregister, getrennt oder getrennt abfragbar als |
1a. | Personennamen |
1b. | Körperschaftsnamen (siehe 3.) |
1c. | Namens-Stichwortregister (d.h.
bei Personen: Vornamen und Familiennamen getrennt) |
2. | Stichwortregister für die Wörter, aus denen die Titel und Körperschaftsnamen bestehen |
3. | Zeichenfolgenregister
("String"-Register)
für die Titel einschl. der Gesamttitel |
4. | Nummernregister
für
Identnummern aller Art |
5. | Register für lokale und
für nichtbibliographische Kriterien, z.B. Signaturen oder
Geschäftsgangsdaten (nicht Gegenstand der Regeln) |
Ein System kann von jedem dieser Typen mehrere
verschiedene
anbieten, z.B. getrennte Wortregister für Titel-,
Körperschafts-
und Tagungsnamen, oder aber nur je ein kombiniertes Register für
jeden
dieser Typen.
Möglich ist ferner ein
Gesamt-Wortregister (sog. "Basic Index" oder "ALL-Register") mit
mehr als nur den Wörtern der Titelfelder. Dazu können auch
die Namen in Wörter zerlegt und es können ausgewählte
oder
alle
Teile (einschl. Fußnoten) der bibliographischen Beschreibung mit herangezogen werden.
Kombinierte Register
Ein System kann auch weitere Formen von Registern
anbieten, z.B. kombinierte
Name+Titel-Register (sinnvoll z.B. für Komponist+Einheitstitel),
Verlag+Jahr-Register,
u.a.m.
Titelstichwörter als Zugriffselemente
sind
in so gut wie allen Online-Katalogsystemen zu finden, auch Zugriffe
über
den Titel als Phrase (oder wenigstens seinen Anfangsteil) gibt es in
sehr vielen Systemen. Unterschiede
bestehen
aber in der Art und Weise, wie die Wörter und Titel aufbereitet
werden.
Katalogisierungsregeln haben sich bisher nicht mit diesen Fragen
beschäftigt,
vielmehr ist es weitgehend den Systementwicklern überlassen
worden,
wie sie die Aufgaben verstehen und lösen.
Besonders in virtuellen Katalogen wie dem KVK zeigt es sich, dass
Regeln
notwendig sind, denn sonst ist unklar, auf welche Art der Abfrage
man
sich verlassen kann oder eben nicht. Diese Ausarbeitung soll einen
Ansatz
dazu bieten.
Anm.: Die Richtlinien sind im Prinzip
unabhängig
davon, ob das Katalogsystem die Register sichtbar macht und den
Nutzer
darin blättern lässt oder nicht. Die
Erfahrung
zeigt, dass es sehr hilfreich sein kann, in sichtbaren Registern zu
blättern,
denn man sieht darin nicht nur, was wirklich vorhanden ist, sondern
auch,
was nicht vorhanden ist - weil es z.B. anders geschrieben wird oder
weil
es mehr als eine Schreibweise gibt.
Virtuelle Kataloge haben keine sichtbaren Register,
weil
es erstens programmtechnisch sehr schwierig wäre, Register aus
mehreren
Katalogen zu einer gemischten Anzeige zu vereinigen und zweitens, weil
die
Realisierung in den konkreten Systemen sehr unterschiedlich aussehen
und
daher nicht zu einer vereinheitlichten Form zusammengefasst werden
kann,
oder weil bei manchen Systemen gar kein für eine Anzeige
geeignetes Register existiert.
Normdaten
Wenn in einem Katalog Normdaten konsequent zum Einsatz kommen, sind
getrennte Normdaten-Register sinnvoll. Das Suchen und Blättern in
den normierten Namen und Titeln sowie den Verweisungsformen kann im
ersten Schritt zu der maßgeblichen Ansetzungsform eines Namens
oder Titels und im zweiten Schritt zu den damit verknüpften
Eintragungen hinführen. Beide Schritte können im Normalfall
automatisch hintereinander ablaufen, so dass man bei Eingabe einer
Verweisungsform automatisch die mit dem zugehörigen Normsatz
verknüpften Einträge erhält. Normdaten sollten, wie
Titeldaten, in
mehrfacher Weise indexiert werden, um die Suche über Wörter
und Wortkombinationen wie auch über Phrasen zu gestatten. Auch
für Normdaten ist ein sichtbares Register zum Blättern
unbedingt notwendig, um das Auffinden bei nicht genau bekannter
Schreibweise zu erleichtern.
Registeranzeige bei ergebnisloser Suche
Wenn eine Suchanfrage ergebnislos ist, soll das System, so weit wie
möglich, einen passenden Registerausschnitt anzeigen, d.h. dem
Nutzer einen Einblick geben in die Umgebung des nicht gefundenen
Suchbegriffs. Damit können viele Fehleingaben abgefangen und
Nutzer zwanglos zur richtigen Schreibweise hingeführt werden.
Dieser Effekt ergab sich beim Zettelkatalog aus der Natur der Sache
ganz von selbst und wurde durch Leitkarten noch unterstützt.
Hinter diesem Komfort soll ein Online-Katalog nicht zurückbleiben.
Kurzlisten sollen Gefundenes überschaubar
machen
Typisch für Online-Kataloge und völlig neu im Vergleich zu
Zettelkatalogen
ist es, dass dem Nutzer Ergebnismengen vorgelegt werden. Das
sind
Teilmengen des Katalogs, bestehend aus den Datensätzen, die
der
Anfrage des Nutzers entsprechen. Ergebnismengen müssen
zunächst
in möglichst knapper Form (und nicht etwa Titel für Titel
einzeln
hintereinander) und in sinnvoller Ordnung angezeigt werden, damit der Nutzer sich zunächst einen
Überblick
verschaffen kann, ob seine Anfrage erfolgreich war, und damit er dann
den
oder die Titel auswählen kann, die seinen Interessen am meisten
entsprechen.
Die Kurzanzeige der Ergebnismenge muss folglich diejenigen Elemente
enthalten,
die erfahrungsgemäß für Überblick und Auswahl am
besten
geeignet sind. Die Anordnung sollte zumindest wahlweise eine alphabetische nach
Verfasser
und/oder Titel oder eine umgekehrt chronologische sein (d.h. neueste
Titel zuerst). Ein System kann darüber
hinaus auch noch andere Anordnungen anbieten. Wenn es um die Anzeige
der
Werke eines Verfassers geht, sollte das System zu jedem Werk
die
vorhandenen Ausgaben zusammenfassen können - dies setzt die
Verwendung von
Einheitstiteln
voraus.
Sonderfall einer Ergebnismenge: Bei der Anzeige von Gesamtwerken
muss
es eine zusammenfassende Anzeige der zugehörigen Teile in einer
logisch sinnvollen Reihenfolge geben: mehrbändige Werke und Serien
sollen also in der Folge der Bandnummern angezeigt werden.
Einschränkung von Suchergebnissen
Früher manchmal "Sekundäraspekte" oder ähnlich genannt,
weil
man damit nicht direkt suchen konnte, bieten sich Kriterien wie
Erscheinungsjahr,
Sprache, Materialart und Dokumenttyp dazu an, große
Ergebnismengen zu verkleinern
Als
Minimum kann wohl nur das Erscheinungsjahr erwartet werden, andere
Kriterien
sind selten konsistent erfasst worden.
Phrasensuche
Darunter versteht man im Allgemeinen die Möglichkeit, nach
dem
Vorhandensein von exakten Wortfolgen suchen zu können, manchmal
auch
so, dass zwischen zwei vorgegebenen Wörtern in den
Suchergebnissen
noch eine bestimmbare Anzahl oder aber beliebig viele andere
Wörter stehen
können. Hilfreich sind solche Verfahren, wenn dem Nutzer
prägnante Wortfolgen aus dem Innern eines Titels oder Namens
bekannt sind. Programmtechnisch realisiert werden solche Funktionen in
der Regel auf der Basis
von Wortregistern, hängen also von deren Qualität ab, wobei
jeder
Eintrag in der Registerdatei eine Zahl mit sich führt, die angibt,
an
welcher Position der Wortfolge des Katalogisats dieses Wort steht.
Grundsatzentscheidungen
Zuerst ist genau festzulegen, welche Felder und evtl. Teilfelder wortweise zu indexieren sind. Als Minimum gelten alle Titelfelder einschließlich der Zusätze und alle Körperschaftsnamen. Hinzukommen können Serientitel und sodann Personennamen, um auch die Suche nach Vornamen zu ermöglichen.
Die Zerlegung der Felder in Worte und deren Aufbereitung soll für alle Wortregister nach demselben Verfahren erfolgen.
Verfahren zur Wort-Indexierung
Das Indexieren von Zeichenketten (Strings) wie Titeln oder Namen auf Wortebene setzt zunächst einmal voraus, daß diese Zeichenketten in Wörter zerlegt werden. Sodann ist zu regeln, wie bei der Indexierung Sonderbuchstaben (Umlaute, Ligaturen), Akzentbuchstaben, sowie Interpunktions- und Sonderzeichen zu behandeln sind.
Beispiele von Titeln zur Illustration der Detailprobleme:
Der nachfolgende Vorschlag versucht eine knappe und präzise Formulierung. Ob die einzelnen Schritte tatsächlich so programmiert werden können, richtet sich nach den Möglichkeiten eines Systems. Eine Veränderung der Reihenfolge dieser Schritte kann jedoch unterschiedliche Ergebnisse zur Folge haben!
Schritt 0 : Sonderbehandlung für Punkte und Teilfeld-Codes
Ersetze Punkt vor Ziffer durch Komma, sonst durch Leerzeichen. Dadurch wird das manchmal fehlende Leerzeichen nach Abkürzungspunkten ergänzt, Dezimalzahlen bleiben aber erhalten und werden vereinheitlicht, denn in diesen können sowohl Komma wie Punkt auftreten.
Mögliche Verfeinerung: folgt dem Punkt ein Buchstabe und ein weiterer Punkt, dann ersatzlose Beseitigung. (Aus U.S.A. wird dann USA, doch U. S. A. wird zu U S A ). Nach den RAK-Abkürzungsregeln (§202) sollten Initialfolgen und Akronyme ohne Punkte, aber jedenfalls ohne Spatien angesetzt werden, das ist jedoch in den Daten nicht konsequent so anzutreffen.
Relevant bei MARC-Daten: Ersetze Teilfeld-Codes, falls vorhanden (z.B. $b) durch Leerzeichen (d.h. aus "$b" wird " "). Teilfelder, die nicht zu indexieren sind, müssen vorher enrtfernt werden.
Schritt 1 : Zerlegung der Zeichenketten in Wörter
Die im Schritt 1 entstandenen Wörter werden weiter wie folgt behandelt:
Schritt 2 : Beseitigung von Dreifach-Kleinbuchstaben
Die einzelnen Wörter werden darauf untersucht,
ob Kleinbuchstaben dreifach hintereinander vorkommen, wie in Schifffahrt.
Solche Dreiergruppen werden auf Doppelzeichen reduziert. Wenn an der
Benutzerschnittstelle mit der Eingabe des Nutzers dasselbe passiert,
wird "Schifffahrt" auch dann
gefunden, wenn "Schiffahrt" eingegeben wurde und umgekehrt, d.h. dieser
Aspekt
der Rechtschreibreform hat keine Auswirkung. Durch die
Einschränkung auf Kleinbuchstaben bleibt z.B. IEEE erhalten, wegen
Schritt 1.1 wird aber
aus See-Elefant schließlich Seelefant.
Schritt 3 : Zeichen-Umcodierung
Nun müssen noch die Zeichencodes normiert werden, so daß beim Ordnen die Identifizierung gleicher Wörter möglich wird. Diese Operation kann über eine geeignete Tabelle gesteuert werden (siehe Anhang):
a) Grundsätze dabei sind:
Empfohlen wird ferner, in einem weiteren Schritt den Teil 3. zu wiederholen, jedoch mit dem Unterschied
b) Umlaute ==> Grundbuchstaben
(sog. "Doppel-Indexierung") um die Irritationen für ausländische Nutzer zu verringern (siehe Umlautgutachten: sog. Doppelindexierung). Es entstehen dann zusätzliche Wörter aus allen Wörtern, die Umlaute enthalten, z.B. konig aus König. Bei den zunehmenden Abfragen aus dem Ausland über WWW oder Z39.50 muß man mit solchen Suchanfragen rechnen.
Schritt 4
Aus der so entstandenen Liste von Wörtern werden doppelt vorkommende sowie Stoppwörter gestrichen. Es wird empfohlen, eine Stoppwortliste so kurz wie möglich zu halten. Manche Systeme kennen ein Entstoppungszeichen. Steht dieses vor einem Stoppwort, so wird es in dem Fall nicht als Stoppwort gewertet. Das zum Entstoppen verwendete Sonderzeichen darf deshalb erst an dieser Stelle, nach der Stoppwortprüfung, entfernt werden.
Beispiele
Die beschriebene Verfahrensweise liefert z.B. aus dem Titel
"Die Kaiser-Wilhelm-Gedächtnis-Kirche von Egon Eiermann in West-Berlin"
die Indexwörter
kaiserwilhelmgedaechtniskirche
kaiser
wilhelm
gedaechtnis
kirche
egon
eiermann
westberlin
west
berlin
und aus "Calcium/Calmodulin-bindende
Proteine" entstehen
calciumcalmodulinbindende
calcium
calmodulin
bindende
proteine
Aus dem Beispiel "Le origini
dell'urbanistica moderna <dt.>" wird
origini
dellurbanistica
dell (falls kein Stoppwort)
urbanistica
moderna
dt
Und aus "2,5-N,N'-Dicyandiimin-2,5-dihydrothieno<3,2-b>thiophene
(DCNTT)" entsteht:
2,5n,ndicyandiimin2,5dihydrothieno3,2bthiophene
dcntt
2,5
n,n
dicyandiimin
dihydrothieno
b
3,2
thiophene
Anmerkung
Die letzten drei erhält man nur, wenn auch die Klammersymbole als
Worttrennung
behandelt werden (Schritt 1).
Beispiel für eckige Klammern im Wort
Aus dem Titel "D[okto]r Murkes gesammeltes Schweigen" werden diese Einträge:
doktoraber nicht: dr. Um auch dieses zu erzielen, muß man im Schritt 1 vor der Beseitigung der Klammern noch die evtl. im Wort vorhandenen Teile in [...] beseitigen. Das empfiehlt sich, weil es sich dabei in aller Regel um Hinzufügungen der Katalogisierung handelt, die der Nutzer wohl eher nicht erwartet.
murkes
gesammeltes
schweigen
Im Gegensatz zur Wort-Indexierung werden hier komplette Inhalte von Feldern oder Unterfeldern als Ganzes in ein Register eingeordnet.
Ein Stringregister hat seine Bedeutung deutlich mehr
als ein Wortregister für das Browsing, nicht so sehr für die
Abfrage. Vor allem die sog. Einwort-Titel, aber auch ungenau bekannte
Titel mit hochfrequenten
Wörtern am Anfang können damit oft sehr leicht gefunden
werden,
allein über ein Wortregister aber manchmal gar nicht, wenn die
Einträge
unter dem betr. Wort sehr zahlreich sind.
Wenn ein String-Register zur Abfrage eingesetzt wird, dann wird
meistens
eine automatische Rechts-Trunkierung ausgeführt. Für das
effektive
Suchen nach den besagten Einwort-Titeln muss dann aber diese
Trunkierung
abschaltbar sein.
Grundsatzentscheidung
Für Titel, Körperschaftsnamen, Serientitel können getrennte Register oder auch ein Gesamtregister angelegt werden.
Titel mit körperschaftlichen Ergänzungen
Das einzig sinnvolle Verfahren scheint zu sein, die
körperschaftliche Ergänzung schlicht als Verlängerung an
den Titel anzuhängen, also unmittelbar mit einem Spatium
anzuschließen. Der unspezifische
Titel wird dadurch zwanglos zu einem spezifischen (z.B. Report,
Jahresbericht,
...)
Titel mit Zusätzen
Zusätze sind nicht selten nichtssagend und dem
Suchenden
unbekannt, aber keine Software kann erkennen, ob ein solcher oder ein
signifikanter
Zusatz vorliegt.
Für Titel mit Zusatz gibt es drei
grundsätzliche Möglichkeiten:
Die Variante b.1. hat immerhin den Vorteil, daß man beim Browsing zuerst die Titel ohne Zusatz sieht, dann in einem eigenen Abschnitt diejenigen mit Zusatz, und dann die längeren Titel mit gleichem Anfang.
Nicht unproblematisch ist das Nichtsortierzeichen. Es dient ausdrücklich dazu, neben Artikeln am Anfang auch Teile im Innern von Titeln zu markieren, um sie bei Ordnungsvorgängen ausschließen zu können. (Pica ist hier untypisch: es hat nur ein Zeichen für den Sortierbeginn am Titelanfang. Daher sind Pica-Daten in diesem Punkt mit Daten anderer Verbünde nicht immer kompatibel, sondern nur mit MARC-Daten.)
Sonderproblem mit Nichtsortierwörtern
Es kommen in Titeln zwei logisch verschiedene Situationen vor:
¬Der¬ Campus : Roman
¬486er¬ [Vierhundertsechsundachtziger] und Pentium : Programmierung
Im zweiten Beispiel folgt dem markierten Wort eine Ergänzung in eckigen Klammern. Nach den älteren Gepflogenheiten wurden Zahlen in Sachtiteln als Wörter angesetzt und geordnet, die neueren Regeln verfahren aber umgekehrt: es wird streng nach Vorlage angesetzt und also auch geordnet. Das zwingt dann zu einem etwas komplizierten Sonderverfahren, will man Einheitlichkeit im String-Register erreichen:
Folgt auf ¬ ein Spatium und eine [ , so müssen die zwei vorangehenden ¬-Zeichen beseitigt werden. Die Zusätze in eckigen Klammern werden in jedem Fall beseitigt. Man muß davon ausgehen, daß es sich fast immer tatsächlich um Ergänzungen der Katalogisierung handelt, denn eckige Klammern in der Vorlage sind nach Regelwerk immer schon durch runde oder spitze ersetzt worden. (Man sieht in den Beispielen oben zwar auch eine Ausnahme ([alpha]v[beta]...), die aber einen Erfassungsfehler darstellt!) Würde man mechanisch sowohl ¬...¬ als auch [...] beseitigen, bliebe im Beispiel nur
"und Pentium : Programmierung" übrig, mit Sonderverfahren erhält man aber
"486er und Pentium : Programmierung", wie es der neuen RAK-Ansetzung entspricht.
Alte und neue RAK-Daten können somit per Programm identische Registereinträge liefern!
(Ein leicht programmierbarer und schon getesteter Algorithmus für das Sonderverfahren wird im Anhang vorgestellt.)
Kann jedoch das Sonderverfahren nicht angewendet werden, bleibt nur das einfachere Verfahren, daß man durchweg ¬...¬ beseitigt, aber [...] nicht - was auf die älteren Regeln hinausläuft. Daten nach neueren Regeln würden dann abweichende Einträge liefern, da die Ergänzungen in [...] fehlen.
Programmiertechnisch die einfachste Lösung wäre es, eckig geklammerte Zusätze zu beseitigen, das Nichtsortierzeichen aber ohne Wirkung ersatzlos wegzulassen (es also de facto bedeutungslos werden zu lassen). Das aber würde heißen, daß alle mit Artikel beginnenden Titel auch unter dem Artikel eingeordnet würden. (Beim Suchen müsste dann häufig daran gedacht werden, daß die Vorlagefassung des Titels evtl. mit einem Artikel beginnt oder im Zitat fälschlich ein Artikel angegeben ist.) Nicht nur wäre dies konträr zu aller bisherigen Praxis, es würde auch die in das Markieren des Sortierbeginns investierte Arbeit und Überlegung mit einem Schlag entwerten. Ein so gravierender Schritt müsste auf sorgfältige Abwägung, gründliche Tests und einen breiten Konsens gegründet sein, und dürfte nicht etwa schlichtweg durch Kapitulation vor einem kleinen Programmierproblem ausgelöst werden.
Schritt 0 : Sonderbehandlung für Punkte
Wie beim Wortregister. Siehe aber Schritt 2.
Schritt 1 : Nichtsortierteile beseitigen (d.h. Anwendung des oben beschriebenen Sonderverfahrens)
Schritt 2 : Worttrenner beseitigen
Gedankenstriche beseitigen, d.h. ersetze die Kombination "Spatium Bindestrich Spatium" durch "Spatium".
Kombination "Komma Spatium" durch "Spatium" ersetzen.
Beseitige ersatzlos die Zeichen - / ' ( ) < > aus den so entstandenen Strings. (West-Berlin à Westberlin)
Schritt 3 : Beseitigung von Dreifach-Kleinbuchstaben
Wie beim Wortregister. Falls es in den Daten
Mehrfach-Leerzeichen gibt, müssen diese auf eins reduziert werden.
(Die meisten Systeme eliminieren solche Leerzeichen schon bei der
Erfassung.)
Schritt 4 : Umcodierung
Diese Operation sollte über dieselbe Tabelle gesteuert werden wie beim Wortindex (siehe dort Schritt 3). Wendet man auf die Zusätze die Lösung b) mit Variante 1 an, muß der Doppelpunkt aber erhalten bleiben.
Schritt 5 : Längenbegrenzung
In der Regel hat ein Datenbanksystem eine Längenbegrenzung für Indexeinträge. Das Abschneiden auf diese Länge sollte erst nach der Umcodierung erfolgen, denn der String kann bei deren Durchführung länger oder kürzer werden (Umlautauflösung, Artikel- und Sonderzeichenbeseitigung).
Beispiele: aus den Beispieltiteln (siehe oben) sollten folgende Stringeinträge entstehen:
Natur - Mensch - Technik
natur mensch technik
Wasser-, Nähr- und Schadstoffdynamik
Wasserstoff, die Energie für alle Zeiten
wasserstoff die energie fuer alle zeiten
Kaiser, Reichspräsident und U. S. A.
Präsident
C++- und Smalltalk-Quellcode
C*-algebras and W*-algebras
calgebras and walgebras
C*- und W*-Algebren
c and walgebras
Untersuchung der Endzustände µ+µ- und e+e- am Elektron-Positron-Speicherring Doris
Calcium/Calmodulin-bindende Proteine
calciumcalmodulinbindende proteine
¬Das¬ 8086/8088-Buch
80868088buch
¬Das¬ ¬8086¬
[achtzigsechsundachtzig]-Buch
8086buch
¬007¬ [Null-Null-Sieben]
007
2,5-N,N'-Dicyandiimin-2,5-dihydrothieno(3,2-b)thiophene
(DCNTT)
¬A¬ D. H. Lawrence Handbook
Who's who in CIA
Usines d'aujourd'hui
De l'origine des choses
¬Le¬ origini dell'urbanistica moderna
<dt.>
Lern-, handlungs- und tätigkeitspsychologische
Modelle
¬Dem¬ Zufall (k)eine Chance!?
Von α,β-ungesättigten
Ketonen und ihren Oxymen
[alpha]v[beta]3-Integrin Inhibitoren durch räumliches Screeningv3integrin inhibitoren durch raeumliches screeningD[okto]r Murkes gesammeltes Schweigendr murkes gesammeltes schweigen
Personennamen-Indexierung
Grundsatzentscheidungen
Alle angesetzten Personennamen (Haupt- und
Verweisungsformen) sollten, ohne
Differenzierung
der Funktion der Personen, in einem gemeinsamen Register indexiert sein.
Ergebnis der Ansetzung ist eine Zeichenfolge, die als Ganzes in das
Namensregister
aufzunehmen ist. Die Ansetzungsregeln schreiben bereits vor, in welcher
Weise
z.B. Präfixe zu schreiben sind, d.h. die eingegebenen Namensformen
haben
schon die logisch richtige Form für die Einordnung in ein
Namensregister.
Zusätzlich wird empfohlen, Personennamen nach der Methode
der
Wortindexierung in Bestandteile zu zerlegen und die so entstehenden
Wörter ebenfalls zu indexieren. Dadurch wird die Suche nach
Vornamen und deren Kombination mit anderen Bestandteilen möglich.
Es sollte jedoch ein sichtbares
Personennamenregister
geben, das nur die vollständigen Personennamen zeigt.
Wenn mit einer Normdatei gearbeitet wird, enthält ein Titelsatz
nur
die Ansetzungsform eines Namens, die Verweisungsformen stehen im
Normsatz.
Jede Namensform, ob sie im Titelsatz steht oder in einem Normsatz,
sollte
in gleicher Weise indexiert werden.
Auf alle Namensregister-Einträge sind die Regeln anzuwenden, die
im
Schritt 3 für die Wort-Indexierung angegeben sind. Die
Doppelindexierung der Umlaute empfiehlt sich auch und gerade für
Namen.
Doppelnamen-Behandlung
In Katalogdaten und Namens-Normdaten wurden teilweise, wie
früher in
Zettelkatalogen,
die zweiten Teile von Doppelnamen als Verweisungsformen mit erfasst.
Mit
einem einfachen Algorithmus können solche Verweisungen jedoch
automatisch
erzeugt werden, d.h. die gesonderte Erfassung solcher Verweisungsformen
ist
unnötig.
Entsprechendes gilt für Namen mit Präfixen.
Grundsatzentscheidungen
Alle erfassten Nummern sollten in einem gemeinsamen Register indexiert sein. Wahlweise kann es eine Software ermöglichen, eine Suche auf einen bestimmten Nummerntyp einzugrenzen, z.B. die ISBN oder ISSN.
Voraussetzung für das Funktionieren ist,
daß die Nichtsortierzeichen nach dem Schema ¬Der¬ Titel gesetzt sind, nicht nach
dem Schema ¬Der ¬Titel, d.h.
daß das dem Artikel
folgende Leerzeichen NICHT mit eingeschlossen ist, sondern dem zweiten ¬ folgt. Ansonsten können dann
innerhalb
des Titels mehrere Bestandteile auf diese Weise markiert sein. Vor
jedem solchen
Bestandteil, also immer vor dem ersten von zwei ¬,
muß dann ein Leerzeichen stehen, sonst funktioniert der
Algorithmus
nicht unbedingt korrekt. Es könnte Ausnahmefälle geben,
jedoch
sicher äußerst selten. Der Algorithmus verwendet drei
Variablen: UZ, BZ und TZ
1. Die noch unbehandelte Zeichenfolge des Titels oder Namens kommt in eine Variable UZ. Die bereinigte Zeichenfolge soll in eine Variable BZ
Schleifenbeginn
2. Der Anfang von UZ bis vor dem ersten " ¬" (Spatium Nichtsortierzeichen)
wird in die Hilfsvariable TZ kopiert
3. Wenn in TZ die Kombination "¬ [" vorkommt: [...] beseitigen, das
Zeichen
¬ beseitigen, TZ plus ein Leerzeichen an BZ
anhängen
4. Sonst: ¬...¬ UND [...] beseitigen, TZ plus ein Leerzeichen an BZ anhängen
5. Von UZ den Teil hinter " ¬" nach UZ kopieren (UZ wird dadurch kürzer oder leer)
Schleife fortsetzen, wenn noch etwas übrig ist; sonst (d.h. wenn kein " ¬" mehr vorhanden) Ende der Schleife.
BZ ist fertig zur weiteren Bearbeitung (Zeichenumwandlung und Einordnung).
Anmerkung
Der Algorithmus wurde mit allegro-C implementiert und
getestet.
Es genügte dazu ein 7-zeiliges Unterprogramm in der
Indexparameterdatei.