Subject Heading für den SWB

Der Abgleich findet für 887289 Titel im SWB einen oder mehrere Treffer in der BNB. Von den Titeln ohne Subject Headings könnten für 525306 Subject Headings aus der BNB in den SWB übertragen werden.

Das wäre eine glatte Verdopplung.

Veröffentlicht unter Sacherschließung, Status | Hinterlasse einen Kommentar

BNB, SWB und Subject Headings – Zahlen

Im SWB sind bereits etliche Titel direkt mit der BNB verknüpft oder enthalten Subject Headings. Alle hier genannten Zahlen beziehen sich auf im SWB enthaltene Monografien. Zeitschriften, Gesamt- und Reihenaufnahmen sowie Aufsätze werden nicht berücksichtigt.

Titel mit BNB-ID in MAB2 Feld 025b: 285098
Titel mit Subject Headings in MAB2 Feld 740s: 552680
Titel mit BNB-ID, aber ohne Subject Headings: 107149

Die CC-0 lizenzierten Metadaten aus der BNB enthalten 2985775 Titelaufnahmen, davon 2305830 mit Subject Headings (77%).

Von den 107149 bereits verlinkten Titeln lassen sich 80938 aus der BNB mit Subject Headings anreichern.

Veröffentlicht unter Sacherschließung, Status | Hinterlasse einen Kommentar

Subject Headings aus der BNB für den Südwestverbund

Da das Feedback zu dem Abgleich zwischen Südwestverbund und Hebis sehr positiv war, möchte ich das Verfahren auf weitere Quellen ausweiten. Die Daten der British National Bibliography stehen unter einer freien Lizenz zum Download und sind durchgängig mit subject headings erschlossen. Sie bieten sich von daher für ein solches Experiment an.

Eine erste Durchsicht der Daten zeigt, dass bei Personen und Körperschaften der Abgleich angepasst werden muss. So sind Vornamen häufig abgekürzt und Körperschaften anders angesetzt.

Mal schauen, wie viele Titel aus dem SWB sich in der BNB wiederfinden lassen – und für wieviele über diesen Abgleich neue Sacherschließungsinformationen gefunden werden können.

Veröffentlicht unter Status | Hinterlasse einen Kommentar

Rohdaten Abgleich SWB-Hebis

Die Ergebnisse des Abgleichs von SWB und HeBIS als Rohdaten im CSV-Format. Die Felder sind:

  • Art des Vergleichs: 304 oder 331
  • PPN
  • Anzahl vergleichbarer Titelaufnahmen
  • PPNs der vergleichbaren Titelaufnahmen, mit Blank getrennt

Auf data.bib.uni-mannheim.de werden wir diesen Ergebnisse als Linked Data aufbereiten. Einen ersten Versuch haben wir bereits geladen, aber es ist bei weitem noch nicht „rund“.

Download CSV:
BZip2-gepackte Datei

Veröffentlicht unter Linked Data | Verschlagwortet mit | Hinterlasse einen Kommentar

Nicht nur ähnlich, sondern (fast) gleich

In Abstimmung mit den beiden an den RVK-Projekten beteiligten Verbünden habe ich die Daten nach einer anderen Fragestellung analysiert: Welche Titel sind so ähnlich, dass sie zum Zweck der Erschließung nach RVK und RSWK als gleichwertig anzusehen sind?

Als Basis für den Vergleich dienten zum einen die MAB2 Kategorien 100_, 104a, 108a, 200_, 204a, 208a, 100b, 104b, 108b, 200b, 204b, 208b (Autoren, Urheber, sonstige Beteiligte) und 304_ oder 331 plus 335 (Einheitssachtitel bzw. Hauptsachtitel plus Zusätze). Titel, die in einem Element der ersten Gruppe und in einem der zweiten Gruppe exakt übereinstimmen, werden als gleichwertig gekennzeichnet.

Aus den beiden Verbünden wurden 22 Millionen Titel für den Vergleich herangezogen, und auf die beschriebene Weise für ca. 9 Millionen Titel ein oder mehrere gleichwertige gefunden. Würden für Titel ohne RVK und RSWK die Einträge aus gleichwertigen Titeln 1:1 übernommen, könnten die folgenden Titelmengen angereichert werden:

SWB: 788.578 mit RVK, 506.267 mit RSWK

Hebis: 808.990 mit RVK, 920.845 mit RSWK

Veröffentlicht unter RVK | 3 Kommentare

Zurück auf Los

Die Kollegen in SWB und HeBIS haben die Datenlieferungen anhand von Stichproben überprüft und sind zu dem Ergebnis gekommen, dass die Qualität der automatisch generierten Klassifikationen zu schlecht ist, um direkt in die Verbunddatenbanken eingespielt zu werden.
Ich habe die Probleme in den Daten nachvollziehen können. Ursache für die starke Abweichung von den Testläufen (d.i. die automatische Neuklassifikation von Titeln ohne Nutzung der bereits vorhandenen Notation(en) mit anschießendem Vergleich) ist eine zusätzliche Filterstufe, die in den Testläufen nicht angewendet wurde. Aufgrund der Anforderung der Verbünde, möglichst nicht mehr als vier unterschiedliche Notationen pro Titel zu vergeben, wurde dieser Filter notwendig.
Findet das Verfahren mehrere gleich ähnliche Titel, kumulieren die dazugehörigen Notationen. Der Filter sortiert die Notationen nach Häufigkeit in der gefundenen Titelmenge und verwirft die selteneren. Die Annahme, dass damit eher falsche Notationen verworfen werden und das Endergebnis vergleichbar gut bleibt, kann rückblickend nur als naiv bezeichnet werden.
Als Lösung bleibt nur, die verschiedenen Verfahren kombiniert mit mehreren Filtern erneut im Testlauf zu überprüfen. Dabei ensteht eine Ergebnismatrix, die den Einfluss der Filter auf die Güte der Verfahren und die Anzahl der gelieferten Notationen dokumentiert. Für die unterschiedlichen Anwendungen kann dann aufgrund dieser Daten die beste Kombination aus Suchverfahren und Filter ausgewählt werden.
Die Testläufe für drei Verfahren sind auf dem Grid gelaufen. Ich arbeite derzeit an der Filterung und Auswertung.

Veröffentlicht unter automatische Klassifikation, RVK, Status | 3 Kommentare

Datenlieferung HeBIS

Von HeBIS wurde mir ebenfalls ein Komplettabzug zur Verfügung gestellt. Diesen habe ich mit den Daten aus dem SWB kombiniert und eine gemeinsame Datenbasis mit ca. 3,8 Millionen Einträgen für die automatische Klassifikation erstellt.

Die in HeBIS noch nicht klassifizierten Titel wurden am vergangenen Wochenende auf dem Mannheimer Cluster automatisch klassifiziert. 110 Nodes mit insgesamt 880 CPUs benötigten dafür etwa 30 Stunden.

Die Daten sind dem HeBIS Verbund bereits zugegangen und werden derzeit geprüft.

Veröffentlicht unter automatische Klassifikation, RVK, Status | Hinterlasse einen Kommentar

Datenlieferung an den SWB erfolgt

Vor wenigen Tagen habe ich den Datensatz für den SWB fertiggestellt. Von den ca. 8 Millionen nicht nach RVK erschlossenen Titeln konnten nur ca. 350000 nicht mit einer RVK versehen werden, da keines der Titelworte in Übereinstimmung mit einem Wort aus der erschlossenen Titelmenge gebracht werden konnte. Die Daten werden in Kürze in der Testdatenbank des SWB zur Verfügung stehen.

Veröffentlicht unter Status | Hinterlasse einen Kommentar

Korrelation zwischen RVK und SWD

Ich habe analog zu der Analyse des gemeinsamen Auftretens von RVK-Notationen den Zusammenhang zwischen RVK-Notationen und SWD-Schlagwörtern untersucht. Grundlage waren alle Titel aus dem SWB-Verbundabzug, die sowohl nach RVK als auch nach RSWK erschlossen waren. Es wurden nur Sach-, Personen, Zeit- und geografische Schlagwörter berücksichtigt.

Für die Auswahl wurde als Kriterium wieder eine Mindestmenge von 20 Titeln und einer Übereinstimmung bei mindestens 50% der Titel herangezogen.

Die Ergebnissdateien habe ich hier verlinkt.
Daten Auswahl (Excel)

Daten komplett (ZIP-Archiv, Tab-separierte Zeilen, alle gemeinsamen Vorkommen)

Veröffentlicht unter RVK | Hinterlasse einen Kommentar

Gleichzeitiges Auftreten von RVK-Notationen

Die RVK besitzt die Eigenschaft, dass der gleiche Inhalt durch unterschiedliche Notationen repräsentiert werden kann. Diese Doppelstellen sind gewollt und bei der Bearbeitung durch einen fachkundigen Bearbeiter in der Regel kein Problem. Bei der maschinellen Verarbeitung kommt es aber zu Problemen, da diese Doppelstellen weder einheitlich dokumentiert noch maschinenlesbar in den XML-Daten hinterlegt sind.

Anhand des SWB-Verbundabzuges habe ich untersucht, ob es Paare von Notationen gibt, die auffällig häufig gemeinsam auftreten. Dabei wurde für jede Notation die damit verknüpften Titel gesucht und in dieser Teilmenge die gemeinsam auftretenden Notationen gezählt.

Für die engere Auswahl habe ich nur die Notationspaare in Betracht gezogen, bei denen die erste Notation mit mehr als 20 Titeln verknüpft ist und die zweite Notation bei mehr als der Hälfte der Titel ebenfalls auftaucht. Dabei blieben immer noch mehr als 4000 Paare übrig – da die Reihenfolge hierbei eine Rolle spielt, sind darin in vielen (abe rnicht allen) Fällen die beiden Permutationen eines Paares enthalten.

Die Ergebnisse habe ich hier verlinkt.
Daten Auswahl (Excel)
Daten komplett (ZIP-Archiv, Tab-separierte Zeilen, alle gemeinsamen Vorkommen)

Eine Beispielzeile (mit Semikolon anstelle des Tab):
BF 1400;594;CD 1100;427;0.718855218855219
Bedeutung: „Die Notation BF 1400 ist mit 594 Titeln verknüpft. Von diesen sind 427 (u.a.) auch mit der Notation CD 1100 verknüpft. Die Wahrscheinlichkeit, dass ein Titel, der mit BF 1400 klassifiziert ist, auch mit CD 1100 klassifiziert ist, ist 0,71.“

Ich werde diese Information nutzen, um die in den automatischen Verfahren gewonnenen Notationen zu evaluieren. Das Verfahren wird in der Regel alle anhand der Quelldaten zu ermittelnden Notationen finden, was zu der vergleichsweise hohen Zahl an zurückgelieferten Notationen pro Titel führt. Spannend ist, welchen Anteil daran die gefundenen auffälligen Paare haben.

Veröffentlicht unter RVK | Hinterlasse einen Kommentar