Sonntag, 19. Juli 2020

A Machine Learning Approach with Ensemble Methods for Deduplication of Swissbib Data

The notion of Machine Learning includes a wide group of statistical algorithms where a computer system learns on a set of training data and, after having completed its learning phase, uses its experience to generate predictions on new, unknown data. In the context of the capstone project of an advanced online training course at EPF Lausanne, a swissbib admirer takes the challenge to do Machine Learning with a set of library catalogue data in MARC 21 format. The goal of the project is to build an artificial machine being capable to find duplicate records in the data. The project is done with three distinct groups of models. In this blog, the results of a Decision Tree and a Random Forests model are presented.

The starting point for Machine Learning is data. The data generally consists of two distinct types of variables, features and its target. The variables of the data set that serve as input for computing the prediction are called features. The features of the data are constructed with the help of two records of original swissbib data containing raw information of a bibliographic unit, each. Such two records of raw data are paired in each of its attributes, calculating a numerical similarity distance for each pair of same attributes of the two bibliographical records, see figure 1. For example, for two arbitrary records, the mathematical distance between title1 (title of record r1) and title2 (title of record r2) are determined to be the feature titleΔ = sim(title1,title2), where sim(x1,x2) is a mathematical similarity function. For the project at hand, twenty distinct similarities of two times twenty raw data attributes like title, author, year, ISBN, ISMN, etc. are calculated for each feature record. Therefore, the number of features are twenty. A feature record is represented as an array in the memory of a computer system. All rows of feature arrays can be represented in the form of a matrix. Therefore, the full set of this data is called feature matrix. The total of feature records used for training the data is nearly 260'000.
Figure 1: Records pairing
Figure 1: Records pairing
The variable of a data set that is to be predicted by the machine is called output or target, see figure 2. Each feature record has its target value. For each feature record of the project described above, the target variable indicates whether a data row of features is either a row of unique records or a row of duplicate records. The possible target values are 0 (row of unique records) or 1 (row of duplicate records), resp. A more detailed description on how to calculate the feature matrix and its array of target values for the training data will be given in a later blog to come.
Figure 2: Feature matrix, machine and target
Figure 2: Feature matrix, machine and target
The idea behind a Decision Tree algorithm is that the computer system learns a set of sequential if-then-else rules that lead to a final decision. Each if-then-else statement is called a node of the Decision Tree. The nodes are arranged in sequences to form of a binary tree, see figure 3, which is the reason for its naming. In the swissbib project, the set of if-then-else rules is a sequence of thresholds for binary statements of one feature variable that can either be lower or higher than the specific threshold. To classify a feature record, the algorithm starts at the top of the tree and evaluates the statement in each node on its path down. Depending on the threshold value, the algorithm decides for the right-lower or the left-lower node as the next node until reaching the bottom of the tree. The final decision is called a leaf of the Decision Tree. The leaf concludes the decision wether the feature record is a pair of uniques or a pair of duplicates. During training a Decision Tree, the if-then-else rules of the nodes are adjusted iteratively until the Decision Tree predicts the target value of the training data feature rows with the highest possible probability according to a function to measure the quality of decisions, called criterion. When this highest power of prediction on the training data is reached, the Decision Tree can be used for predicting new, unseen data.
Figure 3: Graphical representation of the Decision Tree on swissbib data
Figure 3: Graphical representation of the Decision Tree on swissbib data
Decision Tree is a classical method of Machine Learning. Its advantage is its clarity. It can be easily interpreted when looking at the trained model tree. A Decision Tree classifier can be built with the help of different parameters. In the project, the varied parameters are the maximum depth of the tree as well as the so called criterion, the mathematical function to measure the quality of a split in the nodes. Several specific Decision Trees are calculated with the help of cross-validation and their prediction power is compared. The project finds the best Decision Tree for swissbib data to have a maximum depth of 26 nodes and a criterion of Gini impurity.

The performance of a Machine Learning classifier can be measured with the help of some metrics derived from the confusion matrix, see figure 4. The confusion matrix compares the predictions of a trained machine on some validation data with their given target values. Four cases can be distinguished.
  • Two "true" cases (1. "true positive" and 2. "true negative") according to the two specific classes are the correctly predicted records of the validation data.
  • Two "false" cases (3. "false positive" and 4. "false negative") according to the two specific classes are the wrongly predicted records of the validation data.
Figure 4: Confusion matrix
Figure 4: Confusion matrix
From the four cases above, a metrics called accuracy can be calculated, allowing a statement on the prediction quality of the model on unknown data. For swissbib's calculated Decision Tree, an accuracy value of nearly 99.95% can be reached. This accuracy means 27 wrongly predicted records on a total of 51'886 validation records.

For comparison reasons, a Random Forests model is calculated additionally. A Random Forests is an Ensemble method. It consists of an ensemble of Decision Trees that are assembled during the learning phase. Again, the set of best parameters for the Random Forests is searched for swissbib data and a number of 100 trees of maximum depth of 22 each in the forest is found to generate the best results. With Random Forests, an accuracy of nearly 99.95% can be reached, too, with the same total of wrongly predicted records of 27 on the total of the validation records.

The project is implemented in programming language Python, using library scikit-learn for calculating the models. The Random Forests implementation of this library allows for assessing the importance of each feature for prediction. Figure 5 shows the normed importance value of the features used. It can be seen that variable year is the leading variable for indicating wether a pair of records is a pair of uniques or of duplicates. Variable title is the second most important feature for the Random Forests model, but also author and volumes indication are of high relevance. The importance of features like coordinate and ISMN seem to be low. This is due to the fact that only few of swissbib's raw data are of format map of music. Therefore, only few of swissbib's raw data hold any information in these attributes.
Figure 5: Normed feature importance of Random Forests
Figure 5: Normed feature importance of Random Forests
The results presented here, suggest swissbib to implement a new deduplication process with the help of a Random Forests algorithm, due its best overall performance on the training data. The project described here, implements some more models different to the Decision Tree and the Random Forests models. The results of those will be presented in some additional blog articles (see here).

Years of experience in the preparation and processing of metadata meets methods of Machine Learning

Deutsche Version english version

Jahrelange Erfahrung in der Aufbereitung und Verarbeitung von Metadaten trifft auf Maschinelles Lernen

Seit gefühlt zwei, drei Jahren lassen sich kaum mehr Artikel zum Thema Daten und Informationen finden, in denen nicht mindestens einmal Begriffe wie "Maschinelles Lernen", "Künstliche Intelligenz" (KI) oder "Neuronale Netze" erwähnt und als das Erfolgsrezept für die Zukunft beschrieben werden. Sollte damit das, was wir in den letzten 12 Jahren gemacht haben, veraltet und nicht mehr relevant sein? Das swissbib Team ist ja nicht dafür bekannt, sich vor neuen Softwaretechnologien zu scheuen. Wir schauen schon seit je her regelmässig über den Tellerrand um mitzubekommen, ob sich neue Methoden nicht mit unseren klassischen Methoden verbinden lassen. Das Problem dabei: Bevor man aus der Menge des Möglichen etwas Vielversprechendes wählen, ausprobieren und dann vielleicht produktiv einsetzen kann, muss man sich erstmal durch die Grundlagen und Begrifflichkeiten des neuen Themengebiets kämpfen. Nicht so einfach für ein swissbib Team, dass mit Personen nicht üppig ausgestattet ist und den Laden (sprich die "grünen, orangenen oder wie auch immer farbigen Services") am Laufen halten muss.

Helfen kann in so einer Situation manchmal Begeisterung für die Sache, Offenheit (auch von Software) und ein Netz von Personen von ausserhalb unseres Bibliothekskuchens, die man neugierig auf coole Projekte mit unseren Daten machen kann. So geschehen mit Andreas Jud, ein swissbib-Freund, der sich in einer Weiterbildung an der EPF Lausanne mit Methoden des maschinellen Lernens beschäftigt hat. Im Rahmen seines Abschlussprojekts hat er untersucht, welche der zahlreichen Methoden sich für das Clustern von bibliographischen Metadaten einsetzen lassen. In dieser Blog-Serie wird er in die ausgewählten Methoden und Ergebnisse einführen. Die komplette Projektarbeit ist als eine Serie von Jupyter Notebooks frei verfügbar.

Im swissbib Projekt ist die Essenz all unserer Aktivitäten der Umgang mit und die Aufbereitung von (Meta-) Daten. Normalisieren, Anreichern, Zusammenführen  (Clustern) sowie Verknüpfen von Informationen und dies alles auf maschineller Basis ist die Grundlage dafür, dass wir Services wie verschiedene Discoveries, unterschiedliche Schnittstellen oder Dienstleistungen für Dritte anbieten können. Vor allem für das maschinelle Clustern von Daten nutzen wir die (kommerzielle) Software eines Partners, die es uns flexibel ermöglicht, Daten so aufzubereiten, dass man sie für die unterschiedlichen Services einsetzen kann. Dies war über die Jahre kein einmaliger Vorgang mit einem statischen Resultat sondern ein iterativer Prozess, in denen sowohl wir (in den letzten Jahren vor allem unsere Kollegin Silvia Witzig) von der Nutzerinnenseite als auch unser Partner gegenseitig Wissen in den Prozess zur Verbesserung der Datenaufbereitung einbrachten. Die Aktivitäten zur Datenaufbereitung bleiben zentral für die Qualität der Dienstleistungen, die swissbib erbringt.

Maschinelles Lernen basiert auf Daten. Daten von swissbib sind daher die Basis der Abschlussarbeit von Andreas an der EPFL. Mit den Daten, die Andreas in ihrer Rohform vom swissbib Team erhalten hat, lassen sich Ergebniscluster von überzeugender Qualität ermitteln. Dies sei an dieser Stelle bereits vorweggenommen. Nach Abschluss der Arbeit bleiben aber Bereiche, an denen gearbeitet werden muss, um die Resultate in einen produktiven Betrieb zu überführen.
  • Die Projektarbeit von Andreas hatte ihren Schwerpunkt im Gegenüberstellen unterschiedlicher Methoden des maschinellen Lernens. Fragen zur Skalierung der Datenmengen (wie wir sie im swissbib Projekt mit 45 Millionen Aufnahmen bewältigen müssen) konnten nicht berücksichtigt werden. Dieser offene Punkt muss noch angegangen werden. Die Bildung von sogenannten pre-cluster auf der inhaltlichen sowie der Einsatz von Frameworks zur verteilten Verarbeitung wie Apache Flink auf der technischen Ebene sind hier vielversprechende Ansätze.
  • Auch wenn die Ergebnisse der Abschlussarbeit vielversprechend und die Möglichkeiten moderner offener Software noch so cool sind, bleibt der alte Spruch "garbage in, garbage out". Modelle des maschinellen Lernens müssen trainiert werden und die in die Modelle einfliessenden Daten von möglichst guter Qualität sein. Für diesen Prozess braucht es sowohl Menschen, die sich mit Daten, deren Formaten aber auch deren Inhalten auskennen, wie auch Personen auf der Softwareseite. Mit unseren swissbib Erfahrungen bringen wir Know-How auf beiden Seiten ein und werden auch versuchen, in den anstehenden Monaten unsere Expertise, die wir mit unserer produktiven Komponente gesammelt haben und die uns nach wie vor hervorragende Ergebnisse liefert, noch besser zu dokumentieren. Damit erhoffen wir uns, Wissen zu erhalten als auch weiterzugeben. Zudem möchten wir dieses Wissen natürlich in verschiedenen Verfahren, wie zum Beispiel Maschinelles Lernen, einsetzen können und dadurch auch die Chance für Bibliotheken zur Weiterentwicklung nutzen.
  • Die Rohdaten, welche für das Trainieren von Maschinen verwendet wurden, haben noch nicht die Ausprägung und Qualität, wie wir sie in Jahren auf unserer produktiven Maschine aufbauen konnten. Ein nächster Schritt muss darin bestehen, auf unseren Swissbib-Datenstandard aufzusetzen.
  • Als Freizeitprojekt gestartet, bieten die erarbeiteten Resultate Einstiegsmöglichkeiten für Personen mit unterschiedlichem Hintergrund. Es war erfreulich zu beobachten, wie Andreas als promovierter Physiker mit Interesse und Ausdauer die MARC-Regeln der LOC studiert und den Input aus unserem swissbib Team für sein Arbeit aufgenommen hat. Das nun vorliegende Ergebnis, wie maschinelles Lernen auf den Bereich der Aggregation von bibliographischen Metadaten (Clustern) angewendet werden kann, bietet die Möglichkeit, die Magie besser zu fassen, die mit maschinellem Lernen und KI einhergeht. Dies auch für Menschen mit einem informationswissenschaftlichen und weniger technischen Hintergrund.
Wir freuen uns, wenn Sie unsere Blogserie zum Thema Deduplizierung von bibliographischen Daten mit Methoden des Maschinellen Lernens mitverfolgen. Noch mehr freut uns die aktive Teilnahme am Themengebiet und der Diskussion darüber.

Unter diesen links erhalten Sie den Zugriff auf die einzelnen Teile der dreiteilgen Blogserie, in der die verschiedenen Methoden sowie ihre Ergebnisse bewertet und gegenübergestellt werden:
  • Teil 1
  • Teil 2 (folgt bald)
  • Teil 3 (folgt bald)
Eine Anekdote zum Abschluss. Bei der Verteidigung des Projekts an der EPFL sass Andreas Prüfern gegenüber, die äusserten, dass er mit einem "grossartigen Datensatz" gearbeitet hat. Das hat selbstverständlich auch uns gefreut. Vielleicht ist dies aber auch ein Satz, der zum Nachdenken darüber anregt, ob unsere Daten nicht mehr verdient haben, als nur in ein Bibliothekssystem mit relationalem Datenbanksystem gesteckt zu werden.

Montag, 6. Juli 2020

Auf Wikipedia/Wikidata basierende Suchen in swissbib / Recherche dans swissbib basée sur Wikipedia/Wikidata

Deutsche Version Version française

Suche in swissbib basierend auf Informationen aus Wikipedia/Wikidata (oder anderen Quellen)


Sie suchen nach einem kürzlich erschienenen Buch eines Literaturnobelpreisträgers oder einer Bundesrätin oder Bundesrats? Oder nach (öffentlich bekannten) Personen, die in Ihrer Wohngemeinde geboren oder verstorben sind?
Sie möchten sich eine Liste der Medien zusammenstellen, die mit derartigen Fragen in Zusammenhang stehen?
swissbib kann Ihnen Antworten zu diesen und ähnlichen Fragen geben, seitdem die Datenbasis der Plattform im Verlaufe der letzen Monate mit Informationen aus Wikidata, Wikipedia und anderen Quellen verknüpft worden ist. In diesem Blogbeitrag möchten wir Ihnen kurz vorstellen, wie dies funktioniert

Wikipedia stellt einen grossen Fundus an Informationen insbesondere über Personen zur Verfügung. Es ist leicht zu erfahren, dass zum Beispiel Heinrich Böll den Literaturnobelpreis erhalten hat:

https://de.wikipedia.org/wiki/Heinrich_B%C3%B6ll


Das Wikidata-Projekt stellt Wikipedia (und andere Informationen) als Linked Open Data zur Verfügung, so dass diese auch von Maschinen genutzt werden können.

https://www.wikidata.org/wiki/Q42747


Wie bereits angekündigt, haben wir Ende 2019, basierend auf den Arbeiten im Projekt linked.swissbib, die Autoren von swissbib mit Wikidata verknüpft, wobei wir insbesondere die in Bibliotheken üblichen Identifikatoren (GND-, RERO- oder IDREF-Identifikatoren) verwendet haben.

Hier ist ein Beispiel für die über Heinrich Böll gesammelten Informationen

https://data.swissbib.ch/person/ed6314ad-bf79-3db8-bcc4-614ca9359b84


So können wir eine Liste von Personen zusammenstellen, die einen Nobelpreis für Literatur erhalten haben.


https://data.swissbib.ch/person?q=http%3A%2F%2Fwww.wikidata.org%2Fentity%2FQ37922&format=html&size=20



Mit dem Link unterhalb der Zusammenstellung ist es daher möglich, eine Liste der Werke von Personen, die mit einem Literaturnobelpreis ausgezeichnet wurden (Wikidata-Einheit Q37922), in swissbib zusammenzustellen. Sie kann dann mit Hilfe der verschiedenen Facetten nach eigenen Wünschen weiter gefiltert werden:

localhost:9003/person?q=http%3A%2F%2Fwww.wikidata.org%2Fentity%2FQ37922&format=html&size=100&redirectToSwissbib=true



Bitte beachten Sie, dass sich diese Möglichkeit noch im experimentellen (Beta-)Stadium befindet. Hier möchten wir Ihnen jedoch eine Vorstellung des Potentials des Linked-Open-Data-Paradigmas vermitteln.

Es ist jedoch möglich, sehr viel gründlicher als bisher zu recherchieren. Nachfolgend einige Beispiele, die Ihr Interesse anregen mögen:

    Weitere Informationen über für komplexere Abfragen zu verwendende Syntax finden Sie in der Dokumentation auf data.swissbib.ch

    Zögern Sie nicht uns zu kontaktieren wenn Sie Fragen haben !

    Recherche dans swissbib basée sur les informations de Wikipedia/Wikidata (ou d'autres sources)


    Vous êtes vous déjà rendu dans une bibliothèque, à la recherche d'un livre publié récemment et écrit par un prix Nobel de littérature ? Ou par un conseiller fédéral ? Ou par une personne née ou morte dans votre commune de domicile ? Comment en obtenir la liste ?

    Depuis peu, c'est possible dans swissbib ! Comment ça marche ?

    Wikipedia est une source immense d'informations, notamment sur les personnes. On peut par exemple facilement apprendre que Heinrich Böll a obtenu le prix Nobel de littérature :

    https://fr.wikipedia.org/wiki/Heinrich_B%C3%B6ll


    Le projet Wikidata met à disposition les informations de Wikipedia (ainsi que d'autres informations) sous forme de données Linked Open Data, utilisables par des machines.

    https://www.wikidata.org/wiki/Q42747


    Comme annoncé précédemment, fin 2019, en nous basant sur le travail effectué dans le cadre du projet linked.swissbib, nous avons lié les auteurs de swissbib avec wikidata, en nous basant notamment sur les identifiants courants utilisés dans les bibliothèques (identifiants GND, RERO ou IDREF).

    Voici par exemples les informations que nous avons rassemblées au sujet de Heinrich Böll

    https://data.swissbib.ch/person/ed6314ad-bf79-3db8-bcc4-614ca9359b84


    On peut donc obtenir une liste de personnes ayant obtenu un Prix Nobel de Littérature


    https://data.swissbib.ch/person?q=http%3A%2F%2Fwww.wikidata.org%2Fentity%2FQ37922&format=html&size=20



    En utilisant le bouton tout en bas de la liste ci-dessus, il est donc possible d'avoir une liste d'oeuvres de personnes ayant obtenu un Prix Nobel de Littérature (entité Wikidata Q37922) dans swissbib. On peut ensuite la filtrer selon ses désirs en utilisant les différentes facettes :

    localhost:9003/person?q=http%3A%2F%2Fwww.wikidata.org%2Fentity%2FQ37922&format=html&size=100&redirectToSwissbib=true



    Veuillez noter que cette possibilité est encore à l'état expérimental (Beta). Mais ceci peut donner une idée de la puissance du paradigme Linked Open Data.

    Il est donc possible de faire des recherches d'une manière beaucoup plus approfondie que jusqu'à présent. Voici quelques exemples pour vous donner envie :

      Pour de plus amples informations sur la syntaxe à utiliser pour des requêtes complexes, veuillez vous référer à la documentation sur data.swissbib.ch.

      N'hésitez pas à nous contacter si vous avez des questions !

      Montag, 20. April 2020

      Neuauflage der swissbib Linked Open Data API / Nouvelle version de l'API Linked Open Data de swissbib

      Deutsche Version Version française

      Im ersten Teil unserer Blogserie haben wir die wesentlichen Neuerungen der linked swissbib Aktivitäten im letzten Jahr für Benutzerinnen kurz zusammengestellt. Dieser zweite Teil legt seinen Schwerpunkt auf die neuentwickelte Linked Open Data Schnittstelle und möchte den Leserinnen Hintergrundinformationen dazu geben, wie und warum diese als Teil des Projekts linked swissbib entwickelt wurde und welche Gründe zu ihrer Neuimplementierung im letzten Jahr führten.     


      Das swissbib Projekt hat sich bereits sehr früh mit dem Thema strukturierte semantische Daten für das Web (LOD) auseinandergesetzt. Im Jahre 2014 reichten die Projektpartner 


      einen Projektantrag im Rahmen des “Programm SUK 2013-2016 P-2” zur Erweiterung der swissbib-Plattform zu einem Service für verlinkte Metadaten ein.

      Zur weiteren Unterstützung der Umsetzung konnte zusätzlich die Expertise des GESIS – LeibnizInstitute for the Social Sciences gewonnen werden.

      Zu den inhaltlichen 5 Säulen des Projekts zählen:
      • Die Konvertierung aller in swissbib verfügbaren Daten in ein durch das Projekt erstelltes Datenmodell
      • Datenanreicherung durch Verlinkung mit weiteren Quellen
         
      • Erstellung einer REST Datenschnittstelle für die neuen RDF Daten
      • Soweit rechtlich möglich Bereitstellung eines Grossteils der schweizerischen bibliographischen Daten unter der offenen Lizenz CC0
      Das Projekt konnte Ende des Jahres 2016 nach der Errichtung dieser 5 Säulen erfolgreich abgeschlossen werden.

      Dem Programm P2 (jetzt P5) war bei der Genehmigung wichtig, dass die Projektergebnisse in den laufenden produktiven Betrieb von swissbib übernommen und damit Nutzerinnen die Möglichkeiten von semantisch vernetzten Daten aktiv angeboten werden können und das Projekt nicht nur reinen Forschungscharakter hat. Auch dieses Ziel wurde umgesetzt. Alle Daten, die jede Nacht in den Datenhub von swissbib einfliessen (i.d.R. rund 200.000 Dokumente mit Spitzen von mehreren Millionen), werden in den workflow zur Erstellung strukturierter RDF Daten eingespiesen und stehen damit grundsätzlich allen Services der swissbib Plattform sowie den clients unserer Schnittstellen zur freien Verfügung. Innerhalb der Discoverywerkzeuge der swissbib Plattform werden die RDF Daten vor allem für die Seiten mit Personen- und Themeninformationen genutzt, maschinelle clients verwenden die Linked Open Data Schnittstelle.

      Zeit ist verstrichen, Erfahrungen im praktischen Betrieb wurden gesammelt und der Service swissbib entwickelte sich vor allem in den letzten 2 ½ Jahren immer stärker hin zu einer Plattform mit hoher Expertise im Bereich des Management von Daten primär aus dem kulturellen Sektor. Diese Datenkompetenz ist die zentrale Grundlage zur Bereitstellung von Services, die sowohl von Menschen als auch Maschinen genutzt werden können.

      Neuimplementierung der Linked Open Data Schnittstellen

      Welche Gründe führten zur kompletten Neuentwicklung dieser API:
      • Die technische Basis basierte seinerzeit auf dem PHP Framework API platform, das sich damals und auch heute noch grosser Beliebtheit bei der Realisierung von REST Schnittstellen erfreut. Diese Basis passte 2015 auch ideal in den sonstigen Technologiestack des swissbib Projekts. API Platform integrierte als eines der ersten Frameworks überhaupt das Hydra Vokabular als ein Bestandteil der linked data fragments, die eine  leichtgewichtige Variante für Sparql Server ermöglichen. Der Grossteil der Implementierung konnte durch zwei Studenten im Rahmen einer Projektarbeit an der FH Nordwestschweiz umgesetzt werden. Dennoch erwies sich die Techologie als nicht unbedingt passend für die Umsetzung von Anforderungen wie bspw. Reconciliation mit populären tools wie OpenRefine. Hier steht das lobid Projekt des Hochschulbibliothekszentrums Köln Pate für eine erfolgreicher genutzte Datenschnittstelle zur GND. Der von lobid genutzte Technologiestack, das Play Framework, passt unterdessen auch viel besser zur sonstigen swissbib Datenplattform. Der Sourcecode der neuen API ist wie alle anderen Entwicklungen von swissbib frei abruf- und verfügbar.

      • swissbib entwickelt sich immer mehr zu einer Datenplattform, auf der (strukturierte) Daten in Datenpipelines ge-clustert sowie für Services aufbereitet werden und in Zukunft auch für die interaktive Datenanalyse durch Menschen bereitstehen. Dazu setzen wir bereits jetzt Big Data Technologien wie Apache Kafka, Apache Flink und Apache Beam ein. Auf der Elag 2019 gaben wir einen Einblick, wie wir die Datendrehscheibe Apache Kafka für die Orchestrierung von Workflows mit Microservices nutzen. Auf Basis dieser Technologien entwickeln wir Bausteine der swissbib Datenplattform, eine unabdingbare Voraussetzung für zukunftsfähige innovative Services. Mehr Einblick in diese Ideen gaben wir im Rahmen eines Weiterbildungsmoduls.
        In diese Welt lässt sich die technische Basis aus dem Jahre 2015 schlechter integrieren bzw. können wir uns als kleines Team neben dem beschriebenen Kern an Technologien nicht auch noch fokussieren.
         
      • Die seinerzeit entwickelten workflows zur Verlinkung der Daten genügen nicht mehr den heutigen Wünschen und Vorstellungen. Die neuen Datenkomponenten ermöglichen es uns, einen umfassenderen Hub für Personen und Organisationen aus den bibliographischen Ressourcen der swissbib Daten zu erstellen. Diese Identitäten verlinken wir nicht nur mit Ressourcen aus GND, DBPedia und Viaf (bisher) sondern neu mit Wikidata und allen weiteren Datensourcen, die mit den genannten Quellen in Verbindung stehen. Bereits jetzt haben wir einen erheblichen Zuwachs an Verlinkungen. Neu werden wir auf Basis der neuen Technologen weitere Methoden nutzen, um die Verlinkungsqualität stetig zu verbessern.     
      Die neue Datenschnittstelle wird unsere deutlich verbesserten Verlinkungen anderen Diensten einfacher zur Verfügung stellen können. Sie kann die stabile technische Basis für bereits jetzt angedachte funktionale Weiterentwicklungen sein:
      • Reconciliation mit Open Refine  
      • Webabfragesprache GraphQL als Alternative zum REST Modell
      • wir freuen uns über weitere Wünsche und Ideen sowie aktive Mitarbeit 
      Im folgenden dritten Teil unserer Blogserie zu den aktuellen Entwicklungen im Bereich semantische Daten auf der swissbib Plattform werden wir den Schwerpunkt auf praktische Beispiele legen, wie die neuen Funktionen der Schnittstelle https://data.swissbib.ch genutzt werden können. 

      Montag, 30. März 2020

      wikidata Erweiterungen und neue Version data.swissbib.ch / Enrichissements via wikidata et nouvelle version de data.swissbib.ch



      Deutsche Version Version française


      In den letzten Wochen haben wir drei wesentliche Erweiterungen von swissbib online publiziert.

      swissbib ist jetzt mit Wikidata verlinkt


      Seit einigen Wochen ist swissbib mit Wikidata verlinkt. Wikidata ist eine riesige Datenbank, die unter anderem auch die Informationen von Wikipedia enthält. Damit können wir viel umfassendere Informationen zu den Personen im swissbib-Katalog anbieten.

      Seite zur Beschreibung von Albert Einstein in swissbib


      Zahlreiche weitere Verknüpfungen von swissbib mit externen Daten


      Der Workflow, mit dem wir die Informationen zu Personen (z.B. Autoren) und Organisationen innerhalb von swissbib mit Fakten aus verschiedenen externen Datenbanken wie Wikidata verknüpfen, wurde komplett umgestellt. Damit ist zum Beispiel die Zahl der so verlinkten Einzelpersonen von 200'000 auf 2 Millionen angewachsen.


      https://www.swissbib.ch/Record/428632262
      Beispiel für eine bibliographische Ressource mit weitergehenden Informationen zu Personen.

      Neue Version der swissbib Linked Open Data API


      Schliesslich wurde unsere Schnittstelle für Maschinen https://data.swissibib.ch komplett neu implementiert und gestaltet. Sie können jetzt nach Entitäten (Bibliographische Resourcen, Personen, Organisationen...) suchen und erhalten viel umfassendere Informationen.


      https://data.swissbib.ch/person/1295c7bf-c60d-3da4-a034-1f56248c0dd1

      Die in der Linked Open Data API von swissbib verfügbaren Informationen über Albert Einstein

      Weitere Informationen


      Wir werden auf die verschiedenen oben genannten Punkte in künftigen Beiträgen dieses Blogs noch ausführlicher eingehen.

      Mittwoch, 22. Januar 2020

      Die Zukunft des Schweizer Metakatalogs swissbib / Le futur du métacatalogue swissbib

      Deutsche Version Version française

      Einiges wurde bereits berichtet, vieles blieb aber bislang noch offen: Wie geht es weiter mit swissbib nach dem Start der Swiss Library Service Platform SLSP am 1. Januar 2021? Nach einem Jahr intensiver Klärungsgespräche können wir nun erste konkrete Aussichten formulieren.

      Metakatalog Schweiz und Discoveries

      Ab dem 7. Dezember 2020 wird SLSP das neue Discovery für Bibliotheksbestände in der Schweiz stellen. In einem ersten Schritt werden primär wissenschaftliche Bibliotheken aus den bisherigen Verbünden IDS und RERO darin enthalten sein. Danach ist jedoch geplant, die Teilnehmerbasis von SLSP kontinuierlich auszuweiten sowie über ein hybrides Verfahren auch Drittsysteme anzubinden. Auch die lokalen swissbib Discoveries werden migriert bzw. teilweise abgestellt:
      • swissbib orange für die Bestände der Bibliotheken in Bern und Basel wird durch SLSP bzw. Primo VE abgelöst.
      • swissbib blau: Die Vereinigung der Juristischen Bibliotheken der Schweiz (VJBS) hat sich entschieden, ihren Katalog einzustellen.
      Eine gemeinsame Mitteilung der Direktion der UB Basel, des swissbib-Beirates und SLSP (16.01.2020) schildert die Details:
      "Ablösung von swissbib grün durch SLSP

      Ende 2020 wird die UB Basel die Dienste von swissbib einstellen im Zuge der Inbetriebnahme des nationalen Angebotes von Swiss Library Service Platform (SLSP). Die Mehrheit der in swissbib beteiligten Bibliotheken und der Grossteil der Schweizer Bibliotheksbestände werden von der SLSP Discovery-Lösung ab Go-Live oder in der «zweiten Welle» abgedeckt. Für die Einbindung weiterer Bibliotheken, die nicht planen SLSP beizutreten, sind Lösungen bzw. Produktentwicklungen seitens der Firma Ex Libris in Aussicht gestellt worden.

      Mit dem Go-Live von SLSP Ende 2020 wird ein Grossteil der Hochschulbibliotheken und viele andere wissenschaftliche Bibliotheken der Schweiz über das Discovery-Tool von SLSP auf Netzwerkebene recherchierbar sein. Diese Oberfläche ermöglicht auch einen direkten Zugang zu allen elektronischen Beständen und eine nahtlose Anbindung an alle Benutzungsfunktionalitäten inkl. Kurier.

      In einer «zweiten Welle» sollen weitere Hochschul- und wissenschaftliche Bibliotheken zu SLSP stossen und ebenfalls in das Discovery eingebunden werden. Hierzu gehören andere Einrichtungen, die bereits Alma nutzen (beispielsweise Alexandria-Verbund) sowie weitere Bibliotheken, die einen Systemwechsel zu Alma planen (beispielsweise Bibliotheksverbund Graubünden, St. Galler Bibliotheksnetz, Liechtensteinische Landesbibliothek und Sistema Bibliotecario Ticinese).

      Allerdings kann nicht davon ausgegangen werden, dass sämtliche von swissbib abgedeckten Bibliotheken von dieser «zweiten Welle» erfasst werden können. Somit wird es auch mittelfristig Bibliotheken geben, die nicht über das Discovery von SLSP recherchierbar sind. Hier handelt es sich voraussichtlich um kleinere bis mittelgrosse Kantonsbibliotheken sowie wissenschaftliche Spezialbibliotheken, die nicht Alma als Bibliothekssystem einsetzen. Um diese Drittsysteme nahtlos und ohne grossen technischen Aufwand in das schweizweite Discovery einzubinden, braucht es weitere Produktentwicklungen bei der Firma Ex Libris. Diese werden von Ex Libris in Aussicht gestellt, allerdings ohne Nennung eines konkreten Termins. Der zumindest vorübergehende Ausschluss dieser Bibliotheken aus dem nationalen Rechercheportal wird vom swissbib-Team an der UB Basel und dem Beirat von SLSP bedauert.

      Allerdings hält SLSP am Ziel eines schweizweiten Discovery-Tools für alle wissenschaftlichen Bibliotheken fest und wird die Entwicklungen bei Ex Libris eng verfolgen. Idealerweise könnte die Bildung eines hybriden Discoveries (also mit Einbindung von Drittsystemen) direkt im Anschluss an die oben genannte «zweite Welle» in Angriff genommen werden.

      Marie-Christine Doffey (Direktorin Schweizerische Nationalbibliothek) und Martin Good (Direktor BCU Fribourg) bedanken sich im Namen des SLSP Verwaltungsrates und SLSP Beirats beim swissbib Team für den ausgezeichneten und zuverlässigen Service von swissbib grün, den die Basler Kolleginnen und Kollegen während vieler Jahre zur Verfügung gestellt haben. Aus nationaler Sicht ist bzw. war swissbib ein Vorzeigeprojekt, das einerseits innovative technische Entwicklungen aufgegriffen und vorangetrieben hat, und andererseits für die Kundinnen und Kunden über alle Bibliotheksverbünde hinweg eine einheitliche Suchoberfläche angeboten hat.

      Eine abschliessende Würdigung der Leistungen des swissbib Teams und ein Dankeschön an alle teilnehmenden Bibliotheken für ihre regelmässigen Datenlieferungen und grosszügige finanzielle Unterstützung während der letzten zwei Jahre soll gesondert und gegen Ende des Jahres erfolgen."

      Nationallizenzen und Private User Remote Access (PURA)

      Mit der am 29. November 2019 durch SLSP publizierten Mitteilung, dass der operative Teil des Konsortiums der Schweizer Hochschulbibliotheken in SLSP integriert wird, ist bestätigt, dass die Nationallizenzen künftig auch im SLSP-Discovery implementiert werden. Der jüngste Service von swissbib – Private User Remote Access PURA – kann durch den Einsatz von SWITCH edu-ID in SLSP ebenfalls realisiert werden. Für Details dazu empfehlen wir die direkte Kontaktaufnahme mit SLSP.

      Schnittstellen zu den bibliografischen Metadaten

      swissbib bietet heute neben den Discoveries auch offene Schnittstellen verschiedenster Art für den Metadatenbezug an. Diese können ab Ende 2020 von uns nicht weiter bedient werden (das genaue Datum werden wir noch kommunizieren). Den automatischen Datenexport nach WorldCat wird SLSP eigenständig weiterführen, auch die Anbindung an das Kartenportal bleibt bestehen.

      Weitere Daten- und Schnittstellennutzer bitten wir, sich direkt bei SLSP zu melden, um die Möglichkeiten und Konditionen für den Metadatenbezug zu klären.

      Know-How (und dessen Weitergabe) im Bereich Dataprocessing

      Die Personen hinter swissbib waren in den vergangenen Jahren rege im Bereich der Weitergabe ihres Know-Hows unterwegs – an Tagungen und in verschiedenen Weiterbildungskursen wurden die Erfahrungen und Services präsentiert und erläutert. Diesen Geist möchten wir uns bewahren. Die im Rahmen von swissbib erarbeiteten Skills im Bereich Dataprocessing und Datentransformation und -anreicherung wird die Universitätsbibliothek Basel in Zukunft in anderen Projekten einsetzen und nachnutzen können.