Die Suchmaschine auf eluxemburgensia.lu verfügt nun über eine Sprachfilterfunktion. Sie ermöglicht es dem Nutzer, die Suchergebnisse auf eine oder mehrere Sprachen zu beschränken. Die von der BnL digitalisierten historischen Zeitungen, Bücher und Zeitschriften zeugen von der in Luxemburg vorhandenen Kultur der Mehrsprachigkeit und vereinen oft verschiedene Sprachen auf einer Seite. Auch wenn die meisten Inhalte auf Deutsch und Französisch sind, gibt es auch Inhalte auf Luxemburgisch, Englisch usw. Die neue Funktion ermöglicht es zum Beispiel einem Nutzer, der lieber nur eine der Sprachen lesen möchte, nach Inhalten in deutscher, französischer oder luxemburgischer Sprache zu filtern.
Da die Suche anhand von Schlüsselwörtern erfolgt, müssen diese auch an die Sprache der in der Sammlung vorhandenen Inhalte angepasst werden. Über die Sprachfilterfunktion kann man schnell erkennen, ob nur Inhalte einer bestimmten Sprache gefunden wurden und ob es sinnvoll wäre, seine Schlüsselwörter zu übersetzen.
Die Sprachinformationen wurden in die Metadaten der digitalisierten Dokumente integriert und können nun auch für die Datenanalyse verwendet werden. Tatsächlich sind die Algorithmen der maschinellen Sprachverarbeitung oft sprachabhängig, und diese Arbeit legt eine gute Grundlage für die Entwicklung neuer Werkzeuge zur Analyse historischer Texte.
Welche Sprachen sind vertreten?
Die beiden Hauptsprachen sind Deutsch, das 67% der Gesamtsumme ausmacht, gefolgt von Französisch mit 31,3%. Luxemburgisch ist mit etwas mehr als 118 123 Artikeln (oder 1,4 %) in einem deutlich geringeren Anteil vertreten, während Englisch mit 10 149 Artikeln (oder 0,1 %) als minoritär gilt.
Es folgen 15 weitere Sprachen, die nur marginal verwendet werden:
Latein | 1959 |
Italienish | 1379 |
Portugiesisch | 212 |
Polnisch | 168 |
Niederländisch | 78 |
Spanisch | 32 |
Esperanto | 15 |
Ungarisch | 14 |
Kroatisch | 8 |
Ido | 4 |
Dänisch | 2 |
Irisch | 2 |
Bosnisch | 2 |
Russisch | 2 |
Slowenisch | 1 |
Wie wurde die Sprache bestimmt?
Während die Sprachbestimmung bei Monografien anhand der bibliografischen Einträge erfolgte, war die Vorgehensweise bei Zeitschriftenartikeln, für die es keine derartigen Daten gab, komplizierter. Da die optische Zeichenerkennung (OCR) noch nicht perfekt ist und manche Texte, wie z. B. Namenslisten, keine identifizierbare Sprache haben, verwendete der von der BnL entwickelte Algorithmus mehrere sich ergänzende Heuristiken:
- Eine Abstimmung zwischen den Standardalgorithmen fasttext, cld3 und langid.
- Wörterbücher der in der Sammlung identifizierten Sprachen.
- Messungen der Qualität der OCR.
- Informationen über andere Artikel in der Zeitschrift.
Bei Sprachen mit weniger als 1000 Artikeln werden die Texte von Hand überarbeitet, um zu überprüfen, ob der Algorithmus tatsächlich die richtige Sprache ermittelt hatte. Dadurch bleibt eine gewisse Genauigkeit für Randsprachen erhalten. Bei den anderen Artikeln wurde die Sprache nicht manuell überprüft und es bleiben Ungenauigkeiten. Darüber hinaus gibt es mehrsprachige Artikel (z. B. ein Teil auf Französisch, ein anderer auf Deutsch), bei denen die überwiegende Sprache gewählt wurde. Schließlich gibt es Inhalte, wie z. B. Listen mit Sportergebnissen, die sich nicht für diese Art von Sprachbestimmungsprozess eignen.