Facette de langue pour les contenus numérisés

Le moteur de recherche sur eluxemburgensia.lu dispose maintenant d’une fonctionnalité de filtrage de langue. Elle permet à l’utilisateur de restreindre les résultats de recherche à une ou plusieurs langues. Les journaux, livres et revues historiques numérisées par la BnL témoignent de la culture de multilinguisme présente au Luxembourg et rassemblent souvent différentes langues sur une même page. Même si la plupart des contenus sont en allemand et français, il y en a aussi en luxembourgeois, anglais, etc. La nouvelle facette permet, par exemple, à un utilisateur qui préfère lire uniquement une des langues, de filtrer sur les contenus en langue allemande, française ou luxembourgeoise.

Comme la recherche se fait par mots-clés, il faut aussi adapter ces derniers à la langue des contenus présents dans la collection. La facette de langue permet de rapidement savoir si uniquement des contenus d’une certaine langue ont été trouvés et s’il serait judicieux de relancer sa recherche avec des mots-clés traduits.

Les informations de langue ont été intégrées dans les métadonnées des documents numérisés et peuvent être utilisées à des fins analytiques. En effet, les algorithmes du traitement automatique de langue varient selon la langue et ce travail pose de bonnes bases pour le développement de nouveaux outils d’analyse de textes historiques.

Quelles langues sont présentes ?

Les langues principales sont l'allemand, qui compte pour 67% du total, suivi du français à hauteur de 33,3%. Le luxembourgeois est représenté dans une proportion nettement inférieure, avec un peu plus de 118 123 articles (soit 1,4%), tandis que l'anglais, avec 10 149 articles (soit 0,1%), est considéré comme minoritaire.

S’en suivent 15 autres langues marginalement utilisées :

latin 1959
italien 1379
portugais 212
polonais 168
néérlandais 78
espagnol 32
esperanto 15
hongrois 14
croate 8
ido 4
danois 2
irlandais 2
bosniaque 2
russe 2
slovène 1

Comment est-ce que la langue a été déterminée ?

Tandis que la détermination de la langue pour les monographies est faite à base des notices bibliographiques, l’exercice s’avère plus compliqué pour les articles des périodiques pour lesquels de telles données n’existent pas. Comme la reconnaissance optique de caractères (OCR) n’est pas encore parfaite et que certains types de textes, tels que des listes de noms, n’ont pas de langue identifiable, l’algorithme développé par la BnL utilise plusieurs heuristiques complémentaires :

  • Un vote entre les algorithmes standard fasttext, cld3 et langid
  • Des dictionnaires des langues identifiées dans la collection
  • Des mesures de la qualité de l’OCR
  • Des informations sur les autres articles du périodique

Pour les langues avec moins de 1000 articles, les textes sont revus à la main pour vérifier si l’algorithme a en effet déterminé la bonne langue. Ceci permet de garder une certaine précision pour les langues marginales. Pour les autres articles, la langue n’est pas revue manuellement et il reste des imprécisions. En outre, il y a des articles multilingues (p.ex. une partie en français, une autre en allemand) pour lesquels la langue dominante est choisie. Finalement, certains types de contenus, tels que des listes de résultats sportifs, ne se prêtent pas à ce genre de processus de détermination de langue.