À propos

« eLuxemburgensia » fait suite au premier volet de numérisation du patrimoine imprimé luxembourgeois par la Bibliothèque nationale (2002-2008), dont le résultat est accessible sous www.luxemburgensia.bnl.lu. Les documents numérisés sont uniquement consultables en mode image.

Le second volet, mis en ligne sur le site www.eluxemburgensia.lu à partir de 2009, offre la possibilité d’effectuer des recherches plein texte. Pour pouvoir offrir cette recherche plein texte, le texte des journaux anciens a été retranscrit machinalement par une reconnaissance optique de caractères. Cela entraîne des erreurs d'orthographe. Ces erreurs de transcription par l'OCR peuvent avoir plusieurs raisons : mauvaise qualité du support papier, imperfections de l'impression, dégradation des originaux due à l'usure du temps. Ces imperfections expliquent que l'OCR - en l'état actuel de la technologie - n'arrive pas à identifier correctement toutes les lettres des originaux.

Afin que le produit de la numérisation soit de qualité optimale, la BnL a numérisé à partir de ses collections, complétées par des exemplaires mis gracieusement à disposition par les Archives Nationales, le Grand Séminaire - Centre Jean XXIII, la commune de Grevenmacher, le Centre national de littérature ainsi que des collectionneurs privés.

Les objectifs de la numérisation du patrimoine national sont multiples :

  • promouvoir le patrimoine national écrit, tout en garantissant la conservation optimale des originaux fragilisés par leur âge et/ou leur utilisation fréquente ;
  • faciliter l'accès du public à ce patrimoine via Internet, dans la limite des droits d’auteur ;
  • permettre la consultation simultanée des publications ;
  • multiplier les possibilités de recherche dans les documents numérisés.

Technique: Formats de numérisation METS/ALTO

Dans le cadre de ses projets de numérisation, la BnL crée, dans la mesure du possible, des images et des métadonnées en format METS/ALTO.

METS

Le format METS permet de modéliser et de faire des recherches dans la structure logique de l'ouvrage (pages, articles, etc.) ainsi que de gérer les métadonnées techniques, facilitant la préservation à long terme.

ALTO

La saisie de métadonnées dans le format ALTO permet de décrire la mise en page de chaque numéro ou ouvrage et de faire par la suite des recherches dans le texte intégral en utilisant les données issues de l'OCR (Optical Character Recognition). La combinaison des métadonnées METS et ALTO permet de combiner une recherche pointue de l'oeuvre et de renvoyer aux zones de texte trouvées.

Des données Mets/Alto en open data

Dans le cadre de la stratégie Open Data du gouvernement luxembourgeois, la Bibliothèque nationale de Luxembourg (BnL) a ouvert ses données au public et les rend accessibles via le site web data.bnl.lu.

Désormais, chaque citoyen pourra télécharger des ensembles de données et les exploiter librement. L’ouverture des données de la BnL vise un public de professionnels diversifié (data scientists, historiens, linguistes, chercheurs en humanités numériques, développeurs.

Les jeux de données et de métadonnées du site data.bnl.lu font partie de la collection des périodiques luxembourgeois numérisés et se trouve dans le domaine public. Ces jeux de données vont de 250 MG à 257 GB et permettent différents niveaux d’exploitation allant de développements plus simples (fouilles de textes, détection de noms, reconnaissance automatique d’images) jusqu’à de véritables réseaux neuronaux artificiels.

La visionneuse en Open Source

La visionneuse de eluxemburgensia est également accessible en version logiciel libre. La page du projet bnlviewer sur sourceforget.net inclut les codes sources de la visionneuse proprement dite ainsi que le service de recherche et quelques exemples de fichiers en METS/ALTO.

Si vous avez des commentaires, des suggestions ou des questions, n'hésitez pas à nous contacter.