Ingénieur.e Data – Data engineer Projet LIFRANUM

  • Référence du poste : CS162
  • Sites : François-Mitterrand Quai François-Mauriac Cedex 13 75706 Paris
  • Catégorie : A
  • Groupe emploi : 4
  • Famille : Technique logistique prévention
  • Emploi de référence : Ingénieur informatique
  • Spécialité professionnelle : Etudes et développement
  • Durée du contrat : 9 mois
  • Fondement du contrat : 6.6
  • À pourvoir à compter du : 10/01/2021

Missions et activités permanentes


La Bibliothèque nationale de France (BnF), dans le cadre du projet de recherche LIFRANUM, recherche un ingénieur de recherche.

Depuis 2006, la Bibliothèque nationale de France a pour mission d’archiver les sites internet du domaine français. Les collections constituées sont consultables à la BnF dans les salles Recherche ainsi que dans 20 établissements partenaires de la BnF (lien). Le département Littérature et Art de la BnF effectue dans ce cadre un repérage et un suivi des nouvelles formes de littératures numériques sur le web en vue de leur archivage par les robots de collecte de la BnF.

La BnF est membre du consortium LIFRANUM qui comprend les laboratoires MARGE (Lyon 3) et ERIC (Lyon 2). Le projet LIFRANUM se propose d'identifier et de stabiliser le corpus des productions littéraires francophones nativement numériques et de le construire, en le liant aux productions académiques afférentes, en objet susceptible de fédérer une nouvelle communauté internationale de chercheurs. Ce projet multidisciplinaire est soutenu par l’ANR.


Activités spécifiques

Dans le cadre de ce projet, une première version du corpus littéraire a été constituée par les équipes des laboratoires MARGE et ERIC. Ce corpus est composé de sites web stockés en format WARC et de fichiers JSON collectés via les API des plateformes Blogger et Wordpress. Une première étape d’extraction des métadonnées du contenu des fichiers WARC (métadonnées de pages HTML, PDF, images, vidéo...) a aussi été réalisée et sert de base pour la consultation, la recherche et l’analyse du contenu en utilisant des outils en ligne. Les équipes de la BnF produisent une seconde version du corpus dans une optique de conservation pérenne et d’exploitation dans le cadre du projet de recherche.

L’objectif du travail de l’ingénieur·e sera de poursuivre l’enrichissement du corpus en combinant les données des fichiers JSON avec les métadonnées des WARC (un fichier WARC contient une copie des fichiers composant les pages web crawlées ; un fichier JSON contient les métadonnées utilisées par la plateforme de blog, telles que le nom de l’auteur, la date de création, le texte, etc., pour produire dynamiquement cette page). L’ingénieur·e devra aussi produire une analyse du corpus produit par la BnF (cartographie de liens, identification de communautés) et traduire les besoins d’analyse des chercheurs pour produire des données dérivées ; il·elle pourra intégrer dans le process d’analyse les jeux de données et métadonnées de la BnF (catalogue et informations saisies à la sélection des sites). Il·elle sera force de proposition pour l’amélioration des chaînes de traitement. Il·elle participera dans le cadre du DataLab de la BnF à la comparaison des outils et facilitera la montée en compétence des chercheurs.

Concrètement, l’ingénieur·e devra :
● traduire les besoins d’analyse de données des chercheurs de l’équipe MARGE en requêtes ou opérations de bases de données ;
● améliorer la chaîne des traitements, d’analyse et de visualisation des données à partir des fichiers WARC produits par la BnF et produire une cartographie des liens
● accompagner les équipes dans leur montée en compétence sur les outils notamment les notebooks Jupyter déjà développés dans le cadre du projet et les autres technologies mobilisables (Spark, Archives Unleashed Toolkit, Docker).
● participer, en lien avec les équipes des laboratoires MARGE et ERIC, à une indexation des contenus d’archives web (WARC) à l’aide d’un langage classificatoire et descriptif ;
● participer à la modélisation, l’enrichissement et la documentation des métadonnées du corpus enrichi
L’ingénieur·e sera intégré·e à l’équipe de développement de la BnF, ainsi qu’à l’équipe de recherche des laboratoires ERIC et MARGE. Il·elle participera à la réflexion sur les traitements à mettre en place et apportera son expertise pour l’intégration du corpus enrichi dans les outils d’exploitation de l’équipe recherche et pour la mise en place de représentation graphique des données.

Compétences requises

Master ou diplôme d’ingénieur en informatique (Data Engineering, Big Data, etc.) :
● Fondements de la programmation web (HTML, client-serveur, crawling...)
● Expérience de développement avec les technologies NoSQL du Big Data (Spark, MongoDB, Solr)
● Outils de cartographie et de datavisualisation (en particulier SPARK, GEPHI)
● Expérience de la science de données et développement en Python (Jupyter Notebooks)
● Connaissance souhaitable d’Internet Archives
● Expérience de travail des équipes pluridisciplinaires

Contraintes spécifiques

Déplacements à prévoir sur Lyon