Job position DATA SCIENTIST à Nantes
Share this job
Le bénéficiaire souhaite une prestation d'accompagnement sur Nantes, dans le cadre de son programme d’accélération de l’IA.
Contexte : Dans le cadre du chantier Knowledge Management (KM), une base de connaissance doit être constituée à partir de documents non structurés (PDF, Word, HTML).
Cette base servira à formaliser la connaissance sous une forme agnostique des usages, en vue d'une réutilisation large et durable.
Objectif de la mission : Concevoir un pipeline d'extraction, nettoyage et structuration de la connaissance textuelle issue de documents variés, en l'organisant dans un format pivot enrichi et exploitable.
Activités principales :
Extraction du texte depuis des fichiers PDF, Word, HTML via des librairies adaptées
Nettoyage et normalisation des contenus (suppression de bruit, OCR si nécessaire)
Segmentation des textes en unités de connaissance structurées (sections, blocs)
Enrichissement des unités avec des métadonnées (source, date, thème, typologie)
Conception du format pivot (Markdown enrichi ou JSON) standardisé
Documentation le format et les choix de structuration
Collaboration avec l’équipe KM pour affiner la structuration
Mise en place un script ou pipeline réutilisable pour de nouveaux documents
Bonne connaissance de Domino Data Lab (optionnel)
Apply to this job!
Find your next career move from +1,000 jobs!
-
Manage your visibility
Salary, remote work... Define all the criteria that are important to you.
-
Get discovered
Recruiters come directly to look for their future hires in our CV library.
-
Join a community
Connect with like-minded tech and IT professionals on a daily basis through our forum.
DATA SCIENTIST à Nantes
Accetal