Le poste DATA SCIENTIST à Nantes
Partager cette offre
Le bénéficiaire souhaite une prestation d'accompagnement sur Nantes, dans le cadre de son programme d’accélération de l’IA.
Contexte : Dans le cadre du chantier Knowledge Management (KM), une base de connaissance doit être constituée à partir de documents non structurés (PDF, Word, HTML).
Cette base servira à formaliser la connaissance sous une forme agnostique des usages, en vue d'une réutilisation large et durable.
Objectif de la mission : Concevoir un pipeline d'extraction, nettoyage et structuration de la connaissance textuelle issue de documents variés, en l'organisant dans un format pivot enrichi et exploitable.
Activités principales :
Extraction du texte depuis des fichiers PDF, Word, HTML via des librairies adaptées
Nettoyage et normalisation des contenus (suppression de bruit, OCR si nécessaire)
Segmentation des textes en unités de connaissance structurées (sections, blocs)
Enrichissement des unités avec des métadonnées (source, date, thème, typologie)
Conception du format pivot (Markdown enrichi ou JSON) standardisé
Documentation le format et les choix de structuration
Collaboration avec l’équipe KM pour affiner la structuration
Mise en place un script ou pipeline réutilisable pour de nouveaux documents
Bonne connaissance de Domino Data Lab (optionnel)
Postulez à cette offre !
Trouvez votre prochaine mission parmi +7 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
DATA SCIENTIST à Nantes
Accetal