Le poste Data Scientist
Partager cette offre
Objet de cette consultation :
L’objectif de cette consultation est pour le client de faire appel à des data scientists externes afin de soutenir l’analyse des besoins métiers et le développement d’applications en IA (Intelligence Artificielle), ML (Machine Learning), DL (Deep Learning) et GenAI (Intelligence Artificielle Générative).
Périmètre de la consultation :
Prestations attendues
Activités principales du data scientist :
Comprendre les cas d’usage
Participer aux réunions de cadrage des besoins avec le chef de projet DPIT
Apporter une expertise et évaluer la pertinence de l’IA pour le besoin
Réaliser une première estimation de l’effort nécessaire au développement d’une solution
Développer des POC (Proof of Concept) pour démontrer la faisabilité et la performance
Profil recherché
Collecte de données :
Identifier les sources de données (internes et externes)
Extraire les données depuis des bases de données, des API, des fichiers texte, des documents Word/PDF, via du web scraping, des données semi-structurées, etc.
Préparation et nettoyage des données :
Nettoyer les données : corriger ou supprimer les données corrompues/incorrectes, gérer les valeurs manquantes, supprimer les doublons
Transformer les données : normaliser les formats, mettre à l’échelle, encoder les variables catégorielles
Ingénierie des caractéristiques (Feature Engineering) :
Extraire, créer et sélectionner les caractéristiques pertinentes à partir des données brutes
Traitement du langage naturel (NLP) :
Extraire, nettoyer et transformer le texte issu de documents non structurés
Exploration et visualisation des données :
Réaliser une analyse exploratoire des données (EDA)
Détecter des motifs et tendances pour formuler des hypothèses et identifier des relations causales potentielles
Modélisation et développement :
Utiliser Python pour développer des applications et des interfaces utilisateur de base
Sélectionner les algorithmes de ML/DL appropriés
Entraîner les modèles et ajuster les paramètres
Valider les modèles via la validation croisée pour éviter le surapprentissage (overfitting)
Instancier des modèles de langage pré-entraînés (LLMs, embeddings, rerankers, etc.) et les intégrer dans des solutions complexes comme le RAG (Retrieval-Augmented Generation)
Maîtrise des bibliothèques Python clés :
Manipulation de données : Pandas, Polars, Dask, PySpark
NLP : NLTK, SpaCy
Machine Learning : Scikit-Learn, XGBoost, LightGBM
Deep Learning : PyTorch
IA Générative : Ollama, Transformers, SentenceTransformers, Langchain, LlamaIndex
Évaluation des modèles :
Utiliser des métriques de performance : précision, rappel, F1 score, AUC-ROC, Matthews, RMSE, MAE, R², MAPE, Silhouette, etc.
Analyser les erreurs de prédiction pour identifier les faiblesses et les axes d’amélioration
Déploiement des modèles :
Collaborer avec les équipes d’ingénierie pour intégrer les modèles en production
Automatiser les pipelines de données du stockage à l’inférence
Développer des API pour permettre l’accès aux modèles par d’autres systèmes ou utilisateurs
Surveillance et maintenance :
Surveiller les performances des modèles en production et détecter toute dégradation
Mettre à jour et réentraîner régulièrement les modèles pour maintenir leur performance face aux nouvelles données et aux évolutions
Documentation et communication :
Documenter les processus, méthodologies, choix de conception et résultats des modèles
Présenter les analyses et résultats aux parties prenantes avec des visualisations claires et un langage accessible
Rédiger des rapports et préparer des présentations pour partager les conclusions et recommandations
Recherche et développement :
Se tenir informé des dernières avancées en algorithmes, techniques de ML et outils
Prototyper et expérimenter de nouveaux modèles et approches pour résoudre des problèmes complexes ou améliorer les performances
Collaboration :
Travailler avec des experts métier, des analystes business et d’autres parties prenantes pour comprendre les besoins et contraintes spécifiques
Environnement de travail
La nationalité française est requise pour cette mission. Une présence sur site à Lyon est attendue 2 à 3 jours par semaine. Le démarrage est prévu pour le mois de septembre.
Postulez à cette offre !
Trouvez votre prochaine mission parmi +7 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Data Scientist
Phaidon London- Glocomms