Model Drift en machine learning : explications et enjeux

6 min

3 619

Publié le January 7, 2023

Le recours au machine learning (apprentissage machine) est de plus en plus courant dans l’économie. Les entreprises qui l’adoptent tentent d’anticiper le marché et d’adapter leurs offres en conséquence. Toutefois, les systèmes économiques actuels sont sujets à de fortes variations (comportement client, tendances, crises macroéconomiques, etc.) qui font parfois dériver les modèles préétablis. On nomme cette dérive le Model Drift, un phénomène courant dans l’analyse prédictive des données.

Qu’est-ce que le Model Drift ?

Le Model Drift, également appelé dérive de modèle en français (ou encore décroissance du modèle) représente une modification des prédictions d’un modèle d’apprentissage machine au fil du temps. Cela signifie que le modèle dérive progressivement des prédictions (dégradation des performances) qu’il avait établies antérieurement lors de la phase de test, en préproduction.

Cette dérive des résultats attendus est très commune dans l’apprentissage machine et plusieurs causes peuvent l’expliquer.

Pourquoi les modèles d’apprentissage machine dérivent-ils ?

Le Model Drift peut s’expliquer par deux principales raisons : un problème dans les données ou un changement d’environnement économique.

Des données imparfaites (Data Drift)

C’est notamment le cas pour un modèle d’apprentissage automatique basé sur un échantillonnage biaisé. Lors de la conception d’un modèle, on utilise généralement un jeu de données sources afin d’amorcer l’apprentissage par l’IA. Cette dernière va ensuite analyser ces données, les traiter, puis fournir le modèle en réponse. Parfois, par manque de vigilance, il peut arriver qu’on utilise un échantillon de données qui ne soit pas suffisamment représentatif de l’ensemble de la population ciblée. Par exemple, un modèle qu’on entraînerait à prédire l’évolution des prix de l’immobilier en Île-de-France dériverait très certainement si les données d’entraînement ne concernaient que les prix des logements à Paris.

Une autre dérive du modèle peut advenir si on applique un modèle type sur un nouveau produit ou service, par exemple. Le modèle aura beau avoir fait ses preuves dans un autre contexte, il est peu probable que sa réplicabilité seule suffise sur un autre domaine. Par exemple, la mise en vente d’une nouvelle catégorie de produits sur une plateforme e-commerce aura toutes les chances de faire dériver le modèle initial, en particulier si les habitudes de consommation sont tout à fait différentes pour ces nouveaux produits.

Enfin, une autre explication de dérive d’un modèle relatif aux données concerne leur qualité. Plusieurs éléments peuvent concourir à une mauvaise qualité des données comme des données d’entrées imparfaites, des modifications dans les schémas de collecte ou encore des duplications.

Un environnement mouvant (Concept Drift)

Certains secteurs économiques connaissent de fortes variations saisonnières. Ces variations, si elles ne sont pas anticipées ou si elles sont mal évaluées lors de l’élaboration du modèle d’apprentissage automatique, feront invariablement dériver le modèle.

Des changements macroéconomiques sont également susceptibles de perturber les modèles en production. Le meilleur exemple est la pandémie de Covid-19 qui a mis à mal la plupart des modèles utilisés dans les circuits marchands traditionnels.

Le Model Drift est aujourd’hui devenu un enjeu majeur dans un écosystème qui connaît un accroissement significatif des volumes de données à traiter.

Formation machine learning : 3 certifications à passer

Comment détecter le Model Drift ?

La dérive se mesure en comparant les distributions entre les données entrantes et sortantes ainsi que les écarts entre les données de test et de production. Pour autant, ces métriques varient en fonction du cas d’utilisation du modèle de machine learning.

Ainsi, plusieurs méthodes existent pour détecter le Model Drift :

La divergence de Kullback - Leibler (aussi appelée « entropie relative »). Cette métrique calcule la différence entre une distribution de probabilités et une distribution de probabilités de référence (échantillon de test). Elle est particulièrement efficace sur des distributions réduites en test qui présentent une grande variance.
Le test de Kolmogorov - Smirnov qui est un test d’hypothèse visant à déterminer si plusieurs échantillons suivent une distribution normale.
La distance de Wasserstein qui mesure la distance entre deux distributions de probabilités sur un espace mathématique donné.
L’indice de stabilité de la population (ISP). Cet indice, très utilisé, mesure l’évolution d’une population entre deux échantillons pris dans un intervalle de temps.
L’algorithme ADWIN (adaptative Windowing). Cet outil utilise une fenêtre adaptative qui permet de détecter et de conserver des données mises à jour dans un flux. Il est possible d’y paramétrer un seuil qui déclenche un avertissement si une dérive du modèle est détectée.

Ces différentes méthodes diffèrent dans la façon dont elles mesurent les écarts de distribution, mais elles permettent toutes de qualifier des Model Drift. Des outils de surveillance existent afin de détecter au plus tôt les dérives et empêcher qu’elles ne faussent les résultats du modèle.

Parmi ces outils, on peut citer :

Alibi Detect : une bibliothèque open source (Python) axée sur la détection des dérives par le biais des valeurs aberrantes.
WhyLogs : une bibliothèque open source qui met à disposition un cadre pour tester, évaluer et surveiller les modèles de machine learning en production. Avec WhyLogs, les utilisateurs peuvent suivre les modifications de données afin de déterminer si ces dernières suivent un chemin logique ou non.
Les fournisseurs cloud Ops disposent de leurs propres outils de surveillance de la dérive des modèles. C’est le cas notamment de Google avec le Vertex AI Model Monitoring ou encore d’Amazon avec le SageMaker.

web contenant une grande quantité de contenus. Enfin, l'interface de fonctionnalités supplémentaires peut impacter ses performances.

Plus de Python

Développer en Python : 5 conseils pour progresser rapidement

Comment résoudre le Model Drift ?

Une fois la dérive détectée, il faut la corriger pour préserver la performance du modèle d’apprentissage machine.

Plusieurs axes de résolution sont mobilisables.

Améliorer la qualité des données

Si le Model Drift repose sur un Data Drift, corriger et améliorer la qualité des données permettra d’annuler la dérive.

Cette correction des données peut être plus ou moins complexe en fonction du modèle et du secteur sur lequel il est déployé. Par exemple, corriger une saisonnalité sera sans doute plus simple que de corriger des données dupliquées de façon erratique ou des anomalies dont la cause échappe à tout diagnostic.

Réentraîner le modèle

Il s’agit ici d’alimenter le modèle avec des données plus récentes afin qu’il puisse corriger de lui-même sa trajectoire basée sur des données anciennes et/ou obsolètes.

Plusieurs approches avec cette technique :

Utilisation exclusive de données récentes en retirant les plus anciennes.
Utilisation de toutes les données, récentes et anciennes, si ces dernières ne provoquent pas de scénarios inexacts.
Utilisation de la pondération, si le modèle le permet, pour que les données, affectées d’un coefficient de pondération, puissent pondérer leur poids dans l’analyse du modèle.
Utilisation de l’intégralité des données en temps réel pour que le modèle apprenne en continu.

Reconstruire le modèle

Ultime solution si la correction des données ou le réentraînement ne suffisent pas. Il s’agit de reconstruire un nouveau modèle en utilisant les anciennes données en test. Cette méthode, plus radicale, présente l’avantage de pouvoir tester et comparer plusieurs jeux de données entrants et d’identifier l’échantillon idéal comme base pour le nouveau modèle.