Qu’est-ce la Data Preparation en machine learning ?

Dans le domaine du machine learning, la qualité des données utilisées pour entraîner les modèles est cruciale pour obtenir des performances optimales. La data preparation, qui englobe toutes les étapes liées au traitement et à la transformation des données avant leur utilisation dans un modèle, est donc un élément clé du processus de développement en machine learning. Les data-scientists sont souvent confrontés à des défis tels que la gestion des données manquantes, la mise à l'échelle des caractéristiques ou l'encodage des données catégorielles. Maîtriser ces techniques est essentiel pour garantir des résultats fiables et efficaces.

L’importance de la Data Preparation en machine learning

76 % des data-scientists estiment que la préparation des données est l'étape la plus fastidieuse de leur activité. La data preparation améliore la qualité des données en les nettoyant, en les transformant et en les enrichissant. Cette étape est fondamentale, car des données mal préparées entraînent, mécaniquement, des modèles de machine learning moins performants et moins précis. En outre, la data preparation facilite la compréhension et l'interprétation des résultats obtenus par les modèles, élément nécessaire à la prise de décisions éclairées.

Workflow standard de la préparation de données en machine learning

La data preparation englobe diverses méthodes et techniques visant à nettoyer, transformer et enrichir les données pour les rendre adaptées à l'entraînement des modèles de machine learning. Les principales étapes de la data preparation incluent le nettoyage des données, l'encodage des variables catégorielles, la mise à l'échelle des caractéristiques et la création de nouvelles variables.

Le nettoyage des données

Le toilettage des données comprend à lui seul plusieurs éléments :

L’imputation des valeurs manquantes

L'imputation est une technique de traitement des données manquantes qui consiste à remplacer les valeurs manquantes par des estimations appropriées. Les méthodes d'imputation incluent l'utilisation de la moyenne, de la médiane ou du mode pour les variables numériques, ainsi que l'utilisation de la valeur la plus fréquente pour les variables catégorielles. Des méthodes plus avancées, comme l'imputation par k-plus proches voisins (k-NN) ou l'imputation par modèle de régression, peuvent également être mobilisées pour estimer les valeurs manquantes.

La suppression des doublons et des outliers

La suppression des doublons et des outliers (valeurs aberrantes) constitue une étape importante pour améliorer la qualité des données. La suppression des doublons se réalise généralement en identifiant et en éliminant les enregistrements identiques, tandis que la détection et l'élimination des outliers requièrent l’emploi de méthodes statistiques comme la méthode des écarts interquartiles (IQR) ou le test de Grubbs.

La dissimulation de données (privées et/ou sensibles)

Ici, il s’agit d’appliquer un filtre sur le jeu de données afin d’en dissimuler une partie. En règle générale, le camouflage de données résulte de contraintes réglementaires (RGPD) ou d’une volonté de protéger des secrets commerciaux.

L’encodage des variables catégorielles

Plusieurs solutions existent pour encoder des variables catégorielles (nominales) :

Le one-hot encoding, une technique qui consiste à transformer chaque valeur d'une variable catégorielle en une nouvelle variable binaire (qui prend la valeur 1 si la catégorie est présente et 0 sinon). Cette méthode est simple à mettre en œuvre et facilite l'interprétation des résultats, mais peut entraîner une augmentation significative de la dimensionnalité pour les variables ayant un grand nombre de catégories.
Le label encoding attribue un nombre entier unique à chaque catégorie d'une variable catégorielle. Cette méthode est plus compacte que le one-hot encoding, mais introduit un ordre artificiel entre les catégories, ce qui peut affecter les performances du modèle pour certains algorithmes.
Le target encoding consiste à remplacer chaque catégorie par la moyenne de la variable cible pour cette catégorie. Cette méthode permet de conserver des informations sur la relation entre les catégories et la variable cible, mais peut être sensible au surapprentissage si le nombre d'observations par catégorie est faible.

Le Feature Scaling

Le feature scaling se déploie selon deux méthodes possibles :

La standardisation, qui est une technique de mise à l'échelle des caractéristiques qui consiste à soustraire la moyenne et à diviser par l'écart-type pour chaque caractéristique. Cette méthode transforme les données de manière à ce que chaque caractéristique ait une moyenne de 0 et un écart-type de 1. La standardisation est particulièrement utile pour les algorithmes qui sont sensibles aux échelles des caractéristiques, tels que les méthodes basées sur la distance ou les algorithmes de gradient descent.
La normalisation, une autre méthode de mise à l'échelle des caractéristiques qui consiste à transformer les données de manière à ce que chaque caractéristique se situe dans un intervalle commun, généralement [0, 1]. Pour ce faire, on soustrait le minimum et on divise par la différence entre le maximum et le minimum pour chaque caractéristique. La normalisation est utile pour les algorithmes qui nécessitent des données bornées ou qui sont sensibles aux variations d'échelle.

Le Feature Engineering

En pratique, l’ingénierie des caractéristiques est une technique de machine learning qui exploite les données pour créer de nouvelles variables qui ne figurent pas dans l'ensemble d'apprentissage. Ces nouvelles variables sont susceptibles de capturer des informations supplémentaires ou des relations complexes entre les caractéristiques. Les techniques de création de nouvelles variables incluent l'agrégation de variables, la création d'interactions entre les caractéristiques, la décomposition de variables complexes ou la création de variables polynomiales.

Le Feature Selection

Cette dernière pratique représente un processus qui identifie et conserve uniquement les caractéristiques les plus importantes pour la prédiction de la variable cible. Cette étape améliore les performances du modèle en réduisant la dimensionnalité et en éliminant les caractéristiques non pertinentes ou redondantes. Les méthodes de sélection de variables incluent les techniques de filtrage, de wrapper et d'embedding.

En définitive, la data preparation représente bel et bien une étape incontournable dans le processus de développement de modèles de machine learning. Elle permet de garantir la qualité des données, d'optimiser les performances des modèles et de faciliter l'interprétation des résultats.

Romain Frutos, rédacteur passionné par l’IT et les nouvelles technologies !

Dossier Data