27/08/2022
Data Preprocessing ➡️ Pré-traitement de données
C'est quoi ça encore 🙄🙄🙄
Eh bien les amis, comme vous le savez, les algorithmes de Machine Learning apprennent à partir des données qui leur sont fournies.
Vous êtes bien d'accord avec moi ?🙈🙈🙈
Bah oui continue seulement comme tu en parles déjà 😅😅😅
Étant donné que la Machine a besoin des données pour apprendre, par conséquent, si elles sont de mauvaise qualité, c'est-à-dire erronées , incomplètes, redondantes (avec des doublons), etc...,
Alors, l'algorithme qui en résulte sera lui-même assez mauvais en effet, il ne fera que refléter ce qu'il voit dans les données.
D'où, il est très important de bien préparer ces données avant de les passer à la Machine.
Mais attends un peu, comment y parvenir ?🤔🤔🤔
D'accord je vous en dis davantage 😄😄😄
Voici une liste non exhaustive des opérations du Pre-Processing les plus importantes à effectuer 👇🏾
👉🏾 Division de données : séparer les données pour entraîner, valider et tester le modèle
👉🏾 Nettoyage des données : éliminer des valeurs aberrantes (outliers), supprimer des NAN (Not A Number) ou les remplacer par certaines valeurs statistiques
👉🏾 Encodage des données : transformer les variables catégorielles en variables numériques pour que la Machine effectue des calculs
👉🏾 Filtrage des données : éliminer les variables dont la variance est nulle ou standard, etc...
👉🏾 Normalisation des données : mettre toutes les données quantitatives sur une et même échelle
👉🏾 Sélection de variables : cela consiste à sélectionner les variables les plus utiles (pertinentes) au développement du modèle de Machine Learning
👉🏾 Extraction de caractéristiques : elle consiste à générer de nouvelles variables à partir d'informations cachées dans les données.
Eh voilà les amis, à présent vous connaissez ce que c'est le Pre-Processing et ce qu'il faut essentiellement faire 😇😇😇
PS : Connaissez-vous d'autres opérations/tâches à effectuer en Pre-Processing ?