Lorsque nous construisons un modèle d’apprentissage automatique, il est très important de sélectionner uniquement les fonctionnalités ou les prédicteurs nécessaires. Supposons que nous ayons 100 caractéristiques ou prédicteurs dans notre jeu de données. Cela ne signifie pas nécessairement que nous devons avoir les 100 fonctionnalités de notre modèle. En effet, les 100 fonctionnalités n’auront pas toutes une influence significative sur le modèle. Mais là encore, cela ne signifie pas que ce sera vrai pour tous les cas. Cela dépend entièrement des données que nous avons en main. Voici plus d’informations sur la raison pour laquelle nous avons besoin d’une sélection de fonctionnalités.

Il existe différentes façons de savoir quelles fonctionnalités ont très peu d’impact sur le modèle et celles que vous pouvez supprimer de votre jeu de données. J’ai déjà écrit sur la sélection de fonctionnalités, mais c’était très bref. Dans cet article, nous examinerons l’élimination en arrière et comment nous pouvons le faire, étape par étape. Mais avant de commencer à parler d’élimination en arrière, assurez-vous de vous familiariser avec la valeur P.

La première étape de l’élimination en arrière est assez simple, il vous suffit de sélectionner un niveau de signification ou de sélectionner la valeur P. Habituellement, dans la plupart des cas, un niveau de signification de 5% est sélectionné. Cela signifie que la valeur P sera de 0,05. Vous pouvez modifier cette valeur en fonction du projet.

Étape 2

La deuxième étape est également très simple. Il vous suffit d’adapter votre modèle d’apprentissage automatique à toutes les fonctionnalités sélectionnées. Donc, s’il y a 100 fonctionnalités, vous les incluez toutes dans votre modèle et ajustez le modèle sur votre jeu de données de test. Aucun changement ici.

Étape 3

À l’étape 3, identifiez la caractéristique ou le prédicteur qui a la valeur P la plus élevée. Encore une fois assez simple, non?

Étape 4

Il s’agit d’une étape importante. Ici, nous prenons des décisions. À l’étape précédente, nous avons identifié la caractéristique qui a la valeur de P la plus élevée. Si la valeur P de cette caractéristique est supérieure au niveau de signification que nous avons sélectionné à la première étape, nous supprimons cette caractéristique de notre jeu de données. Si la valeur P de cette fonctionnalité, qui est la plus élevée de l’ensemble, est inférieure au niveau de signification, nous passerons simplement à l’étape 6, ce qui signifie que nous avons terminé. Rappelez-vous, la valeur P la plus élevée supérieure au niveau de signification, supprimez cette fonctionnalité.

Étape 5

Une fois que nous aurons trouvé la fonctionnalité qui doit être supprimée de l’ensemble de données, nous le ferons dans cette étape. Nous supprimons donc la fonctionnalité de l’ensemble de données et nous adapterons à nouveau le modèle avec le nouvel ensemble de données. Après avoir ajusté le modèle pour le nouvel ensemble de données, nous reviendrons à l’étape 3.

Ce processus se poursuit jusqu’à ce que nous atteignions un point à l’étape 4 où la valeur P la plus élevée de toutes les entités restantes de l’ensemble de données est inférieure à la signification sélectionnée à l’étape 1. Dans notre exemple, cela signifie que nous itérons de l’étape 3 à l’étape 5 et revenons jusqu’à ce que la valeur P la plus élevée de l’ensemble de données soit inférieure à 0,05. Cela pourrait prendre un certain temps. Sur les 100 fonctionnalités supposées, nous pourrions filtrer 10 bonnes fonctionnalités de cette façon (ce qui n’est qu’un nombre aléatoire que j’ai sélectionné). Référez-vous à l’organigramme en haut de cet article pour avoir une meilleure idée de ces étapes.

Étape 6

Une fois que nous avons atteint l’étape 6, nous avons terminé le processus de sélection des fonctionnalités. Nous avons utilisé avec succès l’élimination en arrière pour filtrer les caractéristiques qui n’étaient pas assez significatives pour notre modèle.

Il existe quelques autres méthodes que nous pouvons utiliser pour ce processus. Et je suppose que j’écrirai aussi à leur sujet à l’avenir.

Suivez-moi sur Twitter pour en savoir plus sur la science des données, l’apprentissage automatique et les mises à jour techniques générales. Aussi, vous pouvez suivre mon blog personnel.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.