Funktionsauswahl im maschinellen Lernen: Motivation

Nov 24 2022

Dieser kurze Artikel ist der erste einer Reihe, in der Techniken zur Funktionsauswahl erläutert werden. Ich habe mit einer freundlichen Einführung begonnen und die starken Gründe für den Feature-Auswahlprozess vorgestellt.

Die Merkmalsauswahl ist der Prozess der Auswahl einer Teilmenge relevanter Merkmale (Variablen, Prädiktoren) aus der Gesamtheit der Merkmale einer Ebene in einem Datensatz, um Algorithmen für maschinelles Lernen zu erstellen. Was können wir tun, um bei einem anfänglichen Datensatz, der typischerweise eine große Anzahl von Variablen enthält, den Pool von Merkmalen auszuwählen, die zum Zeitpunkt der Vorhersage wichtig sind? Es gibt eine Vielzahl von Verfahren oder Techniken, die wir als Teil des Prozesses der Merkmalsauswahl anwenden können.

Bevor wir uns mit Techniken zur Merkmalsauswahl befassen, warum wählen wir zunächst Merkmale aus? Hier sind einige Gründe.

Einfachere Modelle sind leichter zu interpretieren. Für die Benutzer des Modells ist es einfacher, die Ausgabe eines Modells zu verstehen, das 10 Variablen verwendet, als die Ausgabe eines Modells, das 100 Variablen verwendet.
Kürzere Trainingszeiten. Die Reduzierung der Anzahl der Variablen, die zum Erstellen der Modelle für maschinelles Lernen verwendet werden, reduziert den Rechenaufwand und beschleunigt daher die Modellerstellung. Aber was noch wichtiger ist, einfachere Modelle punkten auch schneller als die Anwendungen, was besonders wichtig ist, wenn sich das Modell in einer Live-Umgebung befindet, in der Entscheidungen in Sekundenschnelle getroffen werden müssen.
Verbesserte Generalisierung durch Reduzierung von Overfitting. Sehr oft sind viele der Variablen Rauschen mit wenig oder gar keinem Vorhersagewert. Die Modelle für maschinelles Lernen lernen jedoch aus diesem Rauschen, was zu einer Überanpassung und einer Verringerung der Generalisierung führt. Durch die Eliminierung irrelevanter verrauschter Merkmale können wir die Verallgemeinerung eines maschinellen Lernmodells erheblich verbessern.
Einfachere Implementierung durch Softwareentwickler. Wenn das maschinelle Lernmodell bereitgestellt wird, müssen die Softwareentwickler häufig Code schreiben, um die Variablen aufzurufen, die in das Modell eingespeist werden müssen, um die Ausgabe zu erzeugen. Es ist viel schneller, Code für 10 bis 50 Variablen zu schreiben als für 400 Variablen. Darüber hinaus ist weniger Code weniger anfällig für Fehler und bietet daher eine sicherere Umgebung.
Reduziertes Risiko von Datenfehlern während der Modellnutzung. Häufig verlassen sich Unternehmen auf Aufrufe von Daten von Drittanbietern, aus denen sie Variablen auswählen, um das maschinelle Lernmodell zu bestehen. Die Verringerung der Anzahl der im maschinellen Lernmodell verwendeten Variablen verringert die Anfälligkeit des Unternehmens für Fehler bei der Datenerfassung und -speicherung durch Dritte und auch die potenziellen Fehler bei der Datenerfassung, die innerhalb desselben Unternehmens auftreten können.
Variable Redundanz. Ziemlich oft sind Merkmale innerhalb eines Datensatzes stark korreliert. Stark korrelierte Merkmale liefern die Essenz derselben Informationen. Daher sind sie irgendwie überflüssig. Wir könnten einen behalten und alle anderen entfernen, ohne Informationen zu verlieren.
Schlechtes Lernverhalten in hochdimensionalen Räumen. Die Modellleistung des maschinellen Lernens, insbesondere baumbasierter Algorithmen, wird durch reduzierte Merkmalsräume begünstigt. Mit anderen Worten bedeutet dies, dass hohe Dimensionen bei baumbasierten Methoden zu einer schlechten Leistung führen und daher die Reduzierung des Merkmalsraums dazu beiträgt, robustere und vorhersagbare Modelle zu erstellen.

Ein Merkmalsauswahlalgorithmus kann als die Kombination einer Suchtechnik zum Vorschlagen neuer Merkmalsteilmengen zusammen mit einem Evolutionsmaß angesehen werden, das die verschiedenen Merkmalsteilmengen bewertet. Idealerweise durchsucht eine Merkmalsauswahlmethode alle möglichen Teilmengen von Merkmalskombinationen, die aus einem gegebenen Datensatz erhalten werden können, und findet die Merkmalskombination, die die beste Modellleistung für maschinelles Lernen erzeugt. In der Praxis ist dies aufgrund des Rechenaufwands normalerweise keine Option. Darüber hinaus können verschiedene Teilmengen von Merkmalen eine optimale Leistung für verschiedene Algorithmen für maschinelles Lernen erzeugen. Das bedeutet, dass es nicht nur eine Teilmenge von Merkmalen gibt, sondern möglicherweise viele Teilmengen von optimalen Merkmalen, abhängig von dem maschinellen Lernalgorithmus, den wir verwenden möchten. Daher im Laufe der Jahre, Es wurden sehr viele verschiedene Methoden zur Auswahl von Merkmalen entwickelt, um zu versuchen, so viele Vorbehalte und Einschränkungen wie möglich zu berücksichtigen. In dieser Artikelserie werde ich sehr viele verschiedene Methoden zur Feature-Auswahl beschreiben, was die Vor- und Nachteile sind und wie man sie in der Praxis am Beispiel von Geschäftsdatensätzen umsetzt.